UNDERSTANDING DIGIATAL LIBS module 6
-
Upload
independent -
Category
Documents
-
view
0 -
download
0
Transcript of UNDERSTANDING DIGIATAL LIBS module 6
Trang 1 / 62
6
Một số chương vừa rồi đã đề cập đến nội dung của thư viện
số được lưu trữ và tổ chức như thế nào. Chương này sẽ đặt
ra vấn đề làm thế nào các nội dung này đến được với độc
giả. Thông tin được chuyển tải thế nào từ người tạo đến
người nhận?
Trước tiên, thông tin đến bằng cách truyền mang tính vật
lý: người này nói với người khác. Phương pháp truyền này
có cả thuận lợi và bất lợi. Thí dụ thông tin truyền có
thể thích hợp cho cá nhân. Nó cung cấp cơ hội để người
nghe hỏi những câu hỏi để làm rõ vấn đề. Nhưng nó không
thể truyền đi xa được, cũng như không thể đến nhiều người
cùng một lúc (một ca sĩ opera hát hay nhất không có âm
thanh thì cũng chỉ hát trong hội trường có 3000 người
nghe). Người nghe không thể “sao lưu” lại thông tin của
người nói (mà không cần hỏi lại họ); không có thông tin
nào là vĩnh cửu, người nói thì có khả năng giới hạn để
PHÂN PHỐI
Trang 2 / 62
dùng các phương tiện hỗ trợ như hình ảnh hay thu âm; và
người nghe và người nói phải được trình bày cùng một lúc
và cùng một nơi.
6.1 Sách, CD-ROMs và DVDs
Dĩ nhiên, viết là một cách để tạo ra phiên bản thông tin
có tính lâu dài, và viết trên giấy cói, giấy da thú và
giấy (hơn là khắc trên các bức tường đá) thì làm cho tài
liệu có khà năng di chuyển từ chỗ này sang chỗ khác. Ở
thời kì Trung cổ đã có các thị trường năng động trong
việc nhân bản (copy) các bản thảo và kinh doanh chúng,
thị trường này được thay thế bằng sách in khi công nghệ
in xuất hiện.
Hình 6-1 Chi phí giảm trong việc cung cấp tạp chí
Ngày nay, chí phí của việc cung cấp một tạp chí học
thuật, theo tổng kết của Waltham (2002) thì khoảng 25%
sản xuất vật lý. Chi phí giữa nhà xuất bản các tạp chí
thương mại và phi thương mại thì không khác nhau mấy (như
đã chỉ ra ở Bảng 6.1). Tương tự, John Edward (2001) của
Edwards Brother Printing báo cáo rằng lợi nhuận từ một
Trang 3 / 62
quyển sách giá $25 thì chia thành $12 cho bán lẻ, $5 cho
tác giả, $2 cho in ấn, $2 cho nhà xuất bản, $1 lợi nhuận;
những bình luận tương tự có thể tìm thấy trong Publishing
Trends (2003).
Các mức độ kinh tế của việc phân chia trong xuất bản hiện
đại thì khó phát hành một quyển sách trong nhà in nhỏ.
Các ấn bản do trường đại học phát hành bị gây sức ép bởi
các tác giả vì họ mong thấy những quyển sách của mình
được in ấn để họ được bổ nhiệm làm giảng viên thường
xuyên của trường; nhưng thị trường chính của họ là các
thư viện đại học, nơi mà không có nguồn kinh phí tăng đủ
để theo kịp lạm phát về giá sách.
Các ấn bản của trường đại học tập hợp dưới 2% lợi tức
xuất bản ở Mỹ trong suốt những năm 1990 (theo Greco 2001)
và không đạt mấy vào năm 2002, nhưng tuy nhiên, số lượng
tiêu đề được phát hành lại gia tăng 10% trong suốt một
thập kỉ (Publishing Trends, 2003). Bởi vì có nhiều chi
phí in ấn một quyển sách phải kể đến trước khi bản copy
đầu tiên được gửi đến nhà in, một nhà in nhỏ phát hành
tài liệu thì chi phí phải cao, và vì thế giá thành cao,
dẫn đến nguyên nhân là các thư viện giảm sức mua tài liệu
đó.
Marlie Wasserman (1997) làm việc ở nhà in của trường đại
học Rutgers trình bày một số con số thống kê chi tiết về
chi phí của việc xuất bản một tài liệu chuyên khảo chuẩn
trong số lượng lớn các nhà in của trường đại học. Theo
Trang 4 / 62
các con số thống kê của cô, một quyển sách 288 trang bán
ra 600 bản với giá $40 chỉ thu được $15,200; nhưng sẽ chi
hết $6,700 các bản sách, và $22,000 cho chi phí bản quyền
các tiêu đề, thì lỗ là $13,600. Khi chi phí cho bản sách
là $18,000, trong đó cho một cuốn sách bán chỉ có 600 bản
thì giá bán cao đến mức không thể mua được; nó thể hiện
rằng chi phí cho mỗi bản sách là $30, nhiều hơn số tiền
mà nhà xuất bản nhận được cho mỗi bản sách từ nhà sách
bán được. Tương tự, Wolff (1999) báo cáo rằng tổng chi
phí của một tựa sách của nhà in đại học thường là $15,000
hay cao hơn. Một vài thập kỉ qua, một nhà in trung bình
phát hành một quyển sách học thuật giảm từ 1500 còn 200
bản, và tất cả các nhà in trường đại học bị sức ép phát
hành ít hơn các tài liệu chuyên khảo dành cho học thuật
và nhiều hơn các tài liệu về lịch sử địa phương và các
quyển sách về công cộng chung chung. Trong năm 2000, các
nhà in trường đại học đã in 31 triệu sách, nhưng chỉ có 5
triệu quyển đưa đến thư viện.
Tên tuổi của các tác giả ảnh hưởng đến các tạp chí học
thuật. Giá cả của các tạp chí này tăng đến mức độ mà 30
năm về trước không ai có thể tưởng tượng được; ngày nay
đặt mua một tạp chí có thể tiêu tốn chi phí bằng mua một
chiếc xe hơi mới. Một tạp chí đặc biệt, vào năm 2003, một
năm phải trả tiền là $16,000. Bởi vì các tác giả không
được trả phí cho sự đóng góp của họ, và bởi vì các tạp
chí không thể hiện những thông tin về tổng tiền vốn và
Trang 5 / 62
lãi của người bán lẻ, các loại giá này phản ánh một số
rất ít các thư viện sẵn sàng đăng kí mua. Ann Okerson
(1992) báo cáo rằng sức mua sách giảm 15% trong vòng 5
năm trước năm 1991, và việc đặt mua các tạp chí cho các
cán bộ giảng dạy của trường đại học giảm từ 14 đến 12
trong cùng kì. Con số thống kê của hiệp hội các Thư viện
làm nghiên cứu (Research Libraries) vào năm 2002 chỉ ra
rằng trong vòng 15 năm từ năm 1986 đến 2001, việc mua
sách chuyên khảo giảm 26%, trong khi giá của quyển sách
giảm đến 68%. Okerson dùng phép ngoại suy cũng đã tính
toán và chỉ ra rằng 2017 thư viện không mua mới tài liệu
nào, và các thư viện chúng ta cũng đang thuộc diện này
(ít ra cũng trên giấy).
Các nhà xuất bản cũng có những động thái để tác động trở
lại các con số thống kê trong việc tăng giá đối đầu với
thư viện bằng cách chỉ ra danh mục giá cho khách hàng
chung nhất tăng kèm theo việc tăng số trang cho mỗi ấn
phẩm tạp chí; cùng với những hiệu ứng ảnh hưởng lớn đến
việc tăng giá của các tạp chí. Tuy nhiên, thư viện không
có cách nào ép buộc nhà xuất bản chọn lọc để giảm giá
hơn, và xảy ra việc gia tăng giá trị thặng dư đối với giá
cả đã điều chỉnh lạm phát cho mỗi trang, đặc biệt đối với
những nhà xuất bản không thuộc Mỹ (Marks 1991). Trường
đại học Washington báo cáo (Carey và Gould, 2000) rằng
chi phí trung bình cho mỗi trang của các tạp chí khoa học
từ Springer-Verlag là $1.86, từ Elsevier là $1.24, và từ
Trang 6 / 62
Kluwer là $0.80; chi phí trung bình cho một trang các nhà
xuất bản phi lợi nhuận là $0.16.
Công tác xuất bản và phân phối truyền thống được đẩy mạnh
về căn bản trong những năm gần đây. Thời gian tung ra thị
trường cũng chóng vánh như là những quyển sách đã được
xuất bản trong suốt thời gian thử của O. J. Simpson, và
nhà xuất bản đã phải học cách đẩy nhanh công tác in ấn
và phân phối thậm chí đối với cả quyển sách bình thường.
Các thư viện mong muốn trao đổi các tài liệu để khai thác
lợi ích của mảng diện rộng các dịch vụ phân phối mới
chuyên về vận hành các gói tài liệu vận chuyển ngắn, và
dĩ nhiên máy fax đã giúp cho việc sao chép các bài báo,
tạp chí giữa các thư viện được diễn ra nhanh chóng hơn.
Việc thay đổi thú vị gần đây nhất trong việc phân phối
sách là việc gia tăng số lượng của các tiêu đề sách khác
nhau phục vụ cho bạn đọc có trình độ trung bình. Các nhà
sách ngày càng tăng về số lượng, kho sách của họ ngày
càng được mở rộng để thay thế các kho qui mô nhỏ trước
đây, các hiệu sách cá nhân … là những bước cải tổ đầu
tiên; sau đó đến lượt của Amazon.com và các đối thủ cạnh
tranh của nó đã cung cấp cho thị trường các quyển sách
dạng in ấn.
Vào thời kì đầu những năm 1990, CD-ROMS có thể được xem
như xuất bản phương tiện truyền thông chủ yếu. Phân phối
CD-ROM cũng có những thuộc tính tương đương với phân phối
sách. Tiến trình chế tạo CD, giống như tiến trình xuất
Trang 7 / 62
bản sách, đây là một hoạt động sản xuất lớn có hiệu quả
kinh tế cao nhất. Nó được thiết kế cho các đĩa nhạc thông
dụng, và các tín hiệu có thể được đọc như số hay được
chuyển thành âm thanh dạng tương tự. Giá CD-ROM, khi mua
với số lượng lớn, có thể mua với giá dước $1 một đĩa, rẻ
hơn nhiều so với sách. Phát hành CD bắt đầu từ giữa những
năm 1980, sau khoảng 6 năm kể từ khi phát hành các đĩa CD
âm thanh. Cho đến cuối những năm 1980, hầu hết các thư
viện mua đĩa điều khiển driver CD-ROM và bắt đầu mua các
phiên bản trên CD-ROM của các tạp chí dạng tóm tắt và mục
lục. Việc mua bán này được thể hiện thông qua tìm kiếm
trực tuyến dựa trên trả tiền theo thời gian truy cập; các
thư viện nhận ra rằng thay vì họ đã trả nhiều tiền cho
tìm kiếm trực tuyến, họ có thể tiết kiệm tiền để mua CSDL
như thế trên CD-ROM.
Chẳng bao lâu sau đó, hầu hết các CSDL đã có mặt trên CD-
ROM, và các CD-ROM này đã làm cho các đĩa từ càng trở nên
ít sử dụng và cạnh tranh một cách hiệu quả với các dịch
vụ trực tuyến đắc tiền. Sau đó, vào những năm đầu của
những năm 1990, việc kinh doanh các CD-ROM riêng lẻ bị
thất bại. Các đĩa điều khiển CD-ROM bị rớt giá (vì mỗi
máy tính mới đều có một đĩa điều khiển kèm theo) vào cùng
thời điểm khi các nhà phân phối phần mềm nhận ra rằng họ
muốn phân phối các chương trình có dung lượng lớn hơn.
Khi bộ nhớ truy xuất ngẫu nhiên RAM của máy tính có dung
lượng giới hạn là 640K, thì một đĩa mềm 1.4MB là một cơ
Trang 8 / 62
chế phân phối hợp lý. Ngày nay các máy tính với bộ nhớ
trong 500MB rất phổ biến, và các phần mềm có bản hướng
dẫn, các tùy chọn đi kèm, và các hình nền tinh vi, và vì
thế chúng ta không thể phân phối phần mềm theo đơn vị là
1.4MB. Nhiều CD-ROM được tung ra thị trường, với thị
trường gia tăng gấp đôi mỗi năm đến đầu năm 1995, bao gồm
cả thị trường tham khảo nội bộ nói riêng. Bách khoa toàn
thư trên CD-ROM ít nhiều phá hủy thị trường bách khoa
toàn thư in ấn. Loại tài liệu tham khảo quan trọng khác
được xuất bản trên CD-ROM là các tập bản đồ - atlases,
phonebooks, và các công cụ hỗ trợ giáo dục trẻ em.
Xuất bản CD-ROM được tập trung một cách khác thường bởi
các chuẩn của các xuất bản thông thường. Các kênh phân
phối cho CD-ROM khó lòng bị phá vỡ hơn là các kênh phân
phối cho sách. Sách trong các cửa hàng được bán một số
nhan đề và hầu hết chúng đến từ một số nhà xuất bản chủ
đạo (dễ thấy nhất là Microsoft). Không giống như những
quyển sách có âm thanh, hình ảnh đã được bán ở các nhà
sách thông thường, CD-ROM đựơc bán rộng rãi thông qua
“cửa hàng” trên máy tính, các cửa hàng này không theo
cách truyền thống như các đơn đặt hàng dành riêng và các
chính sách cung cấp ưu đãi.
Sau đó, khách hàng đã mệt mỏi vì đọc các quyển sách trên
CD-ROM hơn là những sử dụng những quyển sách đã được cung
cấp sẵn trên web, và thị trường sách trên CD-ROM đã bị
sụp đổ.
Trang 9 / 62
Ngày nay, chúng ta đã có DVD và có khả năng xuất bản DVD
theo bộ. Điều này gợi ra việc bán các CSDL lớn đến các
thư viện, bởi vì không ai muốn dùng bộ CSDL có 10 đĩa.
Tuy nhiên, khả năng về thị trường khách hàng dường như
còn thấp, đặc biệt khi có những bất đồng về định dạng và
các chuẩn và vị chua chát còn lại trong kinh doanh xuất
bản phẩm đã bị thất bại của CD-ROM.
6.2 Các mạng máy tính
Thế giới số cung cấp các lựa chọn nhanh hơn các máy fax
hay hộp thư bưu điện trong việc chia sẻ thông tin giữa
các thư viện.Các mạng máy tính ngày nay liên kết hầu hết
các quốc gia trên thế giới. Dĩ nhiên, máy tính luôn trao
đổi dữ liệu thông qua các thiết bị đầu cuối. Thông thường
các trao đổi dữ liệu này phải tuân theo một giao thức cho
cả bên gửi và bên nhận. Một trở ngại chính trong việc
thiết kế các giao thức bên trong máy tính, và một phần lý
do để giải thích tại sao chúng lại khác nhau giữa các
giao thức được sử dụng trong cùng một máy tính đơn là vì
chúng phải đoán trước rằng hai máy này đang ở trạng thái
như nhau;
Dĩ nhiên, các trì hoãn trong truyền tin lâu hơn có liên
quan đến việc truyền thông tin có khoảng cách xa và thông
qua đường dây điện thoại có nghĩa là không phải các giao
thức đều đáp ứng tức thì tất cả các yêu cầu truyền -
Trang 10 / 62
nhận. Mạng máy tính ưu việt nhất là internet, sử dụng
giao thức IP (the Internetworking protocol).
Có một số lựa chọn cơ bản cho thiết kế mạng máy tính.
Chúng bao gồm lựa chọn chuyển gói tin (packet switching) hay
chuyển mạch (circuit switching), và lựa chọn sắp xếp mạng
vật lý là mạng hình trục (bus) hay mạng hình sao (star). Mạng
dạng gói tin, mỗi gói thông tin được tổ chức riêng lẻ.
Thật vậy, các tín hiệu tương tự (analog) là thông tin như
thư của bưu điện hay điện tín; các gói này thường được
gọi là gam dữ liệu (datagram). Các mạng chuyển dữ liệu
theo gói tin thì giống như thêm đất trồng vào khu vườn
của bạn, thêm từng xô đất một.
Trong mạng chuyển dữ liệu theo dạng mạch, hệ thống cần có
một thoả thuận từ đầu để thiết lập một lộ trình và sau
đó, thông tin sẽ được chuyển đi theo con đường này. Một
tín hiệu tương tự trong trường hợp này là hệ thống điện
thoại hay đường mà nước chảy dọc theo một cái ống; các
vòi được vặn ra và sau đó nước chảy. Nói đại khái thì
mạng chuyển dữ liệu dạng mạch liên quan đến việc xếp đặt
một đường đi, nhưng thông tin truyền theo cách này có thể
đựơc thực hiện nhanh hơn, đây cũng chính là điều có thể
thu hồi hay bù đắp lại chi phí sắp xếp lộ trình cho dữ
liệu.
Một mạng chuyển dữ liệu theo dạng gói thì đơn giản hơn
bởi vì mỗi gói tin đều hoàn toàn độc lập, nhưng ở đây
không có cơ hội để lưu những sắp xếp về đường đi dữ liệu,
Trang 11 / 62
đường đi mà đã được thiết lập cho một gói và hoàn toàn có
thể dùng cho những lần chuyển dữ liệu của các gói tiếp
theo.
Để kéo các dây điện xung quanh một toà nhà, có hai mô
hình khác nhau có thể được sử dụng. Một dây xỏ qua mỗi
nơi mà nó cần đi đến, và mỗi thứ mà nó xuyên qua làm dây
điện này chùn xuống, giống như các bóng đèn trên cây
Noen. Đây được gọi là nối dây theo hình trục: một sợi dây
sẽ nối qua nơi cần dịch vụ. Vấn đề ở đây là có mỗi điểm
cần một dây được kết nối với một nơi ở trung tâm, ví dụ
như đủ đựng cầu chì.
Gọi là kiểu nối dây hình sao bởi vì một sơ đồ của các dây
giống như một ngôi sao, có các đường thẳng xuất phát từ
một điểm trung tâm đến mỗi điểm cần
các dịch vụ.
Kết nối mạng hình trục sẽ tốn ít dây
hơn nhưng yêu cầu mọi người chia sẻ
dây dùng chung. Vì thế nó sẽ thích hợp
cho một hệ thống các dây điện đắc tiền
nhưng sử dụng đạt công suất cao. Một số mạng máy tính
trước đây dùng cáp đồng trục và thiên về mạng hình trục.
Tuy nhiên, kết nối dạng hình trục tạo ra một số vấn đề
quản trị. Bởi vì mọi người chia sẻ cùng
cáp vật lý, nếu một máy có các sự cố
dây cáp, một người có thể chịu đựng sự
cố hỏng các dịch vụ. Tương tự, một sợi
Trang 12 / 62
dây cáp hỏng sẽ ảnh hưởng đến nhiều người sử dụng. Vì
thế, kết nối theo kiểu hình sao có xu hướng được sử dụng
nhiều hơn, làm từ dây rẻ tiền hơn, nhưng mỗi máy trạm có
kết nối riêng tới switch cục bộ. Hệ thống này dễ quản lý
và cài đặt tốn ít chi phí hơn và – dựa trên loại cáp 10-
base-T chuẩn sử dụng cáp xoắn đôi trên sợi dây đồng – đã
được thay thế cáp đồng trục Ethernet dày. Đây cũng là
cách quản trị đơn giản của mạng, bởi vì những người dùng
này hiếm khi có khả năng can thiệp vào máy tính của người
dùng khác.
Mạng không dây ngày nay đã trở thành trào lưu. Mỗi máy
tính có song vô tuyến, ăng ten, thiết bị phát; vì thế
thậm chí không phải tốn đồng nào cho “dây”, các thiết bị
phần cứng trong mạng này có vẻ đắt hơn so với một mạng có
dây. Tuy thế, việc cài đặt mạng không dây thì lại đơn
giản hơn, không có lỗ nào bị khoan trên tường và cũng
không phải gắn một dây cáp nào. Mạng không dây, giống như
mạng kết nối dạng hình trục, có thể bị quá tải hay bị các
người dùng khác can thiệp vào máy tính. Và cũng giống như
mạng hình trục, một người có thể tình cờ biết được các
gói tin được truyền của người dùng khác. Và vì thế mạng
không dây là một kiểu của mạng hình trục.
Về cơ bản, các nhà cung cấp khác nhau thì phát triển các
hệ thống mạng máy tính và các giao thức khác nhau. Ví dụ
như IBM có SNA (system network architecture) liên kết
giữa các máy tính, trong khi Digital có DECNet. Tuy
Trang 13 / 62
nhiên, việc phát triển quan trọng nhất là Ethernet của
Xerox PARC được phát minh vào năm 1976 do Robert Metcalfe
và David Boggs. Ý tưởng cơ bản nhất của mạng này là giao
thức Alohanet: bất kì hệ thống nào muốn truyền một gói
tin trên đường cần có thông tin trên đầu gói tin ghi địa
chỉ nơi xuất phát cũng như địa chỉ nơi sẽ đến. Mỗi hệ
thống sẽ “lắng nghe” thông tin trên đường truyền và lựa
ra những gói nào sẽ gửi đến cho nó.
Giao thức Aloha cực kì đơn giản này không dùng nhiều năng
suất của đường truyền lắm khi lượng người dùng tăng lên,
cho nên sẽ có cơ hội cho hai máy tính truyền dữ liệu cùng
một lúc. Một cải tiến được gọi là Aloha bị cắt rãnh, ở đó
việc truyền xảy ra tại khoảng thời gian được cố định
trước. Ethernet cải tiến được vấn đề này hơn trong khi
vẫn duy trì truyền thông bị động (passive) của Aloha. Cơ
cấu của Ethernet là một dây cáp đồng trục phẳng không có
các phần chủ động (active), và vì thế ít xảy ra lỗi. Như
trong ở Alohanet, các máy giao tiếp với nhau bằng cách
đặt các gói được đánh địa chỉ trên sơ đồ đường truyền.
Những gì mà Ethernet cải tiến thêm là những thông tin mà
các máy đã “lắng nghe” giống như lúc chúng đang truyền.
Nếu, trước khi nó bắt đầu gửi đi, một máy tính chỉ “nghe”
một số máy khác đang truyền, thì thật ra nó không đang
truyền. Và khi có hai máy bắt đầu truyền tương đối gần
nhau trong một lúc thì chúng không “nghe” được từ máy
khác trước khi bắt đầu gửi, cả hai đều dừng lại nhanh
Trang 14 / 62
chóng khi chúng phát hiện ra xung đột. Sau đó, mỗi máy
đợi trong một khoảng thời gian ngẫu nhiên trước khi bắt
đầu lại, để lần tới sẽ không xảy ra tình trạng xung đột.
Đó là lý do tại sao Ethernet được gọi là CSMA/CD (carrier
sense multiple access, collision detection). Việc sử dụng
tất cả năng lực của cáp vẫn là điều không thể, nhưng nó
là một cải tiến có chất lượng hơn hẳn so với phiên bản
Alohanet đầu tiên. Trong giao thức Ethernet, mỗi máy trạm
cần thời gian lắng nghe từ các máy khác với khoảng thời
gian ngắn hơn thời gian được yêu cầu để truyền toàn bộ
một gói tin. Điều này giới hạn một giao thức Ethernet
trong đường truyền khoảng 100m, tùy thuộc vào tốc độ
đường truyền trên cáp.
Tính giản đơn của ý tưởng về Ethernet căn bản đôi khi
mang lại bất lợi. Mỗi máy trạm có thể thấy bất kì gói tin
nào trong đường truyền cáp kể cả những gói được đánh địa
chỉ. Trừ phi những gói tin được mã hoá, những máy tính
đang “đánh hơi” “nghe ngóng” trong mạng để chơi trò gian
lận và gom hết những thông tin mà không được ghi là
chuyển đến chúng. Trong giao thức này cũng không có ràng
buộc nào về khả năng của các máy đơn trên đường truyền.
Nếu một máy trạm trên đường truyền chẳng may bị sự cố và
bắt đầu truyền liên tục, bỏ qua tất cả các xung đột, và
tất cả các máy khác. May mắn thay, một Ethernet đơn thì
có chiều dài bị giới hạn và được lưu trong một miền được
quản trị đơn (singly administered domain).
Trang 15 / 62
……..
6.3 Thông tin trên Internet
Mức độ thông tin được tổ chức và cung cấp đến cho người
dùng góp phần tạo nên thành công của Internet. Hai dịch
vụ cơ bản là đăng nhập từ xa (remote login) và truyền tập
tin (file transfer). Chúng được kết hợp vận hành nên
người dùng không nhận ra hai dịch vụ này hoạt động như
thế nào, nhưng nguyên tắc cơ bản thì như nhau: một người
sử dụng kết nối đến một máy (được gọi là máy chủ), và sau
đó các bit thông tin được truyền đến máy người dùng ở xa
(máy trạm).
Dịch vụ đầu tiên là đăng nhập€ từ xa. Ở đây các phép tính
và dữ liệu thật sự lưu trên máy chủ và máy trạm chỉ đơn
thuần là thiết bị đầu cuối từ xa. Đối với máy trạm này
thì không hề thực hiện phép tính toán nào ngoài việc cung
cấp màn hình hiển thị và thậm chí nó cũng không cần bản
sao dữ liệu được truyền đến nó. Tuy nhiên, thông thường
người dùng lại muốn có dữ liệu thật sự từ máy chủ và lưu
giữ chúng. Ví dụ, máy chủ có thể không cung cấp truy cập
thư mục, nhưng có thể cung cấp một thư viện các phần mềm
“freeware” hoặc văn bản miễn phí mà người dùng muốn tải
về.
Đối với dịch vụ truyền tập tin thì giao thức chuẩn là ftp
(file transfer protocol). Ví dụ, các mảng (array) thông
tin tương đối lớn được cung cấp trên một số các máy chủ
sử dụng giao thức ftp, bao gồm tài liệu văn bản được tổ
Trang 16 / 62
chức bởi Project Gutenberg (xem chương 1, phần 1.5), sắp
xếp phần mềm ở nhiều trang, những bộ sưu tập hình ảnh
được nhiều người đưa lên, và còn nhiều loại thông tin
khác. Như một điều tất yếu, ftp liên quan đến việc tạo
bản sao của các tập tin dẫn đến vấn đề phân phối các cập
nhật và các phiên bản cũ cũng đang tràn lan khắp thế
giới.
Các tài liệu lưu trữ của ftp, được phân bố trên rất nhiều
máy tính, ngày càng trở nên phong phú, và một hệ thống
tìm kiếm được gọi là archie dùng để tìm các tập tin cụ
thể. Hệ thống archie dựa trên việc tìm kiếm các tên tập
tin và các tên thư mục, vì hầu hết các tài liệu trên ftp
không phù hợp cho tìm kiếm văn bản tự do (chương trình
máy tính và các ảnh nhị phân). Lưu ý rằng ý tưởng cơ bản
này - nhiều tập tin được nhiều người lưu ở những nơi khác
nhau, và một số cơ chế tìm kiếm phân tán- là chính xác
những gì được biến đổi thành các tập tin chia sẻ đối với
âm nhạc và ý kiến của Napster.
Giao diện của ftp không dễ dùng, và việc chấp nhận sử
dụng ở số đông người dùng phải đợi đến hệ thống gopher
của đại học Minnesota. Giao diện của Gopher dựa trên ý
tưởng các menu phân cấp và chỉ thuần là văn bản. Nó được
chạy trên web và các trình duyệt web: phiên bản đầu tiên
do Mosaic do Marc Andreesen thiết kế (sau đó tại Trung
tâm quốc gia cho các ứng dụng siêu máy tính tại trường
Trang 17 / 62
đại học Illinois) và sau đó do Netscape và về sau do
Internet Explorer.
Các trình duyệt web không nhất nhất phải tuân theo cách
tổ chức phân cấp. Thay vào đó các đường liên kết siêu văn
bản được đặt bất kì nơi nào trong tài liệu có thể được
liên kết tới bất cứ nơi nào trên web. Sau đây là thí dụ
về đoạn văn bản trên web:
Click for information on <a href=http://www.seagate.com>
Seagate disk drives </a>.
Khi hiển thị, sẽ được đoạn văn bản:
Click for information on Seagate disk drives
Phần được gạch dưới (và màu hiển thị thay đổi) chỉ ra
rằng cụm từ Seagate disk drives thể hiện một liên kết.
Cụm từ thể hiện liên kết này được chỉ ra trong cặp dấu
ngoặc nhọn <a>…</a> theo cú pháp của SGML. href=… chuỗi
nằm trong thẻ mở <a> thể hiện nơi mà trình duyệt sẽ khi
tới nếu được nhấp chuột vào đó. Trong trường hợp này phần
định vị, gọi là một URL (Bộ định vị nguồn tài nguyên đồng
dạng - Uniform Resource Locator) là
http://www.seagate.com được hiểu như: (a) kí hiệu http là
một tập tin được dịch theo giao thức http (nếu dùng theo
gopher hay htp thì phần định vị sẽ là gopher: hay http:);
(b) hai dấu xuyệt xéo chỉ ra rằng theo sau nó là tên máy
hơn là tên một tập tin trên máy đó; và (c) máy tên
www.seagate.com có trên web mà giao thức http sẽ phải đi
tới. Cho thí dụ, dưới đây cũng là tên tập tin, URL
Trang 18 / 62
http://www.cs.ucl.ac.uk/Externel/lesk yêu cầu đầu tiên
cho máy www.cs.ucl.ac.uk và sau đó cho tập tin (liên quan
đến thư mục gốc - root của các tập tin http) có tên là
Externel/lesk.
Các trình duyệt web có thể hiển thị các hình ảnh, chạy
các tập tin âm thanh nền, và thậm chí là trình diễn các
đa phương diện. Đối với văn bản thì đòi hỏi chúng có thể
được định dạng bằng các tùy chọn xử lý văn bản như in
nghiêng, in đậm phần văn bản, các ngắt hàng đoạn văn bản,
và con số giới hạn các dung lượng của các loại. Một số
trình duyệt có thể thực hiện các bảng biểu, và khả năng
HTML (ngôn ngữ đánh dấu siêu văn bản – hypertext markup
language) để hiển thị phép đo và vẽ địa hình
(topographic) ngày càng cao. Các đặc tính trong HTML cho
phép một trang web có đủ các công cụ định dạng và trang
trí nhằm thiết kế các đồ thị rất bắt mắt vì vì thế định
dạng này sẽ thu hút người dùng ngày càng nhiều hơn.
Bạn đọc của một trang web cũng có thể có những lựa chọn
nhất định cho trang web. HTML, theo định nghĩa, không chỉ
định chính xác kích cỡ chữ và kiểu chữ. Thay vào đó, tác
giả sẽ xác định kích cỡ chữ là trung bình, lớn hơn hay
nhỏ hơn và kiểu chữ là bình thường hay đậm hoặc nghiêng.
Phần mềm khách hàng trong trình duyệt sẽ chọn xem kiểu
chữ nhỏ hay lớn và tùy theo mỗi phần mềm mà lựa chọn kiển
chữ thích hợp. Đối với một số nhà xuất bản và tác giả lại
dùng HTML mở rộng để hỗ trợ các văn bản được bố trí dạng
Trang 19 / 62
cột đôi, công thức toán học và hộp lựa chọn các kiểu chữ
vì theo họ HTML không đáp ứng đủ các yêu cầu về điều
khiển các định dạng. Còn một số độc giả lại cho rằng việc
mở rộng kích cỡ chữ khi hiển thị là một điều thuận lợi;
một tiện ích dễ thấy của thư viện số là những ai có thị
lực kém (hoặc đọc ở màn hình có chất lượng kém) có thể
chọn dạng trình chiếu tùy vào sở thích của họ. Một tùy
chọn khác cho các trình duyệt web là sử dụng đường liên
kết trong các trang web mà không bị gò bó. Theo bản chất
vốn có của siêu văn bản, bất kì ai có thể đặt liên kết
đến bất kì cái gì. Một bộ sưu tập của tất cả những trang
như thế gọi là World Wide Web, và các trang web hầu như
có thể được tìm thấy theo tất cả các cách được mô tả.
- Có một số kiểu bộ máy tìm kiếm văn bản tự do truy
xuất tất cả những gì trên web trong một khoảng thời
gian nhất định và sắp chỉ mục kết quả; Google là bộ
máy tìm kiếm được biết đến nhiều nhất.
- Có các danh sách, được sắp xếp theo chủ đề, các
trang trình bày các chủ đề nhất định; được biết
nhiều nhất là những trang của Yahoo (hay những tổ
chức phân cấp khác) và AOL.
- Có các con trỏ siêu văn bản trong hầu hết các trang,
tạo nên một chuỗi các nguồn tham khảo đi kèm.
Hầu hết người dùng bổ sung vào những kỹ thuật mang tính
đại chúng này các danh sách bookmark của các trang họ
Trang 20 / 62
thích và thỉnh thoảng là các trang mà họ sở hữu chỉ chứa
danh sách các trang mà họ quan tâm.
Một cách khác để mở rộng việc sử dụng các trang web tĩnh
là đưa ra thông tin dưới dạng các chương trình thực thi
trên máy tính để cung cấp các tương tác nhanh và phù hợp.
Ngôn ngữ lập trình như Java do Jame Gosling thiết kế tại
Sun Microsystems sẽ thực hiện được tính năng này. Những
hạn chế của Java phải kể đến là phải luôn đảm bảo rằng
người dùng chỉ thực hiện các thao tác để hiển thị web mà
không gây ảnh hưởng xấu đến máy người dùng (các chương
trình Java không thể xoá các tập tin hay các thư mục của
người dùng). Di chuyển các phép tính có liên quan đến các
thao tác xử lý trên web từ máy chủ xử lý với tần suất cao
đến máy người dùng, Java làm cho các trang web trở nên dễ
thiết kế hơn và ‘sành điệu’ hơn. Các chương trình Java
được chép về tới các máy trạm được gọi là ‘applets”
(little applications). Chúng cho phép tạo các tính năng
mở rộng và và những chuyên gia thiết kế web nhờ vậy có
thể mở rộng được năng lực trang web của mình.
Việc tăng cường tính năng của các trang web thể hiện ở
chỗ có nhiều hơn các các thủ tục đồ họa được xử lý cục
bộ; và ở đây các video ngắn hoặc các tập tin âm thanh với
dung lượng nhỏ được tải về, sử dụng các thứ tiếng ví dụ
như Quicktime. Các trang web ngày nay được thiết kế bao
gồm trình diễn các đa phương tiện và cung cấp phần mềm để
biên dịch nó thành công cụ gắn vào trình duyệt. Cùng với
Trang 21 / 62
Macromedia’s “Flash” và Real Networks, “Real Player” đã
trở nên phổ biến, ngày nay một số website thương mại sẽ
thông báo cho người dùng nếu họ không cài đúng công cụ hỗ
trợ thì họ sẽ không truy cập vào trang web được. Trình
duyệt web được mong muốn có vai trò như một “tác nhân”
thực hiện các công việc tại nơi người dùng. Các tác nhân
này sẽ thực hiện tìm kiếm, truy xuất và hiển thị thông
tin mà người dùng muốn. Một thí dụ đơn giản, tác nhân có
thể hiểu các giao thức khác nhau như các định dạng của
tài liệu là PDF hay Word hay LaTex, và khi cần tác nhân
sẽ gợi ý cách thức xem tài liệu dạng nào là hợp lý. Hầu
hết các trình duyệt web đều có tính năng này. Các tác
nhân phức tạp hơn có thể duy trì các câu hỏi thường xuyên
để chạy lại các trang mới mỗi ngày và đáp ứng yêu cầu của
người dùng tốt hơn, và dịch vụ này đã được các cổng
(portal) cung cấp. Một số yêu cầu mang tính thị trường
lại mong đợi các tác nhân sẽ mua hàng cho bạn, duy trì
lịch làm việc của bạn, và lập thời khoá biểu các ngày
nghỉ của bạn. Chúng có thể thực hiện việc này chính xác
đến đâu và chúng sẽ được biến tướng đến mức nào qua các
quảng cáo thương mại thì chưa rõ.
Về cơ bản, mọi thư viện số ngày nay đều được tổ chức trên
web. Nó còn là một cách chuẩn để phân phối tài liệu và là
tất cả những gì mà người ta mong đợi. Ngày nay, một dịch
vụ không có giao diện web được xem như là không bình
thường và gây ra cảm giác bất an cho khách hàng. Thậm chí
Trang 22 / 62
thư viện số của bạn sẽ có phương pháp truy cập đặc biệt
và có phong cách riêng thì nó cũng được bọc dưới vỏ của
một trang web. Thí dụ là mục lục sách trực tuyến có trước
web và thường sử dụng “telnet” hay “gopher” như giao diện
của chúng, nhưng tựu lại tất cả chúng đều giống như trang
web. Trang web ngày nay nói chung là không gian của thông
tin trực tuyến; các thư viện số là các bộ sưu tập đặc
biệt được chứa trong không gian đó.
6.4 Hệ thống lưới tin học.
Một lượng lớn các máy tính được kết nối với nhau và nhờ
thế mà các công việc được phân phối giữa các máy và các
máy tính trong mạng song song thực hiện các phép xử lý.
Ngày nay các công việc cần có sự can thiệp của máy tính
nhất thì không phải do chỉ mỗi siêu máy tính thực hiện mà
còn được thực hiện bởi các máy nhỏ hơn. Tuy nhiên, xét về
mặt kiến trúc, một siêu máy tính bao gồm nhiều con vi xử
lý hơn là một thiết bị đơn cực nhanh. Tất cả những gì
khác biệt là khoảng cách giữa các máy và cách quản trị
của chúng.
- Đôi khi hệ thống là một lượng lớn các hộp đơn lẻ,
chứa hàng ngàn con vi xử lý. Chúng được gọi là siêu
máy tính ngay cho dù không có con vi xử lý riêng lẻ
nào nhanh hơn vi xử lý của máy tính để bàn. Những
máy tính như thế ngày nay chiếm lĩnh thị trường siêu
máy tính thương mại, thay thế những máy tính được
Trang 23 / 62
nghĩ là có các nguồn điện khác nhau (ECL logic hơn
là CMOS, hay chất gallium arsenide hơn là silicon)
sẽ mang đến thuận lợi đáng kể.
- Đôi khi hệ thống có rất nhiều hộp, nhưng chúng chỉ
được nối kết cục bộ và chịu sự giám sát của người
quản trị. Kiến trúc thông thường nhất trong trường
hợp này được gọi là “Beowulf”, và những máy tính này
có thể được mua hay được thiết kế cục bộ.
- Đôi khi các máy tính được phân bổ khắp thế giới và
vấn đề là liên kết chúng lại. Mỗi một máy tính có
một ít vấn đề và báo cáo lại trong kết quả của nó
thông qua Internet. Trường hợp này không cần máy
tính quản lý hay quản trị.
Thành công nổi tiếng nhất của các máy tính đa vi xử lý
lại là sự thất bại của nhà quán quân cờ Garry Kasparov
vào năm 1997 với máy tính IBM Deep Blue. Máy tính này
chứa nhiều vi xử lý RS-6000 cộng với nhiều thiết bị phần
cứng chơi cờ chuyên dụng. Tuy nhiên, có lẽ quan trọng
quan trọng hơn (hay nói cách khác như một chuẩn mực) là
sự phân tích thành thừa số của 140 kí số, một thử thách
cho tập đoàn RSA đặt ra. Nó được thực hiện trong vòng một
tháng với khoảng 200 máy tính theo qui ước (một số máy
tính cá nhân, một số máy trạm Sun, và một số máy trạm
SGI) và một đội ngũ cán bộ có mặt khắp nơi trên thế giới
do Peter Montgomegy và Arjen Lenstra điều hành.
Trang 24 / 62
Trang web top500.org hiển thị một danh sách 500 máy tính
mạnh nhất trên thế giới mỗi năm. Cho thí dụ, năm 2002 máy
tính xếp ở vị trí số một là máy Earth Simulator ở Nhật,
vị trí thứ hai và thứ ba thuộc về các máy tính ASCI Q tại
Los Alamos National Laboratory (chính phủ Mỹ lại luôn
khao khát ngôi quán quân). Quan trọng nhất có lẽ là sự
thất bại về kiến trúc của 500 máy tính đầu tiên. Mười năm
trước, 90 trong 500 máy tính là các máy có CPU đơn; ngày
nay thì không máy tính nào còn CPU đơn nữa. Chỉ có khoảng
200 máy có đa vi xử lý trong một hộp đơn; 300 máy tính
dạng liên cung (cluster) hay “chòm sao” (các nhóm của các
con đa vi xử lý). Năng lực tính toán do kết hợp các máy
mạnh hơn một máy dù máy tính đơn này đã được đã được tăng
tốc nhanh hơn.
Dĩ nhiên hầu hết các máy tính để bàn thì luôn rất lý
tưởng trong mọi lúc. Thực tế này dẫn đến một điều thú vị
trong việc sử dụng các chu kì lý tưởng trong các vấn đề
rộng thể hiện dưới dạng đơn, và kỹ thuật cracking của thử
thách RSA đã được thực hiện trên ý tưởng này; người dùng
máy trạm tiếp tục thực hiện công việc của họ, nhưng trong
lúc họ đang ngủ hoặc không dùng máy tính hết năng lực,
thì những chu kì không được sử dụng còn lại sẽ dùng trong
việc phân tích thành thừa số các kí số. Ngày nay, một
loạt vấn đề được bắt đầu bằng cách dùng các chu kì dành
riêng, khởi đầu là dự án SETI@home. SETI tượng trưng cho
“search for extraterrestial intelligence”, cần một lượng
Trang 25 / 62
lớn các chu kì để xuyên qua quang phổ các sóng vô tuyến
được thu lại từ không gian, để tìm kiếm một tín hiệu. Từ
khi nguồn ngân sách của SETI không đủ để hỗ trợ cho siêu
máy tính, công việc bị chia ra thành từng phần trong nhóm
cho những ai sẵn sàng muốn thực hiện công việc. Các hoạt
động tương tự như tìm thuốc để điều trị cho bệnh AIDS hay
ung thư; những chương trình này đang thử những kết hợp
kiến trúc ba chiều để tìm ra hợp chất hoá học đã kết
thành các chất quan trọng trong các căn bệnh nói trên.
Những dự án có liên quan đang tìm kiếm các thuốc phòng
bệnh đậu mùa, bệnh than, hoặc các hiểm họa khủng bố. Ngày
nay có khoảng hai tỷ người tình nguyện tham gia vào các
chu kì của dự án.
Ý tưởng chung của việc sử dụng một lượng lớn các máy tính
không bắt buộc phải kết nối cứng đã vấp phải các vấn đề
nghiêm trọng được gọi là “grid computing”. Mục đích của
chúng tôi không phải chỉ ra vấn đề nào có thể được chia
nhỏ dễ dàng và được bắt đầu theo cách này, và trường hợp
nào thật sự cần kiến trúc để xác định ranh giới chặt chẽ
hơn là vấn đề hoàn toàn ngược lại. Những kẻ cố ý phá hoại
muốn phá một lượng lớn các phép tính bằng cách gửi đi các
kết quả không chính xác vì thế đã ảnh hưởng đến hiệu quả
của hệ thống mà cụ thể là vấn đề ủy thác trong hệ thống.
Một số vấn đề thì dễ dàng kiểm tra những gì đang được báo
cáo; tổng quát hơn, mỗi vấn đề con nên được chỉ định thực
hiện nhiều lần.
Trang 26 / 62
Thư viện số sử dụng nhiều máy tính, chủ yếu cho lưu trữ,
chứ không phải cho thực thi các phép toán. Thư viện có
thể ngăn ngừa tình trạng mất thông tin bằng cách chia sẻ
các tập tin với các thư viện khác để cho bất kì tập tin
nào mất do lấy cắp, hỏa hoạn, động đất, hay xóa bỏ, vô
tình hay cố ý, có thể được lấy lại từ các thư viện khác.
Việc này nảy sinh các vấn đề giống nhau như ủy thác và tổ
chức cùng chia sẻ các yêu cầu có tính chu kì. Hơn nữa,
hầu hết các thư viện chỉ lưu các bản sao các tập tin của
thư viện khác trên máy tính; mặc dù còn nhiều không gian
đã trống, chúng tôi không có nhóm “bảo tồn thư viện của
bạn” tại nhà, một phần bởi vì ngày nay giá thành đĩa quá
rẻ.
6.5 Mã nguồn mở và các hệ thống quyền sở hữu
Một số loại mã nguồn máy tính có đăng kí quyền sử dụng và
một số mã nguồn thì không. Trong thời kì đầu của máy
tính: (a) phần cứng máy tính quá đắt đỏ đến nỗi giá cả
phần mềm hầu như không thành vấn đề; và (b) phần mềm
thông thường chỉ chạy trên một một kiểu phần cứng nhất
định, và vì thế khi mua, bạn phải quyết định mua trọn bộ
phần cứng và phần mềm. Vào năm 1961, khi tôi bắt đầu làm
việc với máy tính, tôi phải trả $1.25 cho mỗi giờ thuê
máy, và máy tính lớn IBM tôi dùng có giá vài triệu đô la.
Giá của máy tính tôi dùng tương đương với tiền lương hơn
một trăm năm làm việc của tôi. Trong những ngày đó, không
Trang 27 / 62
có gì có thể “xách tay” được; chương trình được phân phối
hoặc được viết ra từ nhà sản xuất chuyên biệt. Phần mềm
thì thường không đăng kí quyền sở hữu và bán kèm theo
phần cứng. Ngày nay tất cả mọi đều trên đều thay đổi,
thậm chí ở mức lương đại học, giá của một máy tính (cái
nhanh hơn và tốt hơn) thì tương đương với lương chỉ một
tuần hoặc hơn một ít. Phần mềm có thể chạy trên nhiều
nền, vì thế tôi đang viết quyển sách này đôi khi trên
Linux, đôi khi trên hệ thống của Microsoft, và đôi khi
lại trên hệ thống của Apple. Ngày nay phần mềm đã trở
thành ngành công nghiệp có qui mô rộng đạt doanh thu cao
hơn ngành sản xuất phần cứng. Sự đa dạng các thiết bị
phần cứng có chiều hướng giảm, Intel và các máy tính
tương thích với Intel chiếm một lượng lớn trong tổng số
máy tính được bán trên thị trường. Vì thế sự lựa chọn của
người dùng ngày nay không phải chú trọng vào loại máy nào
được mua mà tập trung vào hệ điều hành nào của phần mềm
cần sử dụng.
Đối với hệ điều hành, vấn đề căng thẳng chính (khi viết
sách này) nảy sinh giữa các hệ điều hành của Microsoft và
hệ thống mã nguồn mở Linux, mặc dù một số máy tính lớn
hơn (Sun, SGI, IBM, và một số khác) vẫn còn được dùng
trong thế giới thư viện số. Mặc dù hầu hết các phần mềm
được viết với mong mỏi là được chạy trên hệ điều hành
Micosoft Windows, nhưng vẫn có một số người say mê mã
nguồn mở, và hệ thống phần mềm mã nguồn mở Greestone trở
Trang 28 / 62
thành phần mềm đặc biệt quan trọng đối với các thư viện
số.
“Nguồn mở” có nghĩa là ý kiến mà mỗi người được công nhận
để kiểm chứng tính đúng đắn, và vì thế sẽ thay đổi phần
mềm được phân phối. Thông thường, nguồn mở được phân phối
miễn phí cũng như không có sự hạn chế sử dụng nào hay
tuân theo “bản quyền công cộng GNU” (GPL). Việc sử dụng
của mã nguồn mở thể hiện ở thiện ý mà mọi người đóng góp
và cải thiện nó, bạn có thể tự đảm bảo về khả năng phần
mềm có thể thực hiện cũng như là những điều phần mềm
không thực hiện, và dĩ nhiên là nó miễn phí và không bị
ràng buộc bởi bất kì một hợp đồng phức tạp nào. Bất lợi ở
đây là bạn có thể có riêng sự hỗ trợ của bạn, chứ không
phải của những người cùng sử dụng nó, và nguồn mở được
thay đổi thường xuyên và diễn ra theo cách không thể dự
đoán trước.
Hệ thống nguồn mở nổi tiếng nhất phải kể đến hệ điều hành
Linux, được Linus Torvalds viết đầu tiên dựa theo kiến
trúc của Unix, và ngày nay nó được duy trì bởi một cộng
đồng rộng lớn (mặc dù Torvalds vẫn còn ở cương vị thủ
lĩnh). Linux cạnh tranh một cách hiệu quả với cả
Microsoft Windows và với Unix (bao gồm những phiên bản
miễn phí như FreeBSD). Không ai biết có bao nhiêu người
dùng Linux, bởi vì bạn có thể download nó về máy miễn phí
mà chẳng cần báo với ai là bạn đang dùng nó. Nhưng có một
số ước lượng là dưới 10% máy chủ hiện nay đang dùng
Trang 29 / 62
Linux; một số thống kê khác lại chỉ ra rằng từ 30 – 40%
hay hơn thế các máy chủ chạy Linux (Gulker 2003, và Ewalt
2001). Tuy nhiên chỉ có khoảng 1% các máy tính truy cập
đến Google là cài Linux, trong khi có khoảng 90% lại cài
các phiên bản khác nhau của Microsoft Windows. Phần mềm
của Microsoft được đóng gói với hầu hết tất cả các máy
tính cá nhân để bán, chiếm ưu thế trên thị trường.
Được so sánh với Windows, người dùng Linux biện luận rằng
hệ điều hành Linux linh hoạt hơn, ít khi bị xâm nhập, ít
khi bị tổn thất do virus, cung cấp nguồn điện mạnh hơn và
cung cấp điều khiển tới người dùng. Các công ty như
ReadHat cung cấp hỗ trợ, và rất nhiều mạch điều khiển
thiết bị và phần mềm có sẵn trong Linux. Microsoft “phản
công” bằng cách cung cấp rất nhiều mạch điều khiển thiết
bị và phần mềm, và dĩ nhiên hỗ trợ của Windows được tổ
chức tốt hơn và được biết đến nhiều hơn. Tuy nhiên, có lẽ
minh chứng tốt nhất cho thấy Microsoft lo ngại Linux lại
là Microsoft đã cấp tiền cho vụ kiện tụng do SCO đã bị
cảnh báo gây trở ngại cho việc bán hàng và tình hình sử
dụng của Linux (viện lẽ rằng Linux có các dòng mã lệnh mà
ngày nay đã thuộc về SCO có trong loạt hợp đồng mua bộ mã
Linux nguyên bản từ công ty AT&T).
Có lẽ quan trọng hơn đối với cộng đồng thư viện số là gói
mã nguồn mở Greenstone, sẵn có tại trang
www.greenstone.org với nhiều ngôn ngữ và chạy được trên
nhiều hệ điều hành. Giống Linux, mã nguồn Greenstone mở
Trang 30 / 62
và sẵn sàng cho mọi tìm tòi, khám phá hay sử dụng mà
không phải trả tiền. Người sở hữu Greenstone không tính
tiền các loại phí theo theo lượng sử dụng, và buộc người
sử dụng phải dùng các thủ tục chương trình phức tạp để
chắc chắn rằng bạn không dùng quá lượng bạn đã đăng kí,
hay cam kết trong bất kì các thao tác mang tính ép buộc
mà các công ty phần mềm cần phải làm theo để giảm sao
chép bất hợp pháp. Greenstone đầu tiên được trường đại
học Waikato, New Zealand viết, trưởng dự án là Ian
Witten.
Greenstone được phân phối theo chuẩn GPL (GNU Pulic
License), và được ghi rõ là bạn có thể sử dụng phần mềm
này miễn phí, nhưng nếu bạn phân phối lại, bạn phải đưa
cho bên nhận quyền phân phối lại các mã chương trình mà
bạn đang gửi chúng. Mục đích của GPL là ngăn tình trạng
các công ty lấy mã nguồn mở và bán nó với lượng người
dùng bị hạn chế và phân phối tiếp tục các mã lệnh. GPL
được thành lập khoảng năm 1991 và được một lượng lớn các
dự án dùng thành công.
Greenstone cung cấp nhiều tiện ích mà một thư viện số
cần. Để biế thêm chi tiết, bạn nên đọc quyển sách của
Witten (Witten và Bainbridge, năm 2003). Tuy nhiên, tựu
chung lại, Greenstone cho phép người dùng xây dựng các bộ
sưu tập thư viện số và su đó cung cấp các truy cập đến
người dùng, trên cả CD-ROM hay trên Web. Phần mềm này bao
gồm tìm kiếm văn bản, hiển thị hình ảnh, liệt kê theo thứ
Trang 31 / 62
bậc, dữ liệu được tổ chức theo trường, và còn các tính
năng khác. Nhiều dự án trên toàn thế giới đã sử dụng nó.
Do tất cả các dự án có mã nguồn mở, bạn có thể tạo ra bất
kì thay đổi nào mà bạn muốn, bạn có thể xác định được
chính xác chương trình sẽ thực hiện, và bạn sẽ không bị
phiền toái để biết có chính xác bao nhiêu người đang dùng
nó.
Cách lựa chọn Greenstone như một phương thức để phân phối
dữ liệu thì giống như các hệ thống cơ sở dữ liệu thương
mại chứ không giống như các hệ thống thư viện số. Không
có bất kì phần mềm thương mại nào được bán cho chỉ mục
đích hỗ trợ thư viện số, mặc dù có nhiều dữ liệu đóng gói
được sử dụng, và một số hệ thống OPAC của thư viện (mục
lục truy cập trực tuyến công cộng) có thể được phổ biến
để cung cấp toàn văn đến người dùng. Có một số hệ thống
đặc biệt; cho thí dụ phần mềm Olive là phần mềm đầu tàu
trong các vấn đề liên quan đến các phiên bản số của các
tờ báo về lịch sử. Có lẽ quan trọng nhất, mặc dù mới được
đưa ra sử dụng gần đây - một lựa chọn thương mại – IBM
DB2 Content Manager. Vào tháng 6 năm 2003, Autralian
Broadcasting Corporation đồng ý trả $100 M để IBM sử dụng
DB2 Content Manager lưu 100,000 băng đĩa cũ của các
chương trình phát thanh, phát hình (xem thêm Meserve,
2003).
Mang đến sự tiện lợi là các phần mềm miễn phí và không
hạn chế sử dụng, tại sao phần mềm mã nguồn mở không được
Trang 32 / 62
phổ biến nhanh chóng? Một câu trả lời đơn giản là thiếu
quảng bá; Microsoft gần đây đã thông báo rằng cuộc vận
động cho các phiên bản của phần mềm Microsoft Office sẽ
tiêu tốn hết $150M. Không ai nỗ lực để thuyết phục mọi
người sử dụng Linux, hay OpenOffice, hay Greenstone. Các
thư viện lên kế hoạch sử dụng phần mềm mã nguồn mở cũng
đòi hỏi cần có mức độ tinh vi về công nghệ. Khi bạn càng
có nhiều quyền, bạn càng có nhiều cơ hội tự đào hố và rơi
xuống. Tuy nhiên, chúng tôi phải rớt xuống hố tự chúng
tôi đào thì ít phải lo sợ hơn bị tường gạch rơi trúng ai
khác, bởi vì hơn ai hết, bạn hoàn toàn có khả năng để tự
mình xử lý và khắc phục tình huống của chính mình.
6.6 Các thiết bị xách tay
Trong hệ thống máy tính được nối mạng, thông tin có thể
được phân phối bằng cách lưu trên các thiết bị xách tay
có mục đích chuyên biệt. Trong năm 2000, sự xuất hiện của
sách điện tử đã khơi dậy mối quan tâm của bạn đọc, mọi
người có thể đọc bộ toàn quyển sách trên các máy chuyên
dụng. Đọc trực tuyến toàn quyển sách trước đây không phổ
biến, và một trong số các lý do được nêu ra là thiếu tính
cơ động (không xách tay theo được). Vì thế đã nhen nhóm ý
tưởng bán các thiết bị mà người ta có thể mang đi và đọc
chúng, tải xuống rồi lưu sách trên đó. Một số thiết bị
khác thì được thiết kế bỏ túi (PalmPilots, PocketPCs, và
Trang 33 / 62
các dòng sản phẩm của nó) cung cấp việc đọc sách trên các
thiết bị này.
Nhìn chung, ý tưởng này bị thất bại. Các công việc kinh
doanh của nhà xuất bản, ví dụ như AtRandom, MightyWords,
hay iPublish đã “bó tay”. Đây có phải là vấn đề căn
nguyên hay do lỗi quảng bá? Có phải tại người dùng không
thích đọc sách từ màn hình thiết bị? Hay là do màn hình
có chất lượng không tốt? Nội dùng của sách điện tử không
đủ cuốn hút? Hay nó gặp vấn đề về giá cả và khả năng sẵn
dùng của nó?
Dễ thấy, màn hình với kích cỡ nhỏ làm cho nhiều sách kém
tiện dụng hơn được in trên giấy kèm theo các vấn đề về
mức độ sáng và tuổi thọ của pin. Sau đó vào năm 2002,
Microsotf giới thiệu “Tablet”, sản phẩm này có kích thước
màn hình lớn hơn kích thước một trang giấy, nhằm thăm dò
thị trường xem có thể thu hút nhiều người dùng hơn laptop
hay máy bỏ túi thông thường không. Đến mùa hè năm 2004,
dễ dàng nhận ra hai dòng sản phẩm trên không có sự khác
biệt đáng kể nào, một máy tính rộng kéo theo kích cỡ,
trọng lượng bất lợi, và tuổi thọ pin ngắn để bù đắp cho
lợi ích của việc dễ đọc.
Một số trang phi lợi nhuận phân phối tài liệu -hết hiệu
lực bản quyền- miễn phí vẫn còn đang thu hút nhiều độc
giả. Thí dụ các trang gồm Electronic Text Center tại đại
học Virginia phân phối hàng triệu sách điện tử miễn phí
(từ một thư viện có 1,800 nhan sách). Virginia báo cáo có
Trang 34 / 62
lúc hệ thống của họ đã gửi đi hơn một quyển sách mỗi 10
giây. Danh sách của những cuốn sách nổi tiếng nhất từ
Virginia rất thú vị: nhiều tựa đề rất quen thuộc (Alice
lạc vào xứ thần tiên, truyện ngụ ngôn Aesop) nhưng trong
một tháng của năm 2001, họ đã gửi đi hơn 800 bản của
quyển sách Lịch sử của cuộc chiến tranh khoa học với thần
học của những người theo đạo Cơ đốc, được viết bởi thống
đốc Cornell vào thế kỷ thứ XIX.
Một số hoạt động quảng bá của các công ty sách điện tử
lại làm nản lòng khách hàng. Có một cách quen thuộc để
cung cấp thiết bị với giá rẻ để bán mặt hàng này lại sau
đó khi có nhu cầu - về góc độ lịch sử, một công ty chuyên
về đồ cạo thu được tiền nhờ bán lưỡi (dao, kiếm) chứ
không phải bán dao cạo. Vì thế các công ty sách điện tử
sẽ không đặt mua những khuôn dạng chuẩn, mà cố ép khách
hàng mua tất cả các quyển sách điện tử của họ từ một nhà
cung cấp. Giá của các quyển sách điện tử là tiêu chí để
so sánh với chính quyển sách này ở dạng bìa cứng. Sự lựa
chọn các tài liệu từ nhà cung cấp thì luôn thay đổi.
Chúng ta sẽ nhìn thấy một truy xuất của các thiết bị đọc
sách cầm tay không? Các màn hình vẫn rẻ hơn và tốt hơn,
và chúng ta nghĩ ra cách làm thế nào để tăng thêm thời
gian hoạt động của pin. Một ngày nào đó, chúng ta nên có
các thiết bị có trọng lượng và khả năng đọc có thể so
sánh được với một tờ giấy; nhưng vẫn đảm bảo thuận lợi là
một người dùng có thể tìm được một quyển sách mà một
Trang 35 / 62
người khác đang đọc, hay có thể lưu hàng ngàn quyển sách
trên cùng một thiết bị. Nhưng, lúc đó rất có khả năng
trình duyệt web đa năng sẽ là một thứ tương tự như thiết
bị, chúng bao gồm một nối kết không dây thêm vào màn
hình, bộ nhớ, và CPU. Vì thế tại sao một ai đó muốn mua
một thiết bị chuyên dụng chỉ để cho việc đọc một quyển
sách?
Có lẽ các nhà kinh doanh cung cấp sản phẩm dạng gói cho
người dùng, cho phép họ truy cập rộng đến các tài liệu
xuất bản với giá phải chăng, mà không để cho họ có cảm
giác giống như một người bị ép buộc trong việc “mua bán
sách”. Nếu thế, chúng tôi sẽ nhìn thấy một truy xuất của
quyển sách điện tử cầm tay, nhưng tôi lại là người theo
chủ nghĩa hoài nghi. Tôi ngờ rằng các dịch vụ web có thể
truy xuất (bằng cách này hay cách khác) dùng để mua các
ấn bản phẩm hiện hành sẽ đến trước.
6.7 Bảo mật và mật mã
Đặt thông tin lên web hay thậm chí nối kết nối và lưu
thông tin vào máy tính khác thì an toàn không? Virus máy
tính và tội phạm máy tính đã và đang ảnh hưởng xấu đến
‘thanh danh’ của các kiểu kết nối máy tính, và web cũng
không ngoại lệ.
May mắn là cách các virus xâm nhập vào các máy tính hệ
điều hành MS-DOS theo phần mở rộng của từng loại tập tin
lưu trên đĩa thì lại không liên quan gì đến web. Những
Trang 36 / 62
loại virus phổ biến hiện nay - gắn kèm với thư điện tử
dưới dạng các tập tin thực thi và tiến hành phá máy tính
– cũng không liên quan đến hầu hết các web lập trình. Tuy
nhiên, việc các máy chủ trả lời các yêu cầu từ bên ngoài
mở ra khả năng cho những kẻ cố ý phá hoại và tội phạm, và
các máy chủ web cần cẩn thận trong các bước thực thi để
bảo vệ chương trình lưu trên đó. Người dùng ngày nay đã
quen với việc thấy các thông báo hỏi để tải và cài chương
trình dùng để xem các trang web riêng biệt; cũng quan
trọng khi cho rằng những chương trình này đáng tin cậy
trong việc bảo vệ các tập tin máy tính.
Không có gì có thể thay cho bảo mật cơ bản và việc quản
trị hợp lý trên các máy chủ. Mỗi người dùng nên có một
mật khẩu, và mỗi mật khẩu nên được kiểm tra xem nó có đễ
dàng được đoán ra hay không (ví dụ nó không phải là các
từ hoặc tên tiếng Anh thông dụng, hay một chuỗi các kí tự
hiển nhiên). Mỗi người dùng nên có một mật khẩu riêng
biệt và nên được giữ kín cho cá nhân. Có những quyết định
quản trị dùng để tạo ra các bảo mật. Thí dụ, ở một điểm,
những nhà sản xuất các máy tính trạm đã phân phối các máy
tính được cấu hình vì thế bất kì máy tính ở xa nào có thể
đăng nhập vào mà không cần kiểm tra việc cấp phép. Người
quản trị hệ thống biết chuyện có thể thay đổi cấu hình
này trước khi kết nối máy tính vào Internet.
Trong ngữ cảnh này, thật quan trọng để ghi nhớ rằng trong
hoạt động của mạng Ethernet, khả năng can thiệp vào các
Trang 37 / 62
mạng và thu thập các gói tin là hoàn toàn có thể xảy ra.
Sau đó những gói tin với chương trình đăng nhập và các
chuỗi mật khẩu hay các con số trên thẻ tín dụng sẽ bị đọc
và bị người ta lạm dụng. Điều này không tệ hại như các
cuộc truyện trò bằng di động, ở nơi (hoàng gia Anh đã tìm
ra được sự bất tiện của nó) mà có quá nhiều người sử dụng
thời gian rãnh của họ để nghe từ các máy quét âm thanh,
và từ đó khoảng phân nửa các cuộc nói chuyện bằng di động
đều nghe lỏm được. Nhưng đối với Ethrenet, nó để lộ ra
những rủi ro mà các hoạt động trên máy chủ nên tự được
bảo vệ.
Một nguy hiểm dễ thấy từ các nối kết telnet là nó cho
phép người dùng bên ngoài mạng đăng nhập vào. Những kẻ
phá hoại máy tính đều đặn thăm dò các máy trên Internet
để tìm cơ hội đăng nhập vào các máy tính, thử các tên và
các mật khẩu khác nhau mà chúng đã tìm bằng cách nghe
trộm hay bởi các phương tiện khác. Telnet ngày nay bị
quên lãng vì càng có nhiều tổ chức chuộng ssh, “secure
shell”, không để mật khẩu truyền một cách rõ ràng. Một
cách bảo vệ khác là dùng các bức tường lửa để cô lập các
máy từ bên ngoài web.
Một máy bức tường lửa cũng đơn giản như các máy chủ khác:
bắt cầu cho các gói giữa bên ngoài Net và các máy bên
trong của tổ chức; nó là một kiểu của router. Nó quyết
định xem gói nào được truyền dựa trên một số nguyên tắc
và các luật cấp phép. Thí dụ, nó chỉ cho phép các kết nối
Trang 38 / 62
đến cổng http, ngoại trừ các người dùng được cho phép.
Thủ thuật ở đây là quyết định xem có ai đang gửi các gói
là người dùng được cấp phép thực sự. Thông tin đi kèm với
các gói là tương đối ít được sử dụng, cụ thể là việc nhận
dạng các máy gửi không thể hoàn toàn tin cậy, bởi vì hoàn
toàn có thể gửi một thông điệp với định danh giả mạo. Một
đặc tính mà một bức tường lửa có nhiệm vụ vạch đường nên
có là một ít kiến thức về các máy tính có khả năng là
khởi nguồn của các gói tin, và nó nên loại bỏ những gói
tin được gán nhãn sai một cách hiển nhiên so với nơi xuất
phát của chúng (ví dụ, nếu chúng được gán nhãn là đến từ
một máy bên trong một tổ chức nhưng thông tin trên nhãn
lại thể hiện máy này nằm bên ngoài của bức tường lửa).
Một cách đơn giản nhất để kiểm tra tính hợp pháp của một
nguồn của gói thông tin là mật khẩu. Vấn đề của mật khẩu
–không thay đổi trong tình huống này – là nếu một kẻ cố
tình “rình rập” trên mạng và lấy được mật khẩu hôm nay,
kẻ này có thể dùng nó cho ngày mai. Những nỗ lực để in ra
một chuỗi số cho mỗi lần đăng nhập hay ngày đăng nhập
cuối cùng, hy vọng rằng người dùng hợp pháp sẽ lưu ý nếu
chúng sai, chúng không thật sự tin cậy. Vì thế, một hệ
thống tốt dựa trên việc định danh một chuỗi mà không bao
giờ sử dụng hai lần. Hai lược đồ như thế là thẻ SecurID
card được quảng bá bởi Access Control Encryption, Inc.,
và hệ thống S/Key do Bellcore phát minh.
Trang 39 / 62
SecurID card là một thẻ tín dụng có kích thước như một
máy tính, có pin, đồng hồ, và cửa sổ hiển thị thể hiện
một số có sáu kí tự. Bên trong thẻ, một thuật toán sẽ
tính ra một số sáu kí tự mới mỗi phút. Công ty cung cấp
một chương trình cho các máy bức tường lửa có thể chạy
cùng thuật toán, và vì thế họ biết đối với mỗi thẻ con số
nào nên được hiển thị ở thời điểm nào. Người dùng nhận
biết thẻ (không sử dụng bất kì một số nào được tạo ra ở
bên ngoài) và nhập vào sáu kí tự và chúng đều được hiển
thị lên màn hình. Bức tường lửa sẽ so sánh số này với con
số đúng của nó trong hệ thống, và nếu chúng giống nhau,
người dùng thật sự là chủ sở hữu thẻ này. Mỗi thẻ giá
khoảng $75 và được lập trình cho thời gian hết hạn là sau
ba năm.
Hệ thống S/Key được phân phối như một phần mềm miễn phí.
Nó được tạo ra theo kiểu viết mật mã có tính quy ước
trước đây. Người dùng sẽ có một chuỗi có thứ tự, mỗi một
chuỗi sẽ được sử dụng một lần. Bất kì nỗ lực nào đòi trở
thành người dùng được chứng thực, bức tường lửa yêu cầu
chuỗi số kế tiếp. Cũng giống như trước đây, thiết bị vạch
đường bức tường lửa có một chương trình máy tính có thể
tính toán một dãy các chuỗi số hợp lệ. Người dùng có thể
in các chuỗi này, hay có một máy tính cũng có thể phân
tích dãy số. Mỗi chuỗi chỉ có thể truyền một lần, và
người bên ngoài không có cách nào đoán được chuỗi kế tiếp
sẽ là gì. Các chuỗi thật sự là các con số, nhưng để giúp
Trang 40 / 62
cho chúng được dễ nhập vào hơn, chúng đều được chuyển
tương ứng sang chuỗi các từ. Cho thí dụ, giả sử rằng một
từ điển có 2048 từ ngắn và các tên được cung cấp sẵn. Sau
đó, một con số 66 bit có thể được lựa bằng cách chọn sáu
trong số các từ này, mỗi một từ sẽ là một con số 11 bits.
Một hành động nguy hiểm cố tình khác là chính từ các
chương trình trên máy chủ. Như đã đề cập ở trên, trình
duyệt web dựa vào các chương trình có trên máy chủ và
thực thi chúng khi máy chủ nhận được các gói tin. Nếu
chúng chỉ có thể nhặt ra các mục từ cơ sở dữ liệu của
chúng và gửi tiếp chúng như lúc chúng được thiết kế thì
không có vấn đề gì. Nhưng chuyện gì xảy ra nếu các chương
trình trên máy chủ này có khả năng thực thi các chương
trình tùy nào khác? Đây quả thực là một rủi ro. Điều này
được minh họa trong trường hợp của chương trình finger về
các con “sâu” của Moriss vào năm 1988. Chương trình
finger được giả thuyết đơn thuần chỉ là một dạng trợ giúp
thư mục; nhập vào tên người dùng hay tên đăng nhập;
chương trình finger sẽ trả về tên đăng nhập, tên người
dùng, số điện thoại của người đó trên máy chủ. Robert
Morris, một sinh viên của trường đại học Cornell, đã lợi
dụng lỗi của chương trình finger để viết một chương trình
có thể chạy trên bất kì máy nào và thu được các tên người
dùng và mật khẩu bị mã hóa. Ngay khi chương trình này
được tung ra, nó đã được nhân bản rất nhiều trên những
máy khác nhau, điều này đã dẫn đến tình trạng Internet bị
Trang 41 / 62
nghẽn vào ngày 2 tháng 11 năm 1988. Kể từ thời gian đó,
việc nhận thức về các nguy cơ về an toàn bảo mật cho các
phần mềm trên Internet càng được chú trọng.
Vì lẽ rằng các chương trình dạng httpd – bộ thông dịch
các yêu cầu của các trình duyệt Net lại phức tạp hơn
nhiều so với finger, nên rất khó để đoan chắc rằng chúng
không chứa những rủi ro như thế đối với thư viện. Ít ra
chúng cũng đã được đưa ra xem xét kỹ lưỡng hơn. Ngày nay,
có một nhóm được thành lập gọi là CERT (Computer Emegency
Respose Team) tại CMU tìm kiếm những lỗ hổng an toàn, và
tập trung, rồi tái phân phối thông tin về chúng lại. Tuy
nhiên, có một vấn đề là phải đoan chắc rằng thông tin về
các lỗ hổng đến các người quản trị hệ thống trước khi
chúng đến tay bọn tin tặc. Buồn thay, CERT thỉnh thoảng
phải dùng điện thoại hơn là Internet để giữ các mối liên
lạc riêng tư của họ. Tuy nhiên, không có tình tiết nào
nghiêm trọng như vấn đề đã xảy ra năm 1988, và cơ sở hạ
tầng mạng dường như tương đối mạnh so với các loại virus
đang lan tràn khắp chương trình Microsoft Outlook. Không
may là giới hạn và năng lực của cơ sở hạ tầng mạng khiến
cho việc sử dụng của nó trong tình trạng tấn công “phủ
nhận của dịch vụ”, ở đó virus xâm nhập máy tính bằng cách
tấn công một máy tính mục tiêu với hàng triệu tin nhắn,
với hy vọng xâm nhập vào máy tính mục tiêu hay ít ra ngăn
chặn một ai đó khỏi việc sử dụng dịch vụ máy tính cung
cấp.
Trang 42 / 62
Các thông điệp máy tính thường có rất ít nội dung và rất
ít bảo mật. Nghe lén thật sự là một hiểm họa trên Net, và
sự mạo danh (gửi các thông điệp với định danh sai) cũng
là một hiểm họa. Vì thế, các thông điệp điện tử cần mã
hóa (được so sánh với các thông điệp dịch vụ Portal- các
thông điệp này được ví như để trong các phong bì được nêm
phong). Các thông điệp điện tử cũng giống như các bưu
thiếp.
Mã hóa một thông điệp cần một khóa. Khóa theo cách truyền
thống cho chúng ta biết làm thế nào để mã hóa và giải mã
một thông điệp. Cho thí dụ, giả sử hệ thống mật mã là “Di
chuyển các kí tự n dọc theo bảng chữ cái”. Khóa là giá
trị của n. Giả sử khóa là 2, thì chuỗi mật mã được di
chuyển hai kí tự dọc theo, vì thế cipher sẽ trở thành
ekrjgs và chúng ta có ví dụ về mật mã Caesar. Ngày nay,
vấn đề an toàn không được cân nhắc kỹ lưỡng mặc dù rõ
ràng vấn đề an toàn đã tốt nhiều ở thời La mã cổ đại. Lưu
rằng tiến trình giải mã là di chuyển hai kí tự về phía
sau của bảng kí tự chữ cái; khóa giải mã và khóa mã hóa
là như nhau. Nếu cả hai người cùng biết một mã, họ có thể
gửi cho người kia và người nhận có thể dễ dàng đọc được.
Thật vậy, vì khóa trong mã Ceasar là như nhau trong việc
mã hóa và giải mã, nên bất kì người nào mà có thể đọc
thông điệp đều có thể gửi thông điệp cho người khác và
ngược lại.
Trang 43 / 62
Để giao tiếp một cách an toàn trong hệ thống chỉ có một
khóa đơn như thế, cả hai phía đối thoại phải có một khóa,
và khóa này phải được gửi bằng cách bảo mật. Trong những
năm nay (và có thể những năm sau nữa), những người đưa
tin đi lanh quanh mang khóa từ chính phủ đến các lễ nhậm
chức của các đại sứ quán và quân đội của quốc gia này.
Giữ an toàn cho khóa là vấn đề quan trọng đối với dạng mã
hóa này và là vấn đề có hơi mệt mỏi. Điều này có nghĩa là
cả hai phía giao tiếp phải tin cậy lẫn nhau, bởi vì mỗi
bên đều có khả năng để lộ ra khóa do cả thiếu khả năng và
bất tín. Đối với các hệ thống thông điệp máy tính, điều
này là một vấn đề lớn. Bởi vì chúng ta thường gửi thư
điện tử đến người chúng ta đủ biết, chúng ta hầu như
không thể sử dụng cùng một khóa trong mọi lúc, nhưng nếu
chúng ta tưởng tượng phải sử dụng một khóa riêng đối với
mỗi cặp khóa tương ứng, hoặc sử dụng một khóa riêng trong
mỗi ngày, thì việc phân phối một khóa trong hệ thống một
khóa đơn sẽ là một vấn đề nghiêm trọng.
Năm 1976 khóa đơn được biết một cách công khai thông qua
các hệ thống mã hóa có các khóa tách biệt cho mã hóa và
giải mã, và nếu chỉ có một khóa thì không thể tìm được
khóa còn lại từ khóa có sẵn. Kỹ thuật này được phát minh
vào năm 1973 trong phạm vi thiết lập an toàn bảo mật của
Vương quốc Anh nhưng giữ được bí mật các hệ thống này là
dựa trên y tưởng của các hàm một chiều; các thủ tục toán
có thể được tiến hành theo một hướng nhưng không đảo
Trang 44 / 62
ngược. Cho thí dụ, học sinh lớp năm, tính toán căn bậc
hai là hàm một chiều, học sinh biết cách nhân 15 với 15
bằng 225, nhưng không được dạy một phương pháp (ngoại trừ
phép thử và sai số) để bắt đầu với 225 và phát hiện ra
rằng nó bằng 15 được căn bậc hai. Các hàm một chiều cho
phép mã hóa không đối xứng, ở đó tôi có thể mã hóa một
tin nhắn mà bạn thì có thể giải mã, nhưng bạn thông tự mã
tin nhắn của chính bạn được.
Cho thí dụ, hãy xem xét một hàm một chiều trong việc xác
định định danh. Giả sử chúng ta chấp nhận việc tính căn
bậc hai của một số như hàm một chiều và tôi mong bạn có
thể đảm bảo định danh của tôi, hay nói ngắn gọn hơn, bảo
đảm bạn rằng tin nhắn thứ hai từ tôi có phải đến từ cùng
một người đã gửi bạn tin nhắn đầu tiên. Tôi có thể gửi
một chuỗi 361 trong tin nhắn thứ nhất, và tin nhắn thứ
hai của bạn có nội dung là 19. Bạn có thể nhân 19 lần 19
và kiểm tra đó là 361, vì vậy, trong ví dụ có tính giả
thuyết của chúng ta, không ai có thể nghĩ ra căn bậc hai
ngay từ đầu, tôi phải bắt đầu tiến trình này bằng cách
lấy ra 19 và căn bậc hai của nó, rồi gửi cho bạn 361
trong tin nhắn thứ nhất, không ai có thể sắp xếp để biết
được chọn ngay số 361 là số để gửi đầu tiên.
Trong thí dụ về mã hóa không đối xứng, có hai khóa, một
cho mã hóa và khóa còn lại cho giải mã. Thường thì một
trong hai khóa này sẽ được giữ bí mật, và một thì không
khai, vì thế tên gọi khác của mã hóa theo cách này sẽ là
Trang 45 / 62
mã hóa bằng khóa công cộng. Khóa công khai có thể áp dụng
cho mã hóa cũng như giải mã, điều này sẽ dẫn đến hai tính
năng khác nhau, như sau:
- Nếu tôi công khai khóa mã hóa của tôi, sau đó một
người có thể gửi một tin nhắn cho tôi thì biết rằng
chỉ một mình tôi mới có thể đọc được chúng.
- Nếu tôi công khai khóa giải mã, sau đó một người có
thể nhận tin nhận tin nhắn từ tôi và biết rằng tôi
đã gửi chúng.
Một lần nữa để giải thích cho điều này, chúng ta hãy giả
sử rằng một số phép tính không thể nghịch đảo được (không
suy ra được từ phép tính khác). Có thể cho rằng phép tính
nhân dễ thực hiện, nhưng không người nào có thể thực hiện
phép chia mà không phải dùng tới bí quyết hay thủ thuật
riêng. Ví dụ, giả sử tôi biết cách chia một số cho 17, và
người khác thì không biết. Sau đó tôi công khai 17 như là
một khóa của riêng tôi và yêu cầu bạn, mỗi khi bạn muốn
gửi tôi một thông điệp, hãy nhân nó với 17 và gửi kết quả
đi. Nếu bạn muốn gửi tôi một chuỗi số 2, 3 (có thể có
nghĩa là bạn đang gửi cho tôi kí tự thứ hai và thứ ba
trong bảng chữ cái), bạn sẽ gửi 34, 51. Theo giả thuyết
này, không ai có thể chia cho 17, vì thế cách này an
toàn. Tôi có thể thực hiện phép chia, vì thế tôi khôi
phục lại chuỗi 2, 3. Người nghe trộm không khả năng làm
được điều đó.
Trang 46 / 62
Ngược lại, tôi có thể gửi một thông điệp mà thông điệp
này phải đến từ tôi. Giả sử tôi muốn gửi cho bạn tin nhắn
85. Tôi chia nó cho 17 và gửi 5 cho bạn. Bạn (hay ai
khác) có thể nhân 5 với 17 và gửi lại số gốc là 85;
nhưng, trong thế giới ảo này, tôi là người duy nhất mới
có thể làm được phép tính chia để tìm ra được 5, và vì
thế tin nhắn này phải thật sự đến từ tôi.
Hàm toán học thực sự, hàm này rất khó nghịch đảo là phép
tìm thừa số của các số nguyên. 17 x 19 = 323 là phép toán
tương đối dễ. Không có cách trực tiếp nào để bắt đầu với
số 323 và quyết định rằng các thừa số của nó là 17 và 19;
tất cả các phương pháp thực hiện điều này liên quan chủ
yếu đến phép thử và sai số. Đối với các con số đủ lớn, có
thể là 150 kí tự, thực tế việc phân tích thành thừa số là
không thể; và tương đối dễ để bắt đầu với hai số nguyên
số có 75 kí tự và nhân chúng với nhau.
Kỹ thuật mật mã sử dụng phương pháp này được biết đến như
RSA- viết tắt các từ sau của ba giáo sư MIT: Ron Rivest,
Adi Shamir, và Leonard Adelman.
Lặp lại vấn đề chính trong thảo luận của chúng ta, trong
kỹ thuật mã hóa không đồng bộ thì cả hai khóa đều có thể
là khóa công khai. Nếu khóa mã hóa của tôi được công
khai, thì người có thể gửi tôi thông điệp biết rằng không
ai khác có thể đọc được chúng (riêng tư). Nếu khóa giải
mã của tôi công khai, sau đó tôi có thể gửi thông điệp
thì thông điệp này phải chắc chắn là đến từ tôi (chứng
Trang 47 / 62
thực). Cả hai đều là chức năng có giá trị đối với các mục
đích khác nhau. Chi tiết về các mã hóa hiện đại đã được
cung cấp rất rộng rãi; xem thêm thí dụ của Stinson (1995)
hay Delfs và Knebl (2002).
Mật mã cũng có các công dụng khác:
- Toàn vẹn thông điệp. Nếu khóa mã hóa là riêng tư,
không một ai ngoại trừ người gửi có thể thay đổi
thông điệp và vẫn gửi nó với mã đúng.
- Không thừa nhận. Nếu một thông điệp đến được mã hóa
trong khóa riêng của tôi, người nào không có khóa
thì không thể mã hóa nó. Các kiểu khác nhau của mật
mã được dùng để tạo chữ kí điện tử, chỉ có người giữ
khóa mới có thể làm cho chữ kí này có hiệu lực
(nhưng giải thuật của các mật mã có thể chạy nhanh
hơn bởi vì không cần phục hồi lại thông điệp từ chữ
kí)
- Tiền được mã hóa. Ngân hàng có thể gửi các mã thay
cho tiền, các mã này sẽ được qui lại bằng tiền sau
đó. Một lần nữa, không bộ phận nào ngoại trừ ngân
hàng có thể tạo ra các mã hợp lệ, mặc dù bất kì ai
cũng có thể kiểm tra mã mà ngân hàng tạo ra.
Mã hóa không đồng bộ, mặc dù ưu việt, chậm hơn 10 lần so
với mã hóa bằng khóa riêng hiện nay. Có nhiều giải thuật
hay cho mã hóa bằng khóa riêng, bao gồm cả chuẩn đáng chú
ý nhất là DES (Data Encryption Stadard); những ai nghi
ngờ về độ tin cậy của NSA (National Security Agency) có
Trang 48 / 62
thể dùng các giải thuật mã hóa khác. Thậm chí trên máy
loại cũ năm 1990, hệ thống mã hóa không đồng bộ có thể mã
3Mbits trong một giây. Bởi vì mã hóa bất đồng bộ chậm
hơn, nên nó dùng để chuyển một “khóa phiên” được phân
tích ngẫu nhiên cho lần trao đổi của phiên kế tiếp, và
sau đó gửi nội dung trao đổi thật sự với khóa riêng mới.
Các thư viện cần quan tâm trong một số phương diện về an
ninh cho cả hai vấn đề: tôn trọng tính riêng tư của các
giao dịch của họ và cũng tôn trọng các dịch vụ có tính
phí mà thư viện dùng hay bán. Chi phí bỏ ra nhiều hơn cho
bảo mật khi có nhiều quan tâm về thương mại điện tử gia
tăng. Người ta muốn đặt hàng thông qua Internet, và để
làm điều đó họ cần được cung cấp một số thứ đại loại như
số thẩm quyền hay số thẻ tín dụng. Theo nguyên tắc, một
người muốn mã hóa các gói chứa các con số như thế để
truyền đi. Luật lệ về mã hóa đôi khi gây ra lúng túng,
nhầm lẫn và luôn thay đổi. Hoa Kì cấm xuất khẩu công nghệ
liên quan mã hóa bậc cao, nhưng lại nới lỏng các luật
được dùng để giới hạn xuất khẩu các khóa 40 bit. Ngày
nay, chiều dài khóa được cho phép trong các sản phẩm của
Hoa Kì đủ dài, phù hợp với các ứng dụng hiện hành. Chính
quyền Mỹ nhận ra sự mâu thuẫn trong các luật hiện tại cho
phép xuất khẩu công nghệ mã hóa đến các quốc gia NATO như
Hà Lan – một quốc gia không có luật cấm xuất khẩu công
nghệ này. Quốc gia thuộc khối NATO khác có thể có luật
thậm chí còn khắc khe hơn Hoa Kì, và ở Pháp bất kì các
Trang 49 / 62
ứng dụng phi chính phủ sử dụng mật mã đều không hợp pháp.
Quan trọng nhất và trở nên rất rõ ràng là luật lệ về mật
mã của Hoa Kì đã vô nghĩa, khi nền công nghiệp chuyển
dịch sang các quốc gia như Filand hay Switzerland.
Một biến thể của mã hóa là vấn đề các tài liệu điện tử có
chứng thực và xác định ngày tháng. Một thông điệp điện tử
thiếu các thuộc tính vật lý mà các thuộc tính này có thể
làm cho chúng được xác định ngày gửi, và dĩ nhiên bất kì
thông tin về ngày được hiển thị đều có thể sửa được. Kết
quả là việc thiết lập các quyền ưu tiên và ghi ngày cho
các tin nhắn điện tử là như thế nào thì chưa rõ. Một số
tổ chức chính phủ đòi tài liệu in ấn thay vì các tài liệu
điện tử để chắc chắn về ngày gửi. Vấn đề về ghi ngày
tháng được Scott Stornetta và Stuart Haber của Bellcore
giải quyết khi họ phát minh mộc thời gian số như một cách
vận dụng hệ thống công chứng viên điện tử tuyệt đối an
toàn.
Các giải thuật của chúng làm cho nó trở nên khả thi đối
với một số người thao tác hệ thống công chứng điện tử,
điều này cản trở việc tham nhũng. Trong một hệ thống công
chứng quá đơn giản, khách hàng gửi thông điệp điều hành
và người điều hành ghi ngày trên các thông điệp và kí
điện tử vào các thông điệp. Tuy nhiên, nó bỏ qua khả năng
có thể hối lộ để ghi ngày sai trên thông điệp. Những gì
Stornetta và Habler nhận ra là tính không trung thực của
hệ thống điều hành có thể được ngăn chặn nếu mỗi chứng
Trang 50 / 62
nhận của công chứng được liên kết đến các chứng nhận được
phát hành trước và sau.
Ý tưởng cơ bản là khách hàng đưa các mã được qua giải
thuật băm cho tài liệu mà họ muốn chứng thực, sử dụng một
hàm băm một chiều. Công chứng viên thêm vào ngày, chạy
qua lại giải thuật băm, và gửi lại một chuỗi đã băm.
Nhưng giải thuật băm mới thì không chỉ dựa trên ngày và
trên mã băm từ tài liệu gốc. Thay vào đó, nó cũng bao gồm
các mã băm của các tài liệu trước được gửi và tài liệu
gửi lần kế tiếp. Để đánh lừa, nó cần không những tạo ra
mã băm giả cho khách hàng đầu tiên.
………….
6.8 Tính riêng tư
Một vấn đề bảo mật cơ bản là phương diện mà ở đó thông
tin cá nhân sẽ được tập hợp và sử dụng sai mục đích trên
mạng. Các cá nhân đối mặt với việc thu thập đầy đủ các
thông tin, một số thông tin được tập hợp rõ ràng rất hữu
ích, và một số lại mang tính đe dọa. Một số ít trong
chúng ta phản đối việc các trang web về thời tiết yêu cầu
chúng ta nhập vào nơi chúng ta đang sống và trang này
ngay lập tức sẽ hiển thị dự báo thời tiết có liên quan
đến ngay địa phương của chúng ta đang ở. Mặc khác, đa số
trong chúng ta phản đối việc các trang khiêu dâm cố tình
mua danh sách các nam sinh trường trung học phổ thông để
các trang này gửi quảng cáo đến các em. Lĩnh vực này còn
Trang 51 / 62
quá mới đến nỗi mà còn quá ít các quy định của luật pháp
cũng như là các tiêu chí triển khai thực hiện. Một số vấn
đề cần được xem xét như:
- Thông tin được lưu trữ ở đâu?
- Thông tin có nên nhận biết được cá nhân không?
- Các mẫu tin nên được lưu đến bao lâu?
- Đối tượng nào nên được truy xuất thông tin?
Nơi lưu trữ
Thật vậy, đối với các trang dự báo thời tiết không thật
sự sưu tập và lưu trữ tất cả trông tin về tôi trên trang
đó. Những gì nó làm là tạo ra một “cookie” trên chính máy
tính cá nhân của tôi. Cookies là những bit thông tin được
lưu trong một thư mục có thể được trình duyệt Web truy
xuất được. Khi các trình duyệt của tôi đi đến trang thời
tiết, các trang này sẽ truy xuất cookie của nó, cookie sẽ
cho nó biết vị trí có liên quan, và sau đó chuyển đúng
đến nơi cần được báo thời tiết. Nó không cần phải giữ
thông tin cookie bên ngoài máy tính của tôi. Mặc khác, có
tính năng để tạo ra được cookie trên máy tính, nhưng một
số người từ chối điều đó, chủ yếu do bạn ít khi biết
thông tin chỉ được lưu cục bộ hay không.
Trang 52 / 62
Một khả năng để giải quyết các lo lắng trên là sử dụng
các máy chủ “proxy”, đơn giản chỉ truyền yêu cầu của bạn
đến trang web ở xa mà không cần phải cung cấp bất kì
cookie nào. Trang web ở xa chỉ biết địa chỉ của proxy mà
không biết địa chỉ của máy người dùng cần truy xuất. Một
máy proxy được cấu hình theo mục đích riêng, nếu bạn tin
tưởng, có thể giữ lại cookie của bạn và chuyển thông tin
đúng đến trang web thời tiết, thậm chí trong trường hợp
mất kết nối với máy tính của bạn.
Định danh cá nhân
Trang 53 / 62
Thông thường, một máy tính để bàn không cần phải khai báo
với trang web người sở hữu nó. Theo nguyên tắc, tên sở
hữu máy không nên lưu bất kì đâu trong máy tính. Tuy
nhiên, trong thực tế, mọi người muốn biết tên của người
dùng. Khi một máy tính được cài đặt, nhà cung cấp hầu hết
đều yêu cầu người dùng nhập vào tên của người dùng như là
một cách để đăng kí dịch vụ đảm bảo. Nhiều trang, thậm
chí những trang miễn phí, yêu cầu người dùng đăng kí, để
gửi cả quảng cáo hay để tập hợp thông tin nhân khẩu về
người dùng của họ để gây hấp dẫn cho người quảng cáo. Tuy
nhiên, một lượng lớn người dùng được yêu cầu đăng kí đều
từ chối (đối với một số trang lên đến 80%); và thay vì
trả lời các thông tin mà trang web yêu cầu, họ đã không
truy cập trang này nữa.
Một hệ thống thu thập tiền từ người dùng của nó tiếp tục
phải thu thập thông tin cá nhân. Chúng tôi không có bất
kì cách ẩn danh để thanh toán trực tuyến với bất kì sự
chấp nhận chung chung nào, vì thế cách thanh toán thông
thường là thẻ tín dụng có sẵn tên và địa chỉ. Ngày nay,
những trang như thế thường có “các chính sách cá nhân”,
nhưng các chính sách này được trình bày theo mẫu với dạng
một cửa sổ văn bản dài với mong muốn là bạn đọc và sau đó
bạn chấp nhận bằng cái nhấp chuột. Rất hiếm khi người
dùng đọc toàn bộ cửa sổ, và thậm chí người dùng càng hiếm
khi lưu ý đoạn “chúng tôi có thể chia sẻ thông tin của
bạn với những đối tác kinh doanh của chúng tôi” ngụ ý họ
Trang 54 / 62
có quyền được bán tên đăng nhập của bạn cho bất kì ai có
quan tâm.
Liên minh Châu Âu có hệ thống thuật lệ nghiêm khắc hơn
đối với việc sưu tập thông tin cá nhân hơn ở Mỹ. Năm
1998, một “chỉ thị” của người Châu Âu (không hẳn là luật,
nhưng một số đã trở thành luật trong vòng ba năm) được
ban hành, thí dụ, tất cả các cơ sở dữ liệu chứa thông tin
cá nhân phải được cung cấp cho tất cả các cá nhân đó theo
cách phải gồm cả việc đọc và sửa các mục thông tin của
họ. Một số dữ liệu (như tôn giáo hay niềm tin chính trị)
có thể không cần thu thập. Các qui tắc khác lại nghiêm
cấm việc bán dữ liệu ra thị trường. Thảo luận đáng lưu
tâm đã diễn ra về các qui tắc này đặt trong bối cảnh thế
giới; bất kì ai bị ảnh hưởng nên hỏi ý kiến luật sư. Và
như thế, ít nhất, Mỹ đã không ban hành các luật lệ tương
tự vậy, bất chấp áp lực từ Châu Âu đã làm điều đó.
Thời gian sống của các mẫu tin
Một số tổ chức mong muốn giữ lại các mẫu tin, một số cá
nhân lại nghĩa rằng sau một khoảng thời gian họ quên
những điều đã làm trong quá khứ. Một lần một giao dịch
hoàn tất, thì một mẫu tin của giao dịch đó nên được giữ
bao lâu? Về công tác tài chính, cho thí dụ, một người bán
rõ ràng nên giữ thông tin đủ lâu vì còn liên quan đến
việc trả hàng, đổi hàng, các yêu cầu bảo hành, các vấn đề
thuế và những vấn đề tương tự. Cũng như thế, thư viện nên
giữ các mẫu tin về sách được mượn, ít nhất là đến khi
Trang 55 / 62
chúng được trả lại. Nhưng nên chăng các mẫu tin được giữ
sau khi nhu cầu thiết thực liên quan đến chúng đã không
còn nữa? Một số thông tin dường như hoàn toàn nhất thời,
ví dụ như số lượng các kết quả trong một lần tìm trên web
của tôi hay các mẫu tin của một lần hiển thị web. Một bộ
máy tìm kiếm cần giữ các mẫu tin của tôi trong lần tìm
kiếm trước bao lâu? Khoảng thời gian thích hợp cho tên
của tôi lưu trong danh sách email của người khác là bao
nhiêu?
Một lần nữa, không có một chuẩn thống nhất cho bất kì vấn
đề nào nói trên. Hầu hết những người thu thập thông tin
đều muốn giữ dữ liệu mãi mãi. Tôi đã kiểm tra hàng tá
cookies trên máy tính duyệt web của tôi, và hầu hết hiệu
lực sử dụng của chúng còn rất nhiều năm nữa. Tôi cũng sẽ
rất tán đồng với The New York Times và eBay nếu các tờ
báo này chỉ đưa ra ngày hết hiệu lực trong thời gian ngắn
(một vài ngày).
Ai nên được thấy các mẫu tin?
Đây là câu hỏi rộng nhất và phức tạp nhất. Phương pháp cơ
bản nhất ở Mỹ là yêu cầu người dùng được cho biết chính
sách riêng của mỗi trang web, và hầu hết các trang trả
lời bằng cách gửi các câu trả lời hợp lệ đã soạn sẵn
nhưng lại cực kì chung chung đại thể là trao cho họ thẩm
quyền để bán lại các tên truy cập và địa chỉ. Người Châu
Âu có một vấn đề giống như thế dù cho luật lệ của cùng
vấn đề quan tâm có nghiêm ngặt hơn. Người dùng mong rằng
Trang 56 / 62
chỉ những người xem thông tin cá nhân của họ là những
người ở phương diện nào đó có thể giúp họ, như khi một
bệnh nhân đồng tình rằng bác sĩ chính của anh ấy có thể
gửi những mẫu tin thuốc đến nhà chuyên khoa. Nhưng hiếm
khi chúng ta biết rằng những gì sử dụng là được tạo từ
mẫu tin nào và do ai. Nhiều gia đình có thẻ khách hàng
thân thiết hay các thẻ câu lạc bộ với siêu thị tại địa
phương, cho phép siêu thị lưu lại thông tin về mọi hàng
hóa đã mua. Vì thế, nói chung hiệu quả của những thẻ này
là trao cho người chủ thẻ thi thoảng có một đồng giảm giá
cho mỗi cân cá, người ta có khuynh hướng nghĩ về các thẻ
này vô hại. Nếu họ bất thình lình tìm ra các công ty bảo
hiểm y tế phàn nàn rằng họ đã mua quá nhiều thuốc hay sô
cô la, thì rất có thể họ sẽ có một cách nghĩ khác. Có một
số vụ căng-đan bị xì ra liên quan đến việc nhà thuốc bán
danh sách những người nào, dựa trên các lần mua thuốc của
họ, hầu như đã phải chịu đựng hoàn cảnh bệnh tật dựa trên
các loại thuốc mà họ đã mua.
Danh sách các mẫu tin này có thể được quan tâm và tiếp
tục quan tâm. Trong suốt thời kì chống cộng điên cuồng
của Mác Cát – Thi vào những năm 1950, FBI cố gắng tìm ra
người nào đã chắc chắn mượn những quyển sách từ thư viện,
và các thư viện đã đề ra một nguyên tắc là các mẫu tin về
sách mượn nên được giữ kín. Trong lúc các vụ việc của
Robert Bork xảy ra, một tờ báo đã xuất bản các mẫu tin về
băng video mà anh ta đã thuê, và kết quả là các mẫu tin
Trang 57 / 62
này ngày nay vẫn không được công bố. Trong khi vụ căng-
đan của Monica Lewinsky xảy ra, một số người đã tham gia
để tìm những quyển sách nào mà cô ấy đã mua tại
Kramerbooks ở Washington DC. Một số trong các nỗ lực này
thật sự là một chuyện khôi hài đối với người ngoài cuộc:
có xứng đáng không để xuất bản những cái mà Bork đã thuê
Marc Brother một bộ phim, ví dụ như A Day at the Races? Nhưng
tôi biết có những người sẽ không lắp thiết bị trả tiền
phí đi đường điện tử cho xe hơi của họ vì sợ rằng họ sẽ
nhận các thẻ quá tốc độ tự động; và mẫu tin của các thiết
bị như thế có thể được dùng để xác định bao nhiêu ngày
trong một năm có những ai đã phải trả tiền phí giao thông
ở những bang nào.
Cũng có những mối lo âu về các hoạt động đáng phải lưu
tâm như
Một công ty đã hứa không tiết lộ các mẫu tin khách hàng
của mình khi phá sản, và người chủ nợ lại muốn có danh
sách khách hàng như một tài sản của công ty. Các chính
sách cá nhân nhìn chung sẽ không ngăn người kiện khỏi
việc các mẫu tin thu lại được kèm với trát hầu tòa hay
các câu hỏi có liên quan đến phát hiện bị vi phạm của
người đi kiện, mặc dù quyền của họ đối với mẫu tin bị
giới hạn ở một mức độ nhất định. Chỉ có câu trả lời chắc
chắn là hủy bỏ các mẫu tin khi nó không còn cần thiết,
đây là một điều lạ lẫm đối với cán bộ thư viện hay các
chuyên viên lưu trữ đã từng làm, nhưng ngày nay chính
Trang 58 / 62
sách của một số hệ thống thư viện cũng đã thay đổi nhưng
ít nhất phải quan tâm đến các mẫu tin về sách mượn. Thí
dụ, thư viện xã hội New York vẫn còn lưu các mẫu tin về
chi tiết của quyển sách Herma Melville (tác giả của Moby
Dick) đã mượn từ thế kỉ thứ XIX; các học giả văn chương
sau này sẽ bị thất vọng vì họ không tìm được các mẫu tin
tương ứng cho các nhà văn hiện nay. Nếu một tác giả hiện
tại mượn một quyển sách từ một thư viện công cộng, họ rất
có thể sẽ bỏ các mẫu tin lưu hành vì lo sợ; nếu tác giả
có được các quyển sách này từ trang một trang thương mại
Gần nhất, vụ 11/9 đã trở thành mối lo lắng của chính phủ
truy xuất ngày càng nhiều các mẫu tin. Từ viết tắt như
TIA (“total information awareness”- nhận biết về thông
tin toàn diện) được dùng để mô tả các hệ thống này (giả
thuyết) sẽ giúp tôn trọng luật pháp bằng cách tập hợp một
lượng lớn thông tin về mỗi người. Các hệ thống báo hiệu
cho mọi người nên được nghiên cứu cẩn thận trước khi hạ
cánh chuyến bay dĩ nhiên là được giữ bí mật, nhưng cũng
dấy nên lo sợ trong những tự do. Người ta tin rằng có các
hệ thống có các tên như Echelon và Carnivore có thể cho
chính phủ lắng nghe các cuộc điện thoại và xâm nhập vào
thư điện tử (dĩ nhiên, cả hai loại này có thể là các
huyền thoại). Nhiều người vui mừng khi NSA nghe Osama bin
Laden nhưng lo lắng họ cũng bị nghe như thế. Các cơ sở dữ
liệu cá nhân của các cơ quan chính phủ thì không được
phối hợp cùng nhau, có sự căng thẳng giữa tính cá nhân,
Trang 59 / 62
sức ép của luật pháp, và tiềm năng công nghệ trong các
bước tạo ra để nối kết chúng.
Về cơ bản, chúng tôi có hàng trăm năm kinh nghiệm để dẫn
dắt chúng tôi trong việc thao tác với thông tin truyền
thống. Chúng tôi mong các thư viết trên giấy của chúng
tôi không bị mở, và chúng tôi biết cảnh sát cần đảm bảo
trong việc khám nhà của chúng tôi. Chúng tôi không có
tiền lệ như thế cho các hệ thống máy tính đã được phát
minh một vài tháng trước đây, và chúng tôi không hiểu rõ
về những gì chúng tôi sẽ được hay mất bằng cách chấp nhận
nguyên tắc này hay nguyên tắc khác.
6.9 Tóm tắt
Chương này đã ôn lại cách thông tin được truyền. Phân
phối thông tin theo cách vật lý càng càng lùi vào dĩ
vãng, trong khi việc truyền thông tin qua mạng máy tính
khắp nơi trên thế giới thì ngày càng mạnh. Internet và
World Wide Web, nói riêng, cung cấp các chuẩn được chấp
nhận rộng rãi trong truy xuất thông tin. Qua đó có các
vấn đề chính bị lộ ra thông qua việc truy xuất là thiếu
bảo mật và thiếu các hệ phương pháp thanh toán. Công nghệ
cơ bản tồn tại để xử lý nhiều các vấn đề an toàn bảo mật;
chưa tồn tại một phương thức chuẩn cho việc chi trả các
phân phối điện tử. Vấn đề là công nghệ có thể cung cấp cơ
chế thanh toán chưa được không tập hợp; vấn đề là việc
quyết định những gì nên và sẽ được quản lý, giám sát như
thế nào. Điều này sẽ được thảo luận sau ở chương 9.