Makalah arsip web
Transcript of Makalah arsip web
ARSIP WEB NASIONAL
http://arsipweb.pnri.go.id/wayback/
Pendekatan Sistemik Pada Repositori
Nasional Arsip Web1
Joko Santoso2
A. Latar Belakang dan Masalah
Di era informasi sekarang ini web dan internet telah
menjadi sumber informasi utama bagi seluruh aspek kehidupan
masyarakat. Banyaknya jaringan global ini pada tahun 2003
diperkirakan mendekati 600 ribu terabytes (1 trabyte = 1024
gigabyte ), sekarang mungkin jumlahnya sudah meningkat
lebih dari 10 kali lipat.
Berdasarkan statistik Asosiasi Perusahaan Jasa Internet
Indonesia (APJI) tahun 2007 Pertumbuhan jumlah domain baru
yang terdaftar di ID-TLD menunjukkan peningkatan yang cukup
tinggi. Akan tetapi pada tahun 2001 terdapat penurunan dari
jumlah domain baru dibanding dengan tahun 2000.
Tabel 1. Jumlah Domain Baru ID-TLD
Tahu
n
Domain
Baru
Total
Domain
1 Makalah disampaikan pada Sosialisasi Grand Design e-Library, Pontianak, 15 Oktober 2010. 2 Kepala Sub Bidang Otomasi, email: [email protected], HP 081315469637. 1 | makalah sosialisasi grand design e-library
1998 1.479 1.479
1999 2.126 3.605
2000 4.109 7.714
2001 3.433 11.147
2002 3.146 14.293
2003 3.628 17.921
2004 3.841 21.762
(Sumber: www.idnic.net.id, s/d Akhir 2004)
Dari sudut pandang preservasi digital atau pengarsipan
digital content, maka internet merupakan sumber informasi
yang luar biasa. Maknanya, dari sekian banyak web yang ada
saat ini pasti banyak yang perlu dilestarikan. Hal ini
mengingat bahwa akses terhadap materi informasi yang
ditampilkan melalui web senantiasa dalam ancaman kepunahan.
Kefanaan ini disebabkan oleh dinamika informasi di dalam
web site berikut perubahan teknologi komputer yang
diperlukan untuk tetap bisa mengakses atau menggunakan
informasi tersebut. Ketergantungan terhadap perangkat keras
dan perangkat lunak tertentu, dapat pula menyebabkan
materi web tersebut tidak bermanfaat lagi karena dukungan
teknologinya yang sudah kadaluarsa.
Solusi preservasi untuk materi web masih terus berkembang.
Saat ini, belum ada pendekatan solusi preservasi yang
diterima sebagai standar secara global untuk menjamin
materi web tersebut tetap dapat dimanfaatkan dalam jangka
panjang. Meskipun begitu, ada langkah-langkah yang bisa
2 | makalah sosialisasi grand design e-library
dikerjakan sekarang untuk menjamin materi-materi web
tersebut terorganisir secara tepat, terdokumentasi dan
terkelola untuk kebutuhan akses sewaktu-waktu. Langkah-
langkah tersebut adalah langkah awal yang menjadi tumpuan
preservasi ke depan, yang mungkin diperlukan ketika sudah
ada solusi preservasi yang bisa diterima sebagai standar
secara global.
Pembuat, penerbit web, perpustakaan dan information
repositories yang lain memiliki peran yang vital untuk
menjamin materi web dapat terus dimanfaatkan. Untuk itu,
diperlukan adanya panduan bagi mereka (misalnya akademisi,
pemerintah, dan sektor non komersil, termasuk individu)
untuk mengusahakan preservasi materi-materi publik,
misalnya makalah penelitian, artikel jurnal ilmiah, laporan
pemerintah, karya ilmiah, data statistik dalam berbagai
bentuknya misalnya plain text sampai dynamic text,
interaktif, atau materi multi media.
B. Pembahasan
Terminologi
Pengarsipan web adalah proses mengumpulkan cuplikan-cuplikan
website dan memastikan koleksi tersebut terpelihara dalam
3 | makalah sosialisasi grand design e-library
satu situs web arsip. Pengarsipan web dilaksanakan untuk
memenuhi kepentingan peneliti, sejarawan, dan publik di masa
depan.
Situs web yang diarsipkan utamanya yang memiliki content
ilmiah atau mengemukakan sisi intelektualitas suatu objek
yang dikemukakan melalui media situs web. Dengan pengarsipan
content web ini dimungkinkan peneliti dan kalangan lain
dapat memanfaatkan sumber-sumber informasi penting yang
tertuang dalam berbagai situs web di Indonesia.
Pendekatan
Upaya mengarsipkan web dapat menggunakan tiga pendekatan,
yaitu:
1. Domain Spesifik: Perpustakaan digital atau badan serupa
yang melakukan pengarsipan situs berdasarkan domain.
Dalam hal ini ialah semua situs web yang alamatnya
berakhiran dengan ekstensi “.id”, atau yang yang
termasuk dalam katagori internet di Indonesia, dihimpun
untuk dijadikan arsip;
2. Selective approach: mengumpulkan dan menyediakan akses
jangka panjang ke beberapa publikasi dan situs web
terpilih tentang subyek yang dianggap penting serta
relevan bagi Indonesia dan yang dibuat oleh orang
Indonesia;
3. Topik Spesifik: dikenal juga dengan penedekatan tematis,
menghimpun situs sesuai topik atau tema tertentu, seperti
pemilihan umum, objek pariwisata dan sebagainya.
4 | makalah sosialisasi grand design e-library
Dapat dilakukan pula pendekatan yang masih eksperimental
berdasarkan legalitas formal, yakni dengan secara langsung
mengaitkan web archiving dengan undang undang deposit.
Tujuan
Tujuan dari pembuatan sistem web archiving adalah:
a.Membangun database Arsip Situs Web Nasional yang dianggap
perlu (web pendidikan, karya ilmiah, kesenian
tradisional dan lain-lain);
b.Membangun aplikasi crawler engine untuk mengarsip web
lingkup nasional yang dianggap perlu (web pendidikan,
karya ilmiah, kesenian tradisional dan lain-lain);
c.Mengembangkan metadata arsip web atau pengindekan agar
memudahkan dalam temu kembali informasi;
d.Menyediakan aplikasi search engine yang bersifat open access
untuk menemukan kembali arsip web yang pernah
dipublikasikan.
Sasaran
Dengan adanya sistem web archiving ini, diharapkan:
a.Tersedianya database Arsip Web Nasional yang bernilai
pendidikan, ilmiah dan budaya bangsa, politik, ekonomi,
kesehatan, dan lain sebagainya yang dipublikasikan di
Indonesia atau tentang Indonesia;
b.Menyediakan sarana temu kembali obyek kepustakaan yang
berupa web nasional; 5 | makalah sosialisasi grand design e-library
c.Pembelajaran dalam mengelola arsip web secara nasional.
Konsep Dasar Web Archiving
Materi digital, world wide web dan internet saat ini
menjadi pusat dan bagian esensial sumber informasi
dunia. Kebanyakan perpustakaan nasional dan institusi-
institusi koleksi yang lain menyadari bahwa mereka memiliki
peran untuk menjaga, setidaknya sebagian kecil dari materi
global tersebut untuk tetap bisa digunakan oleh generasi
mendatang. Peran tersebut disadari sebagai sebuah tanggung
jawab untuk menjaga data-data usaha-usaha dan pencapaian
umat manusia, yang meskipun sangat berat, dapat terwujud
dengan usaha yang sungguh-sungguh.
Ada beberapa hal yang perlu diperhatikan dalam melaksanakan
preservasi digital yaitu:
a. Institusi yang akan melakukan archiving web harus
meminta ijin kepada pemilik konten yang akan disimpan
untuk proses pengumpulan, penggandaan, pemeliharaan dan
pemberian akses ke materi yang telah dikumpulkan
tersebut.
b. Tidak semua materi digital harus disimpan, hanya yang
dianggap berharga yang layak dilestarikan.
c. Mengelola materi digital melibatkan assessment dan
manajemen resiko serta pengambilan keputusan mengenai
level toleransi keberhasilan penyimpanan konten.
d. Kolaborasi seringkali lebih menghemat biaya untuk
membangun program preservasi digital karena bisa
6 | makalah sosialisasi grand design e-library
meliputi cakupan yang lebih luas, dan dukungan tenaga
ahli dari pihak-pihak yang terlibat.
Proses Utama
Proses utama dari web archiving bisa dikelompokkan dalam
tiga hal berikut:
a. Memilih dan mengumpulkan materi digital yang dianggap
berharga dan harus disimpan.
b. Mengorganisasi materi yang dikumpulkan untuk
memfasilitasi pengelolaan dan aksesnya.
c. Mengimplementasikan sebuah program preservasi digital
(atau manajemen data) untuk menghadapi kendala terhadap
materi digital yang disebabkan perubahan software dan
ketergantungan teknologi.
Mengelola materi web jangka panjang
Pengelolaan pranala materi-materi web secara esensial
adalah suatu manajemen yang baik. Hal tersebut meliputi
perencanaan ke depan langkah-langkah untuk menghindari
pembuangan materi atau pemindahan dokumen dari situs web.
Panduan berikut dapat menuntun kebijakan pengelolaan data
untuk situs web sehingga dapat terwujud preservasi materi
web jangka panjang.
1. Menentukan karakteristik dokumen
Kategori dokumen yang memerlukan ketersediaan jangka
panjang meliputi:
7 | makalah sosialisasi grand design e-library
a. Informasi yang akan terus dipakai dalam jangka waktu
yang lama;
b. Materi-materi yang terhubung ke materi lain;
c. Materi-materi yang ditandai (bookmark) oleh banyak
orang.
Ada dua tipe dokumen yang bisa dimanfaatkan dalam jangka
panjang yaitu:
a. Materi statik. Materi statik termasuk dokumen-dokumen
yang memiliki versi definitif dan tidak akan diubah,
misalnya dokumen kebijakan, laporan tahunan, makalah
konferensi, atau semua dokumen yang merefleksikan
hal-hal pada periode saat dokumen tersebut dibuat.
b. Materi dinamik. Materi dinamik adalah dokumen-dokumen
yang senantiasa dapat berubah, baik perubahan
inkremental karena penambahan isi dokumen, atau
perubahan karena modifikasi, menghapus, atau
menyisipkan isi ke dalam dokumen. Materi tersebut
dapat juga berupa dokumen arsip atau materi
sementara. Kategori dokumen arsip meliputi materi-
materi yang diinginkan untuk disimpan dan dapat
diakses dalam jangka waktu yang lama. Kategori
sementara meliputi misalnya ‘berita terbaru’, ‘trend
saat ini’ , informasi kontak person dan lain-lain.
2.Mengelola pranala aktif
Ada beberapa cara untuk mengelola materi untuk tetap
aktif. Cara tersebut terbagi dalam 3 kelompok besar:
8 | makalah sosialisasi grand design e-library
a. Menggunakan sistem identifikasi jangka panjang.
Kebanyakan materi yang saat ini ada di world wide web
dideskripsikan menggunakan Uniform Resource Locator
(URL). URL, sebagaimana biasanya digunakan,
mendeskripsikan sebuah materi dalam format lokasinya
terkini;
b. Mengelola web site untuk mengurangi kebutuhan
pemindahan material;
c. Menjaga materi yang sudah lama untuk tetap dapat
diakses meskipun sudah tidak dalam halaman utama web
site.
Ada beberapa pilihan untuk menerapkan strategi sistem
identifikasi jangka panjang yaitu:
a. Penggunaan redirect, untuk memandu pengguna menemukan
lokasi terkini dari materi web yang sudah obsolete.
b. Menggunakan resolver database, untuk memetakan nama-
nama materi web yang sudah obsolete ke lokasinya saat
ini.
c. Menggunakan jasa sistem identifikasi jangka panjang
yang ditawarkan oleh pihak-pihak lain, misalnya DOI
(Digital Object Identifier) atau Handle System, atau
PURL (Persistent Uniform Resource Locators) service
yang ditawarkan oleh OCLC (online Computer Library
Center).
Infrastruktur Web Archiving
9 | makalah sosialisasi grand design e-library
Infrastruktur web archiving dapat digambarkan secara umum
sebagai berikut:
Gambar 1. Infrastruktur Arsip Web
Ada 5 komponen utama dalam sebuah sistem web archive.
Komponen-komponen itu adalah sebagai berikut:
10 | makalah sosialisasi grand design e-library
1. Indexer. Berfungsi untuk melakukan pengindekan web site
yang dipilih untuk di arsip oleh Perpustakaan Nasional
RI, dalam hal ini bisa berupa web pendidikan, karya
ilmiah, budaya tradisional dan lain-lain;
2. Crawler (Search). Berfungsi melakukan penelusuran terhadap
web site yang ada dalam indexer, seolah-olah sebagai user
yang sedang menelusuri web-web tersebut.
3. Ingest. Berfungsi untuk melakukan panjadwalan, misalnya
kapan saja sebuah web harus di crawl, kapan saja sistem
harus melakukan indexing, menyimpan file log,
mendefinisikan aturan-aturan sistem, misalnya berapa hop
dalam setiap web site yang harus di crawl, dan apakah hop
tersebut hanya di dalam main site atau termasuk hop di
luar main site.
4. Storage. Berfungsi sebagai penyimpan hasil crawl, termasuk
modul content management untuk hasil crawl, misalnya
pengklasifikasian berdasarkan topik web site, penyimpanan
berdasarkan waktu crawl tiap-tiap site, dll.
5. Web Archive. Berfungsi sebagai arsip yang bisa diakses oleh
user, sesuai aturan-aturan yang telah ditetapkan dalam
content management.
Bagian yang dilingkari dengan garis putus-putus adalah
bagian interface dengan user. Bagian ini dikembangkan
dengan menggunakan sistem 3 tier yang terhubung dengan
komponen storage pada sistem web archive.
Hubungan antara interface ini dengan user dapat digambarkan
sebagai berikut:
11 | makalah sosialisasi grand design e-library
Web server menggunakan fitur “xml” untuk terhubung ke dalam
database archive koleksi dan meneruskannya ke user sebagai
respon dari request user saat mengakses aplikas web archive
publisher menggunakan browser yang kompatibel.
13 | makalah sosialisasi grand design e-library
Gambar 3. Sistem Pengarsipan Web
Sistem Web Archiving yang akan dikembangkan memanfaatkan
sistem-sistem yang telah dikembangkan oleh praktisi-
praktisi international dalam bidang web archiving. Sistem
tersebut antara lain:
1. Web Curator Tool sebagai tool untuk mengelola proses web
harvesting
2. HERITRIX sebagai tool untuk melakukan download material
web.
3. Nutchwax sebagai tool untuk indexing
4. Wayback Machine sebagai tool untuk navigasi terhadap web-
web yang telah diarsip dalam web archiving dan sebagai
sarana untuk menampilkan kembali web-web yang telah
diharvest.
Kemampuan Web Curator Tool adalah sebagai berikut:
a. Harvest Authorisation, yang berfungsi untuk meminta ijin
melakukan web harvesting kepada pemilik web yang akan
diarsip oleh Perpustakaan Nasional RI.
b. Selection, Scoping, and Scheduling, yang berfungsi untuk
mengatur apa saja yang akan termasuk dalam proses
14 | makalah sosialisasi grand design e-library
SP
SPRING Application Framework
Apache Axis
HIBERNATE data connectivity
WEB CURATOR TOOL
QUARTZ (scheduling)HERITRIX (harvesting)Acegi Security System
Wayback machine
harvesting, kapan proses harvesting dijalankan dan
seberapa sering proses harvesting dijalankan.
c. Harvesting, yang berfungsi untuk mendownload materi web
yang telah dipilih sesuai jadwal, dengan menggunakan
HERITRIX web harvester yang dipasang pada beberapa mesin.
d. Quality Review, yang berfungsi untuk memastikan bahwa
proses harvesting berjalan sesuai dengan yang
direncanakan, dan fitur koreksi jika ada kesalahan pada
proses harvesting.
e. Submitting, yang berfungsi menyimpan hasil proses
harvesting ke dalam sebuah arsip digital.
Struktur Sistem Web Archiving
Gambar 4. Struktur Sistem Pengarsipan Web
15 | makalah sosialisasi grand design e-library
C. Penutup
Pengarsipan web merupakan salah satu bagian dari Portal Web
Perpustakaan Digital Nasional RI. Pengarsipan web adalah
proses mengumpulkan cuplikan-cuplikan website dan memastikan
koleksi tersebut terpelihara dalam satu situs web arsip.
Pengarsipan web dilaksanakan untuk memenuhi kepentingan
peneliti, sejarawan, dan publik di masa depan.
Situs web yang diarsipkan utamanya yang memiliki content
ilmiah atau mengemukakan sisi intelektualitas suatu objek
yang dikemukakan melalui media situs web. Dengan pengarsipan
content web ini dimungkinkan peneliti dan kalangan lain
dapat memanfaatkan sumber-sumber informasi penting yang
tertuang dalam berbagai situs web di Indonesia.
Pangkalan data Arsip Web Nasional dapat diakses secara
online di http://arsipweb.pnri.go.id/wayback/. Halaman muka
portal web nampak sebagai berikut.
Gambar 5. Halaman Antarmuka Portal Web Arsip Web Nasional
16 | makalah sosialisasi grand design e-library