Makalah arsip web

17
ARSIP WEB NASIONAL http://arsipweb.pnri.go.id/wayback/ Pendekatan Sistemik Pada Repositori Nasional Arsip Web 1 Joko Santoso 2 A. Latar Belakang dan Masalah Di era informasi sekarang ini web dan internet telah menjadi sumber informasi utama bagi seluruh aspek kehidupan masyarakat. Banyaknya jaringan global ini pada tahun 2003 diperkirakan mendekati 600 ribu terabytes (1 trabyte = 1024 gigabyte ), sekarang mungkin jumlahnya sudah meningkat lebih dari 10 kali lipat. Berdasarkan statistik Asosiasi Perusahaan Jasa Internet Indonesia (APJI) tahun 2007 Pertumbuhan jumlah domain baru yang terdaftar di ID-TLD menunjukkan peningkatan yang cukup tinggi. Akan tetapi pada tahun 2001 terdapat penurunan dari jumlah domain baru dibanding dengan tahun 2000. Tabel 1. Jumlah Domain Baru ID-TLD Tahu n Domain Baru Total Domain 1 Makalah disampaikan pada Sosialisasi Grand Design e-Library, Pontianak, 15 Oktober 2010. 2 Kepala Sub Bidang Otomasi, email: [email protected] , HP 081315469637. 1 | makalah sosialisasi grand design e-library

Transcript of Makalah arsip web

ARSIP WEB NASIONAL

http://arsipweb.pnri.go.id/wayback/

Pendekatan Sistemik Pada Repositori

Nasional Arsip Web1

Joko Santoso2

A. Latar Belakang dan Masalah

Di era informasi sekarang ini web dan internet telah

menjadi sumber informasi utama bagi seluruh aspek kehidupan

masyarakat. Banyaknya jaringan global ini pada tahun 2003

diperkirakan mendekati 600 ribu terabytes (1 trabyte = 1024

gigabyte ), sekarang mungkin jumlahnya sudah meningkat

lebih dari 10 kali lipat.

Berdasarkan statistik Asosiasi Perusahaan Jasa Internet

Indonesia (APJI) tahun 2007 Pertumbuhan jumlah domain baru

yang terdaftar di ID-TLD menunjukkan peningkatan yang cukup

tinggi. Akan tetapi pada tahun 2001 terdapat penurunan dari

jumlah domain baru dibanding dengan tahun 2000.

Tabel 1. Jumlah Domain Baru ID-TLD

Tahu

n

Domain

Baru

Total

Domain

1 Makalah disampaikan pada Sosialisasi Grand Design e-Library, Pontianak, 15 Oktober 2010. 2 Kepala Sub Bidang Otomasi, email: [email protected], HP 081315469637. 1 | makalah sosialisasi grand design e-library

1998 1.479 1.479

1999 2.126 3.605

2000 4.109 7.714

2001 3.433 11.147

2002 3.146 14.293

2003 3.628 17.921

2004 3.841 21.762

(Sumber: www.idnic.net.id, s/d Akhir 2004)

Dari sudut pandang preservasi digital atau pengarsipan

digital content, maka internet merupakan sumber informasi

yang luar biasa. Maknanya, dari sekian banyak web yang ada

saat ini pasti banyak yang perlu dilestarikan. Hal ini

mengingat bahwa akses terhadap materi informasi yang

ditampilkan melalui web senantiasa dalam ancaman kepunahan.

Kefanaan ini disebabkan oleh dinamika informasi di dalam

web site berikut perubahan teknologi komputer yang

diperlukan untuk tetap bisa mengakses atau menggunakan

informasi tersebut. Ketergantungan terhadap perangkat keras

dan perangkat lunak tertentu, dapat pula menyebabkan

materi web tersebut tidak bermanfaat lagi karena dukungan

teknologinya yang sudah kadaluarsa.

Solusi preservasi untuk materi web masih terus berkembang.

Saat ini, belum ada pendekatan solusi preservasi yang

diterima sebagai standar secara global untuk menjamin

materi web tersebut tetap dapat dimanfaatkan dalam jangka

panjang. Meskipun begitu, ada langkah-langkah yang bisa

2 | makalah sosialisasi grand design e-library

dikerjakan sekarang untuk menjamin materi-materi web

tersebut terorganisir secara tepat, terdokumentasi dan

terkelola untuk kebutuhan akses sewaktu-waktu. Langkah-

langkah tersebut adalah langkah awal yang menjadi tumpuan

preservasi ke depan, yang mungkin diperlukan ketika sudah

ada solusi preservasi yang bisa diterima sebagai standar

secara global.

Pembuat, penerbit web, perpustakaan dan information

repositories yang lain memiliki peran yang vital untuk

menjamin materi web dapat terus dimanfaatkan. Untuk itu,

diperlukan adanya panduan bagi mereka (misalnya akademisi,

pemerintah, dan sektor non komersil, termasuk individu)

untuk mengusahakan preservasi materi-materi publik,

misalnya makalah penelitian, artikel jurnal ilmiah, laporan

pemerintah, karya ilmiah, data statistik dalam berbagai

bentuknya misalnya plain text sampai dynamic text,

interaktif, atau materi multi media.

B. Pembahasan

Terminologi

Pengarsipan web adalah proses mengumpulkan cuplikan-cuplikan

website dan memastikan koleksi tersebut terpelihara dalam

3 | makalah sosialisasi grand design e-library

satu situs web arsip. Pengarsipan web dilaksanakan untuk

memenuhi kepentingan peneliti, sejarawan, dan publik di masa

depan.

Situs web yang diarsipkan utamanya yang memiliki content

ilmiah atau mengemukakan sisi intelektualitas suatu objek

yang dikemukakan melalui media situs web. Dengan pengarsipan

content web ini dimungkinkan peneliti dan kalangan lain

dapat memanfaatkan sumber-sumber informasi penting yang

tertuang dalam berbagai situs web di Indonesia.

Pendekatan

Upaya mengarsipkan web dapat menggunakan tiga pendekatan,

yaitu:

1. Domain Spesifik: Perpustakaan digital atau badan serupa

yang melakukan pengarsipan situs berdasarkan domain.

Dalam hal ini ialah semua situs web yang alamatnya

berakhiran dengan ekstensi “.id”, atau yang yang

termasuk dalam katagori internet di Indonesia, dihimpun

untuk dijadikan arsip;

2. Selective approach: mengumpulkan dan menyediakan akses

jangka panjang ke beberapa publikasi dan situs web

terpilih tentang subyek yang dianggap penting serta

relevan bagi Indonesia dan yang dibuat oleh orang

Indonesia;

3. Topik Spesifik: dikenal juga dengan penedekatan tematis,

menghimpun situs sesuai topik atau tema tertentu, seperti

pemilihan umum, objek pariwisata dan sebagainya.

4 | makalah sosialisasi grand design e-library

Dapat dilakukan pula pendekatan yang masih eksperimental

berdasarkan legalitas formal, yakni dengan secara langsung

mengaitkan web archiving dengan undang undang deposit.

Tujuan

Tujuan dari pembuatan sistem web archiving adalah:

a.Membangun database Arsip Situs Web Nasional yang dianggap

perlu (web pendidikan, karya ilmiah, kesenian

tradisional dan lain-lain);

b.Membangun aplikasi crawler engine untuk mengarsip web

lingkup nasional yang dianggap perlu (web pendidikan,

karya ilmiah, kesenian tradisional dan lain-lain);

c.Mengembangkan metadata arsip web atau pengindekan agar

memudahkan dalam temu kembali informasi;

d.Menyediakan aplikasi search engine yang bersifat open access

untuk menemukan kembali arsip web yang pernah

dipublikasikan.

Sasaran

Dengan adanya sistem web archiving ini, diharapkan:

a.Tersedianya database Arsip Web Nasional yang bernilai

pendidikan, ilmiah dan budaya bangsa, politik, ekonomi,

kesehatan, dan lain sebagainya yang dipublikasikan di

Indonesia atau tentang Indonesia;

b.Menyediakan sarana temu kembali obyek kepustakaan yang

berupa web nasional; 5 | makalah sosialisasi grand design e-library

c.Pembelajaran dalam mengelola arsip web secara nasional.

Konsep Dasar Web Archiving

Materi digital, world wide web dan internet saat ini

menjadi pusat dan bagian esensial sumber informasi

dunia. Kebanyakan perpustakaan nasional dan institusi-

institusi koleksi yang lain menyadari bahwa mereka memiliki

peran untuk menjaga, setidaknya sebagian kecil dari materi

global tersebut untuk tetap bisa digunakan oleh generasi

mendatang. Peran tersebut disadari sebagai sebuah tanggung

jawab untuk menjaga data-data usaha-usaha dan pencapaian

umat manusia, yang meskipun sangat berat, dapat terwujud

dengan usaha yang sungguh-sungguh.

Ada beberapa hal yang perlu diperhatikan dalam melaksanakan

preservasi digital yaitu:

a. Institusi yang akan melakukan archiving web harus

meminta ijin kepada pemilik konten yang akan disimpan

untuk proses pengumpulan, penggandaan, pemeliharaan dan

pemberian akses ke materi yang telah dikumpulkan

tersebut.

b. Tidak semua materi digital harus disimpan, hanya yang

dianggap berharga yang layak dilestarikan.

c. Mengelola materi digital melibatkan assessment dan

manajemen resiko serta pengambilan keputusan mengenai

level toleransi keberhasilan penyimpanan konten.

d. Kolaborasi seringkali lebih menghemat biaya untuk

membangun program preservasi digital karena bisa

6 | makalah sosialisasi grand design e-library

meliputi cakupan yang lebih luas, dan dukungan tenaga

ahli dari pihak-pihak yang terlibat.

Proses Utama

Proses utama dari web archiving bisa dikelompokkan dalam

tiga hal berikut:

a. Memilih dan mengumpulkan materi digital yang dianggap

berharga dan harus disimpan.

b. Mengorganisasi materi yang dikumpulkan untuk

memfasilitasi pengelolaan dan aksesnya.

c. Mengimplementasikan sebuah program preservasi digital

(atau manajemen data) untuk menghadapi kendala terhadap

materi digital yang disebabkan perubahan software dan

ketergantungan teknologi.

Mengelola materi web jangka panjang

Pengelolaan pranala materi-materi web secara esensial

adalah suatu manajemen yang baik. Hal tersebut meliputi

perencanaan ke depan langkah-langkah untuk menghindari

pembuangan materi atau pemindahan dokumen dari situs web.

Panduan berikut dapat menuntun kebijakan pengelolaan data

untuk situs web sehingga dapat terwujud preservasi materi

web jangka panjang.

1. Menentukan karakteristik dokumen

Kategori dokumen yang memerlukan ketersediaan jangka

panjang meliputi:

7 | makalah sosialisasi grand design e-library

a. Informasi yang akan terus dipakai dalam jangka waktu

yang lama;

b. Materi-materi yang terhubung ke materi lain;

c. Materi-materi yang ditandai (bookmark) oleh banyak

orang.

Ada dua tipe dokumen yang bisa dimanfaatkan dalam jangka

panjang yaitu:

a. Materi statik. Materi statik termasuk dokumen-dokumen

yang memiliki versi definitif dan tidak akan diubah,

misalnya dokumen kebijakan, laporan tahunan, makalah

konferensi, atau semua dokumen yang merefleksikan

hal-hal pada periode saat dokumen tersebut dibuat.

b. Materi dinamik. Materi dinamik adalah dokumen-dokumen

yang senantiasa dapat berubah, baik perubahan

inkremental karena penambahan isi dokumen, atau

perubahan karena modifikasi, menghapus, atau

menyisipkan isi ke dalam dokumen. Materi tersebut

dapat juga berupa dokumen arsip atau materi

sementara. Kategori dokumen arsip meliputi materi-

materi yang diinginkan untuk disimpan dan dapat

diakses dalam jangka waktu yang lama. Kategori

sementara meliputi misalnya ‘berita terbaru’, ‘trend

saat ini’ , informasi kontak person dan lain-lain.

2.Mengelola pranala aktif

Ada beberapa cara untuk mengelola materi untuk tetap

aktif. Cara tersebut terbagi dalam 3 kelompok besar:

8 | makalah sosialisasi grand design e-library

a. Menggunakan sistem identifikasi jangka panjang.

Kebanyakan materi yang saat ini ada di world wide web

dideskripsikan menggunakan Uniform Resource Locator

(URL). URL, sebagaimana biasanya digunakan,

mendeskripsikan sebuah materi dalam format lokasinya

terkini;

b. Mengelola web site untuk mengurangi kebutuhan

pemindahan material;

c. Menjaga materi yang sudah lama untuk tetap dapat

diakses meskipun sudah tidak dalam halaman utama web

site.

Ada beberapa pilihan untuk menerapkan strategi sistem

identifikasi jangka panjang yaitu:

a. Penggunaan redirect, untuk memandu pengguna menemukan

lokasi terkini dari materi web yang sudah obsolete.

b. Menggunakan resolver database, untuk memetakan nama-

nama materi web yang sudah obsolete ke lokasinya saat

ini.

c. Menggunakan jasa sistem identifikasi jangka panjang

yang ditawarkan oleh pihak-pihak lain, misalnya DOI

(Digital Object Identifier) atau Handle System, atau

PURL (Persistent Uniform Resource Locators) service

yang ditawarkan oleh OCLC (online Computer Library

Center).

Infrastruktur Web Archiving

9 | makalah sosialisasi grand design e-library

Infrastruktur web archiving dapat digambarkan secara umum

sebagai berikut:

Gambar 1. Infrastruktur Arsip Web

Ada 5 komponen utama dalam sebuah sistem web archive.

Komponen-komponen itu adalah sebagai berikut:

10 | makalah sosialisasi grand design e-library

1. Indexer. Berfungsi untuk melakukan pengindekan web site

yang dipilih untuk di arsip oleh Perpustakaan Nasional

RI, dalam hal ini bisa berupa web pendidikan, karya

ilmiah, budaya tradisional dan lain-lain;

2. Crawler (Search). Berfungsi melakukan penelusuran terhadap

web site yang ada dalam indexer, seolah-olah sebagai user

yang sedang menelusuri web-web tersebut.

3. Ingest. Berfungsi untuk melakukan panjadwalan, misalnya

kapan saja sebuah web harus di crawl, kapan saja sistem

harus melakukan indexing, menyimpan file log,

mendefinisikan aturan-aturan sistem, misalnya berapa hop

dalam setiap web site yang harus di crawl, dan apakah hop

tersebut hanya di dalam main site atau termasuk hop di

luar main site.

4. Storage. Berfungsi sebagai penyimpan hasil crawl, termasuk

modul content management untuk hasil crawl, misalnya

pengklasifikasian berdasarkan topik web site, penyimpanan

berdasarkan waktu crawl tiap-tiap site, dll.

5. Web Archive. Berfungsi sebagai arsip yang bisa diakses oleh

user, sesuai aturan-aturan yang telah ditetapkan dalam

content management.

Bagian yang dilingkari dengan garis putus-putus adalah

bagian interface dengan user. Bagian ini dikembangkan

dengan menggunakan sistem 3 tier yang terhubung dengan

komponen storage pada sistem web archive.

Hubungan antara interface ini dengan user dapat digambarkan

sebagai berikut:

11 | makalah sosialisasi grand design e-library

Gambar 2. Hubungan antarmuka dengan pengguna

12 | makalah sosialisasi grand design e-library

Web server menggunakan fitur “xml” untuk terhubung ke dalam

database archive koleksi dan meneruskannya ke user sebagai

respon dari request user saat mengakses aplikas web archive

publisher menggunakan browser yang kompatibel.

13 | makalah sosialisasi grand design e-library

Gambar 3. Sistem Pengarsipan Web

Sistem Web Archiving yang akan dikembangkan memanfaatkan

sistem-sistem yang telah dikembangkan oleh praktisi-

praktisi international dalam bidang web archiving. Sistem

tersebut antara lain:

1. Web Curator Tool sebagai tool untuk mengelola proses web

harvesting

2. HERITRIX sebagai tool untuk melakukan download material

web.

3. Nutchwax sebagai tool untuk indexing

4. Wayback Machine sebagai tool untuk navigasi terhadap web-

web yang telah diarsip dalam web archiving dan sebagai

sarana untuk menampilkan kembali web-web yang telah

diharvest.

Kemampuan Web Curator Tool adalah sebagai berikut:

a. Harvest Authorisation, yang berfungsi untuk meminta ijin

melakukan web harvesting kepada pemilik web yang akan

diarsip oleh Perpustakaan Nasional RI.

b. Selection, Scoping, and Scheduling, yang berfungsi untuk

mengatur apa saja yang akan termasuk dalam proses

14 | makalah sosialisasi grand design e-library

SP

SPRING Application Framework

Apache Axis

HIBERNATE data connectivity

WEB CURATOR TOOL

QUARTZ (scheduling)HERITRIX (harvesting)Acegi Security System

Wayback machine

harvesting, kapan proses harvesting dijalankan dan

seberapa sering proses harvesting dijalankan.

c. Harvesting, yang berfungsi untuk mendownload materi web

yang telah dipilih sesuai jadwal, dengan menggunakan

HERITRIX web harvester yang dipasang pada beberapa mesin.

d. Quality Review, yang berfungsi untuk memastikan bahwa

proses harvesting berjalan sesuai dengan yang

direncanakan, dan fitur koreksi jika ada kesalahan pada

proses harvesting.

e. Submitting, yang berfungsi menyimpan hasil proses

harvesting ke dalam sebuah arsip digital.

Struktur Sistem Web Archiving

Gambar 4. Struktur Sistem Pengarsipan Web

15 | makalah sosialisasi grand design e-library

C. Penutup

Pengarsipan web merupakan salah satu bagian dari Portal Web

Perpustakaan Digital Nasional RI. Pengarsipan web adalah

proses mengumpulkan cuplikan-cuplikan website dan memastikan

koleksi tersebut terpelihara dalam satu situs web arsip.

Pengarsipan web dilaksanakan untuk memenuhi kepentingan

peneliti, sejarawan, dan publik di masa depan.

Situs web yang diarsipkan utamanya yang memiliki content

ilmiah atau mengemukakan sisi intelektualitas suatu objek

yang dikemukakan melalui media situs web. Dengan pengarsipan

content web ini dimungkinkan peneliti dan kalangan lain

dapat memanfaatkan sumber-sumber informasi penting yang

tertuang dalam berbagai situs web di Indonesia.

Pangkalan data Arsip Web Nasional dapat diakses secara

online di http://arsipweb.pnri.go.id/wayback/. Halaman muka

portal web nampak sebagai berikut.

Gambar 5. Halaman Antarmuka Portal Web Arsip Web Nasional

16 | makalah sosialisasi grand design e-library

17 | makalah sosialisasi grand design e-library