Web viewKomputer juga membuat proses kerja menjadi lebih efisien, ... keyword generator . ... Secara...
-
Upload
hoangduong -
Category
Documents
-
view
222 -
download
1
Transcript of Web viewKomputer juga membuat proses kerja menjadi lebih efisien, ... keyword generator . ... Secara...
RANCANG BANGUN APLIKASI (E-DMS) ELECTRONIC DOCUMENT MANAGEMENT SYSTEM DENGAN METODE TF/IDF BERBASIS WEB
Yeni Kustiyahningsih, Akhmad Zamroni Hamid, Aeri RachmadJurusan Teknik Informatika, Fakutas Teknik, Universitas Trunojoyo
Jl. Raya Telang PO. BOX 2 Kamal, Bangkalan, Madura, 691962 [email protected]
ABSTRAK
Salah satu konsekuensi semakin banyaknya jumlah dokumen yang tersimpan dikomputer yaitu menyulitkan dalam pengorganisasian dokumen sehingga dibutuhkan aplikasi yang mampu memanajemen serta mengefektifkan dan mengefisienkan pengarsipan dokumen dengan harapan dapat membantu proses menjadi lebih cepat, baik dan murah.
Dalam proyek penelitian ini dilakukan perancangan dan pembuatan Aplikasi Electronic Document Management System Berbasis Web. Untuk proses pencarian informasi dokumen digunakan metode tf/idf dengan pendekatan cosine similarity yang mampu memperhitungkan bobot informasi yang lebih sesuai dengan pencarian. Metode tf/idf merupakan suatu cara untuk memberikan bobot hubungan suatu kata (term) terhadap dokumen dan cosine similarity merupakan salah satu ukuran kemiripan teks yang populer dan digunakan untuk menghitung nilai cosines sudut antara dua vektor.
Aplikasi Electronic Document Management System (E-DMS) berbasis web dalam penelitian ini mampu memanajemen dokumen di Ruang Baca Fakultas Teknik Universitas Trunojoyo dan kemudahan dalam memanfaatkan dokumen secara efektif dengan hasil pencarian lebih tepat dan efektif dengan menggunakan acuan threshold sebesar 0,0175, menunjukkan nilai rata-rata recall pada aplikasi ini sebesar 98,75% dengan nilai rata-rata Precision sebesar 69,24%. Sedangkan nilai rata-rata interpolated precision sebesar 89,3 % Nilai kemiripan tertinggi terdapat pada kata kunci “jalur terpendek” dengan nilai kemiripan sebesar 70,51%.
Kata Kunci : E-DMS, Perngarsipan dokumen, Metode tf/idf, cosine similarity, threshold
I. PENDAHULUAN
Kemajuan teknologi saat ini semakin pesat perkembangannya. Sebagai salah satu produk
teknologi adalah komputer yang sangat bermanfaat bagi masyarakat. Banyak pekerjaan manusia yang
dapat dibantu oleh komputer sehingga manusia dapat menjadi lebih produktif dan mempunyai waktu
senggang serta istirahat yang lebih panjang. Komputer juga membuat proses kerja menjadi lebih efisien,
efektif dan memberikan hasil kerja lebih baik dan lebih cepat. Begitu juga dengan dokumen yang
sebelumnya harus diketik manual dan langsung tertulis di kertas ketik yang memiliki kekurangan jika
terjadi kesalahan dalam pengetikan maka dokumen tersebut harus diketik ulang dari awal agar dokumen
terlihat bersih dan rapi. Selain itu dibutuhkan ruang yang cukup luas untuk mengarsipkan dokumen yang
masih berupa lembaran-lembaran tersebut. Berbeda setelah pemanfaatan komputer yang sudah merata di
segala bidang khususnya dalam pembuatan dokumen dan penyimpanan dokumen pada saat ini, berkas-
berkas bisa disimpan dan diakses serta dilakukan perubahan seperlunya.
Konsekuensinya semakin banyak jumlah dokumen-dokumen yang tersimpan dikomputer juga
menyulitkan dalam pengorganisasian dokumen itu sendiri apalagi dalam suatu organisasi atau
perusahaan yang memiliki jumlah banyak user dengan kebutuhan dokumen yang sama. Dan lebih efektif
lagi jika dokumen-dokumen tersebut tersimpan dalam komputer khusus yang akan menjadi pusat
penyimpanan dokumen suatu organisasi. Dari hal itu maka diperlukan sebuah aplikasi khusus yang dapat
menjembatani permasalahan diatas serta teknik pengarsipan dokumen berupa softcopy tersebut dengan
hak akses user yang berbeda sesuai dengan level pengguna guna mengefisiensikan dan mengoptimalkan
pemanfaatan kembali dokumen-dokumen elektronik tersebut atau yang dikenal dengan Electronic
Document Management System (E-DMS). Aplikasi E-DMS dalam penelitian ini mengambil studi kasus
manajemen penelitian dengan menggunakan metode tf/idf untuk melakukan pencarian dokumen dan
memperoleh hasil yang lebih tepat dan efektif. Berdasarkan latar belakang masalah yang telah dijelaskan
di atas, maka masalah dalam Penelitian ini adalah Bagaimana merancang dan membuat aplikasi
Electronic Document Management System (E-DMS ) berbasis web yang tepat dan efisien dengan
memanfaatkan metode tf/idf dalam proses pencarian informasi dokumen. Sedangkan tujuan dalam
Penelitian ini adalah membantu administrasi dalam pengarsipan dokumen dan pencarian dokumen
sehingga dapat mengefesienkan waktu dalam pencarian dokumen.
II. TINJAUAN PUSTAKA
2.1 Penelitian Sebelumnya
Izam Nurazwar, Teknik Informatika, ITS dalam penelitiannya yang berjudul “Pembangunan
Aplikasi Document Management System Berbasis Web “, uji coba aplikasi dilakukan pada studi kasus
manajemen dokumen tugas akhir mahasiswa Informatika ITS. Dari hasil uji coba tersebut, Document
Management System dapat memudahkan pembuatan, klasifikasi, pengaturan hak akses dan pencarian
dokumen[1]. Pada penelitian ini, penulis mengkombinasikan pembuatan Document Management System
dengan pencarian menggunakan metode tf/idf dan cosine similarity.
Rohmawati Fuat, Sistem Informasi, ITS dalam penelitiannya “Sistem Penilaian Esai Otomatis
Pada E-Learning Dengan Metode Cosine Similarity”. Diperoleh sebuah kesimpulan bahwa implementasi
algoritma cosine similarity dalam sistem esai penilaian otomatis akurat. Nilai similarity yang dihasilkan
sistem dikonversi kedalam nilai mahasiswa berdasarkan range yang sudah didefinisikan. Hasil uji coba
menunjukkan kesesuaian nilai sistem dengan nilai human raters antara 78.57% -96.99% [2]. Mengacu
pada hasil penelitian diatas, dalam penelitian ini penulis menggunakan metode cosine similarity untuk
membandingkan antara kesamaan query pencarian dengan term dokumen yang ada dalam database.
Irwan Darmawan, Teknik Informatika, Universitas Trunojoyo, 2010 dalam penelitiannya “
Rancang Bangun Aplikasi Keyword Generator Untuk Mendukung Pencarian Dokumen Menggunakan
Metode TF-IDF”, dibangun suatu sistem keyword generator berbasis java yang mampu mengekstrak teks
dari 3 jenis dokumen yang berekstensi pdf, txt dan doc. Adapun pencarian dokumen dilakukan melalui
aplikasi berbasis web dengan menggunakan metode tf/idf [3] . Dalam penelitian ini, penulis
mengaplikasikan 5 macam dokumen yang dapat diekstraksi dan menggunakan metode tf/idf sebagai
acuan dasar untuk proses pembobotan term dan menggunakan cosine similarity sebagai ukuran kemiripan
teks dalam proses pencarian.
2.2 Document Management System
Document Management System Merupakan program yang digunakan untuk melakukan
pengelolaan terhadap dokumendokumen serta arsip elektronik lainnya. Dokumen tersebut bisa berupa file
yang diolah melalui word processor ataupun berupa dokumen dengan format image. Untuk format image
ini biasanya merupakan dokumen hasil scan dari dokumen fisik berupa kertas. Document Management
System (DMS) [5] bermanfaat dalam mengefektifkan dan mengefisienkan proses bisnis. Manfaat yang
utama adalah pengguna dapat menemukan informasi yang dibutuhkan dengan cepat, sehingga dapat
membantu proses menjadi lebih cepat, baik dan murah.
2.3 Sistem Temu Balik Informasi
Temu kembali informasi (information retrieval) adalah ilmu pencarian informasi pada dokumen,
pencarian untuk dokumen itu sendiri, pencarian untuk metadata yang menjelaskan dokumen, atau mencari
di dalam database, baik relasi database yang stand-alone atau hypertext database yang terdapat pada
network seperti internet atau World Wide Web atau intranet, untuk teks, suara, gambar, atau data.
Information retrieval (IR) adalah ilmu yang lahir dari berbagai disiplin ilmu, baik ilmu komputer,
matematika, ilmu kepustakaan, ilmu informasi, psikologi kognitif, linguistik, statistik, maupun fisika.
Secara prinsip, penyimpanan informasi dan penemuan kembali informasi adalah hal yang sederhana.
Misalkan terdapat tempat penyimpanan dokumen-dokumen dan seseorang (user) merumuskan suatu
pertanyaan (request atau query) yang jawabannya adalah himpunan dokumen yang mengandung
informasi yang diperlukan yang diekspresikan melalui pertanyaan user. User bisa saja memperoleh
dokumen-dokumen yang diperlukannya dengan membaca semua dokumen dalam tempat penyimpanan,
menyimpan dokumen-dokumen yang relevan dan membuang dokumen lainnya. Hal ini merupakan
perfect retrieval, tetapi solusi ini tidak praktis. Karena user tidak memiliki waktu atau tidak ingin
menghabiskan waktunya untuk membaca seluruh koleksi dokumen, terlepas dari kenyataan bahwa secara
fisik user tidak mungkin dapat melakukannya. Oleh karena itu, diperlukan suatu sistem temu kembali
informasi (information retrieval system) untuk membantu user menemukan dokumen yang
diperlukannya. Model IR ada tiga jenis, yaitu :
Model Boolean : merupakan model IR sederhana yang berdasarkan atas teori himpunan dan
aljabar boolean.
Model Vector Space : merupakan model IR yang merepresentasikan dokumen dan query dalam
bentuk vektor dimensional.
Model Probabilistic : merupakan model IR yang menggunakan framework probabilistik.
2.4 TF-IDF (Terms Frequency-Inverse Document Frequency)
Metode Tf-Idf [4] merupakan suatu cara untuk memberikan bobot hubungan suatu kata (term)
terhadap dokumen. Metode ini menggabungkan dua konsep untuk perhitungan bobot yaitu, frekuensi
kemunculan sebuah kata didalam sebuah dokumen tertentu dan inverse frekuensi dokumen yang
mengandung kata tersebut. Frekuensi kemunculan kata didalam dokumen yang diberikan menunjukkan
seberapa penting kata tersebut didalam dokumen tersebut. Frekuensi dokumen yang mengandung kata
tersebut menunjukkan seberapa umum kata tersebut. Sehingga bobot hubungan antara sebuah kata dan
sebuah dokumen akan tinggi apabila frekuensi kata tersebut tinggi didalam dokumen dan frekuensi
keseluruhan dokumen yang mengandung kata tersebut yang rendah pada kumpulan dokumen (database).
Rumus umum untuk Tf-Idf :
wij =tfx idf
wij = tfij x log (N/n) (1)
Keterangan :
Wij = bobot kata/term tj terhadap dokumen di
Tfij = jumlah kemunculan kata/term tj dalam di
N = jumlah semua dokumen yang ada dalam database
n = jumlah dokumen yang mengandung kata/term tj
(minimal ada satu kata yaitu term tj)
Berdasarkan rumus diatas, berapapun besarnya nilai tfij, apabila N = n maka akan didapatkan
hasil 0 (nol) untuk perhitungan Idf. Untuk itu dapat ditambahkan nilai 1 pada sisi Idf, sehingga
perhitungan bobotnya menjadi sbb:
…………………………………………………1
Rumus (2) dapat dinormalisasi dengan Rumus (3) dengan tujuan untuk menstandarisasi nilai bobot ke
dalam interval 0 s.d. 1, sbb: Rumus Tf-Idf dengan menggunakan normalisasi
……………………………………2
2.5. Ukuran Kemiripan
Model ruang vektor dan pembobotan tf-idf digunakan untuk merepresentasikan nilai numerik
dokumen sehingga kemudian dapat dihitung kedekatan antar dokumen. Semakin dekat dua vektor di
dalam suatu VSM maka semakin mirip dua dokumen yang diwakili oleh vektor tersebut. Kemiripan antar
dokumen dihitung menggunakan suatu fungsi ukuran kemiripan (similarity measure). Ukuran ini
memungkinkan perankingan dokumen sesuai dengan kemiripan (relevansi)nya terhadap query. Setelah
dokumen diranking, sejumlah tetap dokumen top-scoring dikembalikan kepada pengguna. Alternatifnya,
suatu treshold dapat digunakan untuk memutuskan berapa banyak dokumen akan dikembalikan.
Threshold dapat digunakan untuk mengontrol tarik-ulur antara presisi dan recall. Nilai treshold tinggi
biasanya akan menghasilkan presisi tinggi dan recall rendah. Salah satu ukuran kemiripan teks yang
populer adalah cosine similarity. Ukuran ini menghitung nilai cosines sudut antara dua vektor. Jika
terdapat dua vektor dokumen dj dan query q, serta t term diekstrak dari koleksi dokumen maka nilai
cosinus antara dj dan q didefinisikan sebagai :
………………………………3
2.7 Treshold
Untuk memperoleh hasil pencarian dokumen yang maksimal dan dinyatakan mirip diperlukan
sebuah nilai batas (Treshold value). Untuk mendapatkan nilai batas (Treshold value) diperlukan suatu
data training (restrospective document). Nilai treshold (nilai batas) yang paling bagus digunakan adalah
0.0175 dengan nilai recall-precision 79 % dan nilai recall rata-rata 76 % dan precision rata-rata 87% [6].
III. METODOLOGI PENELITIAN
Metode penelitian yang di gunakan adalah sebagai berikut :
3.1. Studi Literatur
Dukungan teori dan bahan – bahan bacaan mengenai rekayasa perangkat lunak, Web
Programming, teori mengenai STBI (Sistem Temu Balik Informasi) dan metode STBI yang menunjang
penelitian sangat membantu peneliti untuk memahami obyek penelitian.
3.2. Survey, pengumpulan data dan informasi
Tahap Studi Lapangan atau Survey dilakukan dengan tujuan untuk mengetahui dan melihat secara
langsung dan lebih mendetail permasalahan yang akan diteliti, sehingga diperoleh data–data atau
informasi yang diperlukan. Pada tahap ini dilakukan dengan cara :
1. Interview yaitu suatu cara mendapatkan data melalui wawancara langsung dengan orang yang
berhubungan langsung dengan masalah.
2. Observasi yaitu cara pengumpulan data yang dilakukan dengan mengadakan peninjauan
langsung dengan objek yang diteliti
3.3. Analisa dan Perancangan Perangkat Lunak
Analisa dan Perancangan sistem digunakan untuk memberikan gambaran secara umum mengenai
aplikasi yang akan dibuat. Hal ini berguna untuk menunjang pembuatan aplikasi sehingga kebutuhan akan
aplikasi tersebut dapat diketahui. Tahap ini terdiri dari Analisa Sistem, analisa User merupakan
identifikasi berapa user yang di butuhkan atau yang boleh mengakses aplikasi tersebut, Analisa
Kebutuhan Hardware dan software, Blok Diagram rancangan sistem (gambar 1), Desain Use Case
Diagram, Perancangan Database, Perancangan Interface atau antar muka aplikasi.
Gambar 1. Blok Diagram Rancangan Sistem
3.4. Proses Implementasi dan Pengujian
Tahap ini menjelaskan tentang proses implementasi dan uji coba berdasarkan semua kebutuhan
pengguna (user requirement), pengumpulan data dan informasi kumpulan buku tugas akhir di ruang baca
fakultas teknik. Pada tahap ini akan di implementasikan dengan menggunakan tools baik software
maupun hardware yang mensupport sistem. Selama implementasi, pada tiap-tiap bagian tertentu
dilakukan proses pengujian secara bertahap hingga pada akhirnya seluruh hasil implementasi telah
mengalami pengujian dengan baik.
3.5. Pengambilan Kesimpulan
Setelah dilakukan implementasi dan uji coba maka hasil data tersebut akan dianalisa untuk
memperoleh suatu kesimpulan.
IV. HASIL DAN PEMBAHASAN
Rancangan sistem yang telah dibuat, diimplementasikan dengan menggunakan perangkat keras dan
perangkat lunak dengan spesifikasi sebagai berikut.
IV.1. Spesifikasi Perangkat Keras
Program ini dibuat dengan menggunakan perangkat keras (hardware) dan diuji coba dengan
hardware sebagai berikut :
1 Prosesor AMD Athlon™ 64 X2 Dual Core Processor 4000+ 2,11GHz.
2 Memory 1 GB.
3 Harddisk 80 GB.
4 Monitor dengan resolusi 1024 x 768 pixel.
5 Keyboard dan Mouse..
IV.2. Spesifikasi Perangkat Lunak
Program ini dijalankan dengan menggunakan perangkat lunak (software) sebagai berikut :
1 Microsoft Windows XP Profesional SP2
2 Adobe Photoshop CS2, digunakan untuk melakukan desain gambar.
3 Web Browser yang digunakan Firefox Setup 3.6.17.
4 Macromedia Dreamweaver 8 dan Notepad++ v5.4.1, digunakan sebagai editor website.
5 Xampp 1.7.3 digunakan sebagai web server.
4.3. Implementasi Sistem
4.3.1 Desain Antarmuka view dokumen
Aplikasi ini didesign dengan 2 antar muka utama, yaitu antarmuka khusus user dengan level
petugas serta administrator dan antarmuka untuk pengunjung dan member yang dapat melakukan
pencarian dokumen dalam sistem E-DMS ini. Di bawah ini gambaran secara singkat dari antarmuka
aplikasi yang telah dibuat.
Gambar 2. Desain Antarmuka Menu View Dokumen
Pada gambar di atas tampak semua informasi yang berkaitan dengan dokumen yang telah dipilih,
termasuk file dokumen elektronik yang sudah diunggah.
4.3.2. Uji Coba
Dalam ujicoba sistem ini digunakan data ujicoba sebagai berikut :
1 Jumlah koleksi dokumen abstraksi yang digunakan sebanyak 143 koleksi dokumen tugas akhir dari
angkatan 2001-2006 jurusan Teknik Informatika yang diambil dari koleksi Ruang Baca Fakultas
Teknik, Universitas Trunojoyo.
2 Daftar Stopword yang digunakan sebanyak 938 kata.
3 Indeks kata (term) yang berhasil diberi bobot sebanyak 8,547 kata.
4 Keyword yang digunakan dalam data ujicoba ini adalah keyword yang diambil secara acak dan
memiliki keterkaitan dengan koleksi abtraksi tugas akhir.
Gambar 3. Implementasi Pencarian Dokumen
Tabel 1. Hasil ujicoba dengan menggunakan acuan threshold sebesar 0,0175
Berdasarkan hasil ujicoba seperti yang tertera pada tabel 1. diatas dengan menggunakan acuan
threshold sebesar 0,0175, menunjukkan bahwa dengan menggunakan metode tf/idf dan pendekatan
pencarian dengan cosine similarity menghasilkan nilai recall yang baik dengan nilai sebesar 98,75%.
Sedangkan nilai rata-rata Precision sebesar 69,24%. Hal ini berkaitan dengan jumlah dokumen yang
berhasil di indeks. Semakin banyak jumlah dokumen yang berhasil di indeks maka jumlah dokumen yang
relevan bisa juga semakin besar dan akan berpengaruh pada nilai recall, namun besar pula jumlah noise
(atau dokumen yang tidak relevan), sehingga tingkat precision pun menjadi rendah. Nilai kemiripan
tertinggi terdapat pada kata kunci “jalur terpendek” dengan nilai kemiripan sebesar 70,51%
Sedangkan pengukuran performansi dengan mempertimbangkan aspek keterurutan atau rangking
dilakukan dengan melakukan interpolasi antara precision dan recall
Tabel 2. pengukuran performansi
Grafik 1. Interpolasi Recall Precision untuk Keyword Metode Fuzzy
Nilai interpolasi precision pada recall standard ini dirata-ratakan menjadi rata-rata interpolated
precision untuk menggambarkan performansi sistem temu kembali informasi. Nilai rata-rata interpolated
precision untuk hasil uji coba diatas menghasilkan nilai sebesar 0,893 atau sebesar 89,3%.
V. KESIMPULAN DAN SARAN
Kesimpulan dari penelitian ini adalah :
1. Aplikasi Electronic Document Management System (E-DMS) berbasis web dalam penelitian ini
mampu memanajemen dokumen di Ruang Baca FT Universitas Trunojoyo dan kemudahan
dalam memanfaatkan dokumen secara efektif.
2. Pemanfaatkan metode tf/idf sebagai pembobotan term dan cosine similarity sebagai ukuran
kemiripan teks dalam proses pencarian informasi dokumen pada aplikasi EDMS ini mampu
memperoleh hasil pencarian lebih tepat dan efektif dengan menggunakan acuan threshold
sebesar 0,0175, menunjukkan nilai rata-rata recall pada aplikasi ini sebesar 98,75% dengan
nilai rata-rata Precision sebesar 69,24%. Sedangkan nilai untuk rata-rata interpolated precision
menghasilkan nilai yang cukup baik dengan nilai sebesar 89,3 %. Nilai kemiripan tertinggi
terdapat pada kata kunci “jalur terpendek” dengan nilai kemiripan sebesar 70,51%.
Adapun saran untuk pengembangan penelitian selanjutnya adalah :
1. Perlu diadakan penyempurnaan E-DMS sehingga diperoleh E-DMS yang handal, keamanan
dokumen yang lebih baik sehingga dapat diaplikasikan dan dimanfaatkan pihak Universitas
Trunojoyo.
2. Untuk penelitian selanjutnya disarankan untuk melakukan stemming dalam proses pembobotan
dan pencarian sehingga diperoleh hasil kemiripan dokumen terkait yang lebih baik.
DAFTAR PUSTAKA
[1] Nurazwar, Izam. 2007. Pembangunan Aplikasi Document Management System BerbasisWeb. Tugas Akhir. Surabaya: ITS.
[2] Fuat, Rohmawati.2010. Sistem Penilaian Esai Otomatis Pada E-Learning Dengan Metode Cosine Similarity. Tugas Akhir. Surabaya: ITS.
[3] Darmawan, Irwan. 2010. . Rancang Bangun Aplikasi Keyword Generator Untuk Mendukung Pencarian Dokumen Menggunakan Metode TF-IDF. Tugas Akhir. Bangkalan : Universitas Trunojoyo.
[4] Intan, R., Defeng, A. 2006. HARD:Subject-based Search Engine menggunakan TF-IDF dan Jaccard’s Coefficient.
[5] Mandala, Rila. 2006. SNATI 2006: Peningkatan Performansi Sistem Temu-Kembali Informasi dengan Perluasan Query Secara Otomatis. Bandung: Institut Teknologi Bandung.
[6] Arifin, A. Z. dan Setiono, A. N. Klasifikasi Dokumen Berita Kejadian Berbahasa Indonesia dengan Algoritma Single Pass Clustering. Proceeding of Seminar on Intelligent Technology and Its Applications (SITIA). Surabaya : ITS.