Poyek Kita Uas Stki
-
Upload
rosita-rismawatie -
Category
Documents
-
view
70 -
download
0
Transcript of Poyek Kita Uas Stki
5/6/2018 Poyek Kita Uas Stki - slidepdf.com
http://slidepdf.com/reader/full/poyek-kita-uas-stki 1/9
LAPORAN PROYEK UAS
SISTEM TEMU KEMBALI INFORMASI
DI SUSUN OLEH :
1. Ahmad Zaky F (080810026)
2. Alfredo Christian D S (080810221)3. Moh Nasrul Aziz (080810270)
4. Nugraheni Vitadyana (080810368)
5. Rosita Rismawatie (080810700)
UNIVERSITAS AIRLANGGA SURABAYA
2011
5/6/2018 Poyek Kita Uas Stki - slidepdf.com
http://slidepdf.com/reader/full/poyek-kita-uas-stki 2/9
1. Latar Belakang
Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini,
membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini
menyebabkan informasi menjadi semakin banyak dan beragam. Informasi dapat berupa
dokumen, berita, surat, cerita, laporan penelitian, dan lain lain. Tidak dapat dipungkiri lagi
informasi telah menjadi komoditi yang paling penting dalam dunia modern masa kini.
Seiring dengan perkembangan informasi, banyak pihak menyadari bahwa masalah utama
telah bergeser dari cara mengakses informasi menjadi memilih informasi yang berguna secara
selektif. Usaha untuk memilih informasi ternyata lebih besar dari sekedar mendapatkan akses
terhadap informasi. Pemilihan atau penemuan kembali informasi ini tidak mungkin dilakukan
secara manual karena kumpulan informasi yang sangat besar dan terus bertambah besar.
Salah satu aplikasi umum dari sistem temu kembali informasi adalah search engine atau
mesin pencarian yang terdapat pada jaringan internet. Pengguna dapat mencari halaman-
halaman web yang dibutuhkannya melalui search engine.
Salah satu model sistem temu kembali informasi yang paling sederhana namun paling
produktif adalah model ruang vektor. Model ini dapat menampilkan hasil temu balik secara
terurut (ranking). Model ruang vector tidak membutuhkan komputasi yang berlebihan sehingga
waktu untuk mengeksekusi kata akan semakin cepat dan lebih efektif. Oleh karena itu, kelompok
kami menggunakan model ruang vektor pada proyek kali ini.
2. Tujuan
Tujuan yang ingin dicapai dari proyek ini adalah :
1. Memahami konsep pembobotan dokumen TF-IDF dan membangun perangkat lunak
untuk mengimplementasikannya pada sistem temu kembali informasi.
2. Menghasilkan dokumen yang relevan dan terurut berdasarkan tingkat kerelevanannya
dengan query yang dimasukkan oleh pengguna.
5/6/2018 Poyek Kita Uas Stki - slidepdf.com
http://slidepdf.com/reader/full/poyek-kita-uas-stki 3/9
3. Batasan Masalah
Ditetapkan beberapa batasan masalah, antara lain sebagia berikut :
1. Model yang digunakan dalam sistem temu kembali informasi ini adalah model runag
vektor.
2. Hanya untuk pencarian dokumen pada PC/Laptop.
3. Dokumen yang digunakan merupakan dokumen berita berbahasa Indonesia.
4. Dasar Teori
4.1 Sistem Temu Kembali Informasi
Sistem temu kembali informasi (information retrieval system) digunakan untuk
menemukan kembali (retrieve) informasi-informasi yang relevan terhadap kebutuhan
pengguna, dari suatu kumpulan informasi secara otomatis (Mandala, 2004). Sistem temu
kembali informasi berhubungan dengan pencarian informasi yang isinya tidak memiliki
struktur. Demikian pula ekspresi kebutuhan pengguna yang disebut query, juga tidak
memiliki struktur.
Dokumen sebagai objek data dalam Sistem Temu Kembali Informasimerupakan sumber
informasi. Dokumen biasanya dinyatakan dalam bentuk indeks atau kata kunci. Sementara
itu Tague-Sutcliffe (1996) melihat Sistem Temu Kembali Informasi sebagai suatu proses yang
terdiri dari 6 (enam) komponen utama, yaitu:
y Kumpulan dokumen
y Pengindeksan
y Kebutuhan informasi pemakai
y Strategi pencarian
y Kumpulan dokumen yang ditemukan
y Penilaian relevansi
Sistem temu kembali informasi memiliki dua fungsi utama, yaitu : menilai tingkat
relevansi dokumen-dokumen dengan query pengguna dan menampilkan dokumen yang
dinilai memuaskan.
5/6/2018 Poyek Kita Uas Stki - slidepdf.com
http://slidepdf.com/reader/full/poyek-kita-uas-stki 4/9
Bagian-bagian Sistem Temu Kembali Informasi (Mandala, 2002)
Gambar diatas memperlihatkan bahwa terdapat dua buah alir operasi pada sistem
temu kembali informasi. Alur pertama dimulai dari koleksi dokumen dan alur kedua dimulai
dari query pengguna. Alur pertama yaitu pemrosesan terhadap koleksi dokumen menjadi
basis data indeks tidak tergantung pada alur kedua. Sedangkan alur kedua tergantung dari
keberadaan basis data indeks yang dihasilkan pada alur pertama (Mandala, 2002).
Bagian-bagian dari sistem temu kembali informasi menurut gambar diatas meliputi :
1. Text Operations (operasi terhadap teks) yang meliputi pemilihan kata-kata dalam query
maupun dokumen (term selection) dalam pentransformasian dokumen atau query
menjadi terms index (indeks dari kata-kata).
2. Query formulation (formulasi terhadap query) yaitu memberi bobot pada indeks kata-
kata query.
3. Ranking (perangkingan), mencari dokumen-dokumen yang relevan terhadap query dan
mengurutkan dokumen tersebut berdasarkan kesesuaiannya dengan query.
4. Indexing (pengindeksan), membangun basis data indeks dari koleksi dokumen.
Dilakukan terlebih dahulu sebelum pencarian dokumen dilakukan.
5/6/2018 Poyek Kita Uas Stki - slidepdf.com
http://slidepdf.com/reader/full/poyek-kita-uas-stki 5/9
4.2 Model Ruang Vektor
Model sistem temu kembali informasi menentukan detail sistem temu kembali
informasi yaitu meliputi representasi dokumen maupun query, fungsi pencarian
(retrieval function) dan notasi kesesuaian (relevance notation) dokumen terhadap query
(Mandala, 2002).
Beberapa karakteristik dari model ruang vektor dalam sistem temu kembali
informasi adalah :
1. model ruang vektor berdasarkan pada term
2. mendukung penentuan peringkat dokumen
3. model ruang vector memiliki prinsip dasar:
a) dokumen direpresentasikan dengan menggunakan vektor ter
b) ruang dimensi ditentukan oleh term- term
c) query direpresentasikan dengan menggunakan vektor term
4. model ruang vektor memerlukan
a) bobot term (term weight) untuk vektor dokumen
b) bobot term untuk query
5. kinerja model sistem temu kembali informasi ini
a) efisien
b) mudah dalam representasi
c) dapat diimplementasikan pada document-matching
Prosedur model ruang vektor dapat dikelompokkan menjadi tiga tahap, yaitu :
4.2.1 Pengindeksan
Sistem temu kembali informasi terbagi dalam 2 proses, yaitu proses indexing
dan proses perankingan dokumen. Adapun tahapan dari proses pengindeksan
adalah sebagai berikut :
y Parsing dokumen yaitu proses pengambilan term-term dari dokumen dan
query dengan cara memotong string input berdasarkan tiap kata yang
menyusunnya (Lusiana et al, 2008).
Elemen teks (string input) dipisahkan dengan teknik parsing menggunakan
fungsi split dimana pemisahan string dilakukan berdasarkan white space
(spasi dan tab) untuk kemudian diletakkan pada array
5/6/2018 Poyek Kita Uas Stki - slidepdf.com
http://slidepdf.com/reader/full/poyek-kita-uas-stki 6/9
y Stopl ist yaitu daftar kata-kata yang tidak digunakan (dibuang) karena tidak
signifikan dalam membedakan dokumen atau query. Stoplist umumnya
berupa kata tugas, kata hubung, kata bantu, yang mempunyai fungsi dalam
kalimat penyusun dokumen tetapi tidak memiliki arti, contoh : yang, juga,
antara, seperti, dan lain lain.
y St emming yaitu proses untuk menggabungkan atau memecahkan setiap
varian-varian suatu kata menjadi kata dasar (Peter Willet, 1997).
St em (akar kata) adalah bagian dari kata yang tersisa setelah dihilangkan
imbuhannya (awalan dan akhiran), contohnya kataconnect adalah stem dari
connected, connecting, connection, dan connections.
y Menghitung term frekuensi (TF) dan dokumen frekuensi (IDF), kemudian
dimasukkan ke database indeks.
4.2.2 Pembobotan TF-IDF
Kata dalam dokumen diberi bobot, Pembobotan tersebut berdasarkan pada
rumus Pembobotan TF-IDF sebagai berikut (Maning, dkk, 2008) :
Wij = TFij * IDF j
dimana IDFi = log ( n/DFi), dimana :
Wij = bobot istilah kata i pada dokumen j.
TFij = frekuensi istilah kata i dalam dokumen j. n = jumlah dokumen.
DFi = jumlah dokumen yang mengandung istilah kata i.
4.2.3 Perankingan Dokumen
Setelah bobot masing-masing dokumen diketahui, maka dilakukan proses
pemeringkatan atau perankingan dokumen berdasarkan besarnya tingkat
kerelevanan (kesesuaian) dokumen terhadap query, dimana semakin besar nilai
bobot dokumen terhadap query maka semakin besar tingkat similaritas
dokumen tersebut terhadap query yang dicari.
5/6/2018 Poyek Kita Uas Stki - slidepdf.com
http://slidepdf.com/reader/full/poyek-kita-uas-stki 7/9
5. Perancangan Sistem
5.1 Perancangan Database
Data base adalah suatu koleksi data computer yang terintegrasi, diorganisasikan dan
disimpan dengan cara yang memudahkan pengambilan kembali. Tujuan utama dari
konsep database adalah meminimumkan pengulangan data dan mencapai
independensi.
Sebuah sistem database merupakan komponen dasar sistem informasi organisasi
yang lebih besar. Oleh karena itu siklus hidup aplikasi database berhubungan dengan
siklus hidup sistem informasi. Mengenai perancangan databse selengkapnya akan
dijelaskan pada gambar ER-Diagram dibawah ini :
Gambar ER-Diagram diatas menjelaskan bahwa setiap dokumen yang berisi kalimat
akan diproses oleh sistem dengan menghilangkan kata tugas, kata hubung dan kata
bantu (terdapat pada tabel tb_stoplist) yang terdapat pada tabel dokumen kemudian
menghasilkan kata dasar (terdapat pada tabel tb_katadasar) dan stopward merupakan
kumpulan kata yang tidak terpakai dalam dokumen. Tabel dokumen memiliki id_dok
sebagai primary key, karena setiap isi dokumen berbeda. Kemudian tabel tb_stoplist
memiliki id_stoplist sebagai primary key dan juga tabel tb_katadasar memiliki
id_ktdasar sebagai primary key untuk membedakan setiap kata dasar dan setiap kata
dasar memiliki tipe_kata dasar. Setiap table memiliki hubungan dengan table lainnya.
5/6/2018 Poyek Kita Uas Stki - slidepdf.com
http://slidepdf.com/reader/full/poyek-kita-uas-stki 8/9
5.2 Struktur Tabel di DBMS
Gambar diatas merupakan struktur tabel pada database. Setiap data dikelompokkan
dalam beberapa tabel sesuai dengan jenisnya agar memudahkan pencarian dan
penyelesaian masalah yang ada. Penjelasannya adalah sebagai berikut :
y Tabel Dokumen
Tabel ini berisi berbagai macam dokumen baik berupa kalimat maupun
paragraph. Tabel ini berfungsi untuk menyimpan berbagai macam dokumen
yang akan diproses menggunakan aplikasi yang kami bangun.
y Tabel Stopword
Tabel ini berisi kumpulan kata yang tidak terpakai. Kumpulan kata hasil sortiran
dari dokumen yang telah diproses menggunakan aplikasi. Dalam proses ini
digunakan sebuah daftar kata buang (stoplist).
y Tabel tb_katadasar
Tabel ini berisi berbagai kata dasar dalam bahasa Indonesia, seperti : aba-aba,
abad, abadi, dan lain lain.
y Tabel tb_stoplist
Tabel ini berupa daftar kata-kata yang tidak digunakan (dibuang) karena tidak
signifikan dalam membedakan dokumen atau query. Stoplist iini terdiri dari kata
5/6/2018 Poyek Kita Uas Stki - slidepdf.com
http://slidepdf.com/reader/full/poyek-kita-uas-stki 9/9
tugas, kata hubung, kata bantu, yang mempunyai fungsi dalam kalimat
penyusun dokumen tetapi tidak memiliki arti.
6. Kesimpulan