Poyek Kita Uas Stki

5/6/2018 Poyek Kita Uas Stki - slidepdf.com

http://slidepdf.com/reader/full/poyek-kita-uas-stki 1/9

LAPORAN PROYEK UAS

SISTEM TEMU KEMBALI INFORMASI

DI SUSUN OLEH :

1. Ahmad Zaky F (080810026)

2. Alfredo Christian D S (080810221)3. Moh Nasrul Aziz (080810270)

4. Nugraheni Vitadyana (080810368)

5. Rosita Rismawatie (080810700)

UNIVERSITAS AIRLANGGA SURABAYA

2011



1. Latar Belakang

Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini,

membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

menyebabkan informasi menjadi semakin banyak dan beragam. Informasi dapat berupa

dokumen, berita, surat, cerita, laporan penelitian, dan lain lain. Tidak dapat dipungkiri lagi

informasi telah menjadi komoditi yang paling penting dalam dunia modern masa kini.

Seiring dengan perkembangan informasi, banyak pihak menyadari bahwa masalah utama

telah bergeser dari cara mengakses informasi menjadi memilih informasi yang berguna secara

selektif. Usaha untuk memilih informasi ternyata lebih besar dari sekedar mendapatkan akses

terhadap informasi. Pemilihan atau penemuan kembali informasi ini tidak mungkin dilakukan

secara manual karena kumpulan informasi yang sangat besar dan terus bertambah besar.

Salah satu aplikasi umum dari sistem temu kembali informasi adalah search engine atau

mesin pencarian yang terdapat pada jaringan internet. Pengguna dapat mencari halaman-

halaman web yang dibutuhkannya melalui search engine.

Salah satu model sistem temu kembali informasi yang paling sederhana namun paling

produktif adalah model ruang vektor. Model ini dapat menampilkan hasil temu balik secara

terurut (ranking). Model ruang vector tidak membutuhkan komputasi yang berlebihan sehingga

waktu untuk mengeksekusi kata akan semakin cepat dan lebih efektif. Oleh karena itu, kelompok

kami menggunakan model ruang vektor pada proyek kali ini.

2. Tujuan

Tujuan yang ingin dicapai dari proyek ini adalah :

1. Memahami konsep pembobotan dokumen TF-IDF dan membangun perangkat lunak

untuk mengimplementasikannya pada sistem temu kembali informasi.

2. Menghasilkan dokumen yang relevan dan terurut berdasarkan tingkat kerelevanannya

dengan query yang dimasukkan oleh pengguna.



3. Batasan Masalah

Ditetapkan beberapa batasan masalah, antara lain sebagia berikut :

1. Model yang digunakan dalam sistem temu kembali informasi ini adalah model runag

vektor.

2. Hanya untuk pencarian dokumen pada PC/Laptop.

3. Dokumen yang digunakan merupakan dokumen berita berbahasa Indonesia.

4. Dasar Teori

4.1 Sistem Temu Kembali Informasi

Sistem temu kembali informasi (information retrieval system) digunakan untuk

menemukan kembali (retrieve) informasi-informasi yang relevan terhadap kebutuhan

pengguna, dari suatu kumpulan informasi secara otomatis (Mandala, 2004). Sistem temu

kembali informasi berhubungan dengan pencarian informasi yang isinya tidak memiliki

struktur. Demikian pula ekspresi kebutuhan pengguna yang disebut query, juga tidak

memiliki struktur.

Dokumen sebagai objek data dalam Sistem Temu Kembali Informasimerupakan sumber

informasi. Dokumen biasanya dinyatakan dalam bentuk indeks atau kata kunci. Sementara

itu Tague-Sutcliffe (1996) melihat Sistem Temu Kembali Informasi sebagai suatu proses yang

terdiri dari 6 (enam) komponen utama, yaitu:

y Kumpulan dokumen

y Pengindeksan

y Kebutuhan informasi pemakai

y Strategi pencarian

y Kumpulan dokumen yang ditemukan

y Penilaian relevansi

Sistem temu kembali informasi memiliki dua fungsi utama, yaitu : menilai tingkat

relevansi dokumen-dokumen dengan query pengguna dan menampilkan dokumen yang

dinilai memuaskan.



Bagian-bagian Sistem Temu Kembali Informasi (Mandala, 2002)

Gambar diatas memperlihatkan bahwa terdapat dua buah alir operasi pada sistem

temu kembali informasi. Alur pertama dimulai dari koleksi dokumen dan alur kedua dimulai

dari query pengguna. Alur pertama yaitu pemrosesan terhadap koleksi dokumen menjadi

basis data indeks tidak tergantung pada alur kedua. Sedangkan alur kedua tergantung dari

keberadaan basis data indeks yang dihasilkan pada alur pertama (Mandala, 2002).

Bagian-bagian dari sistem temu kembali informasi menurut gambar diatas meliputi :

1. Text Operations (operasi terhadap teks) yang meliputi pemilihan kata-kata dalam query

maupun dokumen (term selection) dalam pentransformasian dokumen atau query

menjadi terms index (indeks dari kata-kata).

2. Query formulation (formulasi terhadap query) yaitu memberi bobot pada indeks kata-

kata query.

3. Ranking (perangkingan), mencari dokumen-dokumen yang relevan terhadap query dan

mengurutkan dokumen tersebut berdasarkan kesesuaiannya dengan query.

4. Indexing (pengindeksan), membangun basis data indeks dari koleksi dokumen.

Dilakukan terlebih dahulu sebelum pencarian dokumen dilakukan.



4.2 Model Ruang Vektor

Model sistem temu kembali informasi menentukan detail sistem temu kembali

informasi yaitu meliputi representasi dokumen maupun query, fungsi pencarian

(retrieval function) dan notasi kesesuaian (relevance notation) dokumen terhadap query

(Mandala, 2002).

Beberapa karakteristik dari model ruang vektor dalam sistem temu kembali

informasi adalah :

1. model ruang vektor berdasarkan pada term

2. mendukung penentuan peringkat dokumen

3. model ruang vector memiliki prinsip dasar:

a) dokumen direpresentasikan dengan menggunakan vektor ter

b) ruang dimensi ditentukan oleh term- term

c) query direpresentasikan dengan menggunakan vektor term

4. model ruang vektor memerlukan

a) bobot term (term weight) untuk vektor dokumen

b) bobot term untuk query

5. kinerja model sistem temu kembali informasi ini

a) efisien

b) mudah dalam representasi

c) dapat diimplementasikan pada document-matching

Prosedur model ruang vektor dapat dikelompokkan menjadi tiga tahap, yaitu :

4.2.1 Pengindeksan

Sistem temu kembali informasi terbagi dalam 2 proses, yaitu proses indexing

dan proses perankingan dokumen. Adapun tahapan dari proses pengindeksan

adalah sebagai berikut :

y Parsing dokumen yaitu proses pengambilan term-term dari dokumen dan

query dengan cara memotong string input berdasarkan tiap kata yang

menyusunnya (Lusiana et al, 2008).

Elemen teks (string input) dipisahkan dengan teknik parsing menggunakan

fungsi split dimana pemisahan string dilakukan berdasarkan white space

(spasi dan tab) untuk kemudian diletakkan pada array



y Stopl ist yaitu daftar kata-kata yang tidak digunakan (dibuang) karena tidak

signifikan dalam membedakan dokumen atau query. Stoplist umumnya

berupa kata tugas, kata hubung, kata bantu, yang mempunyai fungsi dalam

kalimat penyusun dokumen tetapi tidak memiliki arti, contoh : yang, juga,

antara, seperti, dan lain lain.

y St emming yaitu proses untuk menggabungkan atau memecahkan setiap

varian-varian suatu kata menjadi kata dasar (Peter Willet, 1997).

St em (akar kata) adalah bagian dari kata yang tersisa setelah dihilangkan

imbuhannya (awalan dan akhiran), contohnya kataconnect adalah stem dari

connected, connecting, connection, dan connections.

y Menghitung term frekuensi (TF) dan dokumen frekuensi (IDF), kemudian

dimasukkan ke database indeks.

4.2.2 Pembobotan TF-IDF

Kata dalam dokumen diberi bobot, Pembobotan tersebut berdasarkan pada

rumus Pembobotan TF-IDF sebagai berikut (Maning, dkk, 2008) :

Wij = TFij * IDF j

dimana IDFi = log ( n/DFi), dimana :

Wij = bobot istilah kata i pada dokumen j.

TFij = frekuensi istilah kata i dalam dokumen j. n = jumlah dokumen.

DFi = jumlah dokumen yang mengandung istilah kata i.

4.2.3 Perankingan Dokumen

Setelah bobot masing-masing dokumen diketahui, maka dilakukan proses

pemeringkatan atau perankingan dokumen berdasarkan besarnya tingkat

kerelevanan (kesesuaian) dokumen terhadap query, dimana semakin besar nilai

bobot dokumen terhadap query maka semakin besar tingkat similaritas

dokumen tersebut terhadap query yang dicari.



5. Perancangan Sistem

5.1 Perancangan Database

Data base adalah suatu koleksi data computer yang terintegrasi, diorganisasikan dan

disimpan dengan cara yang memudahkan pengambilan kembali. Tujuan utama dari

konsep database adalah meminimumkan pengulangan data dan mencapai

independensi.

Sebuah sistem database merupakan komponen dasar sistem informasi organisasi

yang lebih besar. Oleh karena itu siklus hidup aplikasi database berhubungan dengan

siklus hidup sistem informasi. Mengenai perancangan databse selengkapnya akan

dijelaskan pada gambar ER-Diagram dibawah ini :

Gambar ER-Diagram diatas menjelaskan bahwa setiap dokumen yang berisi kalimat

akan diproses oleh sistem dengan menghilangkan kata tugas, kata hubung dan kata

bantu (terdapat pada tabel tb_stoplist) yang terdapat pada tabel dokumen kemudian

menghasilkan kata dasar (terdapat pada tabel tb_katadasar) dan stopward merupakan

kumpulan kata yang tidak terpakai dalam dokumen. Tabel dokumen memiliki id_dok

sebagai primary key, karena setiap isi dokumen berbeda. Kemudian tabel tb_stoplist

memiliki id_stoplist sebagai primary key dan juga tabel tb_katadasar memiliki

id_ktdasar sebagai primary key untuk membedakan setiap kata dasar dan setiap kata

dasar memiliki tipe_kata dasar. Setiap table memiliki hubungan dengan table lainnya.



5.2 Struktur Tabel di DBMS

Gambar diatas merupakan struktur tabel pada database. Setiap data dikelompokkan

dalam beberapa tabel sesuai dengan jenisnya agar memudahkan pencarian dan

penyelesaian masalah yang ada. Penjelasannya adalah sebagai berikut :

y Tabel Dokumen

Tabel ini berisi berbagai macam dokumen baik berupa kalimat maupun

paragraph. Tabel ini berfungsi untuk menyimpan berbagai macam dokumen

yang akan diproses menggunakan aplikasi yang kami bangun.

y Tabel Stopword

Tabel ini berisi kumpulan kata yang tidak terpakai. Kumpulan kata hasil sortiran

dari dokumen yang telah diproses menggunakan aplikasi. Dalam proses ini

digunakan sebuah daftar kata buang (stoplist).

y Tabel tb_katadasar

Tabel ini berisi berbagai kata dasar dalam bahasa Indonesia, seperti : aba-aba,

abad, abadi, dan lain lain.

y Tabel tb_stoplist

Tabel ini berupa daftar kata-kata yang tidak digunakan (dibuang) karena tidak

signifikan dalam membedakan dokumen atau query. Stoplist iini terdiri dari kata



tugas, kata hubung, kata bantu, yang mempunyai fungsi dalam kalimat

penyusun dokumen tetapi tidak memiliki arti.

6. Kesimpulan

Poyek Kita Uas Stki

Documents

Transcript of Poyek Kita Uas Stki