Mesin Pencari Dokumen Bahasa Indonesia

33
MESIN PENCARI DOKUMEN BAHASA INDONESIA MENGGUNAKAN LATENT SEMANTIC INDEXING DENGAN PEMBOBOTAN GLOBAL SUSI HANDAYANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

description

Mesin pencari dokumen bahasa indonesia

Transcript of Mesin Pencari Dokumen Bahasa Indonesia

Page 1: Mesin Pencari Dokumen Bahasa Indonesia

MESIN PENCARI DOKUMEN BAHASA INDONESIA

MENGGUNAKAN LATENT SEMANTIC INDEXING

DENGAN PEMBOBOTAN GLOBAL

SUSI HANDAYANI

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2012

Page 2: Mesin Pencari Dokumen Bahasa Indonesia

MESIN PENCARI DOKUMEN BAHASA INDONESIA

MENGGUNAKAN LATENT SEMANTIC INDEXING

DENGAN PEMBOBOTAN GLOBAL

SUSI HANDAYANI

Skripsi

sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2012

Page 3: Mesin Pencari Dokumen Bahasa Indonesia

ABSTRACT

SUSI HANDAYANI. Search Engine for Documents in Bahasa Indonesia Using Latent Semantic

Indexing with Global Term Weight. Supervised by JULIO ADISANTOSO.

Current users tend to like search engine based on semantic of word. This is caused by the

existence of synonymy and polysemy problems in the selection of the use of the word. One technique

to resolve these issue is Latent Semantic Indexing (LSI). LSI has the ability to find relevant

documents even if the word of the query are not written in the document. Currently, TF-IDF term

weight algorithm is widely applied in search engines. Xia and Chai (2011) stated that, in a document

collection, the term with higher frequency and hypo-dispersion distribution usually contains less

information. The purpose of this research is to implement LSI using Singular Value Decomposition

(SVD) method with term distribution based global term weight. This research used 1000 Indonesian

agricultural documents. The performance of search engine using LSI with term-distribution-based

global term weight gave highest average precision around 40.47%. The test result also showed that

LSI with term-distribution-based global term weight gives better acuracy than LSI with TF-IDF.

Keyword: Latent Semantic Indexing, Singular Value Decomposition, Term Distribution based

Global Term Weighting

Page 4: Mesin Pencari Dokumen Bahasa Indonesia

Judul Skripsi : Mesin Pencari Dokumen Bahasa Indonesia Menggunakan Latent Semantic

Indexing dengan Pembobotan Global

Nama : Susi Handayani

NRP : G64080042

Menyetujui:

Pembimbing

Ir. Julio Adisantoso, M.Kom

NIP.19620714 198601 1 002

Mengetahui:

an. Ketua Departemen Ilmu Komputer

Sekretaris

Ahmad Ridha S.Kom, MS

NIP. 19800507 200501 1 001

Tanggal Lulus:

Page 5: Mesin Pencari Dokumen Bahasa Indonesia

KATA PENGANTAR

Puji syukur penulis panjatkan kepada Tuhan Yang Maha Esa, karena berkat rahmat dan

karunia-Nya sehingga skripsi ini berhasil diselesaikan. Penulis menyadari bahwa tugas akhir ini tidak

akan terselesaikan tanpa bantuan dari berbagai pihak. Pada kesempatan ini, penulis ingin

mengucapkan terima kasih kepada:

Kedua orang tua penulis, Budiono dan Komala, serta kakak Susan Handayani yang selalu

memberikan doa, nasihat, dukungan, semangat, dan kasih sayang yang luar biasa kepada

penulis sehingga penulis dapat menyelesaikan tugas akhir ini.

Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir. Terima kasih atas

kesabaran, bimbingan, serta dukungan dalam penyelesaian tugas akhir ini.

Bapak Mushthofa S.Kom, M.Sc dan Bapak Ahmad Ridha S.Kom, MS selaku dosen penguji.

Ibu Ir. Meuthia Rachmania, M.Sc selaku dosen pembimbing akademik.

Teman-teman satu bimbingan: Putri Dewi Purnama Sari, Fania Rahmanawati Karimah, Anita,

Meri Marlina, Meriska Defriani, Nofel Saputra, Alfa Nugraha, Risky Utama, dan Hafidzhia

Dzikrul, terima kasih atas kebersamaan dan semangatnya sehingga tugas akhir ini dapat

diselesaikan.

Sahabat-sahabat Siska Susanti, Brenda Kristi, Indra Lesmana, Ardini Sri Kartika, Mitha

Rachmawati, Arief Hidayatulloh, Abdul Qifly Sangadji, Muti Relegi, serta rekan-rekan

Ilkomerz 45 atas segala kebersamaan, bantuan, dukungan, serta kenangan bagi penulis selama

menjalani masa studi.

Teman-teman kosan Dewi Sartika, kosan Ariny, kosan White House dan kursus Korea UPB

IPB, terima kasih untuk dukungan dan bantuannya selama penyelesaikan tugas akhir ini.

Ibu Rahmawati, Kak Auzi Asfarian, dan seluruh staf Departemen Ilmu Komputer IPB yang

telah banyak membantu baik selama penelitian maupun selama perkuliahan.

Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan

dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya

masukan berupa saran atau kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas

akhir ini. Semoga tugas akhir ini bermanfaat.

Bogor, September 2012

Susi Handayani

Page 6: Mesin Pencari Dokumen Bahasa Indonesia

RIWAYAT HIDUP

Penulis dilahirkan di Bekasi pada tanggal 5 April 1990. Penulis merupakan anak kedua dari

dua bersaudara dari pasangan Budiono dan Komala. Pada tahun 2008, penulis menamatkan

pendidikan di Sekolah Menengah Atas Negeri 1 Tambun Selatan. Penulis lulus seleksi masuk Institut

Pertanian Bogor (IPB) pada tahun yang sama melalui jalur Undangan Seleksi Masuk IPB dan diterima

sebagai mahasiswa di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam.

Selama aktif menjadi mahasiswa, penulis menjadi salah satu pengurus Himpunan Mahasiswa

Ilmu Komputer (Himalkom) sebagai sekretaris Komunitas PHP pada tahun 2010. Penulis juga aktif

mengikuti beberapa kegiatan kepanitiaan, antara lain Dies Natalis KMB IPB 2008, FOTRANUSA

2008, MPD 2010, Pesta Sains Nasional 2010, dan IT TODAY 2010. Penulis juga melakukan Praktik

Kerja Lapang di PPPTMGB “LEMIGAS” pada tahun 2011.

Page 7: Mesin Pencari Dokumen Bahasa Indonesia

v

DAFTAR ISI

Halaman

DAFTAR TABEL ................................................................................................................................. vi

DAFTAR GAMBAR ............................................................................................................................ vi

DAFTAR LAMPIRAN ......................................................................................................................... vi

PENDAHULUAN.................................................................................................................................. 1 Latar Belakang .................................................................................................................................. 1 Tujuan Penelitian .............................................................................................................................. 1 Ruang Lingkup Penelitian ................................................................................................................ 1

METODE PENELITIAN ....................................................................................................................... 1 Praproses .......................................................................................................................................... 1 Matriks Term-Dokumen ................................................................................................................... 3 Singular Value Decomposition (SVD) ............................................................................................. 3 Pengolahan Kueri ............................................................................................................................. 3 Ukuran Kemiripan ............................................................................................................................ 3 Evaluasi ............................................................................................................................................ 4 Lingkungan Implementasi ................................................................................................................ 4

HASIL DAN PEMBAHASAN .............................................................................................................. 4 Koleksi Korpus ................................................................................................................................. 4 Praproses .......................................................................................................................................... 5 Pembobotan ...................................................................................................................................... 5 Matriks Term-Dokumen ................................................................................................................... 7 Singular Value Decomposition ......................................................................................................... 7 Pengolahan Kueri ............................................................................................................................. 7 Pengukuran Kemiripan ..................................................................................................................... 8 Pengujian Kinerja Sistem ................................................................................................................. 8

SIMPULAN DAN SARAN ................................................................................................................... 9 Simpulan ........................................................................................................................................... 9 Saran ................................................................................................................................................. 9

DAFTAR PUSTAKA ............................................................................................................................ 9

LAMPIRAN ......................................................................................................................................... 11

Page 8: Mesin Pencari Dokumen Bahasa Indonesia

vi

DAFTAR TABEL

Halaman

1 Confusion matrix .............................................................................................................................. 4 2 Deskripsi dokumen uji ..................................................................................................................... 4 3 Hasil perhitungan peluang (r)........................................................................................................... 5 4 Hasil perhitungan n, chi, dan U pada 5 term contoh ........................................................................ 6 5 Hasil perhitungan p dan S pada 5 term contoh ................................................................................. 6 6 Hasil perhitungan U, S, dan Global pada 5 term contoh dengan S menggunakan persamaan (3) .... 6 7 Hasil perhitungan U, S, dan Global pada 5 term contoh dengan S menggunakan persamaan (2) .. 6 8 Perbandingan hubungan distribusi term dengan bobot global .......................................................... 6 9 Hasil perhitungan TF, global, dan bobot kata pada jurnal000000-001 ............................................ 7 10 Matriks A sebelum didekomposisi ................................................................................................... 7 11 Matriks A setelah didekomposisi dan direduksi dengan k = 900 ..................................................... 7 12 Hasil perhitungan average precision pada setiap nilai k .................................................................. 9 13 Rata-rata waktu pencarian pada setiap nilai k .................................................................................. 9

DAFTAR GAMBAR Halaman

1 Metode penelitian. .............................................................................................................................. 2 2 Matriks term-dokumen. ...................................................................................................................... 3 3 Matriks A yang telah didekomposisi. ................................................................................................. 3 4 Matriks A yang telah didekomposisi dan direduksi. .......................................................................... 3 5 Contoh dokumen pertanian. ............................................................................................................... 5 6 Format dokumen setelah pembuangan tag. ........................................................................................ 5 7 Sebelas tingkat recall standar pada dokumen pertanian. .................................................................... 8

DAFTAR LAMPIRAN

Halaman

1 Antarmuka sistem ...............................................................................................................................12 2 Daftar stopwords ................................................................................................................................13 3 Gugus kueri dan jawaban untuk dokumen pertanian ..........................................................................16 4 Hasil perhitungan precision sebelas tingkat recall standar berbagai kueri dengan nilai k = 1000 .....22 5 Grafik perbandingan average precision LSI TF-IDF dengan LSI Global ..........................................24

Page 9: Mesin Pencari Dokumen Bahasa Indonesia

1

PENDAHULUAN

Latar Belakang

Mesin pencari (search engine) memegang

peranan penting dalam pencarian informasi.

Kebanyakan mesin pencari hanya

membandingkan isi dari dokumen terhadap

kueri berdasarkan kata kunci yang tersedia

berupa statistik kemunculan kata. Masalah

akan muncul pada saat sebuah kata yang

secara statistik berbeda tetapi memiliki makna

yang sama (sinonim). Hal ini mengakibatkan

recall yang rendah karena mesin pencari akan

mengembalikan dokumen yang sedikit.

Masalah lain ialah apabila ada satu kata yang

secara statistik sama tetapi memiliki banyak

makna (polisemi) yang akan menghasilkan

nilai precision yang rendah karena mesin

pencari akan mengembalikan dokumen yang

tidak sesuai dengan keinginan pengguna. Hal

ini dapat mengakibatkan kinerja mesin pencari

menjadi kurang baik karena tidak

memperhatikan kata secara semantik

(Deerwester et al. 1990).

Deerwester et al. (1990) mengungkapkan

bahwa upaya untuk mengatasi sinonim saat ini

ialah dengan ekspansi kata secara otomatis

atau pembentukan tesaurus. Kekurangan dari

metode ini ialah kata yang ditambahkan

mungkin akan memiliki makna yang berbeda

dari yang dimaksudkan oleh pengguna yang

akan menyebabkan efek polisemi.

Pendekatan lainnya untuk mengatasi

permasalahan ini ialah menggunakan Latent

Semantic Indexing (LSI) dengan pendekatan

ruang vektor. LSI adalah suatu teknik yang

memetakan kueri dan dokumen ke dalam

suatu ruang yang disebut Latent Semantic

Space. Dalam Latent Semantic Space, suatu

kueri dan suatu dokumen dapat memiliki nilai

kesamaan yang tinggi walaupun kueri dan

dokumen tersebut tidak memiliki term yang

sama. Selama term tersebut mirip secara

semantik, nilai kesamaan yang dihasilkan

akan tinggi. Pada dasarnya, LSI menggunakan

teknik Singular Value Decomposition (SVD)

untuk mendekomposisikan matriks term-

dokumen. Dengan mengurangi ruang term dan

dokumen menjadi dimensi yang lebih kecil,

SVD menampakkan hubungan yang mendasari

term dan dokumen dalam semua kombinasi

yang memungkinkan dan membuang noise

yang ada pada ruang vektor (Deerwester et al.

1990).

Penelitian mengenai LSI yang sudah

dilakukan antara lain Geiss (2006) yang

menerapkan LSI pada mesin pencari BoSSE,

dan Maulizar (2011) yang

mengimplementasikan Singular Value

Decomposition (SVD) dan Semi Discrete

Decomposition (SDD) pada sistem temu

kembali dokumen bahasa Indonesia.

Umumnya penelitian tersebut

menggunakan TF-IDF yang memberikan

bobot yang sama pada sebuah term di mana

pun posisi term di dalam dokumen. Untuk

meningkatkan akurasi sistem, Xia dan Chai

(2011) mengungkapkan bahwa pada suatu

koleksi dokumen, term yang mempunyai

frekuensi tinggi dan penyebarannya luas

diberi bobot lebih rendah. Oleh karena itu,

penelitian ini mengimplementasikan LSI

menggunakan pembobotan global dengan

memperhatikan sebaran kata.

Tujuan Penelitian

Tujuan penelitian ini ialah

mengimplementasikan Latent Semantic

Indexing dengan pembobotan global ke dalam

mesin pencari dokumen bahasa Indonesia.

Ruang Lingkup Penelitian

Ruang lingkup dalam penelitian ini antara

lain:

Dokumen yang digunakan dalam

penelitian adalah dokumen XML

berbahasa Indonesia.

Kesalahan pengetikan di dalam korpus

tidak diperhatikan.

Dokumen yang relevan dengan kueri uji

ditentukan berdasarkan pustaka yang ada

di Laboratorium Temu-Kembali Informasi

(TKI).

METODE PENELITIAN

Tahapan penelitian ini dapat dilihat pada

Gambar 1. Tahap offline hanya dilakukan satu

kali, terdiri atas pengumpulan korpus,

praproses, pembuatan matriks term-dokumen,

dan pengolahan SVD.

Praproses

Praproses terdiri atas tokenisasi,

pembuangan stopwords, dan pembobotan kata

(Manning et al. 2008).

Tokenisasi adalah suatu proses pemisahan

(parsing) kalimat ke dalam unit-unit yang

lebih kecil yang disebut token. Hal ini

dilakukan dengan cara menghapus semua

karakter dalam tanda baca yang terdapat pada

Page 10: Mesin Pencari Dokumen Bahasa Indonesia

2

dokumen dan mengubah kata menjadi

lowercase.

Stopwords merupakan kata-kata yang

dianggap tidak memiliki makna dan akan

dibuang serta tidak ikut diproses pada tahap

selanjutnya. Pada umumnya, kata-kata dalam

stopwords memiliki tingkat kemunculan yang

tinggi di setiap dokumen sehingga kata

tersebut tidak dapat digunakan sebagai penciri

suatu dokumen.

Pembobotan

Menurut Manning et al. (2008),

pembobotan lokal atau term frequency (tf)

adalah jumlah kemunculan setiap term t dalam

sebuah dokumen d dan dinotasikan dengan

tft,d. Pembobotan tf memiliki kekurangan,

yaitu semua kata dianggap penting ketika

dihubungkan dengan relevansi kueri. Padahal,

beberapa kata cenderung tidak relevan. Untuk

mengurangi pembobotan suatu kata,

digunakan document frequency (df) yang

dinotasikan dft, yaitu jumlah dokumen dalam

koleksi yang berisi kata t. Total seluruh

dokumen dinotasikan dengan N, maka

ditetapkan inverse document frequency (idf)

dari sebuah kata t yang disebut juga sebagai

pembobotan global yaitu:

idft = log

(1)

Pada akhirnya, nilai bobot TF-IDF dari

suatu kata adalah perkalian antara kedua

pembobotan tersebut.

Pembobotan berdasarkan sebaran kata

memiliki dua titik fokus, yaitu penyebaran

kata dalam suatu dokumen individu (lokal)

dan koleksi dokumen (global).

Setiap term yang terdistribusi secara

intensif di dalam beberapa dokumen harus

diberikan bobot yang tinggi, karena term

tersebut cenderung mewakili topik dokumen,

sedangkan term yang terdistribusi seragam

dan sering digunakan dalam setiap dokumen

harus diberikan bobot yang rendah.

Dari analisis ini, sebaran kata berdasarkan

algoritme global term weight terdiri atas dua

bagian yaitu U (Uniform Distribution Extent)

dan (Spread Extension). Nilai U

menunjukkan luas keseragaman penyebaran

kata ke-j dan S adalah persebaran dari kata

ke-j pada koleksi (Xia & Chai 2011).

U = 1 + ∑( )

S = log2 (1+

) (2)

dengan

: frekuensi kata ke-j di dokumen ke-i.

: frekuensi kata ke-j di koleksi.

: peluang kata ke-j ada di dokumen ke-i.

: frekuensi kata ke-j di dokumen ke-i jika

kata ke-j tersebar.

p : total dokumen yang mengandung kata

ke-j

: total dokumen di koleksi.

Kueri

SVD

A = T S DT

Ranked

Document

Praproses

Vektor Kueri

Mengukur kemiripan antara

dokumen dan kueri

Korpus

Praproses

Matriks Term-

Dokumen (A)

Offline

Evaluasi

Gambar 1 Metode penelitian.

Page 11: Mesin Pencari Dokumen Bahasa Indonesia

3

A T S D

T

=

t x d t x r

r x r r x d

A = TSDT

Gambar 3 Matriks A yang telah didekomposisi.

𝐀𝑘 𝐓𝑘𝐒𝑘𝐃𝑘T

Gambar 4 Matriks A yang telah didekomposisi

dan direduksi.

A T

S DT

=

t x d t x k

k x k k x d

Nilai S menunjukkan penyebaran kata

dalam koleksi, yang dapat juga menunjukkan

kepentingan suatu kata dalam dokumen. Pada

pembobotan TF-IDF, nilai ini dapat

disetarakan dengan persamaan (1). Oleh

karena itu, nilai S dapat dipersamaankan

sebagai

S = log2 (1+

) (3)

Berdasarkan nilai U dan S pada

persamaan, persamaan untuk pembobotan

global adalah:

Wg = log2 (1 + U x S ) (4)

sehingga nilai bobot dari suatu kata adalah

perkalian antara pembobotan tft,d dan

pembobotan global berbasis sebaran kata.

(5)

Matriks Term-Dokumen

Setelah proses indexing, akan didapatkan

matriks term-dokumen. Matriks term-

dokumen berukuran M x N menyatakan

matriks bobot term dalam suatu dokumen.

Setiap baris M mewakili sebuah term dan

setiap kolom N mewakili sebuah dokumen di

dalam koleksi (Manning et al. 2008). Matriks

term-dokumen dapat dilihat pada Gambar 2.

[

]

Gambar 2 Matriks term-dokumen.

Singular Value Decomposition (SVD)

SVD adalah salah satu metode dari aljabar

linear untuk mendekomposisi matriks A

dengan dimensi t x d menjadi tiga matriks

(Gambar 3).

Matriks A merupakan matriks term-

dokumen, T merupakan matriks yang

kolomnya adalah orthogonal eigenvectors dari

AAT, S adalah matriks diagonal singular value

dengan urutan menurun, dan D merupakan

matriks yang kolomnya merupakan

orthogonal eigenvectors dari ATA. Ukuran t

adalah jumlah baris dari matriks A. Ukuran d

adalah jumlah kolom dari matriks A. Nilai r

adalah pangkat dari matriks A dengan r ≤

(min (t, d)).

Setelah matriks A didekomposisi, hasilnya

direduksi dengan nilai k sehingga menjadi

reduced SVD. Nilai k adalah jumlah dimensi

matriks yang tersisa. Tujuan dari reduksi ini

adalah untuk membuang noise yang ada pada

ruang vektor. Pada dasarnya, tidak ada cara

khusus yang digunakan untuk menentukan

nilai k, tetapi nilai k diperoleh dengan trial

and error sampai ditemukan nilai k yang

memungkinkan SVD membuang noise dan

menemukan latent semantic dengan sangat

baik. Nilai k yang digunakan dalam penelitian

ini ialah 10, 20, 30, 40, 50, 60, 70, 80, 90,

100, 200, 300, 400, 500, 600, 700, 800, 900,

dan 1000. Matriks A yang telah

didekomposisi dan direduksi dapat dilihat

pada Gambar 4.

Pengolahan Kueri

Pengolahan kueri dilakukan secara online

setiap kali kueri dimasukkan ke sistem. Kueri

yang dimasukkan akan diubah menjadi vektor

q yang merepresentasikan kemunculan kata-

kata pada kueri dengan term yang telah

didapat dari koleksi dokumen.

Untuk mencari dokumen yang mirip

dengan kueri yang dimasukkan, kueri harus

diubah menjadi pseudo-document sehingga

dapat dibandingkan dengan dokumen lain.

Untuk mendapatkan vektor kueri digunakan

persamaan:

q = qTTk (6)

Ukuran Kemiripan

Cosine similarity digunakan untuk

mengukur kesamaan antara vektor kueri q

Page 12: Mesin Pencari Dokumen Bahasa Indonesia

4

Tabel 2 Deskripsi dokumen uji

Dokumen Ukuran (bytes)

Ukuran rata-rata dokumen 4139

Ukuran seluruh dokumen 4139332

Ukuran dokumen terbesar 54082

Ukuran dokumen terkecil 451

dengan matriks dokumen DD dengan

persamaan:

( )

‖ ‖ ‖ ‖ (7)

Matriks dokumen didapat dari persamaan:

T = (

T)T T

= T

T T

=

T

= ( )T

DD =

Hasil dari cosine similarity adalah ranked

document yang terurut secara menurun.

Dokumen teratas merupakan dokumen hasil

pencarian yang paling mendekati dengan kueri

yang diinginkan.

Evaluasi

Manning (2008) menyatakan terdapat dua

hal mendasar yang paling sering digunakan

untuk mengukur kinerja temu-kembali secara

efektif yaitu recall dan precision (R-P).

Perhitungan recall-precision didasarkan pada

tabulasi silang seperti pada Tabel 1.

Tabel 1 Confusion matrix

Relevant Nonrelevant

Retrieved true positives (tp)

false positives (fp)

Not retrieved false

negatives (fn)

true negatives (tn)

Oleh karena itu, recall dan precision

didefinisikan sebagai:

Precision =

( ) (8)

Recall =

( ) (9)

Average precision adalah suatu ukuran

evaluasi kinerja temu-kembali yang diperoleh

dengan menghitung rata-rata precision pada

berbagai tingkat recall. Biasanya, digunakan

sebelas tingkat recall standar yaitu, 0, 0.1, 0.2,

0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1. Average

precision dapat dipersamaankan sebagai

berikut:

(r) = ∑ ( )

(10)

sedangkan (r) adalah average precision pada

tingkat recall ri. Nq adalah jumlah kueri yang

digunakan dan Pi(r) adalah nilai precision

pada tingkat recall r untuk kueri ke-i (Baeza-

Yates & Ribeiro-Neto 1999).

Pengujian sistem dilakukan dengan

melakukan perhitungan terhadap recall dan

precision seperti pada persamaan (8) dan (9).

Kemudian, dilakukan perhitungan average

precision menggunakan sebelas tingkat recall

standar seperti pada persamaan (10). Evaluasi

juga dilakukan dengan membandingkan hasil

penelitian dengan Maulizar (2011).

Lingkungan Implementasi

Lingkungan implementasi yang digunakan

adalah sebagai berikut:

Perangkat Lunak:

Sistem operasi Windows 7 Profesional

sebagai sistem operasi,

MATLAB R2008b untuk melakukan

dekomposisi matriks SVD,

Xampp Server Apache version 2.5.8

sebagai web server,

Notepad++ untuk pembangunan sistem

dengan bahasa pemrograman PHP,

Microsoft Excel 2010 sebagai aplikasi

yang digunakan untuk melakukan

perhitungan recall dan precision.

Perangkat keras:

Prosesor Intel Core i5-2450M

RAM 4.0 GB

Harddisk 500GB

HASIL DAN PEMBAHASAN

Koleksi Korpus

Penelitian ini menggunakan 1000

dokumen pertanian yang berasal dari

Laboratorium Temu-Kembali Informasi (TKI)

Departemen Ilmu Komputer IPB. Tabel 2

menunjukkan deskripsi dokumen uji yang

digunakan dalam penelitian ini.

Koleksi dokumen memiliki format teks

(*.txt) dengan struktur tag XML, yaitu setiap

file terdiri atas satu dokumen yang

ditunjukkan dengan tag-tag sebagai berikut:

<DOC></DOC>, tag ini mewakili

keseluruhan dokumen dan melingkupi tag-

tag lain yang lebih spesifik.

<DOCNO></DOCNO>, tag ini

menunjukkan ID dari dokumen.

Page 13: Mesin Pencari Dokumen Bahasa Indonesia

5

<TITLE></TITLE>, tag ini menunjukkan

judul dari berita.

<DATE></DATE>, tag ini menunjukkan

tanggal dari berita.

<AUTHOR></AUTHOR>, tag ini

menunjukkan penulis dari berita tersebut.

<TEXT></TEXT>, tag ini menunjukkan isi

dari dokumen.

Gambar 5 menunjukkan contoh salah satu

dokumen pertanian yang digunakan dalam

penelitian ini.

Praproses

Praproses dilakukan melalui tiga tahapan,

yaitu: tokenisasi, pembuangan stopwords, dan

pembobotan. Proses awal adalah pembuangan

tag karena tag bukan merupakan penciri suatu

dokumen. Tag yang diambil untuk proses

indexing hanya <TITLE> dan <TEXT>.

Format dokumen setelah dilakukan

pembuangan tag dapat dilihat pada Gambar 6.

Tahap tokenisasi dilakukan pada fungsi

get_token. Fungsi tersebut melakukan

pemecahan kata pada dokumen koleksi. Selain

itu, dilakukan juga penghilangan karakter yang

bersifat separator seperti titik, koma, tanda

seru, tanda tanya, dan karakter lainnya yang

dianggap kurang representatif dalam

mencirikan suatu dokumen.

Pembuangan stopwords dilakukan setelah

proses tokenisasi pada koleksi dokumen.

Teknis yang dilakukan adalah perbandingan

antara token hasil tokenisasi dan stopwords

yang ada. Jika token adalah stopwords, token

tersebut dihapus dalam daftar token. Daftar

stopwords yang digunakan dalam penelitian

ini diperoleh dari Herdi (2010) dan

dilampirkan pada Lampiran 2. Hasil dari tahap

ini akan digunakan sebagai input pada tahap

selanjutnya yaitu pembobotan.

Pembobotan

Pembobotan yang dilakukan dalam

penelitian ini adalah pembobotan term

frequency (TF) dan pembobotan global

dengan memperhatikan sebaran kata.

Pembobotan global adalah perhitungan bobot

suatu kata berdasarkan sebaran kata dalam

koleksi dokumen. Pembobotan global terdiri

atas 2 bagian, yaitu luas keseragaman sebaran

kata (U) dan perluasan penyebaran kata (S)

pada koleksi dokumen.

Pembobotan global diawali dengan proses

perhitungan peluang dari setiap dokumen

dengan menghitung perbandingan jumlah kata

yang terdapat dalam setiap dokumen dengan

jumlah seluruh kata yang ada di koleksi

dokumen. Tabel 3 merupakan contoh 5

dokumen hasil perhitungan peluang dengan

jumlah seluruh kata di dalam koleksi

dokumen adalah 297112 kata. Nilai r pada

pada suatu dokumen tergantung pada jumlah

kata yang dimiliki oleh dokumen tersebut.

Dokumen jurnal000000-001 memiliki jumlah

kata terbanyak, sehingga nilai r jurnal000000-

001 memiliki nilai tertinggi. Sebaliknya untuk

dokumen situshijau201003-002 memiliki

jumlah kata terkecil sehingga nilai r dokumen

situshijau201003-002 memiliki nilai terkecil.

Tabel 3 Hasil perhitungan peluang (r)

Dokumen Jumlah Kata r

jurnal000000-001 3905 0.0131

jurnal000000-027 2436 0.0081

jurnal000000-002 2323 0.0078

indosiar260404 1798 0.0060

situshijau201003-

002

1109 0.0037

<DOC>

<DOCNO>suaramerdeka040104

</DOCNO>

<TITLE>Ribuan Bibit untuk

Lahan Kritis</TITLE>

<AUTHOR></AUTHOR>

<DATE>Minggu, 4 Januari 2004

</DATE>

<TEXT>

<P>NGALIYAN-Kecamatan

Ngaliyan telah

mendistribusikan sekitar 30

ribu bibit berbagai jenis

tanaman. Sebelumnya, wilayah

itu telah menerima bantuan

140.250 bibit tanaman dari

Departemen Pertanian. Bibit

tanaman yang diberikan adalah

petai, durian, rambutan,

mangga, sukun, dan jati.</P>

</TEXT>

</DOC>

Ribuan Bibit untuk Lahan Kritis

NGALIYAN- Kecamatan Ngaliyan telah

mendistribusikan sekitar 30 ribu bibit

berbagai jenis tanaman. Sebelumnya,

wilayah itu telah menerima bantuan

140.250 bibit tanaman dari Departemen

Pertanian. Bibit tanaman yang diberikan

adalah petai, durian, rambutan, mangga,

sukun, dan jati.

Gambar 5 Contoh dokumen pertanian.

Gambar 6 Format dokumen setelah pembuangan

tag.

Page 14: Mesin Pencari Dokumen Bahasa Indonesia

6

Proses selanjutnya adalah perhitungan

frekuensi kata pada setiap dokumen (v) dan

frekuensi kata pada suatu koleksi (n). Nilai r,

v, dan n digunakan untuk menghitung nilai

chi-square dari koleksi dokumen. Hasil

perhitungan v, n, dan chi-square pada 5 term

contoh dapat dilihat pada Tabel 4.

Tabel 4 Hasil perhitungan n, chi, dan U pada

5 term contoh

Term n chi U

pertanian 5596 6915 6916

petani 3380 6457 6458

ipb 256 7078 7079

bambu 44 1107 11079

anggrek 71 16439 16440

Term petani memiliki nilai chi-square

(chi) terendah. Nilai terendah menyatakan

term petani mendekati distribusi seragam.

Artinya untuk nilai chi-square (chi) yang

rendah akan mendapat nilai distribusi seragam

(U) yang rendah.

Pada perhitungan perluasan penyebaran

kata pada koleksi dokumen (S), harus dilihat

kata tersebut tersebar di koleksi dokumen atau

tidak. Nilai yang diperlukan adalah total

dokumen yang mengandung kata tersebut (p)

dan total seluruh dokumen pada koleksi (N).

Pada Tabel 5, term pertanian terdapat pada

877 dokumen dari total koleksi 1000

dokumen. Oleh karena itu, term pertanian

memperoleh nilai S yang kecil artinya koleksi

tersebut tersebar luas di koleksi dokumen.

Tabel 5 Hasil perhitungan p dan S pada 5

term contoh

Term p S

pertanian 877 1.097

petani 569 1.463

ipb 91 3.583

bambu 12 6.398

anggrek 6 7.389

Proses terakhir tahap ini adalah

perhitungan bobot kata global pada setiap kata

menggunakan persamaan (4). Hasil

perhitungan bobot kata global dengan S

menggunakan persamaan (3) dapat dilihat

pada Tabel 6. Kata anggrek mendapat nilai

global lebih tinggi, artinya term anggrek

merupakan kata yang lebih penting dalam

koleksi dibandingkan term pertanian, petani,

ipb, dan bambu. Pada Tabel 6, term pertanian

yang mempunyai frekuensi tinggi dan

penyebarannya luas mendapatkan hasil

perhitungan bobot yang rendah sesuai dengan

teori pembobotan sebaran kata menurut Xia

dan Chai (2011).

Tabel 6 Hasil perhitungan U, S, dan Global

pada 5 term contoh dengan S

menggunakan persamaan (3)

Term U S Global

pertanian 6916 1.097 12.890

petani 6458 1.463 13.206

ipb 7079 3.583 14.630

bambu 11079 6.398 16.113

anggrek 16440 7.389 16.890

Tabel 7 merupakan hasil perhitungan

pembobotan global dengan perhitungan S

menggunakan persamaan (2). Nilai terbesar

diperoleh term pertanian karena dengan

persamaan (2), kata yang menyebar pada

banyak dokumen di koleksi menghasilkan S

yang tinggi sehingga term pertanian

mendapatkan bobot yang lebih besar. Hasil

dari perhitungan ini tidak sesuai dengan teori

pembobotan sebaran kata menurut Xia dan

Chai (2011). Oleh karena itu, pada tahap

selanjutnya digunakan hasil pada Tabel 6,

yaitu dengan perhitungan S menggunakan

persamaan (3).

Tabel 7 Hasil perhitungan U, S, dan Global

pada 5 term contoh dengan S

menggunakan persamaan (2)

Term U S Global

pertanian 6916 0.908 12.617

petani 6458 0.649 12.035

ipb 7079 0.125 9.798

bambu 16440 0.009 7.158

anggrek 13511 0.004 5.892

Pada Xia dan Chai (2011), hubungan

antara luas distribusi seragam dan bobot kata

pada suatu koleksi adalah korelasi negatif non

linear. Pada penelitian ini, hal tersebut

terbukti pada term pertanian yang memiliki

luas distribusi seragam yang tinggi dan bobot

global yang dihasilkan rendah. Hasil

perbandingan hubungan distribusi seragam

dan bobot global dapat dilihat pada Tabel 8.

Tabel 8 Perbandingan hubungan distribusi

term dengan bobot global

Term n p Global

pertanian 5596 877 12.890

petani 3380 569 13.206

ipb 256 91 14.630

bambu 44 12 16.113

anggrek 71 6 16.890

Tahap terakhir dalam pembobotan kata

adalah perhitungan nilai keseluruhan.

Page 15: Mesin Pencari Dokumen Bahasa Indonesia

7

Perhitungan yang dilakukan pada tahap ini

adalah perkalian dari pembobotan TF dan

pembobotan global menggunakan persamaan

(5). Hasil perhitungan pembobotan kata dapat

diliihat pada Tabel 9.

Tabel 9 Hasil perhitungan TF, global, dan

bobot kata pada jurnal000000-001

Term TF Global Bobot

pertanian 48 12.890 618.752

petani 33 13.206 435.812

ipb 0 14.630 0

bambu 1 16.113 16.113

anggrek 0 16.890 0

Matriks Term-Dokumen

Setelah hasil pembobotan didapatkan,

matriks term-dokumen dibuat. Pembentukan

matriks term-dokumen sangat diperlukan

karena matriks term-dokumen selanjutnya

akan didekomposisi. Matriks term-dokumen

ini disimpan dalam format comma delimited

(.CSV) dengan ukuran 47.5 MB. Jumlah baris

dalam matriks term-dokumen berjumlah

24074 baris yang mewakili jumlah term yang

ada di koleksi dokumen. Jumlah kolom dalam

matriks term-dokumen berjumlah 1000 kolom

yang mewakili jumlah dokumen di dalam

koleksi dokumen.

Singular Value Decomposition

Matriks term-dokumen yang didapat

selanjutnya didekomposisi menggunakan

fungsi singular value decomposition pada

Matlab dan akan dihasilkan tiga matriks baru

yaitu matriks T, S, dan D.

[T, S, D] = svd (matriksA, 0)

Matriks hasil dekomposisi memiliki

ukuran yang besar sehingga akan

membutuhkan penyimpanan yang besar.

Matriks T merupakan matriks yang

merepresentasikan term. Ukuran matriks T

dalam format .CSV adalah 265 MB.

Kemudian, S merupakan matriks yang elemen

diagonalnya adalah nilai singular dengan

urutan menurun memiliki ukuran 1.91 MB,

dan D merupakan matriks yang kolomnya

merepresentasikan dokumen memiliki ukuran

11.7 MB. Ukuran matriks tersebut akan

mempengaruhi waktu eksekusi kueri pada

saat user melakukan proses pencarian

dokumen.

Perkalian dari matriks T, S, dan DT akan

mengembalikan matriks A. Apabila dilakukan

perkalian matriks T, S, dan DT

yang telah

direduksi dengan nilai rank k, akan didapat

matriks yang nilainya mendekati matriks A.

Pada Tabel 10, dapat dilihat matriks term-

dokumen A yang belum didekomposisi. Tabel

11 adalah matriks term-dokumen A hasil

perkalian dari matriks T, S, dan DT.

Tabel 10 Matriks A sebelum didekomposisi

Term jurnal000000-

001

jurnal000000-

027

pertanian 618.752 1482.426

petani 435.812 118.857

ipb 0 0

bambu 16.113 0

anggrek 0 0

Tabel 11 Matriks A setelah didekomposisi dan

direduksi dengan k = 900

Term jurnal000000-

001

jurnal000000-

027

pertanian 618.756 1482.430

petani 435.802 118.856

ipb -0.048 -0.006

bambu 16.123 0.006

anggrek -0.004 0.021

Dari kedua tabel, dapat dilihat bahwa

setelah didekomposisi dan direduksi term

yang sebelumnya memiliki bobot 0 menjadi

bernilai minus atau bertambah bobotnya.

Seperti pada term bambu dan anggrek pada

dokumen jurnal000000-027 sebelum matriks

A didekomposisi dan direduksi, kedua term

ini memiliki bobot 0. Setelah matriks A

didekomposisi dan direduksi, kedua term ini

bertambah bobotnya. Hal ini membuktikan

bahwa dengan dekomposisi dan reduksi,

struktur latent semantic terungkapkan dan

menunjukkan bahwa term bambu dan anggrek

memiliki keterkaitan walaupun term bambu

dan anggrek tidak terdapat pada kedua

dokumen tersebut. Sedangkan pada term ipb

yang sebelumnya memiliki bobot 0 di kedua

dokumen, setelah matriks A didekomposisi

dan direduksi struktur latent semantic

menunjukkan bahwa term ipb di kedua

dokumen ini bernilai minus. Hal ini

membuktikan bahwa term ipb tidak memiliki

keterkaitan di dalam kedua dokumen ini.

Pengolahan Kueri

Tahap selanjutnya adalah membuat

program untuk melakukan indexing pada

kueri. Indexing pada kueri juga terdiri atas

tiga tahapan, yaitu: tokenisasi, pembuangan

stopwords, dan pembobotan. Untuk mencari

dokumen yang mirip dengan kueri yang

Page 16: Mesin Pencari Dokumen Bahasa Indonesia

8

dimasukkan, kueri harus diubah menjadi

pseudo-document sehingga dapat

dibandingkan dengan dokumen lain. Untuk

mendapatkan vektor kueri akan digunakan

persamaan (6).

Pengukuran Kemiripan

Vektor kueri yang didapat dari tahap

sebelumnya akan dibandingkan kemiripannya

dengan matriks dokumen. Setelah itu, vektor

kueri dapat dibandingkan dengan matriks

dokumen menggunakan persamaan cosine

similarity pada persamaan (7).

Pengujian Kinerja Sistem

Proses evaluasi pada dokumen pertanian

menggunakan 30 kueri uji berikut dokumen-

dokumen relevan yang telah ditentukan dari

Laboratorium Temu-Kembali Informasi (TKI)

Departemen Ilmu Komputer IPB. Daftar kueri

uji beserta dokumen yang relevan dapat

dilihat pada Lampiran 3. Pencarian dengan

kueri uji ini dilakukan dengan tujuan

mendapatkan nilai average precision dari

sistem. Proses pencarian average precision

dilakukan pada nilai k = {10, 20, 30, 40, 50,

60, 70, 80, 90, 100, 200, 300, 400, 500, 600,

700, 800, 900, dan 1000}. Nilai sebelas

tingkat recall standar pada dokumen pertanian

dapat dilihat pada Gambar 7.

Nilai average precision setiap nilai k dapat

dilihat pada Tabel 12. Dari Tabel 12, nilai k

dengan nilai akurasi paling tinggi adalah k =

1000 dengan nilai average precision sebesar

0.404683 yang artinya secara rata-rata pada

tiap titik recall, 40.47% hasil temu-kembali

relevan dengan kueri. Nilai precision pada

pada sebelas tingkat recall standar berbagai

kueri dengan nilai k = 1000 dapat dilihat pada

Lampiran 4. Nilai k adalah nilai yang penting

untuk menentukan performa mesin pencari

yang menggunakan LSI. Jika terlalu banyak

dimensi yang disimpan, struktur latent

semantic tidak dapat diperlihatkan karena

terlalu banyak noise. Jika nilai k terlalu kecil,

akan terlalu banyak kata atau dokumen yang

diproyeksikan ke dalam dimensi sehingga

akan menghancurkan struktur latent semantic.

Hasil penelitian Maulizar (2011)

menunjukkan bahwa nilai k yang optimum

adalah k = 70 dengan average precision

sebesar 0.301. Sedangkan hasil average

precision dalam penelitian ini dengan k = 70

adalah sebesar 0.321274. Pada Gambar 8 juga

dapat dilihat bahwa pada nilai k = 20, 30, 40,

50, 60, 70, 80, 90, dan 100 nilai akurasi LSI

dengan pembobotan global berbasis sebaran

lebih besar dibandingkan dengan LSI

menggunakan pembobotan TF-IDF. Grafik

perbandingan nilai average precision LSI TF-

IDF dengan LSI Global dapat dilihat pada

Lampiran 4.

Dari hasil tersebut, dapat disimpulkan

bahwa Latent Semantic Indexing dengan

pembobotan global berbasis sebaran

menghasilkan nilai average precision yang

lebih tinggi dibandingkan Latent Semantic

Indexing hanya dengan TF-IDF tanpa

memperhatikan sebaran kata.

Pada Tabel 13 dapat dilihat rata-rata,

maksimum, dan minimum waktu pencarian

pada setiap nilai k. Untuk k = 10, rata-rata

waktu yang diperlukan untuk mencari

dokumen adalah 0.557 detik, sedangkan untuk

k = 1000 rata-rata waktu yang diperlukan

adalah 6.344 detik. Dari hasil tersebut dapat

disimpulkan bahwa semakin besar nilai k

maka semakin lama waktu pencarian

dokumen karena semakin banyak pula

dimensi matriks yang dihitung.

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Pre

cisi

on

Recall

K=10 K=20 K=30K=40 K=50 K=60K=70 K=80 K=90K=100 K=200 K=300K=400 K=500 K=600K=700 K=800 K=900K=1000

Gambar 7 Sebelas tingkat recall standar

pada dokumen pertanian.

Page 17: Mesin Pencari Dokumen Bahasa Indonesia

9

Tabel 12 Hasil perhitungan average precision

pada setiap nilai k

Nilai k Average Precision

LSI TF-IDF LSI Global

10 0.243 0.064

20 0.206 0.258

30 0.225 0.269

40 0.209 0.290

50 0.222 0.303

60 0.256 0.320

70 0.301 0.321

80 0.297 0.323

90 0.279 0.329

100 0.275 0.332

200 - 0.357

300 - 0.369

400 - 0.379

500 - 0.387

600 - 0.389

700 - 0.395

800 - 0.399

900 - 0.401

1000 - 0.405

Tabel 13 Rata-rata waktu pencarian pada

setiap nilai k

Nilai

k

Rata-rata

Waktu

Pencarian

(detik)

Maksimum

Waktu

Pencarian

(detik)

Minimum

Waktu

Pencarian

(detik)

10 0.557 0.654 0.430

20 0.625 0.807 0.553

30 0.690 0.946 0.506

40 0.749 0.884 0.650

50 0.884 1.138 0.763

60 0.910 1.190 0.784

70 0.953 1.286 0.823

80 0.998 1.170 0.834

90 1.050 1.317 0.961

100 1.136 1.284 1.049

200 1.696 1.952 1.085

300 2.197 2.538 1.615

400 3.477 3.743 2.164

500 3.434 3.716 3.212

600 4.210 4.673 3.969

700 4.424 4.784 4.249

800 5.023 5.367 4.390

900 5.371 5.815 5.096

1000 6.344 6.986 5.849

SIMPULAN DAN SARAN

Simpulan

Penelitian ini berhasil

mengimplementasikan metode Latent

Semantic Indexing dengan pembobotan global

berbasis sebaran. Hasil penelitian ini

menunjukkan bahwa nilai k yang memberikan

hasil akurasi paling tinggi adalah k = 1000

dengan nilai average precision 40.47%.

Akurasi hasil LSI dengan pembobotan global

berbasis sebaran lebih besar dibandingkan

dengan LSI dengan pembobotan TF-IDF.

Saran

Jika ingin menambahkan dokumen baru

maka matriks T, S, dan D perlu dihitung ulang

sehingga diperlukan teknik folding-in.

Folding-in adalah metode untuk

memproyeksikan dokumen baru ke dalam

ruang SVD sehingga matriks T, S, dan D

tidak perlu dihitung ulang.

DAFTAR PUSTAKA

Baeza-Yates R, Ribeiro-Neto B. 1999.

Modern Information Retrieval. Boston:

Addison Wesley.

Deerwester S, Dumais ST, Fumas GW,

Landauer TK, Harshman R. 1990.

Indexing by latent semantic analysis.

Journal of the American Society of

Information Science 41(6):391-407.

Geiss J. 2006. Latent semantic indexing and

information retrieval: A quest with BoSSE

[tesis]. Heidelberg: Universitat

Heidelberg.

Herdi, H. 2010. Pembobotan dalam proses

pengindeksan dokumen bahasa Indonesia

menggunakan framework indri [Skripsi].

Bogor: Fakultas Matematika dan Ilmu

Pengetahuan Alam, Institut Pertanian

Bogor.

Manning CD, Raghavan P, Schutze H. 2008.

An Introduction to Information Retrieval.

Cambridge: Cambridge University Press.

Maulizar N. 2011. Latent semantic indexing

pada sistem temu kembali dokumen

bahasa Indonesia [skripsi]. Bogor:

Fakultas Matematika dan Ilmu

Pengetahuan Alam, Institut Pertanian

Bogor.

Page 18: Mesin Pencari Dokumen Bahasa Indonesia

10

Xia T, Chai Y. 2011. An improvement to TF-

IDF: term distribution based term weight

algorithm. Journal of Software 6:413-420.

Page 19: Mesin Pencari Dokumen Bahasa Indonesia

11

LAMPIRAN

Page 20: Mesin Pencari Dokumen Bahasa Indonesia

12

Lampiran 1 Antarmuka sistem

Page 21: Mesin Pencari Dokumen Bahasa Indonesia

13

Lampiran 2 Daftar stopwords

acapkali apanya begitupula berkesempatan contohkan diberinya

ada apapun begitupun berkesimpulan contohnya dibiarkan

adakah arti belakang berlalu cukup dibiasakan

adakan artian belakangan berlalunya Cuma dibilang

adalah artinya belum berlama daerah dicontoh

adanya asalan belumlah berlangsung dahulu dicontohkan

adapun asalkan benar bermula dalam dicontohkannya

aduh asumsi benarkah bersama dan didapat

agak asumsinya benarnya bersamaan dapat didapati

agaknya atas berada bertepatan dapatkah didapatkan

agar atasnya berakhir beruntun dapatkan didapatnya

aja atau berakhirnya berupa dapatlah didasarkan

akalan ataukah berakibat besarnya dari digolongkan

akan ataupun berakibatkan beserta darinya digunakan

akankah awal beralasan besok daripada diharapkan

akhir bagai beralih besoknya dekat dijadikan

akhirnya bagaikan beralihnya betapa dekatnya dijadikannya

akibat bagaimana beranggapan biar demi dikarenakan

akibatkan bagaimanakah berapa biarlah demikian dikasih

akibatnya bagaimanapun berapanya biasa demikianlah dikata

aku bagi berapapun biasanya dengan dikatakan

ala baginya berarti bicarakan dengannya dikatakannya

alangkah bagus berasumsi bicaranya depan dikategorikan

alasan bagusnya berbagai bila depannya dikembangkan

alasannya bahkan berbagi bilamana di diketahui

alih bahwa berbanding bilang dia diketahuinya

alihkan baik berbeda bisa dialah dilaksanakan

amat baiknya berdampak bisakah dialami dilakukan

amatlah balik berdasarkan bisanya dialihkan dimana

ambil banding berhadapan boleh diambil dimulai

anda bandingkan berharap boro diambilkan dimulailah

andai banyak berhubung buat diambilnya dimulainya

anggap banyaknya berhubungan buatnya dianggap dimungkinkan

anggapan barangkali beri bukan diantara dipaparkan

antar baru berikan bukankah diantaranya dipersilahkan

antara bawah berikanlah bukanlah diapakan disaat

antaranya bawahnya berikut bukannya dibagi disebabkan

apa beberapa berikutnya buktikan dibagikan disejumlah

apabila begini berjumlah cara dibeberapa diseluruh

apakah beginilah berkat cerita diberbagai disertai

apalagi begitu berkenaan ceritanya diberi disertakan

apalah begitulah berkesan contoh diberikan disimpulkan

Page 22: Mesin Pencari Dokumen Bahasa Indonesia

14

Lanjutan

disitulah itupun kemana manalagi mengaku mulanya

ditanggapi iya kemanakah manapun mengalami muncul

ditanya jadi kembali masa mengalihkan mungkin

ditanyakan jadikan kemudian masih mengambil mungkinkah

dituturkan jadilah kemungkinan masihkah mengambilnya namun

diucapkan jadinya kemungkinannya masing menganggap nanti

dkk jangan kenapa masuk menganggapnya negara

dll jarang kenapakah masyarakat mengapa nilai

dsb jauh kepada mau mengatakan nyaris

dua jelaskan kepadanya maupun mengembangkan nyiakan

dulu jika kepala melainkan mengenai oleh

dulunya jikalau ketika melakukan menggunakan orang

empat juga ketimbang melalui mengungkapkan pada

enggak jumlah khususnya melihat meningkat padahal

engkau jumlahnya kini memang meningkatkan padanannya

esok justru kita memaparkan menjadi paling

gimana juta kondisi membagi menjadikan panjangnya

habis kabupaten kurang membagikan menjadikannya papar

habisan kadang lagi memberi menjelang paparan

habiskan kalau lagian memberikan menjelaskan paparkan

habisnya kalaupun lagipula memberinya menuju paparnya

hal kali lain membiarkan menunjukkan para

hampir kalian lainnya membolehkan menurut pasti

hanya kami laksana membuat menurutnya pastilah

hanyalah kamu lakukan memeperoleh menuturkan pastinya

hari kan lalu memiliki menyatakan pelak

harus kapan lalui meminta menyebabkan pelbagai

haruskah karena lama memperbolehkannya menyebutkan pemaparan

haruslah karenanya lanjut mempersilahkan menyia pembagian

harusnya kata lantaran mempunyai mereka pembagiannnya

hendak katakan lantas memungkinkan merupakan pendapat

hendaklah katakanlah lebih menanggapi meski pengalihan

hendaknya katanya lepas menanggapinya meskipun pengambil

hingga kau lewat menanyakan mesti pengambilan

how kayak lokasi mencapai mestinya pengandaian

ialah kayaknya maka mencontohkan misal per

ingin ke makin mendapat misalkan peralihan

ini kebanyakan mampu mendapati misalnya percuma

inilah kebetulan mampukah mendapatkan mudah peri

inipun kebiasaan mampunya mendapatkannya mula perihal

itu kecil mana menerus mulai perlahan

itulah kecuali manakala mengada mulainya perlu

Page 23: Mesin Pencari Dokumen Bahasa Indonesia

15

Lanjutan

pernah sebenarnya semakin sesungguhnya tentunya umum

persen seberapa semampunya setelah tepatnya umumnya

pertamanya seberat semenjak setelahnya terbagi ungkap

pinggir sebesar sementara seterusnya terbalik ungkapan

pula sebetulnya semestinya setiap terbiasa ungkapkan

pulalah sebuah semisal setidak terbilang ungkapnya

pun secara semoga setidaknya terdapat untuk

rata sedalam semua seusai terdapat usah

relevankah sedang semuanya sewaktu tergolong usahlah

rendah sedangkan semula seyogyanya terhadap usai

saat sedapat seolah sia terjadi usianya

saatnya sedemikian seorang sialnya terjadilah waktu

saatnyalah sedikit seorangpun siap terjadinya waktulah

saja sedikitnya sepadan siapa terkadang waktunya

salah segera sepanjang siapakah terkait walau

sama sehabis sepasang siapapun terkecuali walaupun

sambil seharusnya sepele silahkan terlalu warga

sambutannya seharusnyalah sependapat singkatnya terlebih yaitu

sampai sehingga seperti sini termasuk yakni

sana sehubungan sepertinya sinilah ternyata yang

sang sejak seputar situ tersebut

sangat sejauhmana seraya sosok tertentu

sangatlah sejumlah serba sosoknya terus

satunya sekalian serentak suatu tetap

saya sekaligus sering sudah tetapi

sayangnya sekalipun seringkali sulit tiap

seakan sekarang seringkalinya sungguh tiba

seandainya sekata seringlah sungguhpun tidak

seantero sekedar seringnya supaya tidaklah

sebab sekeliling serta tak tidaknya

sebabkan seketika sertanya tambahnya tiga

sebabnya sekian sesaat tanggapan tinggi

sebagai sekitar sesama tanggapannya tutur

sebagaimana selagi sesamamu tanggapnya tuturnya

sebagainya selain sesedikit tanpa ucap

sebagian selalu seseorang tapi ucapan

sebaik selama sesuai tatkala ucapannya

sebaiknya selanjutnya sesuatu telah ucapkan

sebaliknya selesai sesuatunya tempat ucapnya

sebanyak selesaikah sesudah tengah ujar

sebelum seluruh sesudahnya tentang ujarnya

sebelumnya seluruhnya sesukanya tentu umpamanya

Page 24: Mesin Pencari Dokumen Bahasa Indonesia

16

Lampiran 3 Gugus kueri dan jawaban untuk dokumen pertanian

Kueri Gugus Jawaban

Bencana

kekeringan

gatra070203, gatra161002, gatra210704, gatra301002, indosiar010903,

indosiar170603, indosiar220503, indosiar260803-003, indosiar310504,

kompas210504, kompas250803, mediaindonesia050604-001,

mediaindonesia110703, mediaindonesia160603, mediaindonesia240503,

mediaindonesia260803, mediaindonesia270803, mediaindonesia310503,

pikiranrakyat020704, republika030903-001, republika030903-002, republika070604-

001, republika090804-01, republika120804-01, republika120804-04,

republika130804-02, republika200603, republika210704-004, republika250604,

republika270503, republika270704-002, situshijau181103-001, suarakarya000000-

002-01, suarakarya000000-021, suaramerdeka130602, suaramerdeka190903,

suarapembaruan150903, suarapembaruan180303, suarapembaruan260703-002.

Dukungan

pemerintah

pada pertanian

indosiar070504, jurnal000000-026, kompas030401, kompas050303, kompas060503,

kompas071100, kompas150201, kompas200802, kompas300402,

mediaindonesia130204, mediaindonesia220303, pembaruan110903, poskota040804,

republika100903, republika180303, republika210902, republika230903,

republika251102-001, republika251102-002, republika300604-001,

situshijau150504-002, situshijau190303-002, situshijau200103-002,

situshijau201003-001, situshijau281003-002, suarakarya000000-028,

suaramerdeka130902, wartapenelitian000000-002, wartapenelitian000000-007.

Flu burung gatra220604, gatra270104-001, gatra270104-002, gatra300104, indosiar020304,

indosiar240204, mediaindonesia090204, mediaindonesia140704,

mediaindonesia200204, republika090604, republika120704-005, republika190504-

001, republika190604-005, republika210504-001, republika290704-002,

situshijau280404-004, suarakarya000000-001, suarakarya000000-008,

suarakarya000000-014, suaramerdeka160204, suaramerdeka200104.

Gabah kering

giling

indosiar180603, indosiar240703, indosiar300304, kompas 170402, kompas030502-

001, kompas160704, kompas170903, mediaindonesia250304, pikiranrakyat300604,

republika040303, republika060804-003, republika100704-003, republika100804,

republika120804-01, republika180504-002, republika210704-001, republika230704-

001, republika231202-001, republika231202-002, republika290604-003,

republika290604-007, situshijau281003-004, suarakarya000000-007,

suaramerdeka090104.

Gagal

panen/puso

gatra070203, gatra190802, gatra190902-02, gatra301002, indosiar010504,

indosiar031203, indosiar040903, indosiar050704-002, indosiar070504,

indosiar130504, indosiar140204, indosiar160304, indosiar170603, indosiar180304,

indosiar240703, indosiar260803-001, indosiar260803-003, kompas030704,

kompas031003, kompas170504, mediaindonesia030603, mediaindonesia050604-001,

mediaindonesia110703, mediaindonesia140203, mediaindonesia160603,

mediaindonesia240503, mediaindonesia310503, republika030903-002,

republika060804-001, republika080703, republika090804-01, republika120804-04,

republika130704-001, republika130804-02, republika200603, republika230704-005,

republika260604-003, situshijau091203-002, situshijau100603-003,

situshijau110303-002, situshijau280404-002, suarakarya000000-002-02,

suarakarya000000-011, suaramerdeka120104, suaramerdeka130602,

suarapembaruan120104, suarapembaruan260703-001, suarapembaruan260703-002.

Page 25: Mesin Pencari Dokumen Bahasa Indonesia

17

Lanjutan

Kueri Gugus Jawaban

Impor beras

indonesia

gatra180103, gatra220802, indosiar180603, indosiar180703, indosiar200304,

indosiar300703-002, kompas 170402, kompas 170402, kompas050602,

kompas101002, kompas101004, kompas160704, kompas180504, kompas270401,

kompas270502-002, kompas310702, mediaindonesia050104, mediaindonesia060803,

mediaindonesia100203, mediaindonesia131003, mediaindonesia160603,

mediaindonesia250304, republika020604-001, republika060804-001,

republika090902, republika100703, republika100704-003, republika180504-002,

republika210704-001, republika230704-001, republika231202-001,

republika231202-002, republika240604-001, republika300704-002,

situshijau281003-004, suarakarya000000-007, suarakarya000000-023,

suaramerdeka120104, suaramerdeka130104, suaramerdeka170602-001,

suaramerdeka270601, suarapembaruan100903, suarapembaruan110903

Industri gula gatra200103, kompas031003, kompas250901, mediaindonesia120604-002,

pikiranrakyat300704-002, republika010704-003, republika020804, republika090902,

republika100902, republika220604-002, republika280704-002, republika301002,

situshijau210103-001, suarakarya000000-001-01, suarakarya000000-007,

suarakarya000000-028, suaramerdeka130902, suarapembaruan100903,

suarapembaruan220403

Institut

pertanian bogor

gatra020804, gatra180304, gatra180702, gatra220704, gatra290903, gatra300404,

kompas100399, kompas111099, kompas121099, kompas150304-001,

kompas200704, kompas200799, kompas230704, mediaindonesia080704,

mediaindonesia090704, mediaindonesia101003, mediaindonesia290903-002,

republika010704-001, republika061003, republika070604-002, republika100604-002,

republika100704-002, republika110604-002, republika140704-002,

republika160604-002, republika170604-001, republika180303, republika180604,

republika190604-001, republika190604-002, republika211002, republika220604-001,

republika230704-08, situshijau070503, situshijau101103-004, situshijau281003-003,

suarakarya000000-005, suarakarya000000-010, suarapembaruan150903,

suarapembaruan260703-001

Kelangkaan

pupuk

indosiar010704, indosiar060204, indosiar190504-001, indosiar200104,

indosiar260504, indosiar290604, kompas210504, kompas300502-001,

pikiranrakyat010504-003, republika050604, republika160604-001,

suarakarya000000-001-02, suarakarya000000-002, suarakarya000000-006,

suarakarya000000-026, suarakarya000000-029, suarakarya000000-030,

suarakarya000000-032, suarakarya000000-038, suaramerdeka161101

Kelompok

masyarakat

tani/kelompok

tani

bitraindonesia000000-001, indosiar021203-002, jurnal000000-017, kompas180502,

kompas211103, kompas250901, kompas260304, kompas260902, kompas270203-

002, kompas270502-002, kompas300502-001, replubika110804, republika030304,

republika110604-004, republika131203-001, republika140703, republika151202,

republika180303, republika270704-001, republika280703, republika300704-001,

situshijau070503, situshijau120303-003, situshijau130303-001, situshijau190303-

002, situshijau200103-002, situshijau281003-004, suarakarya000000-001-02,

suarakarya000000-037, suaramerdeka260902, suarapembaruan090202,

suarapembaruan130103

Laboratorium

pertanian

balaipenelitian000000-010, gatra100203, indobic130504-002, indosiar010704,

jurnal000000-027, kompas220801, kompas241203, kompas300502-002,

mediaindonesia290903-002, republika050804-007, republika120704-005,

republika230704-004, republika300604-002, situshijau040603, situshijau051103-02,

situshijau100603-001, situshijau140503-001-01, situshijau150403-002,

situshijau180603-003, suarakarya000000-003, suaramerdeka031101

Page 26: Mesin Pencari Dokumen Bahasa Indonesia

18

Lanjutan

Kueri Gugus Jawaban

Musim

panen

gatra190902-02, gatra230103-001, gatra240203, indosiar010504, indosiar021203-

002, indosiar060204, indosiar071103, indosiar110304, indosiar240604,

indosiar300304, kompas030502-001, kompas041103, kompas220901-001,

kompas240103, kompas300502-001, mediaindonesia131203-001,

mediaindonesia230604, pikiranrakyat240404, pikiranrakyat300604, poskota261202,

republika060804-001, republika060804-003, republika100704-003,

republika151202, republika171102, republika240604-005, republika290604-007,

republika300704-002, situshijau000000-001, situshijau040603, situshijau080503-

004, situshijau250403-004, situshijau270503-002, situshijau280404-002,

suarakarya000000-007, suarakarya000000-023, suarakarya000000-028,

suaramerdeka120104, suaramerdeka290901, suarapembaruan031002

Pembangu

nan untuk

sektor

pertanian

gatra180304, jurnal000000-002, kompas020803, kompas031003, kompas060203,

kompas060503, kompas100399, kompas101004, kompas110201, kompas111099,

kompas121099, kompas150304-002, kompas190802, kompas191099,

kompas200799, kompas210502, kompas220901-002, kompas230603,

kompas240803, kompas260203, kompas270204, kompas280602, kompas290404,

mediaindonesia050604-002, mediaindonesia060903, mediaindonesia090903,

mediaindonesia160903, pembaruan110903, poskota110703, republika060903,

republika070104, republika080703, republika100804, republika100903,

republika101203, republika110604-002, republika131203-001, republika150604-

003, republika150903, republika190803, republika251002-003, republika290704-

003, republika300604-001, situshijau091203-002, situshijau280203,

suarapembaruan140303

Penerapan

bioteknolo

gi di

indonesia/

penerapan

bioteknolo

gi/biotekn

ologi di

indonesia

jurnal000000-018, kompas121099, puslitbang000000-001, republika220604-003,

republika290704-002, situshijau000000-002, situshijau030603-001,

situshijau040603, situshijau050703-001, situshijau070103-001, situshijau070103-

002, situshijau070103-003, situshijau100603-002, situshijau100603-003,

situshijau110303-002, situshijau130103-001, situshijau130503-001,

situshijau130503-002, situshijau140103-002, situshijau140103-003,

situshijau140503-001-01, situshijau140903-001, situshijau150403-001,

situshijau150403-002, situshijau160103, situshijau180603-003, situshijau180803-

003, situshijau200103-001, situshijau210103-003, situshijau210503-001,

situshijau270303-004, situshijau270503-002, situshijau270703-005,

situshijau300403, situshijau310303, situshijau310303-No, suarakarya000000-001-

02, suarakarya000000-014, suarapembaruan020603, suarapembaruan020603-No,

suarapembaruan151102, wartapenelitian000000-009

harga

komoditas

pertanian

indosiar071103,indosiar180603,indosiar221003,indosiar240604,indosiar300304,jur

nal000000-022,jurnal000000-027,kompas 170402,kompas030502-

001,kompas030502-

002,kompas080702,kompas100399,kompas101004,kompas111099,kompas140802,

kompas160304,kompas170104,kompas171002,kompas180502,kompas180504,kom

pas230603,kompas250901,kompas270203-001,kompas270401,kompas270502-

001,kompas280602,kompas311203,mediaindonesia060803,mediaindonesia310503,

pikiranrakyat240404,pikiranrakyat300604,poskota000000-002,poskota000000-

003,republika030804-002,republika060503,republika060804-001,republika060804-

003,republika061102,republika090902,republika140704-004,situshijau050703-

002,situshijau070503,situshijau130203-002,situshijau240203-

002,situshijau280203,situshijau280404-001,situshijau280404-002,situshijau280404-

003,suarakarya000000-002-02,suarakarya000000-021,suaramerdeka170602-

001,suaramerdeka290802,suaramerdeka311003,suarapembaruan100903,suarapemb

aruan220403,trubus000004,wartapenelitian000000-002

Page 27: Mesin Pencari Dokumen Bahasa Indonesia

19

Lanjutan

Kueri Gugus Jawaban

Penerapan

teknologi pertanian

indosiar250204-001, jurnal000000-001, jurnal000000-011, jurnal000000-013,

jurnal000000-017, jurnal000000-024, kompas121099, kompas251003,

kompas290402, mediaindonesia170403, republika050903, republika131203-001,

republika140604-001, republika180504-001, republika201102, republika220604-

003, republika230704-08, republika260803, situshijau030603-001,

situshijau080103, situshijau100603-003, situshijau140103-002, situshijau140903-

001, situshijau140903-003, situshijau180603-003, situshijau180803-002,

situshijau181103-002, situshijau270303-004, situshijau270503-002,

situshijau270703-005, situshijau281003-003, situshijau290503-003,

suarakarya000000-034, suarapembaruan020603-No, suarapembaruan060602,

suarapembaruan160702, wartapenelitian000000-003, wartapenelitian000000-007,

wartapenelitian000000-009

Penyakit hewan

ternak/penyakit

ternak

gatra270104-002, gatra270104-003, gatra300104, mediaindonesia090204,

republika150103, republika160704-003, republika260704-004, republika300604-

002, suarakarya000000-004, suarakarya000000-008, suarakarya000000-014,

suarakarya000000-017, suaramerdeka260302-01

Penyuluhan

pertanian

bitraindonesia000000-001, gatra190902-02, indosiar310504, jurnal000000-005,

jurnal000000-014, kompas050802, kompas130699, kompas170104,

kompas200503-002, mediaindonesia160603, poskota110703, republika030903-

002, republika050804-001, republika061003, republika171003, republika180303,

republika200203, republika210504-001, republika220604-003, republika260604-

003, republika300604-003, situshijau201003-002, situshijau230103-001,

situshijau270703-001, suaramerdeka271102, wartapenelitian000000-002,

wartapenelitian000000-007

Perdagangan hasil

pertanian

gatra011102, indosiar070204, indosiar201103, jurnal000000-002, jurnal000000-

027, kompas031003, kompas041102, kompas101002, kompas140802,

kompas160304, kompas270401, kompas270502-001, kompas271103,

kompas311203, mediaindonesia030104, mediaindonesia101003,

mediaindonesia150903, mediaindonesia170303, republika020604-001,

republika041102, republika281202, situshijau130303-001, situshijau191103,

situshijau240203-002, suarakarya000000-013, suaramerdeka120104,

suaramerdeka270601, suarapembaruan080903-001, suarapembaruan080903-002,

wartapenelitian000000-006

Pertanian

organik/sistem

pertanian organik

indosiar250204-002, jurnal000000-017, kompas010499, kompas030502-002,

kompas050802, kompas081203, kompas181099, kompas221001, kompas241203,

kompas260304, kompas270502-002, kompas300502-001, republika131203-001,

republika150303, republika180303, situshijau070503, situshijau091203-001,

situshijau091203-004, situshijau290503-003, suarakarya000000-001-02,

suarapembaruan000000-002, suarapembaruan090202, suarapembaruan110702-

01, suarapembaruan160702

Petani tebu indosiar190504-002, indosiar290604, kompas031003, kompas250901,

kompas310702, republika010704-003, republika020804, republika100902,

republika140704-004, republika150604-002, republika200704-001,

republika220604-002, republika280704-002, republika310704-001,

situshijau280203, suarakarya000000-007, suarakarya000000-028,

suaramerdeka130902, suarapembaruan100903, suarapembaruan220403

Page 28: Mesin Pencari Dokumen Bahasa Indonesia

20

Lanjutan

Kueri Gugus Jawaban

Peternak

unggas/peternak

ayam/peternak

burung

gatra270104-001, gatra270104-002, gatra300104, indosiar020304,

indosiar161203, indosiar240204, jurnal000000-009, kompas051103,

kompas120101, mediaindonesia090204, republika061003, republika100604-002,

republika190504-001, republika210504-001, situshijau280404-004,

suarakarya000000-001, suarakarya000000-008, suarakarya000000-014,

suarakarya000000-017, suarapembaruan220802

Produk usaha

peternakan

rakyat/produk

peternakan

jurnal000000-003, kompas120101, kompas150201, mediaindonesia010304,

mediaindonesia090204, republika100604-002, republika150303,

republika170704-007, republika210504-001, republika220704-003,

republika260604-001, republika290704-002, republika300604-002,

situshijau190303-001, suarakarya000000-001, suarakarya000000-008,

suarakarya000000-013, suarakarya000000-014, suarapembaruan151102

Pupuk organik balaipenelitian000000-001, kompas270502-002, kompas280502, kompas300502-

001, republika050804-007, republika190104, republika201102, republika270604,

situshijau091203-004, situshijau140103-001, suarakarya000000-001-02,

suarakarya000000-037, suaramerdeka031101, suaramerdeka170602-002,

suarapembaruan090202, suarapembaruan130103, suarapembaruan160702,

suarapembaruan220802, wartapenelitian000000-002, wartapenelitian000000-008

Riset pertanian balaipenelitian000000-012, gatra270104-002, indobic130504-001, jurnal000000-

008, jurnal000000-015, jurnal000000-018, jurnal000000-019, jurnal000000-026,

kompas010499, kompas170104, kompas221003, kompas230603,

mediaindonesia131003, puslitbang000000-001, republika030903-002,

republika070604-002, republika100704-002, republika140104, republika170604-

001, republika190604-001, republika190604-002, republika210704-001,

republika210704-003, republika220604-003, republika241203, republika260803,

republika280703, republika300604-003, situshijau040603, situshijau070503,

situshijau080503-001, situshijau091203-003, situshijau101103-004,

situshijau130103-001, situshijau130503-002, situshijau140103-002,

situshijau140903-001, situshijau140903-003, situshijau150403-002,

situshijau180803-002, situshijau181103-002, situshijau200103-001,

situshijau200103-001-No, situshijau201003-002, situshijau210103-003,

situshijau210503-001, situshijau250203, situshijau270303-004, situshijau290503-

001, situshijau300403, situshijau310303, suarakarya000000-001-02,

suarakarya000000-010, suarakarya000000-019, suarakarya000000-027,

suarakarya000000-034, suarakarya000000-037, suaramerdeka270601,

suarapembaruan000000-002, suarapembaruan020603, suarapembaruan060602,

suarapembaruan110702, suarapembaruan110702-01, suarapembaruan151102,

suarapembaruan160702, suarapembaruan241003, suarapembaruan290802-001,

wartapenelitian000000-007, wartapenelitian000000-009

Page 29: Mesin Pencari Dokumen Bahasa Indonesia

21

Lanjutan

Kueri Gugus Jawaban

Swasembada

pangan

indosiar021203-002, kompas060503, kompas100901, kompas110201,

kompas150304-002, kompas170104, kompas230603, kompas230899,

kompas270203-001, kompas270401, kompas270502-002,

mediaindonesia160603, republika030304, republika060503, republika061003,

republika080703, republika100704-005, republika220604-003, republika220604-

003, republika230902-001, republika230902-002, republika231202-001,

republika231202-002, suarakarya000000-001-02, suarakarya000000-002-02,

suarakarya000000-016, suarakarya000000-021, suaramerdeka170602-001,

suarapembaruan110903, suarapembaruan221102

Tadah hujan gatra210704, gatra301002, indosiar260803-001, indosiar310504, jurnal000000-

001, kompas270502-002, mediaindonesia160603, mediaindonesia310503,

republika090804-01, republika210704-004, republika230704-005,

republika240604-005, republika290604-007, suarakarya000000-001-02,

suarakarya000000-030, suaramerdeka130602, suarapembaruan260703-002,

wartapenelitian000000-004

Tanaman obat balaipenelitian000000-008, balaipenelitian000000-009, indobic120504,

indosiar010704, indosiar260803-002, republika020604-003, republika030804-

002, republika270604, republika290604-001, situshijau030203-001,

situshijau041203, situshijau060503, situshijau070103-004, situshijau070103-005,

situshijau100603-002, situshijau101103-003, situshijau120303-004,

situshijau130103-002, situshijau130503-001, situshijau140103-003,

situshijau140903-004, situshijau180203-001, situshijau180203-002,

situshijau201003-002, situshijau270303-001, situshijau270303-003,

situshijau270503-002, situshijau270703-002, situshijau290503-001

Tanaman pangan bitraindonesia000000-001, indosiar021203-001, indosiar030304, indosiar050704-

002, indosiar130104, indosiar130504, indosiar160304, indosiar180304,

indosiar310504, kompas020603, kompas120102, kompas120702, kompas171002,

kompas180701, kompas240302, kompas260203, kompas311203,

mediaindonesia030104, mediaindonesia160603, mediaindonesia170303,

mediaindonesia220303, republika030304, republika050903, republika080604-

004, republika150903, republika200603, republika220604-003, republika230704-

006, republika241203, republika260604-001, republika271003, situshijau070103-

003, situshijau140903-001, situshijau181103-001, situshijau290403-002,

suarakarya000000-001-02, suarakarya000000-011, suarakarya000000-013,

suarakarya000000-031, suaramerdeka160703, suaramerdeka250302,

suarapembaruan151102, suarapembaruan260703-002

Upaya peningkatan

pendapatan

petani/peningkatan

pendapatan petani

indosiar150104-001, jurnal000000-017, kompas030502-001, kompas031003,

kompas100399, kompas170903, kompas200802, kompas210502, kompas260702,

kompas270203-001, kompas300402, kompas300502-002, pembaruan110903,

poskota110703, republika030804-002, republika030903-001, republika060804-

001, republika060804-003, republika230404, republika231202-001,

republika231202-002, republika240604-005, republika241203, republika281202,

republika300704-002, situshijau140503-001, situshijau180803-002,

situshijau181103-002, situshijau200103-001, situshijau280203,

suaramerdeka120104, suaramerdeka170602-001, suarapembaruan060602,

suarapembaruan290802-001, wartapenelitian000000-005

Page 30: Mesin Pencari Dokumen Bahasa Indonesia

22

Lampiran 4 Hasil perhitungan precision pada sebelas tingkat recall standar berbagai kueri dengan nilai k = 1000

Kueri Nilai precision pada sebelas tingkat recall

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

bencana kekeringan 1.000 0.885 0.885 0.885 0.885 0.885 0.813 0.811 0.744 0.632 0.238

dukungan pemerintah

pada pertanian

0.250 0.250 0.162 0.070 0.070 0.070 0.055 0.055 0.055 0.055 0.045

flu burung 1.000 1.000 1.000 1.000 0.938 0.938 0.938 0.938 0.900 0.840 0.840

gabah kering giling 1.000 1.000 0.667 0.571 0.455 0.406 0.375 0.362 0.314 0.314 0.264

gagal panen 0.700 0.700 0.611 0.517 0.417 0.397 0.267 0.239 0.207 0.107 0.052

impor beras indonesia 1.000 1.000 1.000 0.947 0.947 0.759 0.684 0.564 0.404 0.285 0.160

industri gula 1.000 1.000 1.000 1.000 0.917 0.917 0.632 0.560 0.485 0.122 0.084

institut pertanian bogor 1.000 0.857 0.600 0.317 0.227 0.133 0.097 0.095 0.095 0.088 0.079

kelangkaan pupuk 1.000 1.000 1.000 1.000 0.818 0.800 0.789 0.789 0.762 0.643 0.345

kelompok masyarakat tani 0.667 0.667 0.667 0.611 0.394 0.254 0.250 0.222 0.222 0.167 0.167

laboratorium pertanian 0.333 0.150 0.125 0.037 0.037 0.037 0.037 0.037 0.033 0.033 0.024

musim panen 0.750 0.750 0.667 0.636 0.439 0.383 0.352 0.312 0.302 0.254 0.175

pembangunan untuk

sektor pertanian

1.000 0.857 0.611 0.538 0.442 0.439 0.431 0.363 0.259 0.190 0.082

penerapan bioteknologi di

indonesia

1.000 0.333 0.130 0.083 0.082 0.082 0.076 0.067 0.048 0.046 0.043

penerapan teknologi

pertanian

1.000 0.308 0.164 0.155 0.155 0.136 0.136 0.101 0.101 0.055 0.042

Page 31: Mesin Pencari Dokumen Bahasa Indonesia

23

Lanjutan

Kueri Nilai precision pada sebelas tingkat recall

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

penyakit hewan ternak 1.000 0.500 0.500 0.444 0.333 0.318 0.296 0.222 0.200 0.167 0.144

penyuluhan pertanian 1.000 0.094 0.053 0.048 0.048 0.048 0.048 0.046 0.046 0.043 0.029

perdagangan hasil pertanian 1.000 0.263 0.171 0.165 0.165 0.159 0.139 0.106 0.087 0.050 0.047

sistem pertanian organik 1.000 0.714 0.714 0.714 0.714 0.667 0.577 0.327 0.230 0.168 0.035

petani tebu 1.000 0.300 0.217 0.113 0.073 0.060 0.060 0.058 0.058 0.058 0.052

peternak ayam 1.000 1.000 1.000 1.000 1.000 0.923 0.867 0.842 0.842 0.704 0.526

produk usaha peternakan

rakyat

1.000 1.000 0.714 0.600 0.117 0.114 0.089 0.089 0.068 0.055 0.054

pupuk organik 1.000 0.667 0.636 0.636 0.293 0.293 0.236 0.205 0.200 0.194 0.165

riset pertanian 0.167 0.098 0.098 0.098 0.098 0.098 0.090 0.083 0.079 0.072 0.069

swasembada pangan 0.313 0.313 0.313 0.313 0.313 0.281 0.244 0.220 0.208 0.208 0.090

tadah hujan 0.500 0.500 0.344 0.344 0.344 0.344 0.344 0.313 0.313 0.227 0.168

tanaman obat 1.000 1.000 0.857 0.833 0.600 0.234 0.225 0.139 0.117 0.117 0.112

tanaman pangan 0.500 0.243 0.243 0.210 0.160 0.160 0.152 0.142 0.139 0.139 0.115

upaya peningkatan pendapatan

petani

0.161 0.161 0.161 0.151 0.099 0.099 0.099 0.084 0.084 0.083 0.058

harga komoditas pertanian 1.000 1.000 0.813 0.514 0.500 0.413 0.372 0.288 0.253 0.185 0.096

Rata-rata interpolasi

maksimum

0.811 0.620 0.537 0.485 0.402 0.361 0.326 0.289 0.262 0.210 0.147

Average precision 0.404683

Page 32: Mesin Pencari Dokumen Bahasa Indonesia

24

Lampiran 5 Grafik perbandingan average precision LSI TF-IDF dengan LSI Global

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Pre

ciso

n

Nilai K

AVP LSI TFIDF AVP LSI GLOBAL

Page 33: Mesin Pencari Dokumen Bahasa Indonesia

25

Penguji:

1. Mushthofa S.Kom, M.Sc

2. Ahmad Ridha S.Kom, MS