Mesin Pencari Dokumen Bahasa Indonesia
description
Transcript of Mesin Pencari Dokumen Bahasa Indonesia
MESIN PENCARI DOKUMEN BAHASA INDONESIA
MENGGUNAKAN LATENT SEMANTIC INDEXING
DENGAN PEMBOBOTAN GLOBAL
SUSI HANDAYANI
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
MESIN PENCARI DOKUMEN BAHASA INDONESIA
MENGGUNAKAN LATENT SEMANTIC INDEXING
DENGAN PEMBOBOTAN GLOBAL
SUSI HANDAYANI
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
ABSTRACT
SUSI HANDAYANI. Search Engine for Documents in Bahasa Indonesia Using Latent Semantic
Indexing with Global Term Weight. Supervised by JULIO ADISANTOSO.
Current users tend to like search engine based on semantic of word. This is caused by the
existence of synonymy and polysemy problems in the selection of the use of the word. One technique
to resolve these issue is Latent Semantic Indexing (LSI). LSI has the ability to find relevant
documents even if the word of the query are not written in the document. Currently, TF-IDF term
weight algorithm is widely applied in search engines. Xia and Chai (2011) stated that, in a document
collection, the term with higher frequency and hypo-dispersion distribution usually contains less
information. The purpose of this research is to implement LSI using Singular Value Decomposition
(SVD) method with term distribution based global term weight. This research used 1000 Indonesian
agricultural documents. The performance of search engine using LSI with term-distribution-based
global term weight gave highest average precision around 40.47%. The test result also showed that
LSI with term-distribution-based global term weight gives better acuracy than LSI with TF-IDF.
Keyword: Latent Semantic Indexing, Singular Value Decomposition, Term Distribution based
Global Term Weighting
Judul Skripsi : Mesin Pencari Dokumen Bahasa Indonesia Menggunakan Latent Semantic
Indexing dengan Pembobotan Global
Nama : Susi Handayani
NRP : G64080042
Menyetujui:
Pembimbing
Ir. Julio Adisantoso, M.Kom
NIP.19620714 198601 1 002
Mengetahui:
an. Ketua Departemen Ilmu Komputer
Sekretaris
Ahmad Ridha S.Kom, MS
NIP. 19800507 200501 1 001
Tanggal Lulus:
KATA PENGANTAR
Puji syukur penulis panjatkan kepada Tuhan Yang Maha Esa, karena berkat rahmat dan
karunia-Nya sehingga skripsi ini berhasil diselesaikan. Penulis menyadari bahwa tugas akhir ini tidak
akan terselesaikan tanpa bantuan dari berbagai pihak. Pada kesempatan ini, penulis ingin
mengucapkan terima kasih kepada:
Kedua orang tua penulis, Budiono dan Komala, serta kakak Susan Handayani yang selalu
memberikan doa, nasihat, dukungan, semangat, dan kasih sayang yang luar biasa kepada
penulis sehingga penulis dapat menyelesaikan tugas akhir ini.
Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir. Terima kasih atas
kesabaran, bimbingan, serta dukungan dalam penyelesaian tugas akhir ini.
Bapak Mushthofa S.Kom, M.Sc dan Bapak Ahmad Ridha S.Kom, MS selaku dosen penguji.
Ibu Ir. Meuthia Rachmania, M.Sc selaku dosen pembimbing akademik.
Teman-teman satu bimbingan: Putri Dewi Purnama Sari, Fania Rahmanawati Karimah, Anita,
Meri Marlina, Meriska Defriani, Nofel Saputra, Alfa Nugraha, Risky Utama, dan Hafidzhia
Dzikrul, terima kasih atas kebersamaan dan semangatnya sehingga tugas akhir ini dapat
diselesaikan.
Sahabat-sahabat Siska Susanti, Brenda Kristi, Indra Lesmana, Ardini Sri Kartika, Mitha
Rachmawati, Arief Hidayatulloh, Abdul Qifly Sangadji, Muti Relegi, serta rekan-rekan
Ilkomerz 45 atas segala kebersamaan, bantuan, dukungan, serta kenangan bagi penulis selama
menjalani masa studi.
Teman-teman kosan Dewi Sartika, kosan Ariny, kosan White House dan kursus Korea UPB
IPB, terima kasih untuk dukungan dan bantuannya selama penyelesaikan tugas akhir ini.
Ibu Rahmawati, Kak Auzi Asfarian, dan seluruh staf Departemen Ilmu Komputer IPB yang
telah banyak membantu baik selama penelitian maupun selama perkuliahan.
Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat banyak kekurangan
dan kelemahan dalam berbagai hal karena keterbatasan kemampuan penulis. Penulis berharap adanya
masukan berupa saran atau kritik yang bersifat membangun dari pembaca demi kesempurnaan tugas
akhir ini. Semoga tugas akhir ini bermanfaat.
Bogor, September 2012
Susi Handayani
RIWAYAT HIDUP
Penulis dilahirkan di Bekasi pada tanggal 5 April 1990. Penulis merupakan anak kedua dari
dua bersaudara dari pasangan Budiono dan Komala. Pada tahun 2008, penulis menamatkan
pendidikan di Sekolah Menengah Atas Negeri 1 Tambun Selatan. Penulis lulus seleksi masuk Institut
Pertanian Bogor (IPB) pada tahun yang sama melalui jalur Undangan Seleksi Masuk IPB dan diterima
sebagai mahasiswa di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam.
Selama aktif menjadi mahasiswa, penulis menjadi salah satu pengurus Himpunan Mahasiswa
Ilmu Komputer (Himalkom) sebagai sekretaris Komunitas PHP pada tahun 2010. Penulis juga aktif
mengikuti beberapa kegiatan kepanitiaan, antara lain Dies Natalis KMB IPB 2008, FOTRANUSA
2008, MPD 2010, Pesta Sains Nasional 2010, dan IT TODAY 2010. Penulis juga melakukan Praktik
Kerja Lapang di PPPTMGB “LEMIGAS” pada tahun 2011.
v
DAFTAR ISI
Halaman
DAFTAR TABEL ................................................................................................................................. vi
DAFTAR GAMBAR ............................................................................................................................ vi
DAFTAR LAMPIRAN ......................................................................................................................... vi
PENDAHULUAN.................................................................................................................................. 1 Latar Belakang .................................................................................................................................. 1 Tujuan Penelitian .............................................................................................................................. 1 Ruang Lingkup Penelitian ................................................................................................................ 1
METODE PENELITIAN ....................................................................................................................... 1 Praproses .......................................................................................................................................... 1 Matriks Term-Dokumen ................................................................................................................... 3 Singular Value Decomposition (SVD) ............................................................................................. 3 Pengolahan Kueri ............................................................................................................................. 3 Ukuran Kemiripan ............................................................................................................................ 3 Evaluasi ............................................................................................................................................ 4 Lingkungan Implementasi ................................................................................................................ 4
HASIL DAN PEMBAHASAN .............................................................................................................. 4 Koleksi Korpus ................................................................................................................................. 4 Praproses .......................................................................................................................................... 5 Pembobotan ...................................................................................................................................... 5 Matriks Term-Dokumen ................................................................................................................... 7 Singular Value Decomposition ......................................................................................................... 7 Pengolahan Kueri ............................................................................................................................. 7 Pengukuran Kemiripan ..................................................................................................................... 8 Pengujian Kinerja Sistem ................................................................................................................. 8
SIMPULAN DAN SARAN ................................................................................................................... 9 Simpulan ........................................................................................................................................... 9 Saran ................................................................................................................................................. 9
DAFTAR PUSTAKA ............................................................................................................................ 9
LAMPIRAN ......................................................................................................................................... 11
vi
DAFTAR TABEL
Halaman
1 Confusion matrix .............................................................................................................................. 4 2 Deskripsi dokumen uji ..................................................................................................................... 4 3 Hasil perhitungan peluang (r)........................................................................................................... 5 4 Hasil perhitungan n, chi, dan U pada 5 term contoh ........................................................................ 6 5 Hasil perhitungan p dan S pada 5 term contoh ................................................................................. 6 6 Hasil perhitungan U, S, dan Global pada 5 term contoh dengan S menggunakan persamaan (3) .... 6 7 Hasil perhitungan U, S, dan Global pada 5 term contoh dengan S menggunakan persamaan (2) .. 6 8 Perbandingan hubungan distribusi term dengan bobot global .......................................................... 6 9 Hasil perhitungan TF, global, dan bobot kata pada jurnal000000-001 ............................................ 7 10 Matriks A sebelum didekomposisi ................................................................................................... 7 11 Matriks A setelah didekomposisi dan direduksi dengan k = 900 ..................................................... 7 12 Hasil perhitungan average precision pada setiap nilai k .................................................................. 9 13 Rata-rata waktu pencarian pada setiap nilai k .................................................................................. 9
DAFTAR GAMBAR Halaman
1 Metode penelitian. .............................................................................................................................. 2 2 Matriks term-dokumen. ...................................................................................................................... 3 3 Matriks A yang telah didekomposisi. ................................................................................................. 3 4 Matriks A yang telah didekomposisi dan direduksi. .......................................................................... 3 5 Contoh dokumen pertanian. ............................................................................................................... 5 6 Format dokumen setelah pembuangan tag. ........................................................................................ 5 7 Sebelas tingkat recall standar pada dokumen pertanian. .................................................................... 8
DAFTAR LAMPIRAN
Halaman
1 Antarmuka sistem ...............................................................................................................................12 2 Daftar stopwords ................................................................................................................................13 3 Gugus kueri dan jawaban untuk dokumen pertanian ..........................................................................16 4 Hasil perhitungan precision sebelas tingkat recall standar berbagai kueri dengan nilai k = 1000 .....22 5 Grafik perbandingan average precision LSI TF-IDF dengan LSI Global ..........................................24
1
PENDAHULUAN
Latar Belakang
Mesin pencari (search engine) memegang
peranan penting dalam pencarian informasi.
Kebanyakan mesin pencari hanya
membandingkan isi dari dokumen terhadap
kueri berdasarkan kata kunci yang tersedia
berupa statistik kemunculan kata. Masalah
akan muncul pada saat sebuah kata yang
secara statistik berbeda tetapi memiliki makna
yang sama (sinonim). Hal ini mengakibatkan
recall yang rendah karena mesin pencari akan
mengembalikan dokumen yang sedikit.
Masalah lain ialah apabila ada satu kata yang
secara statistik sama tetapi memiliki banyak
makna (polisemi) yang akan menghasilkan
nilai precision yang rendah karena mesin
pencari akan mengembalikan dokumen yang
tidak sesuai dengan keinginan pengguna. Hal
ini dapat mengakibatkan kinerja mesin pencari
menjadi kurang baik karena tidak
memperhatikan kata secara semantik
(Deerwester et al. 1990).
Deerwester et al. (1990) mengungkapkan
bahwa upaya untuk mengatasi sinonim saat ini
ialah dengan ekspansi kata secara otomatis
atau pembentukan tesaurus. Kekurangan dari
metode ini ialah kata yang ditambahkan
mungkin akan memiliki makna yang berbeda
dari yang dimaksudkan oleh pengguna yang
akan menyebabkan efek polisemi.
Pendekatan lainnya untuk mengatasi
permasalahan ini ialah menggunakan Latent
Semantic Indexing (LSI) dengan pendekatan
ruang vektor. LSI adalah suatu teknik yang
memetakan kueri dan dokumen ke dalam
suatu ruang yang disebut Latent Semantic
Space. Dalam Latent Semantic Space, suatu
kueri dan suatu dokumen dapat memiliki nilai
kesamaan yang tinggi walaupun kueri dan
dokumen tersebut tidak memiliki term yang
sama. Selama term tersebut mirip secara
semantik, nilai kesamaan yang dihasilkan
akan tinggi. Pada dasarnya, LSI menggunakan
teknik Singular Value Decomposition (SVD)
untuk mendekomposisikan matriks term-
dokumen. Dengan mengurangi ruang term dan
dokumen menjadi dimensi yang lebih kecil,
SVD menampakkan hubungan yang mendasari
term dan dokumen dalam semua kombinasi
yang memungkinkan dan membuang noise
yang ada pada ruang vektor (Deerwester et al.
1990).
Penelitian mengenai LSI yang sudah
dilakukan antara lain Geiss (2006) yang
menerapkan LSI pada mesin pencari BoSSE,
dan Maulizar (2011) yang
mengimplementasikan Singular Value
Decomposition (SVD) dan Semi Discrete
Decomposition (SDD) pada sistem temu
kembali dokumen bahasa Indonesia.
Umumnya penelitian tersebut
menggunakan TF-IDF yang memberikan
bobot yang sama pada sebuah term di mana
pun posisi term di dalam dokumen. Untuk
meningkatkan akurasi sistem, Xia dan Chai
(2011) mengungkapkan bahwa pada suatu
koleksi dokumen, term yang mempunyai
frekuensi tinggi dan penyebarannya luas
diberi bobot lebih rendah. Oleh karena itu,
penelitian ini mengimplementasikan LSI
menggunakan pembobotan global dengan
memperhatikan sebaran kata.
Tujuan Penelitian
Tujuan penelitian ini ialah
mengimplementasikan Latent Semantic
Indexing dengan pembobotan global ke dalam
mesin pencari dokumen bahasa Indonesia.
Ruang Lingkup Penelitian
Ruang lingkup dalam penelitian ini antara
lain:
Dokumen yang digunakan dalam
penelitian adalah dokumen XML
berbahasa Indonesia.
Kesalahan pengetikan di dalam korpus
tidak diperhatikan.
Dokumen yang relevan dengan kueri uji
ditentukan berdasarkan pustaka yang ada
di Laboratorium Temu-Kembali Informasi
(TKI).
METODE PENELITIAN
Tahapan penelitian ini dapat dilihat pada
Gambar 1. Tahap offline hanya dilakukan satu
kali, terdiri atas pengumpulan korpus,
praproses, pembuatan matriks term-dokumen,
dan pengolahan SVD.
Praproses
Praproses terdiri atas tokenisasi,
pembuangan stopwords, dan pembobotan kata
(Manning et al. 2008).
Tokenisasi adalah suatu proses pemisahan
(parsing) kalimat ke dalam unit-unit yang
lebih kecil yang disebut token. Hal ini
dilakukan dengan cara menghapus semua
karakter dalam tanda baca yang terdapat pada
2
dokumen dan mengubah kata menjadi
lowercase.
Stopwords merupakan kata-kata yang
dianggap tidak memiliki makna dan akan
dibuang serta tidak ikut diproses pada tahap
selanjutnya. Pada umumnya, kata-kata dalam
stopwords memiliki tingkat kemunculan yang
tinggi di setiap dokumen sehingga kata
tersebut tidak dapat digunakan sebagai penciri
suatu dokumen.
Pembobotan
Menurut Manning et al. (2008),
pembobotan lokal atau term frequency (tf)
adalah jumlah kemunculan setiap term t dalam
sebuah dokumen d dan dinotasikan dengan
tft,d. Pembobotan tf memiliki kekurangan,
yaitu semua kata dianggap penting ketika
dihubungkan dengan relevansi kueri. Padahal,
beberapa kata cenderung tidak relevan. Untuk
mengurangi pembobotan suatu kata,
digunakan document frequency (df) yang
dinotasikan dft, yaitu jumlah dokumen dalam
koleksi yang berisi kata t. Total seluruh
dokumen dinotasikan dengan N, maka
ditetapkan inverse document frequency (idf)
dari sebuah kata t yang disebut juga sebagai
pembobotan global yaitu:
idft = log
(1)
Pada akhirnya, nilai bobot TF-IDF dari
suatu kata adalah perkalian antara kedua
pembobotan tersebut.
Pembobotan berdasarkan sebaran kata
memiliki dua titik fokus, yaitu penyebaran
kata dalam suatu dokumen individu (lokal)
dan koleksi dokumen (global).
Setiap term yang terdistribusi secara
intensif di dalam beberapa dokumen harus
diberikan bobot yang tinggi, karena term
tersebut cenderung mewakili topik dokumen,
sedangkan term yang terdistribusi seragam
dan sering digunakan dalam setiap dokumen
harus diberikan bobot yang rendah.
Dari analisis ini, sebaran kata berdasarkan
algoritme global term weight terdiri atas dua
bagian yaitu U (Uniform Distribution Extent)
dan (Spread Extension). Nilai U
menunjukkan luas keseragaman penyebaran
kata ke-j dan S adalah persebaran dari kata
ke-j pada koleksi (Xia & Chai 2011).
U = 1 + ∑( )
S = log2 (1+
) (2)
dengan
: frekuensi kata ke-j di dokumen ke-i.
: frekuensi kata ke-j di koleksi.
: peluang kata ke-j ada di dokumen ke-i.
: frekuensi kata ke-j di dokumen ke-i jika
kata ke-j tersebar.
p : total dokumen yang mengandung kata
ke-j
: total dokumen di koleksi.
Kueri
SVD
A = T S DT
Ranked
Document
Praproses
Vektor Kueri
Mengukur kemiripan antara
dokumen dan kueri
Korpus
Praproses
Matriks Term-
Dokumen (A)
Offline
Evaluasi
Gambar 1 Metode penelitian.
3
A T S D
T
=
t x d t x r
r x r r x d
A = TSDT
Gambar 3 Matriks A yang telah didekomposisi.
𝐀𝑘 𝐓𝑘𝐒𝑘𝐃𝑘T
Gambar 4 Matriks A yang telah didekomposisi
dan direduksi.
A T
S DT
=
t x d t x k
k x k k x d
Nilai S menunjukkan penyebaran kata
dalam koleksi, yang dapat juga menunjukkan
kepentingan suatu kata dalam dokumen. Pada
pembobotan TF-IDF, nilai ini dapat
disetarakan dengan persamaan (1). Oleh
karena itu, nilai S dapat dipersamaankan
sebagai
S = log2 (1+
) (3)
Berdasarkan nilai U dan S pada
persamaan, persamaan untuk pembobotan
global adalah:
Wg = log2 (1 + U x S ) (4)
sehingga nilai bobot dari suatu kata adalah
perkalian antara pembobotan tft,d dan
pembobotan global berbasis sebaran kata.
(5)
Matriks Term-Dokumen
Setelah proses indexing, akan didapatkan
matriks term-dokumen. Matriks term-
dokumen berukuran M x N menyatakan
matriks bobot term dalam suatu dokumen.
Setiap baris M mewakili sebuah term dan
setiap kolom N mewakili sebuah dokumen di
dalam koleksi (Manning et al. 2008). Matriks
term-dokumen dapat dilihat pada Gambar 2.
[
]
Gambar 2 Matriks term-dokumen.
Singular Value Decomposition (SVD)
SVD adalah salah satu metode dari aljabar
linear untuk mendekomposisi matriks A
dengan dimensi t x d menjadi tiga matriks
(Gambar 3).
Matriks A merupakan matriks term-
dokumen, T merupakan matriks yang
kolomnya adalah orthogonal eigenvectors dari
AAT, S adalah matriks diagonal singular value
dengan urutan menurun, dan D merupakan
matriks yang kolomnya merupakan
orthogonal eigenvectors dari ATA. Ukuran t
adalah jumlah baris dari matriks A. Ukuran d
adalah jumlah kolom dari matriks A. Nilai r
adalah pangkat dari matriks A dengan r ≤
(min (t, d)).
Setelah matriks A didekomposisi, hasilnya
direduksi dengan nilai k sehingga menjadi
reduced SVD. Nilai k adalah jumlah dimensi
matriks yang tersisa. Tujuan dari reduksi ini
adalah untuk membuang noise yang ada pada
ruang vektor. Pada dasarnya, tidak ada cara
khusus yang digunakan untuk menentukan
nilai k, tetapi nilai k diperoleh dengan trial
and error sampai ditemukan nilai k yang
memungkinkan SVD membuang noise dan
menemukan latent semantic dengan sangat
baik. Nilai k yang digunakan dalam penelitian
ini ialah 10, 20, 30, 40, 50, 60, 70, 80, 90,
100, 200, 300, 400, 500, 600, 700, 800, 900,
dan 1000. Matriks A yang telah
didekomposisi dan direduksi dapat dilihat
pada Gambar 4.
Pengolahan Kueri
Pengolahan kueri dilakukan secara online
setiap kali kueri dimasukkan ke sistem. Kueri
yang dimasukkan akan diubah menjadi vektor
q yang merepresentasikan kemunculan kata-
kata pada kueri dengan term yang telah
didapat dari koleksi dokumen.
Untuk mencari dokumen yang mirip
dengan kueri yang dimasukkan, kueri harus
diubah menjadi pseudo-document sehingga
dapat dibandingkan dengan dokumen lain.
Untuk mendapatkan vektor kueri digunakan
persamaan:
q = qTTk (6)
Ukuran Kemiripan
Cosine similarity digunakan untuk
mengukur kesamaan antara vektor kueri q
4
Tabel 2 Deskripsi dokumen uji
Dokumen Ukuran (bytes)
Ukuran rata-rata dokumen 4139
Ukuran seluruh dokumen 4139332
Ukuran dokumen terbesar 54082
Ukuran dokumen terkecil 451
dengan matriks dokumen DD dengan
persamaan:
( )
‖ ‖ ‖ ‖ (7)
Matriks dokumen didapat dari persamaan:
T = (
T)T T
= T
T T
=
T
= ( )T
DD =
Hasil dari cosine similarity adalah ranked
document yang terurut secara menurun.
Dokumen teratas merupakan dokumen hasil
pencarian yang paling mendekati dengan kueri
yang diinginkan.
Evaluasi
Manning (2008) menyatakan terdapat dua
hal mendasar yang paling sering digunakan
untuk mengukur kinerja temu-kembali secara
efektif yaitu recall dan precision (R-P).
Perhitungan recall-precision didasarkan pada
tabulasi silang seperti pada Tabel 1.
Tabel 1 Confusion matrix
Relevant Nonrelevant
Retrieved true positives (tp)
false positives (fp)
Not retrieved false
negatives (fn)
true negatives (tn)
Oleh karena itu, recall dan precision
didefinisikan sebagai:
Precision =
( ) (8)
Recall =
( ) (9)
Average precision adalah suatu ukuran
evaluasi kinerja temu-kembali yang diperoleh
dengan menghitung rata-rata precision pada
berbagai tingkat recall. Biasanya, digunakan
sebelas tingkat recall standar yaitu, 0, 0.1, 0.2,
0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1. Average
precision dapat dipersamaankan sebagai
berikut:
(r) = ∑ ( )
(10)
sedangkan (r) adalah average precision pada
tingkat recall ri. Nq adalah jumlah kueri yang
digunakan dan Pi(r) adalah nilai precision
pada tingkat recall r untuk kueri ke-i (Baeza-
Yates & Ribeiro-Neto 1999).
Pengujian sistem dilakukan dengan
melakukan perhitungan terhadap recall dan
precision seperti pada persamaan (8) dan (9).
Kemudian, dilakukan perhitungan average
precision menggunakan sebelas tingkat recall
standar seperti pada persamaan (10). Evaluasi
juga dilakukan dengan membandingkan hasil
penelitian dengan Maulizar (2011).
Lingkungan Implementasi
Lingkungan implementasi yang digunakan
adalah sebagai berikut:
Perangkat Lunak:
Sistem operasi Windows 7 Profesional
sebagai sistem operasi,
MATLAB R2008b untuk melakukan
dekomposisi matriks SVD,
Xampp Server Apache version 2.5.8
sebagai web server,
Notepad++ untuk pembangunan sistem
dengan bahasa pemrograman PHP,
Microsoft Excel 2010 sebagai aplikasi
yang digunakan untuk melakukan
perhitungan recall dan precision.
Perangkat keras:
Prosesor Intel Core i5-2450M
RAM 4.0 GB
Harddisk 500GB
HASIL DAN PEMBAHASAN
Koleksi Korpus
Penelitian ini menggunakan 1000
dokumen pertanian yang berasal dari
Laboratorium Temu-Kembali Informasi (TKI)
Departemen Ilmu Komputer IPB. Tabel 2
menunjukkan deskripsi dokumen uji yang
digunakan dalam penelitian ini.
Koleksi dokumen memiliki format teks
(*.txt) dengan struktur tag XML, yaitu setiap
file terdiri atas satu dokumen yang
ditunjukkan dengan tag-tag sebagai berikut:
<DOC></DOC>, tag ini mewakili
keseluruhan dokumen dan melingkupi tag-
tag lain yang lebih spesifik.
<DOCNO></DOCNO>, tag ini
menunjukkan ID dari dokumen.
5
<TITLE></TITLE>, tag ini menunjukkan
judul dari berita.
<DATE></DATE>, tag ini menunjukkan
tanggal dari berita.
<AUTHOR></AUTHOR>, tag ini
menunjukkan penulis dari berita tersebut.
<TEXT></TEXT>, tag ini menunjukkan isi
dari dokumen.
Gambar 5 menunjukkan contoh salah satu
dokumen pertanian yang digunakan dalam
penelitian ini.
Praproses
Praproses dilakukan melalui tiga tahapan,
yaitu: tokenisasi, pembuangan stopwords, dan
pembobotan. Proses awal adalah pembuangan
tag karena tag bukan merupakan penciri suatu
dokumen. Tag yang diambil untuk proses
indexing hanya <TITLE> dan <TEXT>.
Format dokumen setelah dilakukan
pembuangan tag dapat dilihat pada Gambar 6.
Tahap tokenisasi dilakukan pada fungsi
get_token. Fungsi tersebut melakukan
pemecahan kata pada dokumen koleksi. Selain
itu, dilakukan juga penghilangan karakter yang
bersifat separator seperti titik, koma, tanda
seru, tanda tanya, dan karakter lainnya yang
dianggap kurang representatif dalam
mencirikan suatu dokumen.
Pembuangan stopwords dilakukan setelah
proses tokenisasi pada koleksi dokumen.
Teknis yang dilakukan adalah perbandingan
antara token hasil tokenisasi dan stopwords
yang ada. Jika token adalah stopwords, token
tersebut dihapus dalam daftar token. Daftar
stopwords yang digunakan dalam penelitian
ini diperoleh dari Herdi (2010) dan
dilampirkan pada Lampiran 2. Hasil dari tahap
ini akan digunakan sebagai input pada tahap
selanjutnya yaitu pembobotan.
Pembobotan
Pembobotan yang dilakukan dalam
penelitian ini adalah pembobotan term
frequency (TF) dan pembobotan global
dengan memperhatikan sebaran kata.
Pembobotan global adalah perhitungan bobot
suatu kata berdasarkan sebaran kata dalam
koleksi dokumen. Pembobotan global terdiri
atas 2 bagian, yaitu luas keseragaman sebaran
kata (U) dan perluasan penyebaran kata (S)
pada koleksi dokumen.
Pembobotan global diawali dengan proses
perhitungan peluang dari setiap dokumen
dengan menghitung perbandingan jumlah kata
yang terdapat dalam setiap dokumen dengan
jumlah seluruh kata yang ada di koleksi
dokumen. Tabel 3 merupakan contoh 5
dokumen hasil perhitungan peluang dengan
jumlah seluruh kata di dalam koleksi
dokumen adalah 297112 kata. Nilai r pada
pada suatu dokumen tergantung pada jumlah
kata yang dimiliki oleh dokumen tersebut.
Dokumen jurnal000000-001 memiliki jumlah
kata terbanyak, sehingga nilai r jurnal000000-
001 memiliki nilai tertinggi. Sebaliknya untuk
dokumen situshijau201003-002 memiliki
jumlah kata terkecil sehingga nilai r dokumen
situshijau201003-002 memiliki nilai terkecil.
Tabel 3 Hasil perhitungan peluang (r)
Dokumen Jumlah Kata r
jurnal000000-001 3905 0.0131
jurnal000000-027 2436 0.0081
jurnal000000-002 2323 0.0078
indosiar260404 1798 0.0060
situshijau201003-
002
1109 0.0037
<DOC>
<DOCNO>suaramerdeka040104
</DOCNO>
<TITLE>Ribuan Bibit untuk
Lahan Kritis</TITLE>
<AUTHOR></AUTHOR>
<DATE>Minggu, 4 Januari 2004
</DATE>
<TEXT>
<P>NGALIYAN-Kecamatan
Ngaliyan telah
mendistribusikan sekitar 30
ribu bibit berbagai jenis
tanaman. Sebelumnya, wilayah
itu telah menerima bantuan
140.250 bibit tanaman dari
Departemen Pertanian. Bibit
tanaman yang diberikan adalah
petai, durian, rambutan,
mangga, sukun, dan jati.</P>
</TEXT>
</DOC>
Ribuan Bibit untuk Lahan Kritis
NGALIYAN- Kecamatan Ngaliyan telah
mendistribusikan sekitar 30 ribu bibit
berbagai jenis tanaman. Sebelumnya,
wilayah itu telah menerima bantuan
140.250 bibit tanaman dari Departemen
Pertanian. Bibit tanaman yang diberikan
adalah petai, durian, rambutan, mangga,
sukun, dan jati.
Gambar 5 Contoh dokumen pertanian.
Gambar 6 Format dokumen setelah pembuangan
tag.
6
Proses selanjutnya adalah perhitungan
frekuensi kata pada setiap dokumen (v) dan
frekuensi kata pada suatu koleksi (n). Nilai r,
v, dan n digunakan untuk menghitung nilai
chi-square dari koleksi dokumen. Hasil
perhitungan v, n, dan chi-square pada 5 term
contoh dapat dilihat pada Tabel 4.
Tabel 4 Hasil perhitungan n, chi, dan U pada
5 term contoh
Term n chi U
pertanian 5596 6915 6916
petani 3380 6457 6458
ipb 256 7078 7079
bambu 44 1107 11079
anggrek 71 16439 16440
Term petani memiliki nilai chi-square
(chi) terendah. Nilai terendah menyatakan
term petani mendekati distribusi seragam.
Artinya untuk nilai chi-square (chi) yang
rendah akan mendapat nilai distribusi seragam
(U) yang rendah.
Pada perhitungan perluasan penyebaran
kata pada koleksi dokumen (S), harus dilihat
kata tersebut tersebar di koleksi dokumen atau
tidak. Nilai yang diperlukan adalah total
dokumen yang mengandung kata tersebut (p)
dan total seluruh dokumen pada koleksi (N).
Pada Tabel 5, term pertanian terdapat pada
877 dokumen dari total koleksi 1000
dokumen. Oleh karena itu, term pertanian
memperoleh nilai S yang kecil artinya koleksi
tersebut tersebar luas di koleksi dokumen.
Tabel 5 Hasil perhitungan p dan S pada 5
term contoh
Term p S
pertanian 877 1.097
petani 569 1.463
ipb 91 3.583
bambu 12 6.398
anggrek 6 7.389
Proses terakhir tahap ini adalah
perhitungan bobot kata global pada setiap kata
menggunakan persamaan (4). Hasil
perhitungan bobot kata global dengan S
menggunakan persamaan (3) dapat dilihat
pada Tabel 6. Kata anggrek mendapat nilai
global lebih tinggi, artinya term anggrek
merupakan kata yang lebih penting dalam
koleksi dibandingkan term pertanian, petani,
ipb, dan bambu. Pada Tabel 6, term pertanian
yang mempunyai frekuensi tinggi dan
penyebarannya luas mendapatkan hasil
perhitungan bobot yang rendah sesuai dengan
teori pembobotan sebaran kata menurut Xia
dan Chai (2011).
Tabel 6 Hasil perhitungan U, S, dan Global
pada 5 term contoh dengan S
menggunakan persamaan (3)
Term U S Global
pertanian 6916 1.097 12.890
petani 6458 1.463 13.206
ipb 7079 3.583 14.630
bambu 11079 6.398 16.113
anggrek 16440 7.389 16.890
Tabel 7 merupakan hasil perhitungan
pembobotan global dengan perhitungan S
menggunakan persamaan (2). Nilai terbesar
diperoleh term pertanian karena dengan
persamaan (2), kata yang menyebar pada
banyak dokumen di koleksi menghasilkan S
yang tinggi sehingga term pertanian
mendapatkan bobot yang lebih besar. Hasil
dari perhitungan ini tidak sesuai dengan teori
pembobotan sebaran kata menurut Xia dan
Chai (2011). Oleh karena itu, pada tahap
selanjutnya digunakan hasil pada Tabel 6,
yaitu dengan perhitungan S menggunakan
persamaan (3).
Tabel 7 Hasil perhitungan U, S, dan Global
pada 5 term contoh dengan S
menggunakan persamaan (2)
Term U S Global
pertanian 6916 0.908 12.617
petani 6458 0.649 12.035
ipb 7079 0.125 9.798
bambu 16440 0.009 7.158
anggrek 13511 0.004 5.892
Pada Xia dan Chai (2011), hubungan
antara luas distribusi seragam dan bobot kata
pada suatu koleksi adalah korelasi negatif non
linear. Pada penelitian ini, hal tersebut
terbukti pada term pertanian yang memiliki
luas distribusi seragam yang tinggi dan bobot
global yang dihasilkan rendah. Hasil
perbandingan hubungan distribusi seragam
dan bobot global dapat dilihat pada Tabel 8.
Tabel 8 Perbandingan hubungan distribusi
term dengan bobot global
Term n p Global
pertanian 5596 877 12.890
petani 3380 569 13.206
ipb 256 91 14.630
bambu 44 12 16.113
anggrek 71 6 16.890
Tahap terakhir dalam pembobotan kata
adalah perhitungan nilai keseluruhan.
7
Perhitungan yang dilakukan pada tahap ini
adalah perkalian dari pembobotan TF dan
pembobotan global menggunakan persamaan
(5). Hasil perhitungan pembobotan kata dapat
diliihat pada Tabel 9.
Tabel 9 Hasil perhitungan TF, global, dan
bobot kata pada jurnal000000-001
Term TF Global Bobot
pertanian 48 12.890 618.752
petani 33 13.206 435.812
ipb 0 14.630 0
bambu 1 16.113 16.113
anggrek 0 16.890 0
Matriks Term-Dokumen
Setelah hasil pembobotan didapatkan,
matriks term-dokumen dibuat. Pembentukan
matriks term-dokumen sangat diperlukan
karena matriks term-dokumen selanjutnya
akan didekomposisi. Matriks term-dokumen
ini disimpan dalam format comma delimited
(.CSV) dengan ukuran 47.5 MB. Jumlah baris
dalam matriks term-dokumen berjumlah
24074 baris yang mewakili jumlah term yang
ada di koleksi dokumen. Jumlah kolom dalam
matriks term-dokumen berjumlah 1000 kolom
yang mewakili jumlah dokumen di dalam
koleksi dokumen.
Singular Value Decomposition
Matriks term-dokumen yang didapat
selanjutnya didekomposisi menggunakan
fungsi singular value decomposition pada
Matlab dan akan dihasilkan tiga matriks baru
yaitu matriks T, S, dan D.
[T, S, D] = svd (matriksA, 0)
Matriks hasil dekomposisi memiliki
ukuran yang besar sehingga akan
membutuhkan penyimpanan yang besar.
Matriks T merupakan matriks yang
merepresentasikan term. Ukuran matriks T
dalam format .CSV adalah 265 MB.
Kemudian, S merupakan matriks yang elemen
diagonalnya adalah nilai singular dengan
urutan menurun memiliki ukuran 1.91 MB,
dan D merupakan matriks yang kolomnya
merepresentasikan dokumen memiliki ukuran
11.7 MB. Ukuran matriks tersebut akan
mempengaruhi waktu eksekusi kueri pada
saat user melakukan proses pencarian
dokumen.
Perkalian dari matriks T, S, dan DT akan
mengembalikan matriks A. Apabila dilakukan
perkalian matriks T, S, dan DT
yang telah
direduksi dengan nilai rank k, akan didapat
matriks yang nilainya mendekati matriks A.
Pada Tabel 10, dapat dilihat matriks term-
dokumen A yang belum didekomposisi. Tabel
11 adalah matriks term-dokumen A hasil
perkalian dari matriks T, S, dan DT.
Tabel 10 Matriks A sebelum didekomposisi
Term jurnal000000-
001
jurnal000000-
027
pertanian 618.752 1482.426
petani 435.812 118.857
ipb 0 0
bambu 16.113 0
anggrek 0 0
Tabel 11 Matriks A setelah didekomposisi dan
direduksi dengan k = 900
Term jurnal000000-
001
jurnal000000-
027
pertanian 618.756 1482.430
petani 435.802 118.856
ipb -0.048 -0.006
bambu 16.123 0.006
anggrek -0.004 0.021
Dari kedua tabel, dapat dilihat bahwa
setelah didekomposisi dan direduksi term
yang sebelumnya memiliki bobot 0 menjadi
bernilai minus atau bertambah bobotnya.
Seperti pada term bambu dan anggrek pada
dokumen jurnal000000-027 sebelum matriks
A didekomposisi dan direduksi, kedua term
ini memiliki bobot 0. Setelah matriks A
didekomposisi dan direduksi, kedua term ini
bertambah bobotnya. Hal ini membuktikan
bahwa dengan dekomposisi dan reduksi,
struktur latent semantic terungkapkan dan
menunjukkan bahwa term bambu dan anggrek
memiliki keterkaitan walaupun term bambu
dan anggrek tidak terdapat pada kedua
dokumen tersebut. Sedangkan pada term ipb
yang sebelumnya memiliki bobot 0 di kedua
dokumen, setelah matriks A didekomposisi
dan direduksi struktur latent semantic
menunjukkan bahwa term ipb di kedua
dokumen ini bernilai minus. Hal ini
membuktikan bahwa term ipb tidak memiliki
keterkaitan di dalam kedua dokumen ini.
Pengolahan Kueri
Tahap selanjutnya adalah membuat
program untuk melakukan indexing pada
kueri. Indexing pada kueri juga terdiri atas
tiga tahapan, yaitu: tokenisasi, pembuangan
stopwords, dan pembobotan. Untuk mencari
dokumen yang mirip dengan kueri yang
8
dimasukkan, kueri harus diubah menjadi
pseudo-document sehingga dapat
dibandingkan dengan dokumen lain. Untuk
mendapatkan vektor kueri akan digunakan
persamaan (6).
Pengukuran Kemiripan
Vektor kueri yang didapat dari tahap
sebelumnya akan dibandingkan kemiripannya
dengan matriks dokumen. Setelah itu, vektor
kueri dapat dibandingkan dengan matriks
dokumen menggunakan persamaan cosine
similarity pada persamaan (7).
Pengujian Kinerja Sistem
Proses evaluasi pada dokumen pertanian
menggunakan 30 kueri uji berikut dokumen-
dokumen relevan yang telah ditentukan dari
Laboratorium Temu-Kembali Informasi (TKI)
Departemen Ilmu Komputer IPB. Daftar kueri
uji beserta dokumen yang relevan dapat
dilihat pada Lampiran 3. Pencarian dengan
kueri uji ini dilakukan dengan tujuan
mendapatkan nilai average precision dari
sistem. Proses pencarian average precision
dilakukan pada nilai k = {10, 20, 30, 40, 50,
60, 70, 80, 90, 100, 200, 300, 400, 500, 600,
700, 800, 900, dan 1000}. Nilai sebelas
tingkat recall standar pada dokumen pertanian
dapat dilihat pada Gambar 7.
Nilai average precision setiap nilai k dapat
dilihat pada Tabel 12. Dari Tabel 12, nilai k
dengan nilai akurasi paling tinggi adalah k =
1000 dengan nilai average precision sebesar
0.404683 yang artinya secara rata-rata pada
tiap titik recall, 40.47% hasil temu-kembali
relevan dengan kueri. Nilai precision pada
pada sebelas tingkat recall standar berbagai
kueri dengan nilai k = 1000 dapat dilihat pada
Lampiran 4. Nilai k adalah nilai yang penting
untuk menentukan performa mesin pencari
yang menggunakan LSI. Jika terlalu banyak
dimensi yang disimpan, struktur latent
semantic tidak dapat diperlihatkan karena
terlalu banyak noise. Jika nilai k terlalu kecil,
akan terlalu banyak kata atau dokumen yang
diproyeksikan ke dalam dimensi sehingga
akan menghancurkan struktur latent semantic.
Hasil penelitian Maulizar (2011)
menunjukkan bahwa nilai k yang optimum
adalah k = 70 dengan average precision
sebesar 0.301. Sedangkan hasil average
precision dalam penelitian ini dengan k = 70
adalah sebesar 0.321274. Pada Gambar 8 juga
dapat dilihat bahwa pada nilai k = 20, 30, 40,
50, 60, 70, 80, 90, dan 100 nilai akurasi LSI
dengan pembobotan global berbasis sebaran
lebih besar dibandingkan dengan LSI
menggunakan pembobotan TF-IDF. Grafik
perbandingan nilai average precision LSI TF-
IDF dengan LSI Global dapat dilihat pada
Lampiran 4.
Dari hasil tersebut, dapat disimpulkan
bahwa Latent Semantic Indexing dengan
pembobotan global berbasis sebaran
menghasilkan nilai average precision yang
lebih tinggi dibandingkan Latent Semantic
Indexing hanya dengan TF-IDF tanpa
memperhatikan sebaran kata.
Pada Tabel 13 dapat dilihat rata-rata,
maksimum, dan minimum waktu pencarian
pada setiap nilai k. Untuk k = 10, rata-rata
waktu yang diperlukan untuk mencari
dokumen adalah 0.557 detik, sedangkan untuk
k = 1000 rata-rata waktu yang diperlukan
adalah 6.344 detik. Dari hasil tersebut dapat
disimpulkan bahwa semakin besar nilai k
maka semakin lama waktu pencarian
dokumen karena semakin banyak pula
dimensi matriks yang dihitung.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Pre
cisi
on
Recall
K=10 K=20 K=30K=40 K=50 K=60K=70 K=80 K=90K=100 K=200 K=300K=400 K=500 K=600K=700 K=800 K=900K=1000
Gambar 7 Sebelas tingkat recall standar
pada dokumen pertanian.
9
Tabel 12 Hasil perhitungan average precision
pada setiap nilai k
Nilai k Average Precision
LSI TF-IDF LSI Global
10 0.243 0.064
20 0.206 0.258
30 0.225 0.269
40 0.209 0.290
50 0.222 0.303
60 0.256 0.320
70 0.301 0.321
80 0.297 0.323
90 0.279 0.329
100 0.275 0.332
200 - 0.357
300 - 0.369
400 - 0.379
500 - 0.387
600 - 0.389
700 - 0.395
800 - 0.399
900 - 0.401
1000 - 0.405
Tabel 13 Rata-rata waktu pencarian pada
setiap nilai k
Nilai
k
Rata-rata
Waktu
Pencarian
(detik)
Maksimum
Waktu
Pencarian
(detik)
Minimum
Waktu
Pencarian
(detik)
10 0.557 0.654 0.430
20 0.625 0.807 0.553
30 0.690 0.946 0.506
40 0.749 0.884 0.650
50 0.884 1.138 0.763
60 0.910 1.190 0.784
70 0.953 1.286 0.823
80 0.998 1.170 0.834
90 1.050 1.317 0.961
100 1.136 1.284 1.049
200 1.696 1.952 1.085
300 2.197 2.538 1.615
400 3.477 3.743 2.164
500 3.434 3.716 3.212
600 4.210 4.673 3.969
700 4.424 4.784 4.249
800 5.023 5.367 4.390
900 5.371 5.815 5.096
1000 6.344 6.986 5.849
SIMPULAN DAN SARAN
Simpulan
Penelitian ini berhasil
mengimplementasikan metode Latent
Semantic Indexing dengan pembobotan global
berbasis sebaran. Hasil penelitian ini
menunjukkan bahwa nilai k yang memberikan
hasil akurasi paling tinggi adalah k = 1000
dengan nilai average precision 40.47%.
Akurasi hasil LSI dengan pembobotan global
berbasis sebaran lebih besar dibandingkan
dengan LSI dengan pembobotan TF-IDF.
Saran
Jika ingin menambahkan dokumen baru
maka matriks T, S, dan D perlu dihitung ulang
sehingga diperlukan teknik folding-in.
Folding-in adalah metode untuk
memproyeksikan dokumen baru ke dalam
ruang SVD sehingga matriks T, S, dan D
tidak perlu dihitung ulang.
DAFTAR PUSTAKA
Baeza-Yates R, Ribeiro-Neto B. 1999.
Modern Information Retrieval. Boston:
Addison Wesley.
Deerwester S, Dumais ST, Fumas GW,
Landauer TK, Harshman R. 1990.
Indexing by latent semantic analysis.
Journal of the American Society of
Information Science 41(6):391-407.
Geiss J. 2006. Latent semantic indexing and
information retrieval: A quest with BoSSE
[tesis]. Heidelberg: Universitat
Heidelberg.
Herdi, H. 2010. Pembobotan dalam proses
pengindeksan dokumen bahasa Indonesia
menggunakan framework indri [Skripsi].
Bogor: Fakultas Matematika dan Ilmu
Pengetahuan Alam, Institut Pertanian
Bogor.
Manning CD, Raghavan P, Schutze H. 2008.
An Introduction to Information Retrieval.
Cambridge: Cambridge University Press.
Maulizar N. 2011. Latent semantic indexing
pada sistem temu kembali dokumen
bahasa Indonesia [skripsi]. Bogor:
Fakultas Matematika dan Ilmu
Pengetahuan Alam, Institut Pertanian
Bogor.
10
Xia T, Chai Y. 2011. An improvement to TF-
IDF: term distribution based term weight
algorithm. Journal of Software 6:413-420.
11
LAMPIRAN
12
Lampiran 1 Antarmuka sistem
13
Lampiran 2 Daftar stopwords
acapkali apanya begitupula berkesempatan contohkan diberinya
ada apapun begitupun berkesimpulan contohnya dibiarkan
adakah arti belakang berlalu cukup dibiasakan
adakan artian belakangan berlalunya Cuma dibilang
adalah artinya belum berlama daerah dicontoh
adanya asalan belumlah berlangsung dahulu dicontohkan
adapun asalkan benar bermula dalam dicontohkannya
aduh asumsi benarkah bersama dan didapat
agak asumsinya benarnya bersamaan dapat didapati
agaknya atas berada bertepatan dapatkah didapatkan
agar atasnya berakhir beruntun dapatkan didapatnya
aja atau berakhirnya berupa dapatlah didasarkan
akalan ataukah berakibat besarnya dari digolongkan
akan ataupun berakibatkan beserta darinya digunakan
akankah awal beralasan besok daripada diharapkan
akhir bagai beralih besoknya dekat dijadikan
akhirnya bagaikan beralihnya betapa dekatnya dijadikannya
akibat bagaimana beranggapan biar demi dikarenakan
akibatkan bagaimanakah berapa biarlah demikian dikasih
akibatnya bagaimanapun berapanya biasa demikianlah dikata
aku bagi berapapun biasanya dengan dikatakan
ala baginya berarti bicarakan dengannya dikatakannya
alangkah bagus berasumsi bicaranya depan dikategorikan
alasan bagusnya berbagai bila depannya dikembangkan
alasannya bahkan berbagi bilamana di diketahui
alih bahwa berbanding bilang dia diketahuinya
alihkan baik berbeda bisa dialah dilaksanakan
amat baiknya berdampak bisakah dialami dilakukan
amatlah balik berdasarkan bisanya dialihkan dimana
ambil banding berhadapan boleh diambil dimulai
anda bandingkan berharap boro diambilkan dimulailah
andai banyak berhubung buat diambilnya dimulainya
anggap banyaknya berhubungan buatnya dianggap dimungkinkan
anggapan barangkali beri bukan diantara dipaparkan
antar baru berikan bukankah diantaranya dipersilahkan
antara bawah berikanlah bukanlah diapakan disaat
antaranya bawahnya berikut bukannya dibagi disebabkan
apa beberapa berikutnya buktikan dibagikan disejumlah
apabila begini berjumlah cara dibeberapa diseluruh
apakah beginilah berkat cerita diberbagai disertai
apalagi begitu berkenaan ceritanya diberi disertakan
apalah begitulah berkesan contoh diberikan disimpulkan
14
Lanjutan
disitulah itupun kemana manalagi mengaku mulanya
ditanggapi iya kemanakah manapun mengalami muncul
ditanya jadi kembali masa mengalihkan mungkin
ditanyakan jadikan kemudian masih mengambil mungkinkah
dituturkan jadilah kemungkinan masihkah mengambilnya namun
diucapkan jadinya kemungkinannya masing menganggap nanti
dkk jangan kenapa masuk menganggapnya negara
dll jarang kenapakah masyarakat mengapa nilai
dsb jauh kepada mau mengatakan nyaris
dua jelaskan kepadanya maupun mengembangkan nyiakan
dulu jika kepala melainkan mengenai oleh
dulunya jikalau ketika melakukan menggunakan orang
empat juga ketimbang melalui mengungkapkan pada
enggak jumlah khususnya melihat meningkat padahal
engkau jumlahnya kini memang meningkatkan padanannya
esok justru kita memaparkan menjadi paling
gimana juta kondisi membagi menjadikan panjangnya
habis kabupaten kurang membagikan menjadikannya papar
habisan kadang lagi memberi menjelang paparan
habiskan kalau lagian memberikan menjelaskan paparkan
habisnya kalaupun lagipula memberinya menuju paparnya
hal kali lain membiarkan menunjukkan para
hampir kalian lainnya membolehkan menurut pasti
hanya kami laksana membuat menurutnya pastilah
hanyalah kamu lakukan memeperoleh menuturkan pastinya
hari kan lalu memiliki menyatakan pelak
harus kapan lalui meminta menyebabkan pelbagai
haruskah karena lama memperbolehkannya menyebutkan pemaparan
haruslah karenanya lanjut mempersilahkan menyia pembagian
harusnya kata lantaran mempunyai mereka pembagiannnya
hendak katakan lantas memungkinkan merupakan pendapat
hendaklah katakanlah lebih menanggapi meski pengalihan
hendaknya katanya lepas menanggapinya meskipun pengambil
hingga kau lewat menanyakan mesti pengambilan
how kayak lokasi mencapai mestinya pengandaian
ialah kayaknya maka mencontohkan misal per
ingin ke makin mendapat misalkan peralihan
ini kebanyakan mampu mendapati misalnya percuma
inilah kebetulan mampukah mendapatkan mudah peri
inipun kebiasaan mampunya mendapatkannya mula perihal
itu kecil mana menerus mulai perlahan
itulah kecuali manakala mengada mulainya perlu
15
Lanjutan
pernah sebenarnya semakin sesungguhnya tentunya umum
persen seberapa semampunya setelah tepatnya umumnya
pertamanya seberat semenjak setelahnya terbagi ungkap
pinggir sebesar sementara seterusnya terbalik ungkapan
pula sebetulnya semestinya setiap terbiasa ungkapkan
pulalah sebuah semisal setidak terbilang ungkapnya
pun secara semoga setidaknya terdapat untuk
rata sedalam semua seusai terdapat usah
relevankah sedang semuanya sewaktu tergolong usahlah
rendah sedangkan semula seyogyanya terhadap usai
saat sedapat seolah sia terjadi usianya
saatnya sedemikian seorang sialnya terjadilah waktu
saatnyalah sedikit seorangpun siap terjadinya waktulah
saja sedikitnya sepadan siapa terkadang waktunya
salah segera sepanjang siapakah terkait walau
sama sehabis sepasang siapapun terkecuali walaupun
sambil seharusnya sepele silahkan terlalu warga
sambutannya seharusnyalah sependapat singkatnya terlebih yaitu
sampai sehingga seperti sini termasuk yakni
sana sehubungan sepertinya sinilah ternyata yang
sang sejak seputar situ tersebut
sangat sejauhmana seraya sosok tertentu
sangatlah sejumlah serba sosoknya terus
satunya sekalian serentak suatu tetap
saya sekaligus sering sudah tetapi
sayangnya sekalipun seringkali sulit tiap
seakan sekarang seringkalinya sungguh tiba
seandainya sekata seringlah sungguhpun tidak
seantero sekedar seringnya supaya tidaklah
sebab sekeliling serta tak tidaknya
sebabkan seketika sertanya tambahnya tiga
sebabnya sekian sesaat tanggapan tinggi
sebagai sekitar sesama tanggapannya tutur
sebagaimana selagi sesamamu tanggapnya tuturnya
sebagainya selain sesedikit tanpa ucap
sebagian selalu seseorang tapi ucapan
sebaik selama sesuai tatkala ucapannya
sebaiknya selanjutnya sesuatu telah ucapkan
sebaliknya selesai sesuatunya tempat ucapnya
sebanyak selesaikah sesudah tengah ujar
sebelum seluruh sesudahnya tentang ujarnya
sebelumnya seluruhnya sesukanya tentu umpamanya
16
Lampiran 3 Gugus kueri dan jawaban untuk dokumen pertanian
Kueri Gugus Jawaban
Bencana
kekeringan
gatra070203, gatra161002, gatra210704, gatra301002, indosiar010903,
indosiar170603, indosiar220503, indosiar260803-003, indosiar310504,
kompas210504, kompas250803, mediaindonesia050604-001,
mediaindonesia110703, mediaindonesia160603, mediaindonesia240503,
mediaindonesia260803, mediaindonesia270803, mediaindonesia310503,
pikiranrakyat020704, republika030903-001, republika030903-002, republika070604-
001, republika090804-01, republika120804-01, republika120804-04,
republika130804-02, republika200603, republika210704-004, republika250604,
republika270503, republika270704-002, situshijau181103-001, suarakarya000000-
002-01, suarakarya000000-021, suaramerdeka130602, suaramerdeka190903,
suarapembaruan150903, suarapembaruan180303, suarapembaruan260703-002.
Dukungan
pemerintah
pada pertanian
indosiar070504, jurnal000000-026, kompas030401, kompas050303, kompas060503,
kompas071100, kompas150201, kompas200802, kompas300402,
mediaindonesia130204, mediaindonesia220303, pembaruan110903, poskota040804,
republika100903, republika180303, republika210902, republika230903,
republika251102-001, republika251102-002, republika300604-001,
situshijau150504-002, situshijau190303-002, situshijau200103-002,
situshijau201003-001, situshijau281003-002, suarakarya000000-028,
suaramerdeka130902, wartapenelitian000000-002, wartapenelitian000000-007.
Flu burung gatra220604, gatra270104-001, gatra270104-002, gatra300104, indosiar020304,
indosiar240204, mediaindonesia090204, mediaindonesia140704,
mediaindonesia200204, republika090604, republika120704-005, republika190504-
001, republika190604-005, republika210504-001, republika290704-002,
situshijau280404-004, suarakarya000000-001, suarakarya000000-008,
suarakarya000000-014, suaramerdeka160204, suaramerdeka200104.
Gabah kering
giling
indosiar180603, indosiar240703, indosiar300304, kompas 170402, kompas030502-
001, kompas160704, kompas170903, mediaindonesia250304, pikiranrakyat300604,
republika040303, republika060804-003, republika100704-003, republika100804,
republika120804-01, republika180504-002, republika210704-001, republika230704-
001, republika231202-001, republika231202-002, republika290604-003,
republika290604-007, situshijau281003-004, suarakarya000000-007,
suaramerdeka090104.
Gagal
panen/puso
gatra070203, gatra190802, gatra190902-02, gatra301002, indosiar010504,
indosiar031203, indosiar040903, indosiar050704-002, indosiar070504,
indosiar130504, indosiar140204, indosiar160304, indosiar170603, indosiar180304,
indosiar240703, indosiar260803-001, indosiar260803-003, kompas030704,
kompas031003, kompas170504, mediaindonesia030603, mediaindonesia050604-001,
mediaindonesia110703, mediaindonesia140203, mediaindonesia160603,
mediaindonesia240503, mediaindonesia310503, republika030903-002,
republika060804-001, republika080703, republika090804-01, republika120804-04,
republika130704-001, republika130804-02, republika200603, republika230704-005,
republika260604-003, situshijau091203-002, situshijau100603-003,
situshijau110303-002, situshijau280404-002, suarakarya000000-002-02,
suarakarya000000-011, suaramerdeka120104, suaramerdeka130602,
suarapembaruan120104, suarapembaruan260703-001, suarapembaruan260703-002.
17
Lanjutan
Kueri Gugus Jawaban
Impor beras
indonesia
gatra180103, gatra220802, indosiar180603, indosiar180703, indosiar200304,
indosiar300703-002, kompas 170402, kompas 170402, kompas050602,
kompas101002, kompas101004, kompas160704, kompas180504, kompas270401,
kompas270502-002, kompas310702, mediaindonesia050104, mediaindonesia060803,
mediaindonesia100203, mediaindonesia131003, mediaindonesia160603,
mediaindonesia250304, republika020604-001, republika060804-001,
republika090902, republika100703, republika100704-003, republika180504-002,
republika210704-001, republika230704-001, republika231202-001,
republika231202-002, republika240604-001, republika300704-002,
situshijau281003-004, suarakarya000000-007, suarakarya000000-023,
suaramerdeka120104, suaramerdeka130104, suaramerdeka170602-001,
suaramerdeka270601, suarapembaruan100903, suarapembaruan110903
Industri gula gatra200103, kompas031003, kompas250901, mediaindonesia120604-002,
pikiranrakyat300704-002, republika010704-003, republika020804, republika090902,
republika100902, republika220604-002, republika280704-002, republika301002,
situshijau210103-001, suarakarya000000-001-01, suarakarya000000-007,
suarakarya000000-028, suaramerdeka130902, suarapembaruan100903,
suarapembaruan220403
Institut
pertanian bogor
gatra020804, gatra180304, gatra180702, gatra220704, gatra290903, gatra300404,
kompas100399, kompas111099, kompas121099, kompas150304-001,
kompas200704, kompas200799, kompas230704, mediaindonesia080704,
mediaindonesia090704, mediaindonesia101003, mediaindonesia290903-002,
republika010704-001, republika061003, republika070604-002, republika100604-002,
republika100704-002, republika110604-002, republika140704-002,
republika160604-002, republika170604-001, republika180303, republika180604,
republika190604-001, republika190604-002, republika211002, republika220604-001,
republika230704-08, situshijau070503, situshijau101103-004, situshijau281003-003,
suarakarya000000-005, suarakarya000000-010, suarapembaruan150903,
suarapembaruan260703-001
Kelangkaan
pupuk
indosiar010704, indosiar060204, indosiar190504-001, indosiar200104,
indosiar260504, indosiar290604, kompas210504, kompas300502-001,
pikiranrakyat010504-003, republika050604, republika160604-001,
suarakarya000000-001-02, suarakarya000000-002, suarakarya000000-006,
suarakarya000000-026, suarakarya000000-029, suarakarya000000-030,
suarakarya000000-032, suarakarya000000-038, suaramerdeka161101
Kelompok
masyarakat
tani/kelompok
tani
bitraindonesia000000-001, indosiar021203-002, jurnal000000-017, kompas180502,
kompas211103, kompas250901, kompas260304, kompas260902, kompas270203-
002, kompas270502-002, kompas300502-001, replubika110804, republika030304,
republika110604-004, republika131203-001, republika140703, republika151202,
republika180303, republika270704-001, republika280703, republika300704-001,
situshijau070503, situshijau120303-003, situshijau130303-001, situshijau190303-
002, situshijau200103-002, situshijau281003-004, suarakarya000000-001-02,
suarakarya000000-037, suaramerdeka260902, suarapembaruan090202,
suarapembaruan130103
Laboratorium
pertanian
balaipenelitian000000-010, gatra100203, indobic130504-002, indosiar010704,
jurnal000000-027, kompas220801, kompas241203, kompas300502-002,
mediaindonesia290903-002, republika050804-007, republika120704-005,
republika230704-004, republika300604-002, situshijau040603, situshijau051103-02,
situshijau100603-001, situshijau140503-001-01, situshijau150403-002,
situshijau180603-003, suarakarya000000-003, suaramerdeka031101
18
Lanjutan
Kueri Gugus Jawaban
Musim
panen
gatra190902-02, gatra230103-001, gatra240203, indosiar010504, indosiar021203-
002, indosiar060204, indosiar071103, indosiar110304, indosiar240604,
indosiar300304, kompas030502-001, kompas041103, kompas220901-001,
kompas240103, kompas300502-001, mediaindonesia131203-001,
mediaindonesia230604, pikiranrakyat240404, pikiranrakyat300604, poskota261202,
republika060804-001, republika060804-003, republika100704-003,
republika151202, republika171102, republika240604-005, republika290604-007,
republika300704-002, situshijau000000-001, situshijau040603, situshijau080503-
004, situshijau250403-004, situshijau270503-002, situshijau280404-002,
suarakarya000000-007, suarakarya000000-023, suarakarya000000-028,
suaramerdeka120104, suaramerdeka290901, suarapembaruan031002
Pembangu
nan untuk
sektor
pertanian
gatra180304, jurnal000000-002, kompas020803, kompas031003, kompas060203,
kompas060503, kompas100399, kompas101004, kompas110201, kompas111099,
kompas121099, kompas150304-002, kompas190802, kompas191099,
kompas200799, kompas210502, kompas220901-002, kompas230603,
kompas240803, kompas260203, kompas270204, kompas280602, kompas290404,
mediaindonesia050604-002, mediaindonesia060903, mediaindonesia090903,
mediaindonesia160903, pembaruan110903, poskota110703, republika060903,
republika070104, republika080703, republika100804, republika100903,
republika101203, republika110604-002, republika131203-001, republika150604-
003, republika150903, republika190803, republika251002-003, republika290704-
003, republika300604-001, situshijau091203-002, situshijau280203,
suarapembaruan140303
Penerapan
bioteknolo
gi di
indonesia/
penerapan
bioteknolo
gi/biotekn
ologi di
indonesia
jurnal000000-018, kompas121099, puslitbang000000-001, republika220604-003,
republika290704-002, situshijau000000-002, situshijau030603-001,
situshijau040603, situshijau050703-001, situshijau070103-001, situshijau070103-
002, situshijau070103-003, situshijau100603-002, situshijau100603-003,
situshijau110303-002, situshijau130103-001, situshijau130503-001,
situshijau130503-002, situshijau140103-002, situshijau140103-003,
situshijau140503-001-01, situshijau140903-001, situshijau150403-001,
situshijau150403-002, situshijau160103, situshijau180603-003, situshijau180803-
003, situshijau200103-001, situshijau210103-003, situshijau210503-001,
situshijau270303-004, situshijau270503-002, situshijau270703-005,
situshijau300403, situshijau310303, situshijau310303-No, suarakarya000000-001-
02, suarakarya000000-014, suarapembaruan020603, suarapembaruan020603-No,
suarapembaruan151102, wartapenelitian000000-009
harga
komoditas
pertanian
indosiar071103,indosiar180603,indosiar221003,indosiar240604,indosiar300304,jur
nal000000-022,jurnal000000-027,kompas 170402,kompas030502-
001,kompas030502-
002,kompas080702,kompas100399,kompas101004,kompas111099,kompas140802,
kompas160304,kompas170104,kompas171002,kompas180502,kompas180504,kom
pas230603,kompas250901,kompas270203-001,kompas270401,kompas270502-
001,kompas280602,kompas311203,mediaindonesia060803,mediaindonesia310503,
pikiranrakyat240404,pikiranrakyat300604,poskota000000-002,poskota000000-
003,republika030804-002,republika060503,republika060804-001,republika060804-
003,republika061102,republika090902,republika140704-004,situshijau050703-
002,situshijau070503,situshijau130203-002,situshijau240203-
002,situshijau280203,situshijau280404-001,situshijau280404-002,situshijau280404-
003,suarakarya000000-002-02,suarakarya000000-021,suaramerdeka170602-
001,suaramerdeka290802,suaramerdeka311003,suarapembaruan100903,suarapemb
aruan220403,trubus000004,wartapenelitian000000-002
19
Lanjutan
Kueri Gugus Jawaban
Penerapan
teknologi pertanian
indosiar250204-001, jurnal000000-001, jurnal000000-011, jurnal000000-013,
jurnal000000-017, jurnal000000-024, kompas121099, kompas251003,
kompas290402, mediaindonesia170403, republika050903, republika131203-001,
republika140604-001, republika180504-001, republika201102, republika220604-
003, republika230704-08, republika260803, situshijau030603-001,
situshijau080103, situshijau100603-003, situshijau140103-002, situshijau140903-
001, situshijau140903-003, situshijau180603-003, situshijau180803-002,
situshijau181103-002, situshijau270303-004, situshijau270503-002,
situshijau270703-005, situshijau281003-003, situshijau290503-003,
suarakarya000000-034, suarapembaruan020603-No, suarapembaruan060602,
suarapembaruan160702, wartapenelitian000000-003, wartapenelitian000000-007,
wartapenelitian000000-009
Penyakit hewan
ternak/penyakit
ternak
gatra270104-002, gatra270104-003, gatra300104, mediaindonesia090204,
republika150103, republika160704-003, republika260704-004, republika300604-
002, suarakarya000000-004, suarakarya000000-008, suarakarya000000-014,
suarakarya000000-017, suaramerdeka260302-01
Penyuluhan
pertanian
bitraindonesia000000-001, gatra190902-02, indosiar310504, jurnal000000-005,
jurnal000000-014, kompas050802, kompas130699, kompas170104,
kompas200503-002, mediaindonesia160603, poskota110703, republika030903-
002, republika050804-001, republika061003, republika171003, republika180303,
republika200203, republika210504-001, republika220604-003, republika260604-
003, republika300604-003, situshijau201003-002, situshijau230103-001,
situshijau270703-001, suaramerdeka271102, wartapenelitian000000-002,
wartapenelitian000000-007
Perdagangan hasil
pertanian
gatra011102, indosiar070204, indosiar201103, jurnal000000-002, jurnal000000-
027, kompas031003, kompas041102, kompas101002, kompas140802,
kompas160304, kompas270401, kompas270502-001, kompas271103,
kompas311203, mediaindonesia030104, mediaindonesia101003,
mediaindonesia150903, mediaindonesia170303, republika020604-001,
republika041102, republika281202, situshijau130303-001, situshijau191103,
situshijau240203-002, suarakarya000000-013, suaramerdeka120104,
suaramerdeka270601, suarapembaruan080903-001, suarapembaruan080903-002,
wartapenelitian000000-006
Pertanian
organik/sistem
pertanian organik
indosiar250204-002, jurnal000000-017, kompas010499, kompas030502-002,
kompas050802, kompas081203, kompas181099, kompas221001, kompas241203,
kompas260304, kompas270502-002, kompas300502-001, republika131203-001,
republika150303, republika180303, situshijau070503, situshijau091203-001,
situshijau091203-004, situshijau290503-003, suarakarya000000-001-02,
suarapembaruan000000-002, suarapembaruan090202, suarapembaruan110702-
01, suarapembaruan160702
Petani tebu indosiar190504-002, indosiar290604, kompas031003, kompas250901,
kompas310702, republika010704-003, republika020804, republika100902,
republika140704-004, republika150604-002, republika200704-001,
republika220604-002, republika280704-002, republika310704-001,
situshijau280203, suarakarya000000-007, suarakarya000000-028,
suaramerdeka130902, suarapembaruan100903, suarapembaruan220403
20
Lanjutan
Kueri Gugus Jawaban
Peternak
unggas/peternak
ayam/peternak
burung
gatra270104-001, gatra270104-002, gatra300104, indosiar020304,
indosiar161203, indosiar240204, jurnal000000-009, kompas051103,
kompas120101, mediaindonesia090204, republika061003, republika100604-002,
republika190504-001, republika210504-001, situshijau280404-004,
suarakarya000000-001, suarakarya000000-008, suarakarya000000-014,
suarakarya000000-017, suarapembaruan220802
Produk usaha
peternakan
rakyat/produk
peternakan
jurnal000000-003, kompas120101, kompas150201, mediaindonesia010304,
mediaindonesia090204, republika100604-002, republika150303,
republika170704-007, republika210504-001, republika220704-003,
republika260604-001, republika290704-002, republika300604-002,
situshijau190303-001, suarakarya000000-001, suarakarya000000-008,
suarakarya000000-013, suarakarya000000-014, suarapembaruan151102
Pupuk organik balaipenelitian000000-001, kompas270502-002, kompas280502, kompas300502-
001, republika050804-007, republika190104, republika201102, republika270604,
situshijau091203-004, situshijau140103-001, suarakarya000000-001-02,
suarakarya000000-037, suaramerdeka031101, suaramerdeka170602-002,
suarapembaruan090202, suarapembaruan130103, suarapembaruan160702,
suarapembaruan220802, wartapenelitian000000-002, wartapenelitian000000-008
Riset pertanian balaipenelitian000000-012, gatra270104-002, indobic130504-001, jurnal000000-
008, jurnal000000-015, jurnal000000-018, jurnal000000-019, jurnal000000-026,
kompas010499, kompas170104, kompas221003, kompas230603,
mediaindonesia131003, puslitbang000000-001, republika030903-002,
republika070604-002, republika100704-002, republika140104, republika170604-
001, republika190604-001, republika190604-002, republika210704-001,
republika210704-003, republika220604-003, republika241203, republika260803,
republika280703, republika300604-003, situshijau040603, situshijau070503,
situshijau080503-001, situshijau091203-003, situshijau101103-004,
situshijau130103-001, situshijau130503-002, situshijau140103-002,
situshijau140903-001, situshijau140903-003, situshijau150403-002,
situshijau180803-002, situshijau181103-002, situshijau200103-001,
situshijau200103-001-No, situshijau201003-002, situshijau210103-003,
situshijau210503-001, situshijau250203, situshijau270303-004, situshijau290503-
001, situshijau300403, situshijau310303, suarakarya000000-001-02,
suarakarya000000-010, suarakarya000000-019, suarakarya000000-027,
suarakarya000000-034, suarakarya000000-037, suaramerdeka270601,
suarapembaruan000000-002, suarapembaruan020603, suarapembaruan060602,
suarapembaruan110702, suarapembaruan110702-01, suarapembaruan151102,
suarapembaruan160702, suarapembaruan241003, suarapembaruan290802-001,
wartapenelitian000000-007, wartapenelitian000000-009
21
Lanjutan
Kueri Gugus Jawaban
Swasembada
pangan
indosiar021203-002, kompas060503, kompas100901, kompas110201,
kompas150304-002, kompas170104, kompas230603, kompas230899,
kompas270203-001, kompas270401, kompas270502-002,
mediaindonesia160603, republika030304, republika060503, republika061003,
republika080703, republika100704-005, republika220604-003, republika220604-
003, republika230902-001, republika230902-002, republika231202-001,
republika231202-002, suarakarya000000-001-02, suarakarya000000-002-02,
suarakarya000000-016, suarakarya000000-021, suaramerdeka170602-001,
suarapembaruan110903, suarapembaruan221102
Tadah hujan gatra210704, gatra301002, indosiar260803-001, indosiar310504, jurnal000000-
001, kompas270502-002, mediaindonesia160603, mediaindonesia310503,
republika090804-01, republika210704-004, republika230704-005,
republika240604-005, republika290604-007, suarakarya000000-001-02,
suarakarya000000-030, suaramerdeka130602, suarapembaruan260703-002,
wartapenelitian000000-004
Tanaman obat balaipenelitian000000-008, balaipenelitian000000-009, indobic120504,
indosiar010704, indosiar260803-002, republika020604-003, republika030804-
002, republika270604, republika290604-001, situshijau030203-001,
situshijau041203, situshijau060503, situshijau070103-004, situshijau070103-005,
situshijau100603-002, situshijau101103-003, situshijau120303-004,
situshijau130103-002, situshijau130503-001, situshijau140103-003,
situshijau140903-004, situshijau180203-001, situshijau180203-002,
situshijau201003-002, situshijau270303-001, situshijau270303-003,
situshijau270503-002, situshijau270703-002, situshijau290503-001
Tanaman pangan bitraindonesia000000-001, indosiar021203-001, indosiar030304, indosiar050704-
002, indosiar130104, indosiar130504, indosiar160304, indosiar180304,
indosiar310504, kompas020603, kompas120102, kompas120702, kompas171002,
kompas180701, kompas240302, kompas260203, kompas311203,
mediaindonesia030104, mediaindonesia160603, mediaindonesia170303,
mediaindonesia220303, republika030304, republika050903, republika080604-
004, republika150903, republika200603, republika220604-003, republika230704-
006, republika241203, republika260604-001, republika271003, situshijau070103-
003, situshijau140903-001, situshijau181103-001, situshijau290403-002,
suarakarya000000-001-02, suarakarya000000-011, suarakarya000000-013,
suarakarya000000-031, suaramerdeka160703, suaramerdeka250302,
suarapembaruan151102, suarapembaruan260703-002
Upaya peningkatan
pendapatan
petani/peningkatan
pendapatan petani
indosiar150104-001, jurnal000000-017, kompas030502-001, kompas031003,
kompas100399, kompas170903, kompas200802, kompas210502, kompas260702,
kompas270203-001, kompas300402, kompas300502-002, pembaruan110903,
poskota110703, republika030804-002, republika030903-001, republika060804-
001, republika060804-003, republika230404, republika231202-001,
republika231202-002, republika240604-005, republika241203, republika281202,
republika300704-002, situshijau140503-001, situshijau180803-002,
situshijau181103-002, situshijau200103-001, situshijau280203,
suaramerdeka120104, suaramerdeka170602-001, suarapembaruan060602,
suarapembaruan290802-001, wartapenelitian000000-005
22
Lampiran 4 Hasil perhitungan precision pada sebelas tingkat recall standar berbagai kueri dengan nilai k = 1000
Kueri Nilai precision pada sebelas tingkat recall
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
bencana kekeringan 1.000 0.885 0.885 0.885 0.885 0.885 0.813 0.811 0.744 0.632 0.238
dukungan pemerintah
pada pertanian
0.250 0.250 0.162 0.070 0.070 0.070 0.055 0.055 0.055 0.055 0.045
flu burung 1.000 1.000 1.000 1.000 0.938 0.938 0.938 0.938 0.900 0.840 0.840
gabah kering giling 1.000 1.000 0.667 0.571 0.455 0.406 0.375 0.362 0.314 0.314 0.264
gagal panen 0.700 0.700 0.611 0.517 0.417 0.397 0.267 0.239 0.207 0.107 0.052
impor beras indonesia 1.000 1.000 1.000 0.947 0.947 0.759 0.684 0.564 0.404 0.285 0.160
industri gula 1.000 1.000 1.000 1.000 0.917 0.917 0.632 0.560 0.485 0.122 0.084
institut pertanian bogor 1.000 0.857 0.600 0.317 0.227 0.133 0.097 0.095 0.095 0.088 0.079
kelangkaan pupuk 1.000 1.000 1.000 1.000 0.818 0.800 0.789 0.789 0.762 0.643 0.345
kelompok masyarakat tani 0.667 0.667 0.667 0.611 0.394 0.254 0.250 0.222 0.222 0.167 0.167
laboratorium pertanian 0.333 0.150 0.125 0.037 0.037 0.037 0.037 0.037 0.033 0.033 0.024
musim panen 0.750 0.750 0.667 0.636 0.439 0.383 0.352 0.312 0.302 0.254 0.175
pembangunan untuk
sektor pertanian
1.000 0.857 0.611 0.538 0.442 0.439 0.431 0.363 0.259 0.190 0.082
penerapan bioteknologi di
indonesia
1.000 0.333 0.130 0.083 0.082 0.082 0.076 0.067 0.048 0.046 0.043
penerapan teknologi
pertanian
1.000 0.308 0.164 0.155 0.155 0.136 0.136 0.101 0.101 0.055 0.042
23
Lanjutan
Kueri Nilai precision pada sebelas tingkat recall
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
penyakit hewan ternak 1.000 0.500 0.500 0.444 0.333 0.318 0.296 0.222 0.200 0.167 0.144
penyuluhan pertanian 1.000 0.094 0.053 0.048 0.048 0.048 0.048 0.046 0.046 0.043 0.029
perdagangan hasil pertanian 1.000 0.263 0.171 0.165 0.165 0.159 0.139 0.106 0.087 0.050 0.047
sistem pertanian organik 1.000 0.714 0.714 0.714 0.714 0.667 0.577 0.327 0.230 0.168 0.035
petani tebu 1.000 0.300 0.217 0.113 0.073 0.060 0.060 0.058 0.058 0.058 0.052
peternak ayam 1.000 1.000 1.000 1.000 1.000 0.923 0.867 0.842 0.842 0.704 0.526
produk usaha peternakan
rakyat
1.000 1.000 0.714 0.600 0.117 0.114 0.089 0.089 0.068 0.055 0.054
pupuk organik 1.000 0.667 0.636 0.636 0.293 0.293 0.236 0.205 0.200 0.194 0.165
riset pertanian 0.167 0.098 0.098 0.098 0.098 0.098 0.090 0.083 0.079 0.072 0.069
swasembada pangan 0.313 0.313 0.313 0.313 0.313 0.281 0.244 0.220 0.208 0.208 0.090
tadah hujan 0.500 0.500 0.344 0.344 0.344 0.344 0.344 0.313 0.313 0.227 0.168
tanaman obat 1.000 1.000 0.857 0.833 0.600 0.234 0.225 0.139 0.117 0.117 0.112
tanaman pangan 0.500 0.243 0.243 0.210 0.160 0.160 0.152 0.142 0.139 0.139 0.115
upaya peningkatan pendapatan
petani
0.161 0.161 0.161 0.151 0.099 0.099 0.099 0.084 0.084 0.083 0.058
harga komoditas pertanian 1.000 1.000 0.813 0.514 0.500 0.413 0.372 0.288 0.253 0.185 0.096
Rata-rata interpolasi
maksimum
0.811 0.620 0.537 0.485 0.402 0.361 0.326 0.289 0.262 0.210 0.147
Average precision 0.404683
24
Lampiran 5 Grafik perbandingan average precision LSI TF-IDF dengan LSI Global
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Pre
ciso
n
Nilai K
AVP LSI TFIDF AVP LSI GLOBAL
25
Penguji:
1. Mushthofa S.Kom, M.Sc
2. Ahmad Ridha S.Kom, MS