IR lagi
Transcript of IR lagi
1.Metode / Algoritma apa saja yang digunakan untuk melakukan IR?Jawab :a.Set-theoretic models,model merepresentasikan dokumen sebagai himpunan kata atau frase. Contoh model ini ialahstandard Boolean modeldanextended Boolean model.b.Algebratic model, model merepresentasikan dokumen danquerysebagai vektor atau matrikssimilarityantara vektor dokumen dan vektorqueryyang direpresentasikan sebagai sebuah nilai skalar. Contoh model ini ialahvector space modeldanlatent semantic indexing(LSI).c.Probabilistic model,model memperlakukan proses pengembalian dokumen sebagai sebuahprobabilistic inference. Contoh model ini ialah penerapan teorema bayes dalam model probabilistik.
2.Bagaimana perbedaan cara kerja Precision versus Recall, berikan contohnya ?Jawab :a.Precision(ketepatan)Precisionialah perbandingan jumlah dokumen relevan yang didapatkan sistem dengan jumlah seluruh dokumen yang terambil oleh sistem baik relevan maupun tidak relevan.Rumusprecision=Jumlah dokumen relevan dengan queryjumlah seluruh dokumen yang terambilb.Recall(kelengkapan)Recallialah perbandingan jumlah dokumen relevan yang didapatkan sistem dengan jumlah seluruh dokumen relevan yang ada dalam koleksi dokumen (terambil ataupun tak terambil sistem).Rumusrecall=Jumlah dokumen relevan dengan query dan terambil sistem.jumlah seluruh dokumen relevan dalam koleksi dokumen.Contoh :Jika ada seseorang mencari dokumen tentang Information Retrieval pada sebuah sistem, dan jika sistem tersebut memiliki 100 buku tentangInformation Retrieval, maka kinerja terbaik adalah jika sistem tersebut berhasil menemukan 100 dokumen tentangInformation Retrieval.Kalau sistem tersebut memberikan 100 temuan, dan di temuan tersebut ada 50 dokumen tentang Information Retrieval, maka nilairecall-nya adalah 0,5 (atau 50%) dan nilaiprecision-nya juga 0,5. Kalau sistem tersebut memberikan 1 dokumen saja, dan dokumen tersebut adalah tentang Information Retrieval, makarecall-nya bernilai 0,01 dan precision-nya bernilai 1.
3.Jelaskan Algoritma Web-Crawleryang sederhana, berikan contohnya ?Jawab :Web Craweler atau yang lebih dikenal dengan sebutan Web Spider atau Web robot merupakan suatu aplikasi dimana kita dapat membandingkan beberapa web yang terdapat di internet. Web Crawler bekerja secara otomatis dengan membandingkan beberapa alamat website yang sering dikunjungi dan akan secara otomatis menyimpan semua bagian file yang terdapat didalamnya dalam folder computer kita.
Nama : Anis SunaitaNim : 09011222Kelas : BINDEX CONSTRUCTIONDidalam mata kuliah Information Retrival ini, pertama yang akan kita pelajari adalah tentang korpus data. Pengertian Korpus data secara luas dan menurut kamus besar adalah data yang dipakai sebagai bahan penelitian. Nah didalam penelitian itulah terdapat koleksi dokumen-dokumen. Koleksi itulah yang dinamakanKorpus Data.Korpus yang seimbang mencoba mewakili semua bahasa atau suatu domain.Korpus data biasanya disimpan dalam komputer, sehingga software komputer dapat dibuat untuk memfasilitasinya.salah satu cara umum untuk menggunakan korpus data adalah untuk menghitung jumlah total kata pada teks, kemudian menghitung dan mengatur jumlah waktu kemunculan kata tertentu.Proses membangun indeks dokumen dari korpus data yang akan digunakan dalam proses retrieval disebutIndex Construction.Didalam dokumen terdapat kata-kata/atau kosakata didalam term atau yang dikenal denganVocabulary of term. Istilah token dalam vocabulary of term ini disebut dengan kata/word/term. Ada beberapa proses yang dilakukan dalam pembuatan vocabulary of terms:Tokenization :suatu tahap pemrosesan dimana text input dibagi menjadi unit-unit yang disebut token yang merupakan suatu kata atau suatu angka atau suatu tanda baca.Case Folding :proses penyamaan case dalam sebuah dokumen. Ini dilakukan untuk mempermudah pencarian.Filtering :digunakan untuk menghilangkan karakter-karakter non-huruf yang dianggap tidak valid (karakter angka dan simbol).Stopword :proses penghilangan kata-kata yang tidak berkontribusi banyak pada isi dokumen.Stemming :suatu proses pengembalian suatu kata berimbuhan ke bentuk dasarnya (stem/root).Inverter Index :Kata-kata yang sama dijadikan satu. Dari hasil inverter indexnya inilah yang dinamakan posting list.Nah jika kalian semua ingin mengetahui contoh dari setiap penjelasan diatas, maka kalian bisa melihat dihalaman ini pada halaman 4
BOOLEAN RETRIEVAL MODELDalam pembahasan ini kita membicarakan tentang banyaknya dokumen, yang perlu dilakukan dengan baik. Boolean retrival model Melakukan perbaikan karena datanya terlalu besar bila tersimpan dalam komputer, seperti ini kita perlu memenuhi peraturannya diantaranya : kecepatan dalam pemrosesan dokumen yang sangat banyak, fleksibilitas dan perangkingan. Pemecahan dalam masalah seperti bisa dilakukan dengan melalui index dokumen. Caranya dengan melakukan :Incidence Matrix: suatu matrix yang terdiri dari kolom (dokumen) dan baris (token/terms).Dokumen yang ada di kolom adalah semua dokumen yang terdapat pada korpus data kita. Token pada baris adalah semua token unik dalam seluruh dokumen yang ada.Saat suatu token(t) ada dalam dokumen(d), maka nilai dari baris dan kolom (t,d) adalah 1.Jika tidak ditemukan, maka nilai kolom (t,d) adalah 0.Inverted index: didalam proses inverted index ini kita menggunakan posting lists. Untuk melakukannnya terlebih dahulu kita melakukan token yang disebut dengan vocabulary. Dan untuk setiap token ada posting lists untuk dokumen dimana token tersebut muncul.
Setelah semua caranya selesai, langkah berikutnya adalah melakukan overlap, ketika terjadi transaksi beruntun, maka system software hanya mengerjakan transaksi, satu transaksi selesai proses ganti transaksi berikutnya, begitu seterusnya.Boolean Retrieval Model (BRM)adalah model Informasi Retrival yang dapat menyelesaikan setiap permintaanquery(keywords)dalam bentuk ekspresi boolean. Model ini melihat setiap dokumen sebagai sebuah set dari kata-kata (tokens). Hasil perhitungannya hanya berupa binary (1 atau 0). Dalam hal ini tidak ada dokumen yang mirip.Dari penjelasan diatas, agar kalian mudah memahami dan mudah cepat dimengerti sebaiknya kalian baca dan ikuti langkah-langkah contoh soal dibawah ini, mulai dariINDEX CONSTRUCTIONdanBOOLEAN RETRIEVAL MODELYuk kita mulai dengan bacaan Basmallah terlebih dahulu1. Terlebih dahulu kita buat dokumennya sebanyak enam dokumen yang terdapat dua kalimat didalamnya. Tiap dokumen ditandai dengan huruf D.DOKUMEND1 : berkibarlah bendera negeriku. Berkibarlah engkau di dadakuD2: tunjukkanlah pada dunia.Semangatmu yang panas membaraD3 : Daku ingin jiwa raga ini. Selaraskan keagunganD4: Daku inginjemariku ini. Menuliskan kharismamuD5: Berkibarlah di luas nuansaku. Tunjukkanlah pada duniaD6 : Daku ingin kepal tangan ini.menunaikan kewajiban
2. Selanjutnya menentukan token dari Dokumen-dokumen diatas
kibarlaras
benderaagung
negerijemari
engkautulis
dadakharisma
tunjukluas
padanuansa
duniakepal
semangattangan
panastunai
barawajib
daku
ingin
jiwa
raga
ini
3. Untuk langkah ke 3 yaitu menentukan Query dari D1 sampai D6Query : Berkibar Bendera
4.selanjutnya yaitu melakukan Incedence indexD1D2D3D4D5D6JUMLAH
t1kibar1000102
t2bendera1000102
t3negeri1000001
t4engkau1000001
t5dada1000001
t6tunjuk0100102
t7pada0100102
t8dunia0100102
t9semangat0100001
t10panas0100001
t11bara0100001
t12daku0011013
t13ingin0011103
t14jiwa0010001
t15laras0010001
t16agung0010001
t17jemari0001001
t18tulis0001001
t19kharisma0001001
t20luas0000101
t21nuansa0000101
t22kepal0000011
t23tangan0000011
t24tunai0000011
t25wajib0000011
5. Pada langkah ini kita akan melakukan Inverted Index dengan memposting list pada stiap dokumen, mulai dari tokenisasi, case folding, filtering, stopword, stemming hingga inverted index.JUMLAH
t1kibarD1D52
t2benderaD1D52
t3negeriD11
t4engkauD11
t5dadaD11
t6tunjukD2D52
t7padaD2D52
t8duniaD2D52
t9semangatD21
t10panasD21
t11baraD21
t12dakuD3D4D63
t13inginD3D4D53
t14jiwaD31
t15larasD31
t16agungD31
t17jemariD41
t18tulisD41
t19kharismaD41
t20luasD51
t21nuansaD51
t22kepalD51
t23tanganD61
t24tunaiD61
t25wajibD61
6. Langkah keenam ini, kita melakukan overlap yang berarti tumpang tindihnya fungsi yang digunakan, maksudnya antar dokumen 1 sampai dokumen 6.
tf(d1)tf(d2)tf(d3)tf(d4)tf (d5)tf(d6)tf(d1) ntf(d2) ntf(d3) ntf(d4) ntf(d5) ntf(d6) ndf(jumlah dok )idftf(1) x idftf(d2) x idftf(d3) x idftf(4)x idftf(5)x idftf(6)x idfN=6
t1kibar20001010000.5020.47710.47710000.23850
t2bendera1000100.50000.5020.47710.23850000.23850
t3negeri1000000.50000010.77810.389000000
t4engkau1000000.50000010.77810.389000000
t5dada1000000.50000010.77810.389000000
t6tunjuk01001000.5000.5020.477100.2385000.23850
t7pada01001000.5000.5020.477100.2385000.23850
t8dunia01001000.5000.5020.477100.2385000.23850
t9semangat01000000.5000010.778100.38900000
t10panas01000000.5000010.778100.389070000
t11bara01000000.5000010.778100.389070000
t12daku001101000.50.500.530.3010000.15050.150500.1505
t13ingin001110000.50.50.5030.3010000.15050.15050.15050
t14jiwa001000000.500010.7781000.3890000
t15laras001000000.500010.7781000.3890000
t16agung001000000.500010.7781000.3890000
t17jemari0001000000.50010.77810000.389000
t18tulis0001000000.50010.77810000.3890700
t19kharisma0001000000.50010.77810000.389000
t20luas00001000000.5010.778100000.38900
t21nuansa00001000000.5010.778100000.38900
t22kepal000001000000.510.7781000000.3890
t23tangan000001000000.510.7781000000.3890
t24tunai000001000000.510.7781000000.3890
t25wajib000001000000.510.7781000000.3890
0.71560000.47710
d1d2d3d4d5d6
133323
7. Langkah ini adalah langkah terakhir yaitu Kesimpulan, bahwasanya nilai tertinggi dari keseluruhanAda diD1 : berkibarlah bendera negeriku. Berkibarlah engkau di dadaku
D1berkibarlah bendera negeriku. Berkibarlah engkau di dadaku
D5Berkibarlah di luas nuansaku. Tunjukkanlah pada dunia
D2tunjukkanlah pada dunia. Semangatmu yang panas membara
D3Daku ingin jiwa raga ini. Selaraskan keagungan
D4Daku inginjemariku ini. Menuliskan kharismamu
D6daku ingin kepal tangan ini.menunaikan kewajiban
Dokumen 1 inilah data yang paling RelevanD1 :berkibarlah bendera negeriku. Berkibarlah engkau di dadakuDengan Jumlah Nilai :0.71568