IR lagi

download IR lagi

of 7

Transcript of IR lagi

1.Metode / Algoritma apa saja yang digunakan untuk melakukan IR?Jawab :a.Set-theoretic models,model merepresentasikan dokumen sebagai himpunan kata atau frase. Contoh model ini ialahstandard Boolean modeldanextended Boolean model.b.Algebratic model, model merepresentasikan dokumen danquerysebagai vektor atau matrikssimilarityantara vektor dokumen dan vektorqueryyang direpresentasikan sebagai sebuah nilai skalar. Contoh model ini ialahvector space modeldanlatent semantic indexing(LSI).c.Probabilistic model,model memperlakukan proses pengembalian dokumen sebagai sebuahprobabilistic inference. Contoh model ini ialah penerapan teorema bayes dalam model probabilistik.

2.Bagaimana perbedaan cara kerja Precision versus Recall, berikan contohnya ?Jawab :a.Precision(ketepatan)Precisionialah perbandingan jumlah dokumen relevan yang didapatkan sistem dengan jumlah seluruh dokumen yang terambil oleh sistem baik relevan maupun tidak relevan.Rumusprecision=Jumlah dokumen relevan dengan queryjumlah seluruh dokumen yang terambilb.Recall(kelengkapan)Recallialah perbandingan jumlah dokumen relevan yang didapatkan sistem dengan jumlah seluruh dokumen relevan yang ada dalam koleksi dokumen (terambil ataupun tak terambil sistem).Rumusrecall=Jumlah dokumen relevan dengan query dan terambil sistem.jumlah seluruh dokumen relevan dalam koleksi dokumen.Contoh :Jika ada seseorang mencari dokumen tentang Information Retrieval pada sebuah sistem, dan jika sistem tersebut memiliki 100 buku tentangInformation Retrieval, maka kinerja terbaik adalah jika sistem tersebut berhasil menemukan 100 dokumen tentangInformation Retrieval.Kalau sistem tersebut memberikan 100 temuan, dan di temuan tersebut ada 50 dokumen tentang Information Retrieval, maka nilairecall-nya adalah 0,5 (atau 50%) dan nilaiprecision-nya juga 0,5. Kalau sistem tersebut memberikan 1 dokumen saja, dan dokumen tersebut adalah tentang Information Retrieval, makarecall-nya bernilai 0,01 dan precision-nya bernilai 1.

3.Jelaskan Algoritma Web-Crawleryang sederhana, berikan contohnya ?Jawab :Web Craweler atau yang lebih dikenal dengan sebutan Web Spider atau Web robot merupakan suatu aplikasi dimana kita dapat membandingkan beberapa web yang terdapat di internet. Web Crawler bekerja secara otomatis dengan membandingkan beberapa alamat website yang sering dikunjungi dan akan secara otomatis menyimpan semua bagian file yang terdapat didalamnya dalam folder computer kita.

Nama : Anis SunaitaNim : 09011222Kelas : BINDEX CONSTRUCTIONDidalam mata kuliah Information Retrival ini, pertama yang akan kita pelajari adalah tentang korpus data. Pengertian Korpus data secara luas dan menurut kamus besar adalah data yang dipakai sebagai bahan penelitian. Nah didalam penelitian itulah terdapat koleksi dokumen-dokumen. Koleksi itulah yang dinamakanKorpus Data.Korpus yang seimbang mencoba mewakili semua bahasa atau suatu domain.Korpus data biasanya disimpan dalam komputer, sehingga software komputer dapat dibuat untuk memfasilitasinya.salah satu cara umum untuk menggunakan korpus data adalah untuk menghitung jumlah total kata pada teks, kemudian menghitung dan mengatur jumlah waktu kemunculan kata tertentu.Proses membangun indeks dokumen dari korpus data yang akan digunakan dalam proses retrieval disebutIndex Construction.Didalam dokumen terdapat kata-kata/atau kosakata didalam term atau yang dikenal denganVocabulary of term. Istilah token dalam vocabulary of term ini disebut dengan kata/word/term. Ada beberapa proses yang dilakukan dalam pembuatan vocabulary of terms:Tokenization :suatu tahap pemrosesan dimana text input dibagi menjadi unit-unit yang disebut token yang merupakan suatu kata atau suatu angka atau suatu tanda baca.Case Folding :proses penyamaan case dalam sebuah dokumen. Ini dilakukan untuk mempermudah pencarian.Filtering :digunakan untuk menghilangkan karakter-karakter non-huruf yang dianggap tidak valid (karakter angka dan simbol).Stopword :proses penghilangan kata-kata yang tidak berkontribusi banyak pada isi dokumen.Stemming :suatu proses pengembalian suatu kata berimbuhan ke bentuk dasarnya (stem/root).Inverter Index :Kata-kata yang sama dijadikan satu. Dari hasil inverter indexnya inilah yang dinamakan posting list.Nah jika kalian semua ingin mengetahui contoh dari setiap penjelasan diatas, maka kalian bisa melihat dihalaman ini pada halaman 4

BOOLEAN RETRIEVAL MODELDalam pembahasan ini kita membicarakan tentang banyaknya dokumen, yang perlu dilakukan dengan baik. Boolean retrival model Melakukan perbaikan karena datanya terlalu besar bila tersimpan dalam komputer, seperti ini kita perlu memenuhi peraturannya diantaranya : kecepatan dalam pemrosesan dokumen yang sangat banyak, fleksibilitas dan perangkingan. Pemecahan dalam masalah seperti bisa dilakukan dengan melalui index dokumen. Caranya dengan melakukan :Incidence Matrix: suatu matrix yang terdiri dari kolom (dokumen) dan baris (token/terms).Dokumen yang ada di kolom adalah semua dokumen yang terdapat pada korpus data kita. Token pada baris adalah semua token unik dalam seluruh dokumen yang ada.Saat suatu token(t) ada dalam dokumen(d), maka nilai dari baris dan kolom (t,d) adalah 1.Jika tidak ditemukan, maka nilai kolom (t,d) adalah 0.Inverted index: didalam proses inverted index ini kita menggunakan posting lists. Untuk melakukannnya terlebih dahulu kita melakukan token yang disebut dengan vocabulary. Dan untuk setiap token ada posting lists untuk dokumen dimana token tersebut muncul.

Setelah semua caranya selesai, langkah berikutnya adalah melakukan overlap, ketika terjadi transaksi beruntun, maka system software hanya mengerjakan transaksi, satu transaksi selesai proses ganti transaksi berikutnya, begitu seterusnya.Boolean Retrieval Model (BRM)adalah model Informasi Retrival yang dapat menyelesaikan setiap permintaanquery(keywords)dalam bentuk ekspresi boolean. Model ini melihat setiap dokumen sebagai sebuah set dari kata-kata (tokens). Hasil perhitungannya hanya berupa binary (1 atau 0). Dalam hal ini tidak ada dokumen yang mirip.Dari penjelasan diatas, agar kalian mudah memahami dan mudah cepat dimengerti sebaiknya kalian baca dan ikuti langkah-langkah contoh soal dibawah ini, mulai dariINDEX CONSTRUCTIONdanBOOLEAN RETRIEVAL MODELYuk kita mulai dengan bacaan Basmallah terlebih dahulu1. Terlebih dahulu kita buat dokumennya sebanyak enam dokumen yang terdapat dua kalimat didalamnya. Tiap dokumen ditandai dengan huruf D.DOKUMEND1 : berkibarlah bendera negeriku. Berkibarlah engkau di dadakuD2: tunjukkanlah pada dunia.Semangatmu yang panas membaraD3 : Daku ingin jiwa raga ini. Selaraskan keagunganD4: Daku inginjemariku ini. Menuliskan kharismamuD5: Berkibarlah di luas nuansaku. Tunjukkanlah pada duniaD6 : Daku ingin kepal tangan ini.menunaikan kewajiban

2. Selanjutnya menentukan token dari Dokumen-dokumen diatas

kibarlaras

benderaagung

negerijemari

engkautulis

dadakharisma

tunjukluas

padanuansa

duniakepal

semangattangan

panastunai

barawajib

daku

ingin

jiwa

raga

ini

3. Untuk langkah ke 3 yaitu menentukan Query dari D1 sampai D6Query : Berkibar Bendera

4.selanjutnya yaitu melakukan Incedence indexD1D2D3D4D5D6JUMLAH

t1kibar1000102

t2bendera1000102

t3negeri1000001

t4engkau1000001

t5dada1000001

t6tunjuk0100102

t7pada0100102

t8dunia0100102

t9semangat0100001

t10panas0100001

t11bara0100001

t12daku0011013

t13ingin0011103

t14jiwa0010001

t15laras0010001

t16agung0010001

t17jemari0001001

t18tulis0001001

t19kharisma0001001

t20luas0000101

t21nuansa0000101

t22kepal0000011

t23tangan0000011

t24tunai0000011

t25wajib0000011

5. Pada langkah ini kita akan melakukan Inverted Index dengan memposting list pada stiap dokumen, mulai dari tokenisasi, case folding, filtering, stopword, stemming hingga inverted index.JUMLAH

t1kibarD1D52

t2benderaD1D52

t3negeriD11

t4engkauD11

t5dadaD11

t6tunjukD2D52

t7padaD2D52

t8duniaD2D52

t9semangatD21

t10panasD21

t11baraD21

t12dakuD3D4D63

t13inginD3D4D53

t14jiwaD31

t15larasD31

t16agungD31

t17jemariD41

t18tulisD41

t19kharismaD41

t20luasD51

t21nuansaD51

t22kepalD51

t23tanganD61

t24tunaiD61

t25wajibD61

6. Langkah keenam ini, kita melakukan overlap yang berarti tumpang tindihnya fungsi yang digunakan, maksudnya antar dokumen 1 sampai dokumen 6.

tf(d1)tf(d2)tf(d3)tf(d4)tf (d5)tf(d6)tf(d1) ntf(d2) ntf(d3) ntf(d4) ntf(d5) ntf(d6) ndf(jumlah dok )idftf(1) x idftf(d2) x idftf(d3) x idftf(4)x idftf(5)x idftf(6)x idfN=6

t1kibar20001010000.5020.47710.47710000.23850

t2bendera1000100.50000.5020.47710.23850000.23850

t3negeri1000000.50000010.77810.389000000

t4engkau1000000.50000010.77810.389000000

t5dada1000000.50000010.77810.389000000

t6tunjuk01001000.5000.5020.477100.2385000.23850

t7pada01001000.5000.5020.477100.2385000.23850

t8dunia01001000.5000.5020.477100.2385000.23850

t9semangat01000000.5000010.778100.38900000

t10panas01000000.5000010.778100.389070000

t11bara01000000.5000010.778100.389070000

t12daku001101000.50.500.530.3010000.15050.150500.1505

t13ingin001110000.50.50.5030.3010000.15050.15050.15050

t14jiwa001000000.500010.7781000.3890000

t15laras001000000.500010.7781000.3890000

t16agung001000000.500010.7781000.3890000

t17jemari0001000000.50010.77810000.389000

t18tulis0001000000.50010.77810000.3890700

t19kharisma0001000000.50010.77810000.389000

t20luas00001000000.5010.778100000.38900

t21nuansa00001000000.5010.778100000.38900

t22kepal000001000000.510.7781000000.3890

t23tangan000001000000.510.7781000000.3890

t24tunai000001000000.510.7781000000.3890

t25wajib000001000000.510.7781000000.3890

0.71560000.47710

d1d2d3d4d5d6

133323

7. Langkah ini adalah langkah terakhir yaitu Kesimpulan, bahwasanya nilai tertinggi dari keseluruhanAda diD1 : berkibarlah bendera negeriku. Berkibarlah engkau di dadaku

D1berkibarlah bendera negeriku. Berkibarlah engkau di dadaku

D5Berkibarlah di luas nuansaku. Tunjukkanlah pada dunia

D2tunjukkanlah pada dunia. Semangatmu yang panas membara

D3Daku ingin jiwa raga ini. Selaraskan keagungan

D4Daku inginjemariku ini. Menuliskan kharismamu

D6daku ingin kepal tangan ini.menunaikan kewajiban

Dokumen 1 inilah data yang paling RelevanD1 :berkibarlah bendera negeriku. Berkibarlah engkau di dadakuDengan Jumlah Nilai :0.71568