Materi 4

14
Ratri Enggar Pawening http://infokampuskoe.wordpress.com Materi 4 INFORMATION RETRIEVAL Term Weighting

description

Materi 4. Information Retrieval. Term Weighting. Overview. Dalam korpus yang besar , sebuah boolean query mampu mengembalikan hasil yang besar pula. Andaikan hasil boolean retrieval mengembalikan 10.000 dokumen , manakah yang benar-benar cocok untuk kita ? - PowerPoint PPT Presentation

Transcript of Materi 4

Page 1: Materi  4

Ratri Enggar Pawening

http://infokampuskoe.wordpress.com

Materi 4

INFORMATION RETRIEVALTerm Weighting

Page 2: Materi  4

Overview

• Dalam korpus yang besar, sebuah boolean query mampu mengembalikan hasil yang besar pula.

• Andaikan hasil boolean retrieval mengembalikan 10.000 dokumen, manakah yang benar-benar cocok untuk kita?

• Bagaimana pula dengan user yang kurang memiliki pengetahuan yang bagus dalam boolean query?

Page 3: Materi  4

Overview

• Permasalahan:

Kita butuh mengurutkan dokumen hasil retrieval disesuaikan dengan query yang kita masukkan.

• Pemecahan:

Pemberian score/nilai untuk setiap dokumen dalam korpus terhadap query kita. (untuk dirangkingkan)

Page 4: Materi  4

Scoring

• Yang sudah kita pelajari tentang scoring/nilai adalah score 1 untuk dokumen yang relevan dengan query dan score 0 untuk dokumen yang tidak relevan.

• Kita akan masuk ke tahap berikutnya:– dokumen yang memiliki token query lebih

banyak didalamnya, akan memiliki score yang lebih tinggi.

– query berupa free text (tanpa operator)

Page 5: Materi  4

Overlap Measure [1]

• Ide perangkingan yang sederhana adalah overlap measure (Manning, 2008)

• Sebagai contoh, kita lihat kasus berikut.

Page 6: Materi  4
Page 7: Materi  4

Overlap Measure [2]

• Misalkan contoh query-nya adalah:“Brutus Mercy Antony”

• Maka dokumen “Antony and Cleopatra” memiliki score 3 (Karena ketiga token dalam query dimiliki semua oleh dokumen tersebut).

• Dokumen “Julius Caesar” dan “Macbeth” memiliki score 2.

• Nah, dengan begitu, dokumen “Antony and Cleopatra” menempati rangking pertama.

Page 8: Materi  4

Overlap Measure [3]

• Tapi, apakah masih ditemui kelemahan dari penghitungan overlap measure?

• Bagaimana kalau query hanya satu kata/token saja?

• Overlap measure tidak:– Mempertimbangkan jumlah suatu token dalam

suatu dokumen.

– Mempertimbangkan scarcity dari tiap token

– Tidak memperhitungkan jumlah korpus dan jumlah token dalam query.

Page 9: Materi  4

Overlap Measure [4]

• Ide selanjutnya adalah menemukan metode scoring yang lebih baik.

• Scoring juga tetap dapat dilakukan meski hanya ada satu token dalam query.

• Dokumen akan semakin relevan jika memuat token yang semakin banyak.

• Ini semua menuju ke ide berikutnya term weighting.

Page 10: Materi  4

Term Frequency

• Untuk bisa mendapat score tadi, pertama-tama kita perlu memberikan bobot tiap token dalam tiap dokumen.

Ex:

• Bobot token ditentukan dari jumlah kemunculan token tersebut di dalam dokumen. ( term frequency – tf )

• term frequency dinotasikan dengan tf(t,d), dimana t token, dan d dokumen

Page 11: Materi  4

Document Frequency

DOCUMENT FREQUENCY (df) , defined to be the number of documents in the collection that contain a term t.

Page 12: Materi  4

Components

• N jml dokumen• tf(t,d)

• df• idf inverse df

+ 1

Page 13: Materi  4

tf-idf weightingdf

t = jumlah token pada dokumen ii = dokumen ke-…j & k = token ke-…

Page 14: Materi  4

Referensi

• http://come2dz.wordpress.com/