Materi 4

Ratri Enggar Pawening

http://infokampuskoe.wordpress.com

Materi 4

INFORMATION RETRIEVALTerm Weighting

Overview

• Dalam korpus yang besar, sebuah boolean query mampu mengembalikan hasil yang besar pula.

• Andaikan hasil boolean retrieval mengembalikan 10.000 dokumen, manakah yang benar-benar cocok untuk kita?

• Bagaimana pula dengan user yang kurang memiliki pengetahuan yang bagus dalam boolean query?

Overview

• Permasalahan:

Kita butuh mengurutkan dokumen hasil retrieval disesuaikan dengan query yang kita masukkan.

• Pemecahan:

Pemberian score/nilai untuk setiap dokumen dalam korpus terhadap query kita. (untuk dirangkingkan)

Scoring

• Yang sudah kita pelajari tentang scoring/nilai adalah score 1 untuk dokumen yang relevan dengan query dan score 0 untuk dokumen yang tidak relevan.

• Kita akan masuk ke tahap berikutnya:– dokumen yang memiliki token query lebih

banyak didalamnya, akan memiliki score yang lebih tinggi.

– query berupa free text (tanpa operator)

Overlap Measure [1]

• Ide perangkingan yang sederhana adalah overlap measure (Manning, 2008)

• Sebagai contoh, kita lihat kasus berikut.

Overlap Measure [2]

• Misalkan contoh query-nya adalah:“Brutus Mercy Antony”

• Maka dokumen “Antony and Cleopatra” memiliki score 3 (Karena ketiga token dalam query dimiliki semua oleh dokumen tersebut).

• Dokumen “Julius Caesar” dan “Macbeth” memiliki score 2.

• Nah, dengan begitu, dokumen “Antony and Cleopatra” menempati rangking pertama.

Overlap Measure [3]

• Tapi, apakah masih ditemui kelemahan dari penghitungan overlap measure?

• Bagaimana kalau query hanya satu kata/token saja?

• Overlap measure tidak:– Mempertimbangkan jumlah suatu token dalam

suatu dokumen.

– Mempertimbangkan scarcity dari tiap token

– Tidak memperhitungkan jumlah korpus dan jumlah token dalam query.

Overlap Measure [4]

• Ide selanjutnya adalah menemukan metode scoring yang lebih baik.

• Scoring juga tetap dapat dilakukan meski hanya ada satu token dalam query.

• Dokumen akan semakin relevan jika memuat token yang semakin banyak.

• Ini semua menuju ke ide berikutnya term weighting.

Term Frequency

• Untuk bisa mendapat score tadi, pertama-tama kita perlu memberikan bobot tiap token dalam tiap dokumen.

Ex:

• Bobot token ditentukan dari jumlah kemunculan token tersebut di dalam dokumen. ( term frequency – tf )

• term frequency dinotasikan dengan tf(t,d), dimana t token, dan d dokumen

Document Frequency

DOCUMENT FREQUENCY (df) , defined to be the number of documents in the collection that contain a term t.

Components

• N jml dokumen• tf(t,d)

• df• idf inverse df

+ 1

tf-idf weightingdf

t = jumlah token pada dokumen ii = dokumen ke-…j & k = token ke-…

Referensi

• http://come2dz.wordpress.com/

http://come2dz.wordpress.com/

Materi 4

Documents

Transcript of Materi 4