STKI-A3-120411100045

8
TF-IDF adalah suatu algoritma untuk melakukan analisa pengukuran ti Cosinus similarity adalah nilai cosinus sudut antara dua vector seb CONTOH Terdapat 5 dokumen: D1 Akhirnya Tiffany SNSD gabung di Instagram D2 SNSD perpanjang kontrak hingga 2017 D3 Yuri dan Tiffany lakukan pemotretan di New York D4 Tiffany SNSD jalani pemotretan di kampung halaman D5 Nickhun cerita soal Tiffany di Running Man QUERY Tiffany SNSD RUMUS TF/IDF(Term Frequency –Inversed Document Frequency) Dimana: d = dokumen ke- d t = kata ke- t dari kata kunci W = bobot dokumen ke- d terhadap kata ke- t tf = banyaknya kata yang dicari pada sebuah dokumen IDF = Inversed Document Frequency D = total dokumen df = banyak dokumen yang mengandung kata yang dicari IDF = Log (D/df)

description

tugas 3

Transcript of STKI-A3-120411100045

Page 1: STKI-A3-120411100045

TF-IDF adalah suatu algoritma untuk melakukan analisa pengukuran tingkat similaritas dokumen dengan kata kunciCosinus similarity adalah nilai cosinus sudut antara dua vector sebagai pengukur tingkat similaritas antara dokumen dengan keyword yang didapat dari ekstraksi teks pada dokumen.

CONTOHTerdapat 5 dokumen:

D1 Akhirnya Tiffany SNSD gabung di InstagramD2 SNSD perpanjang kontrak hingga 2017D3 Yuri dan Tiffany lakukan pemotretan di New YorkD4 Tiffany SNSD jalani pemotretan di kampung halamanD5 Nickhun cerita soal Tiffany di Running Man

QUERY Tiffany SNSD

RUMUS TF/IDF(Term Frequency –Inversed Document Frequency) RUMUS Cosinus similarity:

Dimana:d = dokumen ke- dt = kata ke- t dari kata kunciW = bobot dokumen ke- d terhadap kata ke- ttf = banyaknya kata yang dicari pada sebuah dokumenIDF = Inversed Document Frequency

D = total dokumendf = banyak dokumen yang mengandung kata yang dicari

IDF = Log (D/df)

Page 2: STKI-A3-120411100045

TF-IDF adalah suatu algoritma untuk melakukan analisa pengukuran tingkat similaritas dokumen dengan kata kunciCosinus similarity adalah nilai cosinus sudut antara dua vector sebagai pengukur tingkat similaritas antara dokumen dengan keyword yang didapat dari ekstraksi teks pada dokumen.

RUMUS Cosinus similarity:

Page 3: STKI-A3-120411100045

Lakukan tokenisasi, stop words removal dan stemmingQUERY Tiffany SNSD

D1 Tiffany SNSD gabung instagramD2 SNSD panjang kontrak 2017D3 Yuri Tiffany laku potret New YorkD4 Tiffany SNSD jalan potret kampung halamanD5 Nickhun cerita Tiffany Running Man

Perhitungan TF-IDF (D=5)tf

TERM Q D1 D2 D3 D4 D5Tiffany 1 1 1 1 1SNSD 1 1 1 1gabung 1

instagram 1panjang 1kontrak 1

2017 1Yuri 1laku 1

New York 1jalan 1potret 1 1

kampung 1halaman 1Nickhun 1

cerita 1Running Man 1

TOTAL bobot (W)

Perhitungan cosinus similarityPanjang Vektor

TERM Q D1 D2 D3 D4 D5Tiffany 0.009 0.009 0.000 0.009 0.009 0.009SNSD 0.049 0.049 0.049

0.000

0.049

0.000

gabung

0.000

0.4890.000

0.000

instagram 0.489panjang

0.000

0.489kontrak 0.489

2017 0.489Yuri

0.000

0.489laku 0.489

New York 0.489

Page 4: STKI-A3-120411100045

jalan 0.000

0.000

0.000

0.000 0.489

0.000

potret 0.158 0.158kampung

0.000

0.489halaman 0.489Nickhun

0.0000.489

cerita 0.489Running Man 0.489

TOTAL 0.059 1.036 1.515 1.633 1.683 1.475sqrt Q sqrt (Di)

0.242 1.018 1.231 1.278 1.297 1.215

HASIL PERHITUNGAN COS SIMILARITYcos(Q,D1) cos(Q,D2) cos(Q,D3) cos(Q,D4) cos(Q,D5)

0.238 0.165 0.030 0.187 0.032

Jika diurutkan menjadi:

DOKUMEN SIMILARITYD1 0.238D4 0.187D2 0.165D5 0.032D3 0.030

Sehingga, dokumen yang relevan dengan Query Tiffany SNSD adalah D1 dan D4

Page 5: STKI-A3-120411100045

tf idf Wdt= tf.idfdf log(D/df) Q D1 D2 D3 D4

4 0.097 0.097 0.097 0.000 0.097 0.0973 0.222 0.222 0.222 0.222

0.000

0.2221 0.699

0.000

0.6990.000

0.000

1 0.699 0.6991 0.699

0.000

0.6991 0.699 0.6991 0.699 0.6991 0.699

0.000

0.6991 0.699 0.6991 0.699 0.6991 0.699 0.000 0.6992 0.398 0.398 0.3981 0.699

0.000

0.6991 0.699 0.6991 0.699

0.0001 0.6991 0.699

TOTAL bobot (W) 0.319 1.717 2.319 2.592 2.814

Page 6: STKI-A3-120411100045

Wdt= tf.idfD5

0.097

0.000

0.6990.6990.6992.194