STKI-A3-120411100045
-
Upload
annysa-firdaus -
Category
Documents
-
view
7 -
download
0
description
Transcript of STKI-A3-120411100045
![Page 1: STKI-A3-120411100045](https://reader035.fdokumen.com/reader035/viewer/2022081908/55cf9421550346f57b9fd1d1/html5/thumbnails/1.jpg)
TF-IDF adalah suatu algoritma untuk melakukan analisa pengukuran tingkat similaritas dokumen dengan kata kunciCosinus similarity adalah nilai cosinus sudut antara dua vector sebagai pengukur tingkat similaritas antara dokumen dengan keyword yang didapat dari ekstraksi teks pada dokumen.
CONTOHTerdapat 5 dokumen:
D1 Akhirnya Tiffany SNSD gabung di InstagramD2 SNSD perpanjang kontrak hingga 2017D3 Yuri dan Tiffany lakukan pemotretan di New YorkD4 Tiffany SNSD jalani pemotretan di kampung halamanD5 Nickhun cerita soal Tiffany di Running Man
QUERY Tiffany SNSD
RUMUS TF/IDF(Term Frequency –Inversed Document Frequency) RUMUS Cosinus similarity:
Dimana:d = dokumen ke- dt = kata ke- t dari kata kunciW = bobot dokumen ke- d terhadap kata ke- ttf = banyaknya kata yang dicari pada sebuah dokumenIDF = Inversed Document Frequency
D = total dokumendf = banyak dokumen yang mengandung kata yang dicari
IDF = Log (D/df)
![Page 2: STKI-A3-120411100045](https://reader035.fdokumen.com/reader035/viewer/2022081908/55cf9421550346f57b9fd1d1/html5/thumbnails/2.jpg)
TF-IDF adalah suatu algoritma untuk melakukan analisa pengukuran tingkat similaritas dokumen dengan kata kunciCosinus similarity adalah nilai cosinus sudut antara dua vector sebagai pengukur tingkat similaritas antara dokumen dengan keyword yang didapat dari ekstraksi teks pada dokumen.
RUMUS Cosinus similarity:
![Page 3: STKI-A3-120411100045](https://reader035.fdokumen.com/reader035/viewer/2022081908/55cf9421550346f57b9fd1d1/html5/thumbnails/3.jpg)
Lakukan tokenisasi, stop words removal dan stemmingQUERY Tiffany SNSD
D1 Tiffany SNSD gabung instagramD2 SNSD panjang kontrak 2017D3 Yuri Tiffany laku potret New YorkD4 Tiffany SNSD jalan potret kampung halamanD5 Nickhun cerita Tiffany Running Man
Perhitungan TF-IDF (D=5)tf
TERM Q D1 D2 D3 D4 D5Tiffany 1 1 1 1 1SNSD 1 1 1 1gabung 1
instagram 1panjang 1kontrak 1
2017 1Yuri 1laku 1
New York 1jalan 1potret 1 1
kampung 1halaman 1Nickhun 1
cerita 1Running Man 1
TOTAL bobot (W)
Perhitungan cosinus similarityPanjang Vektor
TERM Q D1 D2 D3 D4 D5Tiffany 0.009 0.009 0.000 0.009 0.009 0.009SNSD 0.049 0.049 0.049
0.000
0.049
0.000
gabung
0.000
0.4890.000
0.000
instagram 0.489panjang
0.000
0.489kontrak 0.489
2017 0.489Yuri
0.000
0.489laku 0.489
New York 0.489
![Page 4: STKI-A3-120411100045](https://reader035.fdokumen.com/reader035/viewer/2022081908/55cf9421550346f57b9fd1d1/html5/thumbnails/4.jpg)
jalan 0.000
0.000
0.000
0.000 0.489
0.000
potret 0.158 0.158kampung
0.000
0.489halaman 0.489Nickhun
0.0000.489
cerita 0.489Running Man 0.489
TOTAL 0.059 1.036 1.515 1.633 1.683 1.475sqrt Q sqrt (Di)
0.242 1.018 1.231 1.278 1.297 1.215
HASIL PERHITUNGAN COS SIMILARITYcos(Q,D1) cos(Q,D2) cos(Q,D3) cos(Q,D4) cos(Q,D5)
0.238 0.165 0.030 0.187 0.032
Jika diurutkan menjadi:
DOKUMEN SIMILARITYD1 0.238D4 0.187D2 0.165D5 0.032D3 0.030
Sehingga, dokumen yang relevan dengan Query Tiffany SNSD adalah D1 dan D4
![Page 5: STKI-A3-120411100045](https://reader035.fdokumen.com/reader035/viewer/2022081908/55cf9421550346f57b9fd1d1/html5/thumbnails/5.jpg)
tf idf Wdt= tf.idfdf log(D/df) Q D1 D2 D3 D4
4 0.097 0.097 0.097 0.000 0.097 0.0973 0.222 0.222 0.222 0.222
0.000
0.2221 0.699
0.000
0.6990.000
0.000
1 0.699 0.6991 0.699
0.000
0.6991 0.699 0.6991 0.699 0.6991 0.699
0.000
0.6991 0.699 0.6991 0.699 0.6991 0.699 0.000 0.6992 0.398 0.398 0.3981 0.699
0.000
0.6991 0.699 0.6991 0.699
0.0001 0.6991 0.699
TOTAL bobot (W) 0.319 1.717 2.319 2.592 2.814
![Page 6: STKI-A3-120411100045](https://reader035.fdokumen.com/reader035/viewer/2022081908/55cf9421550346f57b9fd1d1/html5/thumbnails/6.jpg)
Wdt= tf.idfD5
0.097
0.000
0.6990.6990.6992.194