IMPLEMENTASI ALGORITMA IB1 TERHADAP KLASIFIKASI SENTIMEN
PADA REVIEW FILM
OSWIN RAHADIYAN HARTONO71110012
LATAR BELAKANG• Tinjauan atau review seseorang yang ditujukan kepada suatu
objek atau produk sangat berpengaruh terhadap penilaian publik atas produk tersebut (Sahoo, 2013)
• Kebanyakan review tidak dikategorikan berdasarkan isinya secara eksplisit apakah tergolong dalam review yang positif atau negatif
• Adapun penelitian ini ditujukan untuk melakukan klasifikasi dengan menggunakan review film yang terdapat dalam situs rottentomatoes.com dengan menggunakan metode klasifikasi Instance-Based Learning: IB1
RUMUSAN MASALAH
1. Bagaimana akurasi dari klasifikasi yang dihasilkan oleh metode IB1?
2. Bagaimanakah pengaruh hasil klasifikasi dan evaluasi dengan menggunakan WordNet?
BATASAN MASALAH
• Klasifikasi hanya dilakukan terhadap dokumen teks.
• Teks review film berbahasa Inggris dan diambil dari http://rottentomatoes.com
• Review film dibagi ke dalam 2 kategori yaitu positive review dan negative review.
• Stoplist bersumber dari http://tonyb.sk/_my/ir/stop-words-collection-2014-02-24.zip
TUJUAN PENELITIAN
Penelitian ini bertujuan untuk menerapkan algoritma IB1 secara efektif dalam sebuah sistem klasifikasi sentimen review film yang akan mengkategorikan review dalam dua kelas, yaitu positive review atau negative review. Penggunaan WordNet bertujuan untuk meningkatkan kualitas hasil klasifikasi teks.
METODOLOGI PENELITIAN
1. Studi Literatur2. Pengumpulan Data3. Pembuatan Sistem4. Evaluasi5. Analisis
PROFIL KORPUS• Sumber Korpus : www.rottentomatoes.com• Jumlah Korpus : 100 dokumen latih & 20 dokumen uji• Bahasa : Inggris• Kategori : positif dan negatif• Rata-rata jumlah kata per dokumen : 27.9 kata per dokumen• Rata-rata jumlah huruf per dokumen : 169.91 huruf per
dokumen
• Dalam 1 film terdiri dari 10 teks review film yang dibagi menjadi 5 review negatif dan 5 review positif.
ALUR SISTEM
Data review film Data Preprocessing WordNet
Pembobotan TF-IDFKlasifikasi
Hasil Klasifikasi &
Evaluasi
LANDASAN TEORIPEMBOBOTAN TF-IDF
tfd,t = fd,t idft = log (N/dft)+1wfd,t = tfd,t . Idft
Dimana : tfd,t = term frequency , jumlah token t dalam dokumen dfd,t = frekuensi kemunculan token t dalam dokumen dwfd,t = nilai bobot dokumen didft = inverse document frequencyN = jumlah dokumendft = jumlah dokumen d dimana token t muncul
LANDASAN TEORIEKSPANSI WORDNET
Token WordNet
movie movie 106626039
id lemma tagcount
106626039 film 38
106626039 movie 26
106626039 flick 9
106626039 picture 3
moviefilm
1 2 3
4
5
LANDASAN TEORIALGORITMA IB1
for each x Є Test Set do1. for each y Є Training Set do sim[y] ← Similarity(x,y)2. ymax ← some y Є Training Set with maximal Sim[y]3. if class(x) = class(ymax) then classification ← correct else classification ← incorrect4. Training Set ← Training Set ∪ {x}
LANDASAN TEORICOSINE SIMILARITY
Dimana :A = dokumen ujiB = dokumen pelatihann = jumlah term dalam dokumeni = indeks ke i dari sebuah term
LANDASAN TEORIEVALUASI
Dimana :P = PrecisionR = Recalltp = true positive, yaitu jumlah dokumen yang terambil dan relevanfp = false positive, yaitu jumlah dokumen yang terambil dan tidak relevanfn = false negative, yaitu jumlah dokumen yang tidak terambil dan relevantn = true negative, yaitu jumlah dokumen yang tidak terambil dan tidak relevanF = F Measure
ARSITEKTUR SISTEM
FLOWCHART SISTEM
SKEMA BASIS DATA
HASIL PENGUJIANEVALUASI TANPA WORDNET
HASIL PENGUJIANEVALUASI DENGAN WORDNET
HASIL PENGUJIANGRAFIK PERBANDINGAN AKURASI SISTEM
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 9950
55
60
65
70
75
80
85
90
95
100
Tanpa WordNet
Dengan WordNet
72,7%
78,7%
HASIL PENGUJIANGRAFIK REGRESI LINIER AKURASI SISTEM
0 10 20 30 40 50 60 70 80 90 1000
10
20
30
40
50
60
70
80
90
100
Tanpa WordNetLinear (Tanpa WordNet)Dengan WordNetLinear (Dengan WordNet)
k
Akurasi
HASIL PENGUJIANGRAFIK PERBANDINGAN F-MEASURE
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 990
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Tanpa WordNet
Dengan WordNet0,7190,772
HASIL PENGUJIANGRAFIK REGRESI LINIER F-MEASURE
0 10 20 30 40 50 60 70 80 90 1000
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Tanpa WordNetLinear (Tanpa WordNet)Dengan WordNetLinear (Dengan WordNet)
k
F-Measure
HASIL PENGUJIANGRAFIK EVALUASI KELAS POSITIF TANPA WORDNET
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 990
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Precision Recall
F-Measure
HASIL PENGUJIANGRAFIK EVALUASI KELAS POSITIF DENGAN WORDNET
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 990
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Precision Recall
F-Measure
HASIL PENGUJIANGRAFIK EVALUASI KELAS NEGATIF TANPA WORDNET
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 990
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Precision Recall
F-Measure
HASIL PENGUJIANGRAFIK EVALUASI KELAS NEGATIF DENGAN WORDNET
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 990
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Precision Recall
F-Measure
KESIMPULAN• Dalam analisis performa sistem, klasifikasi menggunakan WordNet memiliki
nilai rata-rata akurasi sebesar 78,7% dan F-Measure 0,778. Sedangkan klasifikasi tanpa menggunakan Wordnet menghasilkan rata-rata akurasi sebesar 72,7% dan F-Measure 0,719. Akurasi klasifikasi IB1 pada kasus ini menghasilkan akurasi paling rendah sebesar 60% dan paling tinggi 95%. Hal ini menunjukan metode Instance Based Learning mampu menghasilkan klasifikasi yang baik (diatas 50%) untuk studi kasus dalam penelitian ini. Untuk pengujian secara keseluruhan (1 sampai dengan 99 instances), klasifikasi dengan WordNet menunjukan hasil yang lebih baik dari klasifikasi tanpa WordNet.
• Sistem klasifikasi dengan menggunakan komponen database WordNet menunjukan hasil yang optimal pada pemakaian 1 - 33 instances atau k ≤ 30% dari jumlah dokumen latih. Sedangkan untuk klasifikasi tanpa WordNet menunjukan hasil optimal jika pemakaian k ≤ 20% dari dokumen latih.
SARAN• Penggunaan API dalam pengumpulan data secara otomatis sehingga
mempersingkat waktu pengumpulan data.• Penggunaan stemming saat tahap preprocessing untuk memperkecil
dimensi vektor.• Penggunaan hash map, store procedure dan PL-SQL untuk mempercepat
proses pembacaan data dan efisiensi waktu pemrosesan data.• Identifikasi sentimen berdasarkan konteks kalimatnya dengan menerapkan
metode-metode yang ada dalam Natural Language Processing. Misalnya untuk deteksi frase seperti life support, true love dan lain sebagainya.
• Penerapan feature selection untuk penggunaan data dalam jumlah besar.• Optimalisasi penggunaan WordNet, misalnya penggunaan tabel-tabel lain
dalam database WordNet sehingga hasil klasifikasi lebih baik.• Penambahan kelas netral dalam klasifikasi sentimen review film.
DEMO PROGRAM
DAFTAR PUSTAKA Aha, D., Kibler., D., & Albert, M. (1991). Instance-Based Learning.Amiri, H., & Chua, T.-S. (2012). Sentiment Classification Using the Meaning of Words. AAAI .Berry, M. W., & Kogan, J. (2010). Text Mining : Application and Theory. New Jersey: John Wiley & Sons.Cufoglu, A. d. (2008). Classification Accuracy Performance of Naïve Bayesian (NB), Bayesian Networks (BN), Lazy Learning of
Bayesian Rules(LBR) and Instance-Based Learner (IB1) – comparative study. Cairo: University of Westminster.Feldman, R., & Sanger, J. (2007). The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge:
Cambridge University Press.Han, J., & Kamber, M. (2006). Data Mining: Concepts and Techniques, 2nd Edition. San Fransisco: Morgan Kauffman Publishers.Jivani, A. G. (2011). A Comparative Study of Stemming Algorithms.Liu, B. (n.d.). Opinion Mining and Summarization. Retrieved September 4, 2014, from http://www.cs.uic.edu/~liub/FBS/sentiment-
analysis.html.Manning, C. D., Raghavan, P., & Schutze, H. (2008). Introduction to Information Retrieval. New York: Cambridge University Press.Sahoo, N. d. (2013). The Impact of Online Product Reviews on Product Returns and Net Sales.Tala, F. Z. (2008). A Study of Stemming Effects on Information.Vijayarani, S., & Muthulakshmi, M. (2013). Comparative Analysis of Bayes and Lazy Classification Algorithms. ijarcce .Widjojo, E. (2013). Implementasi Rocchio's Classification Dalam Mengkategorikan Renungan Harian Kristen.Witten, I. H. (2010). Text Mining. Hamilton: University of Waikato.
SEKIAN DAN TERIMA KASIH
STUDI KASUSTraining SetD1 : This movie has amazing story and full of emotion! (positive)D2 : Good film and cast with realistic effect. (positive)D3 : The plot is bad, kind of confusing film. (negative)D4 : Meaningless scenes also twisted plot. (negative)
Test SetD5 : Unfortunately bad film and so many junk scenes.D6 : Another amazing movie with great humor!
PREPROCESSING (CAPITALIZATION)Training SetD1 : this movie has amazing story and full of emotion (positive)D2 : good film and cast with realistic effect (positive)D3 : the plot is bad kind of confusing film (negative)D4 : meaningless scenes also twisted plot (negative)
Test SetD5 : unfortunately bad film and so many junk scenesD6 : another amazing movie with great humor
PREPROCESSING (TOKENISASI)
D1 D2 D3 D4 D5 D6
this good the meaningless unfortunately another
movie film plot scene bad amazing
has and is also film movie
amazing cast bad twisted and with
story with kind plot so great
and realistic of many humor
full effect confusing junk
of film scenes
emotion
PREPROCESSING (STOPWORD REMOVAL)
Sumber stoplist : http://nlp.cs.nyu.edu/GMA_files/resources/english.stoplist
D1 D2 D3 D4 D5 D6this good the meaningless unfortunately another
movie film plot scene bad amazing
has and is also film movie
amazing cast bad twisted and with
story with kind plot so great
and realistic of many humor
full effect confusing junk
of film scenes
emotion
PREPROCESSING (STOPWORD REMOVAL)
Sumber stoplist : http://nlp.cs.nyu.edu/GMA_files/resources/english.stoplist
D1 D2 D3 D4 D5 D6
movie good plot meaningless bad amazing
amazing film bad scene film movie
story cast confusing twisted junk great
emotion realistic film plot scenes humor
effect
RELASI WORDNETD1 D2 D3 D4 D5 D6 movie great story meaningless bad amazing
film good plot junk disappointed good
amazing movie bad scenes movie movie
good film disappointed confusing film film
story realistic confusing twisted meaningless good
plot effect twisted story junk great
emotion film plot scenes humor movie
PEMBOBOTAN TF-IDF (TRAINING)DENGAN WORDNET
PEMBOBOTAN TF-IDF (TRAINING)TANPA WORDNET
PENGUJIAN D5TANPA WORDNET
PENGUJIAN D5DENGAN WORDNET
HASIL PENGUJIAN D5sim(D5,D1) = 0sim(D5,D2) = 0.183328sim(D5,D3) = 0.424279sim(D5,D4) = 0
Sorting jarak kemiripan secara descending : D3(-)
Kesimpulan : maka D5 masuk ke kelas negatif
sim(D5,D1) = 0.134084sim(D5,D2) = 0sim(D5,D3) = 0.262537sim(D5,D4) = 0
Sorting jarak kemiripan secara descending : D3(-)
Kesimpulan : maka D5 masuk ke kelas negatif
PENGUJIAN D6TANPA WORDNET
PENGUJIAN D6DENGAN WORDNET
HASIL PENGUJIAN D6sim(D6,D1) = 0.57735sim(D6,D2) = 0sim(D6,D3) = 0sim(D6,D4) = 0
Sorting jarak kemiripan secara descending : D1(+)
Kesimpulan : maka D6 masuk ke kelas positif
sim(D6,D1) = 0.490856sim(D6,D2) = 0.288675sim(D6,D3) = 0sim(D6,D4) = 0
Sorting jarak kemiripan secara descending : D1(+)
Kesimpulan : maka D6 masuk ke kelas positif
EVALUASI
• tp = true positif, jumlah dokumen yang terklasifikasi dengan benar ke kelas positif• tn = true negatif, jumlah dokumen yang terklasifikasi dengan benar ke kelas
negatif• fp = false positif, jumlah dokumen dengan kelas negatif yang terklasifikasi
kedalam kelas positif• fn = false negatif, jumlah dokumen dengan kelas positif yang terklasifikasi
kedalam kelas negatif
EVALUASI
Kategori Positif :Precision = tp/(tp+fp) = 2 / (2+0) = 1Recall = tp/(tp+fn) = 2 / (2+0) = 1F = 2/(1/Precision)+(1/Recall) = 2/2 = 1
Kategori Negatif :Precision = tn/(tn+fn) = 2 / (2+0) = 1Recall = tn/(tn+fp) = 2 / (2+0) = 1F = 2/(1/Precision)+(1/Recall) = 2/2 = 1
TAHAP PREPROCESSING
• Lowercase & aftabetik• Tokenisasi• Stopword Removal• Pembobotan TF-IDF
Data review film yang diambil dari http://api.rottentomatoes.com
Top Related