Download - SLIDE PENDADARAN

IMPLEMENTASI ALGORITMA IB1 TERHADAP KLASIFIKASI SENTIMEN

PADA REVIEW FILM

OSWIN RAHADIYAN HARTONO71110012

LATAR BELAKANG• Tinjauan atau review seseorang yang ditujukan kepada suatu

objek atau produk sangat berpengaruh terhadap penilaian publik atas produk tersebut (Sahoo, 2013)

• Kebanyakan review tidak dikategorikan berdasarkan isinya secara eksplisit apakah tergolong dalam review yang positif atau negatif

• Adapun penelitian ini ditujukan untuk melakukan klasifikasi dengan menggunakan review film yang terdapat dalam situs rottentomatoes.com dengan menggunakan metode klasifikasi Instance-Based Learning: IB1

RUMUSAN MASALAH

1. Bagaimana akurasi dari klasifikasi yang dihasilkan oleh metode IB1?

2. Bagaimanakah pengaruh hasil klasifikasi dan evaluasi dengan menggunakan WordNet?

BATASAN MASALAH

• Klasifikasi hanya dilakukan terhadap dokumen teks.

• Teks review film berbahasa Inggris dan diambil dari http://rottentomatoes.com

• Review film dibagi ke dalam 2 kategori yaitu positive review dan negative review.

• Stoplist bersumber dari http://tonyb.sk/_my/ir/stop-words-collection-2014-02-24.zip

TUJUAN PENELITIAN

Penelitian ini bertujuan untuk menerapkan algoritma IB1 secara efektif dalam sebuah sistem klasifikasi sentimen review film yang akan mengkategorikan review dalam dua kelas, yaitu positive review atau negative review. Penggunaan WordNet bertujuan untuk meningkatkan kualitas hasil klasifikasi teks.

METODOLOGI PENELITIAN

1. Studi Literatur2. Pengumpulan Data3. Pembuatan Sistem4. Evaluasi5. Analisis

PROFIL KORPUS• Sumber Korpus : www.rottentomatoes.com• Jumlah Korpus : 100 dokumen latih & 20 dokumen uji• Bahasa : Inggris• Kategori : positif dan negatif• Rata-rata jumlah kata per dokumen : 27.9 kata per dokumen• Rata-rata jumlah huruf per dokumen : 169.91 huruf per

dokumen

• Dalam 1 film terdiri dari 10 teks review film yang dibagi menjadi 5 review negatif dan 5 review positif.

ALUR SISTEM

Data review film Data Preprocessing WordNet

Pembobotan TF-IDFKlasifikasi

Hasil Klasifikasi &

Evaluasi

LANDASAN TEORIPEMBOBOTAN TF-IDF

tfd,t = fd,t idft = log (N/dft)+1wfd,t = tfd,t . Idft

Dimana : tfd,t = term frequency , jumlah token t dalam dokumen dfd,t = frekuensi kemunculan token t dalam dokumen dwfd,t = nilai bobot dokumen didft = inverse document frequencyN = jumlah dokumendft = jumlah dokumen d dimana token t muncul

LANDASAN TEORIEKSPANSI WORDNET

Token WordNet

movie movie 106626039

id lemma tagcount

106626039 film 38

106626039 movie 26

106626039 flick 9

106626039 picture 3

moviefilm

1 2 3

4

5

LANDASAN TEORIALGORITMA IB1

for each x Є Test Set do1. for each y Є Training Set do sim[y] ← Similarity(x,y)2. ymax ← some y Є Training Set with maximal Sim[y]3. if class(x) = class(ymax) then classification ← correct else classification ← incorrect4. Training Set ← Training Set ∪ {x}

LANDASAN TEORICOSINE SIMILARITY

Dimana :A = dokumen ujiB = dokumen pelatihann = jumlah term dalam dokumeni = indeks ke i dari sebuah term

LANDASAN TEORIEVALUASI

Dimana :P = PrecisionR = Recalltp = true positive, yaitu jumlah dokumen yang terambil dan relevanfp = false positive, yaitu jumlah dokumen yang terambil dan tidak relevanfn = false negative, yaitu jumlah dokumen yang tidak terambil dan relevantn = true negative, yaitu jumlah dokumen yang tidak terambil dan tidak relevanF = F Measure

ARSITEKTUR SISTEM

FLOWCHART SISTEM

SKEMA BASIS DATA

HASIL PENGUJIANEVALUASI TANPA WORDNET

HASIL PENGUJIANEVALUASI DENGAN WORDNET

HASIL PENGUJIANGRAFIK PERBANDINGAN AKURASI SISTEM

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 9950

55

60

65

70

75

80

85

90

95

100

Tanpa WordNet

Dengan WordNet

72,7%

78,7%

HASIL PENGUJIANGRAFIK REGRESI LINIER AKURASI SISTEM

0 10 20 30 40 50 60 70 80 90 1000

10

20

30

40

50

60

70

80

90

100

Tanpa WordNetLinear (Tanpa WordNet)Dengan WordNetLinear (Dengan WordNet)

k

Akurasi

HASIL PENGUJIANGRAFIK PERBANDINGAN F-MEASURE

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 990

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Tanpa WordNet

Dengan WordNet0,7190,772

HASIL PENGUJIANGRAFIK REGRESI LINIER F-MEASURE

0 10 20 30 40 50 60 70 80 90 1000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Tanpa WordNetLinear (Tanpa WordNet)Dengan WordNetLinear (Dengan WordNet)

k

F-Measure

HASIL PENGUJIANGRAFIK EVALUASI KELAS POSITIF TANPA WORDNET

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 990

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Precision Recall

F-Measure

HASIL PENGUJIANGRAFIK EVALUASI KELAS POSITIF DENGAN WORDNET

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 990

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Precision Recall

F-Measure

HASIL PENGUJIANGRAFIK EVALUASI KELAS NEGATIF TANPA WORDNET

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 990

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Precision Recall

F-Measure

HASIL PENGUJIANGRAFIK EVALUASI KELAS NEGATIF DENGAN WORDNET

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 990

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Precision Recall

F-Measure

KESIMPULAN• Dalam analisis performa sistem, klasifikasi menggunakan WordNet memiliki

nilai rata-rata akurasi sebesar 78,7% dan F-Measure 0,778. Sedangkan klasifikasi tanpa menggunakan Wordnet menghasilkan rata-rata akurasi sebesar 72,7% dan F-Measure 0,719. Akurasi klasifikasi IB1 pada kasus ini menghasilkan akurasi paling rendah sebesar 60% dan paling tinggi 95%. Hal ini menunjukan metode Instance Based Learning mampu menghasilkan klasifikasi yang baik (diatas 50%) untuk studi kasus dalam penelitian ini. Untuk pengujian secara keseluruhan (1 sampai dengan 99 instances), klasifikasi dengan WordNet menunjukan hasil yang lebih baik dari klasifikasi tanpa WordNet.

• Sistem klasifikasi dengan menggunakan komponen database WordNet menunjukan hasil yang optimal pada pemakaian 1 - 33 instances atau k ≤ 30% dari jumlah dokumen latih. Sedangkan untuk klasifikasi tanpa WordNet menunjukan hasil optimal jika pemakaian k ≤ 20% dari dokumen latih.

SARAN• Penggunaan API dalam pengumpulan data secara otomatis sehingga

mempersingkat waktu pengumpulan data.• Penggunaan stemming saat tahap preprocessing untuk memperkecil

dimensi vektor.• Penggunaan hash map, store procedure dan PL-SQL untuk mempercepat

proses pembacaan data dan efisiensi waktu pemrosesan data.• Identifikasi sentimen berdasarkan konteks kalimatnya dengan menerapkan

metode-metode yang ada dalam Natural Language Processing. Misalnya untuk deteksi frase seperti life support, true love dan lain sebagainya.

• Penerapan feature selection untuk penggunaan data dalam jumlah besar.• Optimalisasi penggunaan WordNet, misalnya penggunaan tabel-tabel lain

dalam database WordNet sehingga hasil klasifikasi lebih baik.• Penambahan kelas netral dalam klasifikasi sentimen review film.

DEMO PROGRAM

DAFTAR PUSTAKA Aha, D., Kibler., D., & Albert, M. (1991). Instance-Based Learning.Amiri, H., & Chua, T.-S. (2012). Sentiment Classification Using the Meaning of Words. AAAI .Berry, M. W., & Kogan, J. (2010). Text Mining : Application and Theory. New Jersey: John Wiley & Sons.Cufoglu, A. d. (2008). Classification Accuracy Performance of Naïve Bayesian (NB), Bayesian Networks (BN), Lazy Learning of

Bayesian Rules(LBR) and Instance-Based Learner (IB1) – comparative study. Cairo: University of Westminster.Feldman, R., & Sanger, J. (2007). The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge:

Cambridge University Press.Han, J., & Kamber, M. (2006). Data Mining: Concepts and Techniques, 2nd Edition. San Fransisco: Morgan Kauffman Publishers.Jivani, A. G. (2011). A Comparative Study of Stemming Algorithms.Liu, B. (n.d.). Opinion Mining and Summarization. Retrieved September 4, 2014, from http://www.cs.uic.edu/~liub/FBS/sentiment-

analysis.html.Manning, C. D., Raghavan, P., & Schutze, H. (2008). Introduction to Information Retrieval. New York: Cambridge University Press.Sahoo, N. d. (2013). The Impact of Online Product Reviews on Product Returns and Net Sales.Tala, F. Z. (2008). A Study of Stemming Effects on Information.Vijayarani, S., & Muthulakshmi, M. (2013). Comparative Analysis of Bayes and Lazy Classification Algorithms. ijarcce .Widjojo, E. (2013). Implementasi Rocchio's Classification Dalam Mengkategorikan Renungan Harian Kristen.Witten, I. H. (2010). Text Mining. Hamilton: University of Waikato.

SEKIAN DAN TERIMA KASIH

STUDI KASUSTraining SetD1 : This movie has amazing story and full of emotion! (positive)D2 : Good film and cast with realistic effect. (positive)D3 : The plot is bad, kind of confusing film. (negative)D4 : Meaningless scenes also twisted plot. (negative)

Test SetD5 : Unfortunately bad film and so many junk scenes.D6 : Another amazing movie with great humor!

PREPROCESSING (CAPITALIZATION)Training SetD1 : this movie has amazing story and full of emotion (positive)D2 : good film and cast with realistic effect (positive)D3 : the plot is bad kind of confusing film (negative)D4 : meaningless scenes also twisted plot (negative)

Test SetD5 : unfortunately bad film and so many junk scenesD6 : another amazing movie with great humor

PREPROCESSING (TOKENISASI)

D1 D2 D3 D4 D5 D6

this good the meaningless unfortunately another

movie film plot scene bad amazing

has and is also film movie

amazing cast bad twisted and with

story with kind plot so great

and realistic of many humor

full effect confusing junk

of film scenes

emotion

PREPROCESSING (STOPWORD REMOVAL)

Sumber stoplist : http://nlp.cs.nyu.edu/GMA_files/resources/english.stoplist

D1 D2 D3 D4 D5 D6this good the meaningless unfortunately another

movie film plot scene bad amazing

has and is also film movie

amazing cast bad twisted and with

story with kind plot so great

and realistic of many humor

full effect confusing junk

of film scenes

emotion

PREPROCESSING (STOPWORD REMOVAL)

Sumber stoplist : http://nlp.cs.nyu.edu/GMA_files/resources/english.stoplist

D1 D2 D3 D4 D5 D6

movie good plot meaningless bad amazing

amazing film bad scene film movie

story cast confusing twisted junk great

emotion realistic film plot scenes humor

effect

RELASI WORDNETD1 D2 D3 D4 D5 D6 movie great story meaningless bad amazing

film good plot junk disappointed good

amazing movie bad scenes movie movie

good film disappointed confusing film film

story realistic confusing twisted meaningless good

plot effect twisted story junk great

emotion film plot scenes humor movie

PEMBOBOTAN TF-IDF (TRAINING)DENGAN WORDNET

PEMBOBOTAN TF-IDF (TRAINING)TANPA WORDNET

PENGUJIAN D5TANPA WORDNET

PENGUJIAN D5DENGAN WORDNET

HASIL PENGUJIAN D5sim(D5,D1) = 0sim(D5,D2) = 0.183328sim(D5,D3) = 0.424279sim(D5,D4) = 0

Sorting jarak kemiripan secara descending : D3(-)

Kesimpulan : maka D5 masuk ke kelas negatif

sim(D5,D1) = 0.134084sim(D5,D2) = 0sim(D5,D3) = 0.262537sim(D5,D4) = 0

Sorting jarak kemiripan secara descending : D3(-)

Kesimpulan : maka D5 masuk ke kelas negatif

PENGUJIAN D6TANPA WORDNET

PENGUJIAN D6DENGAN WORDNET

HASIL PENGUJIAN D6sim(D6,D1) = 0.57735sim(D6,D2) = 0sim(D6,D3) = 0sim(D6,D4) = 0

Sorting jarak kemiripan secara descending : D1(+)

Kesimpulan : maka D6 masuk ke kelas positif

sim(D6,D1) = 0.490856sim(D6,D2) = 0.288675sim(D6,D3) = 0sim(D6,D4) = 0

Sorting jarak kemiripan secara descending : D1(+)

Kesimpulan : maka D6 masuk ke kelas positif

EVALUASI

• tp = true positif, jumlah dokumen yang terklasifikasi dengan benar ke kelas positif• tn = true negatif, jumlah dokumen yang terklasifikasi dengan benar ke kelas

negatif• fp = false positif, jumlah dokumen dengan kelas negatif yang terklasifikasi

kedalam kelas positif• fn = false negatif, jumlah dokumen dengan kelas positif yang terklasifikasi

kedalam kelas negatif

EVALUASI

Kategori Positif :Precision = tp/(tp+fp) = 2 / (2+0) = 1Recall = tp/(tp+fn) = 2 / (2+0) = 1F = 2/(1/Precision)+(1/Recall) = 2/2 = 1

Kategori Negatif :Precision = tn/(tn+fn) = 2 / (2+0) = 1Recall = tn/(tn+fp) = 2 / (2+0) = 1F = 2/(1/Precision)+(1/Recall) = 2/2 = 1

TAHAP PREPROCESSING

• Lowercase & aftabetik• Tokenisasi• Stopword Removal• Pembobotan TF-IDF

Data review film yang diambil dari http://api.rottentomatoes.com