ANALISIS SENTIMEN PADA TWITTER MENGGUNAKAN … · dari, menghitung matriks jarak antar data,...

i

ANALISIS SENTIMEN PADA TWITTER MENGGUNAKAN PENDEKATAN

AGGLOMERATIVE HIERARCHICAL CLUSTERING

SKRIPSI

Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana

Komputer Program Studi Teknik Informatika

Oleh:

Yenni Tresnawati

135314018

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2017

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ii

SENTIMENT ANALYSIS OF TWITTER

USING AGGLOMERATIVE HIERARCHICAL CLUSTERING

A THESIS

Presented as Partial Fulfillment of Requirements to Obtain Sarjana Komputer

Degree in Informatics Engineering Department

By :

Yenni Tresnawati

135314018

INFORMATICS ENGINEERING STUDY PROGRAM

INFORMATICS ENGINEERING DEPARTMENT

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2017


iii


iv


v

HALAMAN PERSEMBAHAN

“Serahkaan segala kekhawatiran mu kepada-Nya, sebab Ia

yang memelihara kamu”

- 1 Petrus 5 : 7 -

“Dan segala sesuatu yang kamu lakukan dengan perkatan atau

perbuatan, lakukan semuanya itu dalam nama Tuhan Yesus,

sambil mengucap syukur oleh Dia kepada Allah, Bapa kita”

- Kolose 3:17 -

Skripsi ini saya persembahkan untuk :

Tuhan Yesus Kristus,

Bunda Maria,

Keluarga tercinta, dosen dan teman - teman terkasih,

Terima kasih sudah memberikan semangat, GBU!


vi


vii


viii

INTISARI

Twitter merupakan salah satu situs microblogging memungkinkan

penggunanya untuk menulis tentang berbagai opini, komentar, dan berita yang

membahas isu-isu yang tejadi pada saat ini. Banyak pengguna yang melakukan posting

pendapat mereka akan sebuah produk atau layanan yang mereka gunakan. Hal tersebut

dapat digunakan sebagai sumber data untuk menilai sentimen pada Twitter. Cara

pengelompokkan emosi secara otomatis dapat digunakan, salah satunya menggunakan

Agglomerative Hierarchical Clustering. Tujuan dari penelitian ini adalah membangun

sistem yang secara otomatis mampu mengelompokkan emosi setiap tweet, dan

mengetahui tingkat akurasi pengelompokkan.

Tahapan proses dimulai dari preprocessing, terdapat beberapa proses yaitu

tokenizing, stopword, stemming, pembobotan kata, serta normalisasi, selanjutnya dapat

diolah menggunakan Agglomerative Hierarchical Clustering. Proses clustering terdiri

dari, menghitung matriks jarak antar data, mencari jarak terdekat, menggabungkan

menjadi satu cluster, memperbaharui matriks hingga semua data menjadi satu cluster.

Setelah itu melakukan perhitungan akurasi menggunakan confusion matrix.

Selanjutnya untuk melihat kesesuaian sistem yang dibuat, maka dimasukkan data baru

yang diproses dengan sistem, lalu dapat menentukan data tergolong salah satu jenis

emosi.

Dari penelitian yang telah dilakukan, didapatkan total data tweet sebanyak 500

data serta jumlah cluster terbagi menjadi lima yaitu cinta, marah, sedih, senang, dan

takut. Hasil penelitian analisis sentimen pada twitter dapat berjalan dengan baik

dengan akurasi 81,6% untuk jumlah frekuensi kata unik maksimal 85 dan kata unik

minimal 2 dengan melakukan normalisasi menggunakan Z-Score, perhitungan jarak

menggunakan Cosine Similarity serta metode AHC Average Linkage.

Kata Kunci : Tweet, Agglomearive Hierarchical Clustering, Cluster, Cosine

similarity, Euclidean Distance, Z-Score, Min-Max, Confusion Matrix


ix

ABSTRACT

Twitter is one of the site microblogging that allows users to write about

various opinion, comments, and news that discussing issues that are happening at this

time. Many users post their opinions on a product or service they use. It can be used as

a data source to assess sentiment on Twitter. Automatic grouping of emotions can be

used, one of them is using agglomerative hierarchical clustering. The purpose of this

research is to build a system that automatically able to group the emotions of every

tweet, and know the level of accuracy of grouping.

Stages of the process starts from preprocessing, there are several processes

that are tokenizing, stopword, stemming, word weighting, and normalization, then can

be processed using Agglomerative Hierarchical Clustering. The clustering process

consists of, calculating the distance matrix between data, finding the closest distance,

merging into one cluster, updating the matrix until all the data into one cluster.

After that perform the calculation of accuracy using confusion matrix. Next to see the

suitability of the system created, then inserted new data processed with the system, and

then can determine the data belong to one type of emotion.

From the research that has been done, got the total data tweet as much as 500

data and the number of cluster is divided into five clusters that is love, angry, sad,

happy, and afraid. The results of sentimental analysis on twitter can run well with an

accuracy of 81.6% for the maximum number of unique word of 85 and minimum

number of unique word of at least 2 by normalizing using Z-Score, Cosine Similarity

distance and AHC Average Linkage method.

Keyword : Tweet, Agglomearive Hierarchical Clustering, Cluster, Cosine similarity,

Euclidean Distance, Z-Score, Min-Max, Confusion Matrix


x

KATA PENGANTAR

Puji dan syukur penulis panjatkan kepada Tuhan Yesus Kristus atas berkat yang

diberikan dalam penyusunan Skripsi ini sehingga semuanya dapat berjalan dengan baik

dan lancar.

Skripsi ini merupakan salah satu syarat mahasiswa untuk mendapatkan gelar S-

1 pada Prodi Teknik Informatika, Fakultas Sains dan Teknologi, Universitas Sanata

Dharma Yogyakarta.

Berkat bimbingan dan dukungan dari berbagai pihak, Skripsi ini dapat

terselesaikan. Pada kesempatan ini dengan segenap kerendahan hati penulis

menyampaikan rasa terima kasih kepada :

1. Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D selaku Dekan Fakultas Sains dan

Teknologi Universitas Sanata Dharma Yogyakarta.

2. Dr. C. Kuntoro Adi, S.J., M.A.,M.Sc., selaku Dosen Pembimbing Skripsi, yang

dengan sabar memberi arahan, bimbingan, serta waktunya kepada penulis dalam

pembuatan Skripsi.

3. Heri Bertus S.Pd.,M.Si, Asna Nuraini,S.Ag, Millavenia Pusparini, Krisna Wahyu

Tri Anugrah selaku keluarga penulis yang senantiasa mendoakan, memberikan

motivasi dan pengorbanannya baik dari segi moril, materi kepada penulis sehingga

penulis dapat menyelesaikan Skripsi ini.

4. Ian Arisaputra yang selalu mendukung, memberikan semangat serta menjadi

pendengar setiap cerita suka-duka yang penulis rasakan dalam proses pembuatan

skripsi hingga dapat menyelesaikan skripsi ini.

5. Ronni, Ratri, Rusdy, Nindia, Bella, Kak Agung, Kak Dion, Kak Ary serta teman –

teman Teknik Informatika Universitas Sanata Dharma khususnya angkatan 2013

dan teman penulis yang tidak dapat disebutkan satu per satu yang telah mendukung

penulis dalam menyelesaikan Skripsi ini.


xi


xii

DAFTAR ISI


AGGLOMERATIVE HIERARCHICAL CLUSTERING ............................................ i

SENTIMENT ANALYSIS OF TWITTER ................................................................... ii

USING AGGLOMERATIVE HIERARCHICAL CLUSTERING .............................. ii

HALAMAN PERSETUJUAN PEMBIMBING ......... Error! Bookmark not defined.


AGGLOMERATIVE HIERARCHICAL CLUSTERING ........ Error! Bookmark not

defined.

HALAMAN PENGESAHAN ...................................................................................... iii


AGGLOMERATIVE HIERARCHICAL CLUSTERING ........ Error! Bookmark not

defined.

HALAMAN PERSEMBAHAN .................................................................................. iv

PERNYATAAN KEASLIAN KARYA ..................... Error! Bookmark not defined.

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH

UNTUK KEPENTINGAN AKADEMIS ................... Error! Bookmark not defined.

INTISARI ................................................................................................................... viii

ABSTRACT ................................................................................................................. ix

KATA PENGANTAR .................................................................................................. x

DAFTAR ISI ............................................................................................................... xii

DAFTAR TABEL ....................................................................................................... xv

DAFTAR GAMBAR ................................................................................................ xvii


xiii

BAB I ............................................................................................................................ 1

PENDAHULUAN ........................................................................................................ 1

1.1 Latar Belakang ................................................................................................... 1

1.2 Rumusan Masalah .............................................................................................. 3

1.3 Tujuan Penelitian ............................................................................................... 3

1.4 Manfaat .............................................................................................................. 4

1.5 Luaran ................................................................................................................ 4

1.6 Batasan Masalah................................................................................................. 4

1.7 Sistematika Penulisan ........................................................................................ 4

BAB II ........................................................................................................................... 6

LANDASAN TEORI .................................................................................................... 6

2.1 Analisis Sentimen ........................................................................................... 6

2.2 Emosi .............................................................................................................. 7

2.3 Information Retrieval ..................................................................................... 9

2.4 Euclidean Distance ....................................................................................... 19

2.5 Cosine Similarity .......................................................................................... 19

2.6 Agglomerative Hierarchical Clustering ........................................................ 20

2.7 Confusion Matriks ........................................................................................ 32

BAB III ....................................................................................................................... 33

METODE PENELITIAN ............................................................................................ 33

3.1 Data .................................................................................................................. 33

3.2 Kebutuhan Sistem ............................................................................................ 35

3.3 Tahapan Penelitian ........................................................................................... 35

3.4 Desain Interface ............................................................................................... 37


xiv

3.5 Perancangan Struktur Data ............................................................................... 37

3.6 Skenario Sistem ................................................................................................ 38

3.6.1 Gambaran Umum Sistem ................................................................................. 38

3.7 Desain Pengujian .............................................................................................. 67

BAB IV ....................................................................................................................... 68

HASIL DAN ANALISIS HASIL ............................................................................... 68

4.1 Implementasi .................................................................................................... 68

4.2 Hasil & Analisis Hasil ...................................................................................... 79

4.3 User Interface ................................................................................................... 88

BAB V ......................................................................................................................... 89

PENUTUP ................................................................................................................... 89

5.1 Kesimpulan ...................................................................................................... 89

5.2 Saran ................................................................................................................. 90

LAMPIRAN ................................................................................................................ 94

1. Uji Validitas Sistem menggunakan 15 data ......................................................... 94

2. Tabel .................................................................................................................. 111


xv

DAFTAR TABEL

Tabel 2. 1 Kosa Kata Emosi .......................................................................................... 8

Tabel 2. 2 Tabel awalan-akhiran ................................................................................. 12

Tabel 2. 3 Aturan peluruhan kata dasar ...................................................................... 13

Tabel 2. 4 Contoh Data ............................................................................................... 22

Tabel 2. 5 Similarity Matriks ...................................................................................... 22

Tabel 2. 6 Matriks Jarak .............................................................................................. 23

Tabel 2. 7 Matriks Jarak pertama Single Linkage....................................................... 23

Tabel 2. 8 Matriks Jarak kedua Single Linkage .......................................................... 24

Tabel 2. 9 Matriks jarak pertama Complete Linkage .................................................. 25

Tabel 2. 10 Matriks Jarak kedua Complete Linkage................................................... 26

Tabel 2. 11 Matriks Jarak pertama Average Linkage ................................................. 27

Tabel 2. 12 Matriks Jarak kedua Average Linkage..................................................... 27

Tabel 2. 13 Tabel Confusion Matriks ......................................................................... 32

Tabel 3. 1 Tabel menghitung df .................................................................................. 47

Tabel 3. 2 idf ............................................................................................................... 48

Tabel 3. 3 Hitung Wij Tweet Cinta ............................................................................. 49

Tabel 3. 4 Hitung Wij Tweet Senang .......................................................................... 49

Tabel 3. 5 Hitung Wij Tweet Marah ........................................................................... 50

Tabel 3. 6 Hitung Wij Tweet Sedih ............................................................................ 50

Tabel 3. 7 Hitung Wij tweet takut ............................................................................... 51

Tabel 3. 8 Tabel contoh data belum mengalami proses penggabungan ...................... 51

Tabel 3. 9 Tabel contoh data setelah penggabungan................................................... 52

Tabel 3. 10 Tabel Contoh data pembobotan ............................................................... 52

Tabel 3. 11 Tabel Min-max ......................................................................................... 53

Tabel 3. 12 Tabel data hasil normalisasi min - max ................................................... 53

Tabel 3. 13 Tabel Rata - Rata...................................................................................... 55

Tabel 3. 14 Tabel Standar Deviasi .............................................................................. 55


xvi

Tabel 3. 15 Hasil Normalisasi Zscore ......................................................................... 56

Tabel 3. 16 Tabel hasil matriks jarak dari normalisasi min - max .............................. 57

Tabel 3. 17 Hasil matriks jarak normalisasi Z-Score .................................................. 59

Tabel 3. 18 Hasil max cluster 5 single linkage- Z-Score ............................................ 64

Tabel 3. 19 Hasil max cluster 5 complete linkage- Z-Score ....................................... 64

Tabel 3. 20 Hasil max cluster 5 average linkage- Z-Score ......................................... 64

Tabel 3. 21 Hasil max cluster 5 single linkage- Min - Max ........................................ 64

Tabel 3. 22 Hasil max cluster 5 complete linkage- Min - Max................................... 65

Tabel 3. 23 Hasil max cluster 5 average linkage- Min - Max ..................................... 65

Tabel 3. 24 Tabel perbandingan cluster hasil prediksi dan label aktual ..................... 66

Tabel 3. 25 Tabel Confusion matriks .......................................................................... 66

Tabel 4. 1 Tabel Percobaan tanpa normalisasi dengan batas atas = 85 dan batas bawah

=2 ......................................................................................................................... 80

Tabel 4. 2 Confusion matrix data tanpa normalisasi average linkage......................... 82

Tabel 4. 3 Tabel Percobaan normalisasi min - max dengan batas atas = 85 dan batas

bawah =2 .............................................................................................................. 82

Tabel 4. 4 Confusion matrix data normalisasi min – max average linkage ............... 84

Tabel 4. 5 Tabel Percobaan normalisasi z-score dengan batas atas = 85 dan batas bawah

=2 ......................................................................................................................... 85

Tabel 4. 6 Confusion matrix data normalisasi z-score average linkage ..................... 86


xvii

DAFTAR GAMBAR

Gambar 2. 1 Dendrogram ............................................................................................ 21

Gambar 2. 2 Dendrogram Single linkage .................................................................... 25

Gambar 2. 3 Dendrogram Complete Linkage ............................................................. 26

Gambar 2. 4 Dendrogram average linkage ................................................................. 28

Gambar 2. 5 Flowchart AHC ...................................................................................... 31

Gambar 3. 1 Tweet Cinta ............................................................................................ 33

Gambar 3. 2Tweet Senang .......................................................................................... 34

Gambar 3. 3 Tweet Marah .......................................................................................... 34

Gambar 3. 4 Tweet Takut............................................................................................ 34

Gambar 3. 5 Tweet Sedih ............................................................................................ 35

Gambar 3. 6 Desain Interface...................................................................................... 37

Gambar 3. 7 Block Diagram ....................................................................................... 38

Gambar 3. 8 Tokenizing tweet cinta ........................................................................... 40

Gambar 3. 9 Tokenizing tweet senang ........................................................................ 40

Gambar 3. 10 Tokenizing tweet marah ....................................................................... 40

Gambar 3. 11 Tokenizing tweet takut ......................................................................... 41

Gambar 3. 12 Tokenizing tweet sedih ........................................................................ 41

Gambar 3. 13 Stopword tweet cinta ........................................................................... 42

Gambar 3. 14 Stopword tweet senang........................................................................ 42

Gambar 3. 15 Stopword tweet marah ......................................................................... 42

Gambar 3. 16 Stopword tweet sedih ........................................................................... 43

Gambar 3. 17 Stopword tweet takut ............................................................................ 43

Gambar 3. 18 Stemming tweet cinta ........................................................................... 44

Gambar 3. 19 Stemming tweet senang ........................................................................ 44

Gambar 3. 20 Stemming tweet marah ......................................................................... 44

Gambar 3. 21 Stemming tweet sedih .......................................................................... 44


xviii

Gambar 3. 22 Stemming tweet takut ........................................................................... 45

Gambar 3. 23 TF tweet cinta ....................................................................................... 45

Gambar 3. 24 TF tweet senang ................................................................................... 46

Gambar 3. 25 TF tweet marah..................................................................................... 46

Gambar 3. 26 TF tweet sedih ...................................................................................... 46

Gambar 3. 27 TF tweet takut....................................................................................... 47

Gambar 3. 28 Data min – max Single linkage ........................................................... 60

Gambar 3. 29 Data min – max Complete linkage ....................................................... 60

Gambar 3. 30 Data min – max average linkage .......................................................... 61

Gambar 3. 31 Source code AHC min –max ................................................................ 61

Gambar 3. 32 Data Z-Score Single linkage ................................................................ 62

Gambar 3. 33 Data Z-Score Complete linkage ........................................................... 62

Gambar 3. 34 Data Z-Score Average linkage ............................................................. 63

Gambar 3. 35 Source code AHC Z-Score ................................................................... 63

Gambar 4. 1 Kumpulan Data ...................................................................................... 68

Gambar 4. 2 Contoh Data............................................................................................ 69

Gambar 4. 3 Source code Tokenizing ......................................................................... 69

Gambar 4. 4 Source code Stopword ............................................................................ 70

Gambar 4. 5 Source code Stemming ........................................................................... 70

Gambar 4. 6 Kamus Kata Sinonim ............................................................................. 71

Gambar 4. 7 Source code Penanganan Sinonim ......................................................... 71

Gambar 4. 8 Source code Pembobotan ....................................................................... 72

Gambar 4. 9 Source code Normalisasi Min – Max ..................................................... 72

Gambar 4. 10 Source code Normalisasi Z-Score ........................................................ 73

Gambar 4. 11 Source code Hitung Jarak Euclidean .................................................... 73

Gambar 4. 12 Source code Hitung Jarak Cosine......................................................... 74

Gambar 4. 13 Source code AHC ................................................................................. 76

Gambar 4. 14 Gambar Output Hasil ........................................................................... 76

Gambar 4. 15 Source code Confusion Matrix ............. Error! Bookmark not defined.


xix

Gambar 4. 16 Hasil Implementasi Confusion Matrix ................................................. 77

Gambar 4. 17 Contoh Tweet Uji ................................................................................. 78

Gambar 4. 18 Hasil Tweet Uji .................................................................................... 78

Gambar 4. 19 Grafik percobaan tanpa normalisasi ..................................................... 80

Gambar 4. 20 Dendrogram data tanpa normalisasi average linkage ........................... 81

Gambar 4. 21 Grafik percobaan normalisasi min – max ............................................ 83

Gambar 4. 22 Dendrogram data normalisasi min – max average linkage ................. 84

Gambar 4. 23 Grafik percobaan normalisasi z-score .................................................. 85

Gambar 4. 24 Dendrogram data normalisasi z-score average linkage ........................ 86

Gambar 4. 25 Grafik percobaan menggunakan batas atas=85 dan batas bawah =2 ... 87

Gambar 4. 26 User Interface Sistem ........................................................................... 88


1

BAB I

PENDAHULUAN

1.1 Latar Belakang

Pada saat ini situs microblogging telah menjadi alat komunikasi yang sangat

populer di kalangan pengguna internet. Microblogging merupakan suatu layanan

media social yang memungkinkan pengguna mem-publish pesan pendek berupa

opini, komentar, berita dalam karakter terbatas (kurang dari 200 karakter). Contoh

layanan microblogging yaitu Twitter, Plurk, Jaiku, Posterous, Pownce, Kronologger,

Koprol, Moofmill, dan Tumblr.

Menurut data yang dirilis Twitter, pada tahun 2012 Indonesia menjadi negara

dengan pengguna Twitter terbesar kelima di dunia (Tempo,2012). Twitter

memungkinkan pengguna untuk berbagi pesan menggunakan teks pendek disebut

Tweet.

Twitter seringkali digunakan untuk mengungkapkan emosi mengenai sesuatu

hal, baik memuji ataupun mencela. Emosi dapat dikelompokkan menjadi emosi positif

dan emosi negatif. Emosi manusia dapat dikategorikan menjadi lima emosi dasar yaitu

cinta, senang, sedih, marah, dan takut. Emosi cinta dan senang merupakan emosi

positif. Emosi sedih, marah, dan takut merupakan emosi negatif (Shaver & Fraley ,

2001)

Analisa mengenai tweet emosi para pengguna twitter disebut sebagai analisa

opini atau sentimen (opinion analysis atau sentimen analysis). Analisis sentimen

dilakukan untuk melihat pendapat atau kecenderungan opini terhadap sebuah masalah

atau objek oleh seseorang, apakah cenderung beropini negatif atau positif. Dari hasil

survey terhadap lebih dari 2000 orang Amerika dewasa, diketahui 81% melakukan

penelitian terhadap suatu produk secara online setiap hari. Review terhadap rumah

makan, hotel, agen perjalanan wisata, dan dokter di internet dapat meningkatkan


http://jaiku.com/

http://pownce.com/

http://kronologger.com/

2

penjualan antara 73% sampai dengan 87%, pelanggan bersedia membayar lebih

sebesar 20% sampai 99% terhadap review di internet yang mendapatkan bintang 5

daripada bintang 4 (Pang & Lee,2008). Pengaruh dan manfaat dari sentimen

sedemikian besar sehingga penelitian ataupun aplikasi mengenai analisis sentimen

berkembang sangat pesat. Terdapat kurang lebih 20-30 perusahaan di Amerika yang

fokus pada layanan analisis sentiment (Liu, 2012). Faktor keuntungan tersebut

mendorong perlunya dilakukan penelitian analisis sentimen terhadap tweet berbahasa

Indonesia.

Dengan cara manual, analisa sentimen bisa saja dilakukan. Misalnya

memonitor berita-berita di media massa. Akan tetapi untuk data tweet, cara manual

tidak mungkin bisa dilakukan karena jumlah datanya yang sangat besar dan terus

mengalir. Disinilah peranan text mining, yang secara otomatis dapat mengolah kata.

Pada text mining terdapat beberapa proses yaitu tokenizing, stopword, stemming, dan

pembobotan kata (Liu, 2010). Setelah melakukan text mining, diperlukan normalisasi.

Setelah melakukan normalisasi, dilakukan penggolongan atau clustering pada setiap

tweet, salah satunya menggunakan metode Agglomeartive Hierarchical Clustering.

Contoh kasus yang telah diselesaikan menggunakan metode Agglomerative

Hierarchical Clustering adalah aplikasi automated text integration, dimana pada

penelitian ini menghasilkan cluster yang baik. Dari hasil survei terhadap 100 orang

responden, sebanyak 78% responden mengatakan bahwa integrasi dokumen yang

dihasilkan telah benar (Budhi,Rahardjo,Taufik, 2008). Sehingga dengan melakukan

penelitian menggunakan metode Agglomerative Hierarchical Clustering dapat

mengetahui tingkat akurasi serta efisien untuk menyelesaikan masalah clustering data

twitter berdasarkan emosi.

Penelitian mengenai analisis sentimen pernah dilakukan yaitu untuk

mengelompokkan dokumen bahasa Indonesia menggunakan pendekatan Support

Vector Machine. Pada penelitian ini data yang digunakan didapat dengan crawling

pada Twitter. Akurasi menggunakan Support Vector Machine sebesar 73.07% (Nur &

Santika , 2011).


3

Salah satu faktor yang mempengaruhi agar fitur klasifikasi memberikan hasil

yang maksimal adalah pada tahap preprocessing data tweet dilakukan filtering dengan

menghapus kata-kata yang tidak ada di KBBI dan dilakukan proses stemming,

sehingga hanya berupa kumpulan kata dasar (Nur & Santika, 2011).

Berdasarkan penelitian yang telah ada sebelumnya, penelitan ini mencoba

melakukan analisis sentimen dengan mengklasifikasi data twitter berbahasa

Indonesia. Data tersebut akan diproses dengan text mining untuk menghindari data

yang kurang sempurna kemudian mengelompokkan data tweet berdasarkan emosi ke

dalam lima cluster yaitu senang, takut, sedih, marah, cinta. Pengelompokkan ini

menggunakan algoritma Agglomerative Hierarchical Clustering.

1.2 Rumusan Masalah

Berdasarkan Latar Belakang yang telah dikemukakan diatas, maka

permasalahan yang akan dibahas dalam penelitian ini, yaitu :

1. Bagaimana pendekatan Agglomerative Hierarchical Clustering mampu

mengelompokkan emosi setiap tweet dengan baik ?

2. Berapakah tingkat akurasi analisis sentimen twitter menggunakan pendekatan

Agglomerative Hierarchical Clustering?

1.3 Tujuan Penelitian

Tujuan dari penelitian ini adalah membangun sistem yang secara otomatis

mampu mengelompokkan emosi setiap tweet menggunakan Agglomerative

Hierarchical Clustering dan mengetahui tingkat akurasi pengelompokkan.


4

1.4 Manfaat

Manfaat yang diberikan pada penelitian ini, yaitu :

1. Dapat membantu menganalisis sentimen pada twitter dengan metode

Agglomerative Hierarchical Clustering.

2. Menjadi referensi bagi penelitian – penelitian berikutnya yang relevan dengan

kasus analisis sentimen twitter.

1.5 Luaran

Luaran yang diharapkan pada penelitian ini berupa suatu sistem yang secara

otomatis mampu mengelompokkan emosi setiap tweet.

1.6 Batasan Masalah

Pada pengerjaan penelitian ini diberikan batasan-batasan masalah untuk

permasalahan yang ada antara lain:

1. Tweet yang dianalisis sentimen hanya tweet berbahasa Indonesia.

2. Pengelompokkan tweet berdasarkan lima emosi yaitu cinta, marah, senang, sedih,

dan takut

3. Tweet yang digunakan hanya tweet yang berupa text, tidak mengandung gambar.

1.7 Sistematika Penulisan

Sistematika penulisan proposal tugas akhir ini dibagi menjadi beberapa bab

dengan susunan sebagai berikut:

BAB I : Pendahuluan

Berisi penjelasan mengenai masalah yang akan diteliti, berisi

latar belakang, rumusan masalah, tujuan penelitian,manfaat penelitian,

luaran, batasan masalah, dan sistematika penulisan.


5

BAB II : Landasan Teori

Berisi mengenai penjelasan dan uraian teori-teori yang berkaitan

dengan topik analisis sentimen twitter, antara lain teori tentang analisis

sentimen, emosi, preprocessing teks( Information Retrieval ),

pembobotan kata, normalisasi min-max, normalisasi z-score, algoritma

Agglomerative Hierarchical Clustering, Cosine Similarity, Euclidean

Distance, dan Confusion Matriks

BAB III : Metodologi Penelitian

Berisi analisa dan design yang merupakan detail teknis sistem

yang akan dibangun.

BAB IV : Implementasi dan Analisis Hasil

Bab ini berisi implementasi dari perancangan yang telah dibuat

sebelumnya serta analisis dari hasil program yang telah dibuat

BAB V : Penutup

Bab ini berisi kesimpulan dari penelitian dan saraan – saran

untuk pengembangan penelitian lebih lanjut.


6

BAB II

LANDASAN TEORI

Bab ini berisi penjabaran teori-teori yang bersangkutan dengan penulisan Tugas

Akhir ini. Teori-teori tersebut mencakup Analisis Sentimen, Emosi, Information

Retrieval, Agglomerative Hierarchical Clustering, Euclidean Distance, dan Confusion

Matriks.

2.1 Analisis Sentimen

Analisis sentimen adalah bidang studi yang menganalisi pendapat, sentimen,

evaluasi, penilaian, sikap, dan emosi seseorang terhadap sebuah produk, organisasi,

individu, masalah, peristiwa atau topik (Liu, 2012). Analisis sentimen dilakukan untuk

melihat pendapat terhadap sebuah masalah, atau dapat juga digunakan untuk

identifikasi kecenderungan hal yang sedang menjadi topik pembicaran. Analisis

sentimen dalam penelitian ini adalah proses pengelompokkan tweet ke dalam lima

emosi yaitu emosi senang, emosi cinta, emosi sedih, emosi marah dan emosi takut.

Pengaruh dan manfaat dari analisis setimen, menyebabkan penelitian mengenai

analisis sentimen berkembang pesat. Di Amerika kurang lebih 20-30 perusahaan yang

memfokuskan pada layanan analisis sentimen (Liu,2012). Manfaat Analisis sentimen

dalam dunia usaha antara lain untuk melakukan pemantauan terhadap suatu produk.

Secara cepat dapat digunakan sebagai alat bantu untuk melihat respon masyarakat

terhadap produk tersebut, sehingga dapat segera diambil langkah- langkah strategis

berikutnya.

Pada umumnya analisis sentimen merupakan klasifikasi tetapi kenyataannya

tidak semudah proses klasifikasi biasa karena terkait penggunaan bahasa, dimana

terdapat ambigu dalam penggunaan kata serta perkembangan bahasa itu sendiri.


7

2.1.1 Level Analisis Sentimen

Analisis sentimen terdiri dari tiga level analisis yaitu :

1. Level Dokumen

Level dokumen menganalisis satu dokumen penuh dan mengklasifikasikan

dokumen tersebut memiliki sentimen positif atau Negatif. Level analisis ini berasumsi

bahwa keseluruhan dokumen hanya berisi opini tentang satu entitas saja. Level analisis

ini tidak cocok diterapkan pada dokumen yang membandingkan lebih dari satu entitas

(Liu, 2012).

2. Level Kalimat

Level kalimat menganalisis satu kalimat dan menentukan tiap kalimat bernilai

sentimen positif, netral, atau Negatif. Sentimen netral berarti kalimat tersebut bukan

opini (Liu, 2012).

3. Level Entitas dan Aspek

Level aspek tidak melakukan analisis pada konstruksi bahasa (dokumen,

paragraph, kalimat, klausa, atau frase) melainkan langsung pada opini itu sendiri. Hal

ini didasari bahwa opini terdiri dari sentimen (positif dan negatif) dan target dari opini

tersebut. Tujuan level analisis ini adalah untuk menemukan sentimen entitas pada tiap

aspek yang dibahas (Liu,2012).

2.2 Emosi

Emosi adalah suatu pikiran dan perasaan khas yang disertai perubahan

fisiologis dan biologis serta menimbulkan kecendrungan untuk melakukan tindakan

(Goleman, 2006).

Twitter seringkali digunakan untuk mengungkapkan emosi mengenai sesuatu

hal, baik memuji ataupun mencela. Pengenalan emosi pada tweet dapat dilakukan


8

menggunakan analisis sentimen. Analisis sentimen dapat dimanfaatkan untuk

menggali opini publik tentang suatu topik.

2.2.1 Emosi Dasar

Emosi yang dimiliki manusia dikategorikan menjadi lima emosi dasar yaitu

cinta, senang, marah, khawatir/takut, dan sedih. Emosi cinta dan senang merupakan

emosi positif. Emosi marah, takut, dan sedih merupakabb emosi Negatif (Shaver,

Murdaya, dan Fralet, 2001).

2.2.2 Kosakata Emosi

Penelitian terhadap 124 kosakata emosi di Indonesia menghasilkan dua

kelompok besar yaitu kosakata emosi positif dan Negatif. Kelompokan kosakata emosi

positif terdiri dari dua emosi dasar yaitu emosi cinta dan senang. Kelompokan kosakata

emosi Negatif terdiri dari tiga emosi dasar yaitu marah, takut, dan sedih (Shaver,

Murdaya, dan Fraley, 2001).

Pengelompokkan terhadap 124 kosakata emosi di Indonesia terlihat pada Tabel

2.1 berikut:

Tabel 2. 1 Kosa Kata Emosi

Superordinat Emosi

Dasar

Subordinat

Positif Cinta Ingin, kepingin, hasrat, berahi, terangsang, gairah, demen,

suka, terbuai, terpesona, terkesiap, terpikat, tertarik,

perasaan, getar hati, setia, edan kesmaran, kangen, rindu,

kemesraan, asmara, mesra, cinta, kasih, sayang, hati.

Positif Senang Bangga, kagum, asik, sukacita, sukaria, bahagia, senang,

girang, gembira, ceria, riang, damai, aman, tentram, lega,


9

kepuasan, puas, berani, yakin, ikhlas, tulus, berbesar, besar

hati, rendah hati, sabar, tabah

Negatif Marah Bosan, jenuh, cemburu, curiga, histeris, tinggi hati, iri,

dengki, gemas, gregetan, ngambek, tersinggung, muak,

benci, emosi, kesal, sebal, mangkel, jengkel, dendam,

dongkol, panas hati, kalap, murka, naik darah, naik pitam,

marah, berang, geram

Negatif Takut Gentar, takut, berdebar, kebat – kebit, kalut, gusar, cemas,

khawatir, waswas, bimbang, bingung, galau, gundah, gelisah,

risau

Negatif Sedih Patah hati,kecil hati, malu, simpati, tersentuh, haru, prihatin,

iba, kasihan, murung,pilu, sendu, sedih , duka, dukacita, sakit

hati, pedih hati, patah hati, remuk hati, frustasi, putus asa,

putus harapan, menyesal, penyesalan, sesal, berat hati.

2.3 Information Retrieval

Penelitian ini mencoba menganalisis emosi yang terkandung dalam sebuah

tweet berbahasa Indonesia.

Dengan cara manual, analisis emosi atau analisis sentimen bisa saja dilakukan.

Misalnya memonitor berita-berita di media massa. Akan tetapi untuk data tweet, cara

manual tidak mungkin bisa dilakukan karena jumlah datanya yang sangat besar dan

terus mengalir. Disinilah peranan Information Retrieval, yang secara otomatis

dapat mengolah kata.

Information Retrieval merupakan sekumpulan algoritma dan teknologi untuk

melakukan pemrosesan, penyimpanan, dan menemukan kembali informasi

(terstruktur) pada suatu koleksi data yang besar (Manning,Raghavan,dan Schutze,

2009).


10

Berikut proses-proses Information Retrieval :

a. Tokenizing

Tokenizing merupakan langkah untuk memotong dokumen menjadi potongan-

potongan kecil yang disebut token dan terkadang disertai langkah untuk membuang

karakter tertentu seperti tanda baca (Manning,Raghavan,dan Schutze, 2009).

Contoh proses tokenizing :

Kalimat asal :

Disaat sedih jangan lupakan kamu juga pernah bahagia, sedih itu membuatMu dewasa

Hasil dari tokenizing :

Disaat Juga MembuatMu

Sedih Pernah Dewasa

Jangan Bahagia

Lupakan Sedih Kamu itu

b. Stopwords Removal

Stopword merupakan kosakata yang bukan ciri(kata) unik dari suatu dokumen

(Dragut et all, 2009). Contoh stopword adalah dia, mereka , saya, pada, di, kenapa, apa,

dan lain sebagainya. Sebelum proses stopword removal dilakukan, harus dibuat daftar

stopword (stoplist) dimana stoplist ini berisi kata – kata umum,kata-kata penghubung,

kata ganti orang dan bukan kata unik. Jika suatu kata termasuk di dalam stoplist maka

kata – kata tersebut akan dihapus dari deskripsi sehingga kata – kata yang tersisa di

dalam deskripsi dianggap sebagai kata-kata yang mencirikan isi dari suatu dokumen.

Daftar stoplist dipenelitian ini bersumber dari Tala (2003).

Contoh proses stopword :


11

Hasil dari tokenizing :

Disaat Juga MembuatMu

Sedih Pernah Dewasa Jangan

Bahagia Lupakan Sedih Kamu itu

Hasil dari Stopword

Disaat Membuat

Sedih Pernah Dewasa

Jangan Bahagia

Lupakan Sedih

c. Stemming

Stemming merupakan tahap menghilangkan kata berimbuhan menjadi kata

dasar (root) dari tiap kata hasil stopword dengan menggunakan aturan – aturan tertentu.

Contoh Proses Stemming :

Hasil dari Stopwords :

Disaat Membuat

Sedih Pernah Dewasa

Jangan Bahagia

Lupakan Sedih

Hasil dari Stemming :

Saat Buat Dewasa


12

Sedih Pernah

Jangan Bahagia

Lupa Sedih

1) Rule Stemming

Algoritma Stemming untuk menghilangkan kata berimbuhan memiliki tahap –

tahap sebagai berikut (Nazief dan Adriani, 2007) :

1. Pertama cari kata yang akan distem dalam kamus kata dasar. Jika ditemukan maka

diasumsikan kata adalah root word. Maka algoritma berhenti. Jika tidak

ditemukan maka lakukan langkah 2.

2. Hilangkan Inflection Suffixes bila ada. Dimulai dari Inflectional Particle(“-lah”,

“-kah”, “-ku”, “-mu”, atau “-nya”) ,kemudian Possesive Pronouns (“-ku”, “-mu”,

atau “-nya”). Cari kata pada kamus kata dasar jika ditemukan maka algoritma

berhenti, jika tidak ditemukan maka lakukan langkah 3.

3. Hapus Derivation Suffixes (“-i”, “-an”, atau “-kan”).

Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah

3a

a. Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah “-k”, maka

“-k” juga ikut dihapus. Jika tidak ditemukan maka lakukan langkah 3b.

b. Akhiran yang dihapus (“-i”, “-an”, atau “-kan”) dikembalikan, lanjut ke langkah

4.

4. Pada langkah 4 terdapat tiga iterasi:

a. Iterasi berhenti jika :

1. Ditemukannya kombinasi akhiran yang tidak diizinkan berdasarkan awalan

Tabel 2. 2 Tabel awalan-akhiran

Awalan Akhiran yang tidak diizinkan


13

be- -i

di- -an

ke- -i , -kan

me- -an

se- -i, -kan

2. Awalan yang dideteksi sama dengan awalan yang dihilangkan

sebelumnnya.

3. Tiga awalan telah dihilangkan

b. Identifikasi tipe awalan dan hilangkan. Awalan terdiri dari dua tipe :

1. Standar(“di-”, “ke-”, “se-”) yang dapat langsung dihilangkan dari kata

2. Kompleks (“me-”, “be”, “pe”, “te”) adalah tipe awalan yang dapat berubah

sesuai kata dasar yang mengikutinya. Oleh karena itu dibutuhkan aturan

pada tabel berikut untuk mendapakan hasil pemenggalan yang tepat.

Tabel 2. 3 Aturan peluruhan kata dasar

Aturan Bentuk awalan Peluruhan

1 berV Ber-V… | be-rV….

2 Belajar Bel-ajar

3 beC1erC2 Be-C1erC2.. dimana C!={‘r’|1}

4 terV Ter-V | te-rV

5 teCer Te-Cer… dimana C !=’r’

6 teC1erC2….. Te-C1erC2… dimana C!=’r’

7 me{l|r|w|y}V… Me-{l|r|w|y}V…

8 mem{b|f|v}… Mem-{b|f|v}…

9 Mempe… Mem-pe

10 Mem{rV|V}… Me-m{rV|V}…| Me-

p{rV|V}…

11 Men{c|d|j|z}…. Men-{c|d|j|z}….

12 menV…. Me-nV…|me-tV….


14

13 Meng{g|h|q|k}….. Meng-{g|h|q|k}…..

14 mengV….. Meng-V…|meng-kV

15 mengeC Menge-C

16 menyV Me-ny…|meny-sV…

17 mempV Mem-pV…

18 Pe{w|y}V… Pe-{w|y}V….

19 perV Per-V….|pe-rV

20 Pem{b|f|v}… Pe-m{b|f|v}…

21 Pem{rV|V} Pe-m{rV|V}…|pe-p{rV|V}

22 Pen{c|d|j|z}…. Pen- { c|d|j|z}….

23 penV Pe-nV..|pe..tV

24 Peng{g|h|q} Peng-{g|h|q}

25 pengV Peng-V | peng-kV

26 penyV Pe-nya |peny-sV

27 pelV Pe-IV..;kecuali untuk kata

“pelajar” menjadi ajar

28 peCP Pe-CP…dimana

C!={r|w|y|l|m|n} dan P!=’er’

29 perCerV Per-CerV dimana

C!={r|w|y|l|m|n}

Pada tabel 2.3 dapat dilihat aturan – aturan peluruhan kata dasar yang apabila

dilekati oleh awalan “me-”, “be-”, “te-”, “pe-”. Dimana pada kolom kedua dari tabel

tersebut menjelaskan bentuk – bentuk kata dasar yang dilekati awalan “me-”, “be-”,

“te-”, “pe-” , sedangkan pada kolom ketiga menjelaskan perubahan – perubahan

karakter pada kata dasar yang mungkin terjadi apabila algoritma telah menghilangkan

awalan yang telah melekati kata dasar tersebut. Huruf “V” pada tabel tersebut

menunjukkan huruf hidup atau huruf vocal, huruf “C” menunjukkan huruf mati atau

konsonan, dan huruf “P” menunjukkan pecahan “er”. Sebagai contoh, jika algoritma


15

menerima kata “menyusun”, maka proses Stemming pada kata tersebut mengikuti

aturan ke-16 yaitu “menyV..” dan perubahannya menjadi “me-ny” atau “meny-sV..”.

Berdasarkan aturan tersebut maka algoritma akan menghilangkan awalan “me-” maka

akan didapatkan kata “nyusun”, selanjutnya kata “nyusun” akan diperiksa ke dalam

database kata dasar karena kata “nyusun” bukan kata dasar maja tahap selanjutnya

algoritma akan menghilangkan kata “meny-” dan kemudian algoritma akan

menambahkan huruf “s” diddepan huruf “u”, maka akan didapatkan kata “susun”,

selanjutnya kata “susun” akan diperiksa kedalam database kata dasar. Karena kata

“susun” merupakan kata dasar maka kata tersebut akan diidentifikasikan sebagai kata

dasar.

c. Cari kata yang telah dihilangkan awalannya. Apabila tidak ditemukan maka

langkah diulang kembali. Jika ditemukan maka algoritma berhenti.

5. Apabila setelah langkah 4 kata dasar masih belum ditemukan, maka

proses recording dilakukan dengan mengacu pada aturan tabel

2.3. Recording dilakukan dengan menambahkan karakter recording di awal kata

yang dipenggal. Pada tabel 2.3 , karakter recording adalah huruf kecil setelah

tanda hubung (‘-‘) dan terkadang berada sebelum tanda kurung. Sebagai contoh,

kata “menangkap” (aturan 15) pada tabel 2.3 , setelah dipenggal menjadi

“nangkap”. Karena tidak valid, maka recording dilakukan dan menghasilkan

kata “tangkap”.

6. Jika semua langkah selesai tetapi tidak juga berhasil maka kata awal

diasumsikan sebagai rootword. Algoritma berhenti..


16

Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan aturan

– aturan dibawah ini (Agusta, 2009) :

1. Aturan untuk reduplikasi

➢ Jika kedua kata yang dihubungkan oleh kata penghubung adalah kata yang sama

maka root word adalah bentuk tunggalnya, contoh : “buku - buku” root wordnya

adalah “buku”.

➢ Kata lain, misalnya “bolak-balik”, “berbalas-balasan”, dan “seolah-olah”. Untuk

mendapatkan root wordnya, kedua kata diartikan secara terpisah. Jika keduanya

memiliki root word yang sama maka diubah menjad bentuk tunggal, contoh :

kata “berbalas-balasan”, “berbalas” dan “balasan” memiliki root word yang

sama yaitu “balas”. Maka root word “berbalas-balasan” adalah “balas”.

Sebaliknya, pada kata “bolak-balik” , “bolak ” dan “balik” memiliki root word

yang berbeda, maka root wordnya adalah “bolak- balik”.

2. Tambahan bentuk awalan dan akhiran serta aturannya

➢ Untuk tipe awalan “mem-”, kata yang diawali dengan awalan “memp” memiliki

tipe awalan “mem-”.

➢ Tipe awalan “meng-”, kata yang diawali dengan awalan “mengk-” memiliki tipe

awalan “meng-”

d. Penggabungan Kata Berdasarkan Sinonim

Menurut Kamus Besar Bahasa Indonesia (KBBI) sinonim adalah bentuk bahasa

yang maknanya mirip atau sama dengan bahasa lain. Proses sinonim akan dilakukan

ketika ada kata berbeda namun memiliki makna yang sama, untuk me-minimal-kan

jumlah kata yang terdapat pada sistem, tanpa menghilangkan jumlah frekuensi

(Rarasati,2015).


17

e. Pembobotan Kata

Setelah melalui preprocessing text dihasilkan berbentuk token yang terpisah dari

kata yang lain dan sudah dalam bentuk dasar. Pada langkah selanjutnya kata-kata

atau term akan dirubah kedalam bentuk numerik untuk diketahui bobot setiap kata

dari satu dokumen ke dokumen lainya. Metode TF-IDF merupakan metode

pembobotan dalam bentuk sebuah metode yang merupakan integrasi antar term

frequency (tf), dan inverse document frequency (idf) (Yan dan Liu,1999).

Berikut rumus yang digunakan untuk mencari bobot kata dengan metode Term

Frequency (TF) - Inverse Document Frequency (IDF) :

𝑖𝑑𝑓 = log(𝐷/𝑑𝑓) (2.1)

Keterangan :

D : Jumlah semua dokumen dalam koleksi

df : Jumlah dokumen yang mengandung term t

𝑊𝑖𝑗 = 𝑡𝑓𝑖𝑗𝑥𝑖𝑑𝑓

𝑊𝑖𝑗 = 𝑡𝑓𝑖𝑗𝑥 log(𝐷/𝑑𝑓𝑗) (2.2)

Keterangan :

𝑊𝑖𝑗 : bobot term 𝑡𝑗 terhadap dokumen 𝑑𝑖

𝑡𝑓𝑖𝑗 : jumlah kemunculan term 𝑡𝑗 dalam dokumen 𝑑𝑖

𝐷 : jumlah semua dokumen yang ada dalam database

𝑑𝑓𝑗 : jumlah dokumen yang mengandung term 𝑡𝑗


18

f. Normalisasi

1. Z-Score

Normalisasi Z-Score umumnya digunakan jika nilai minimum dan maksimum

sebuah atribut tidak diketahui (Mustaffa dan Yusof,2011). Normalisasi Z-Score

dirumuskan sebagai berikut :

𝑣′ = (𝑣−�̅�

𝜎𝐴) (2.3)

Keterangan

𝑣′ : nilai yang baru

𝑣 : nilai yang lama

�̅� : rata - rata dari atribut A

𝜎𝐴 : nilai standar deviasi dari Atribut A

2. Min-max

Normalisasi min – max dirumuskan sebagai berikut (Mustaffa dan Yusof, 2011) :

𝑋𝑛 =𝑋0−𝑋𝑚𝑖𝑛

𝑋𝑚𝑎𝑥−𝑋𝑚𝑖𝑛 (2.4)

Keterangan :

𝑋𝑛 : nilai baru untuk variable X

𝑋0 : nilai lama untuk variable X

𝑋𝑚𝑖𝑛 : nilai minimum dalam data set

𝑋𝑚𝑖𝑛 : nilai maksimum dalam data set


19

2.4 Euclidean Distance

Euclidean Distance digunakan untuk menghitung nilai kedekatan antara dua

dokumen. Perhitungan Euclidean Distance dirumuskan sebagai berikut (Prasetyo,

2014) :

𝑑(𝐴, 𝐵) = √|𝐴1 − 𝐵1|2 + |𝐴2 − 𝐵2|2 + …… .+|𝐴𝑖 − 𝐵𝑖|2 (2.5)

Atau

𝑑(𝐴, 𝐵) = √∑ (𝐵𝑖 − 𝐴𝑖)2𝑛𝑖=1 (2.6)

Keterangan :

𝑛 : Jumlah atribut

𝐵𝑖 − 𝐴𝑖 : Data

2.5 Cosine Similarity

Menurut Prasetyo pada buku Data Mining: Pengelolahan Data menjadi

infromasi menggunakan matlab (2014), ukuran kemiripan yang sering digunakan untuk

mengukur kemiripan dua dokumen x dan y adalah Cosine Similarity. Kemiripan yang

diberikan adalah 1 jika dua vektor x dan y sama , dan bernilai 0 jika kedua vektor

berbeda. Nilai jarak 1 menyatakan sudut yang dibentuk oleh vektor x day y adalah 0º,

yang artinya vektor x dan y adalah sama (dalam hal jarak).

Perhitungan Cosine Similarity dirumuskan sebagai berikut :

𝑠(𝑥, 𝑦) = cos(𝑥, 𝑦) =𝑥∙𝑦

||𝑥||||𝑦|| (2.7)

Tanda titik (∙) melambangkan inner-product,

𝑥 ∙ 𝑦 = ∑ 𝑥𝑖𝑦𝑖𝑟𝑖=1 (2.8)

Tanda ||𝑥|| adalah panjang dari vektor x, dimana :


20

||𝑥|| = √∑ 𝑥𝑖2𝑟

𝑖=1 = √𝑥 ∙ 𝑥 (2.9)

2.6 Agglomerative Hierarchical Clustering

Agglomerative Hierarchical Clustering merupakan metode pengelompokkan

berbasis hierarki dengan pendekatan bottom up, yaitu proses penggelompokkan dimulai

dari masing-masing data sebagai satu cluster, kemudian secara rekursif mencari cluster

terdekat sebagai pasangan untuk bergabung sebagai satu cluster yang lebih besar

(Prasetyo,2014). Proses tersebut diulang terus sehingga tampak bergerak ke atas

membentuk hierarki.

Kunci operasi metode Agglomerative Hierarchical Clustering adalah

penggunaan ukuran kedekatan diantara dua cluster (Hartini,2012). Ada tiga teknik yang

dapat digunakan untuk menghitung kedekatan diantara dua cluster dalam metode

Agglomerative Hierarchical Clustering yaitu Single linkage, Complete Linkage, dan

Average Linkage.

Pada metode Single linkage kedekatan di antara dua cluster ditentukan dari

jarak terdekat (terkecil) di antara pasangan diantara dua data dari dua cluster berbeda

(satu dari cluster pertama satu dari cluster yang lain) . Dengan menggunakan single

linkage jarak antara dua cluster didefinisikan sebagai berikut :

𝑑(𝐴, 𝐵) = 𝑀𝑖𝑛𝑥∈𝐴,𝑦∈𝐵{𝑆𝑥,𝑦} (2.10)

Keterangan :

{𝑆𝑥,𝑦} : jarak antara data x dan y dari masing – masing Cluster A dan B.

Pada Complete Linkage kedekatan diantara dua cluster ditentukan dari jarak

terjauh (terbesar) diantara pasangan diantara dua data dari dua cluster berbeda (satu dari

cluster pertama satu dari cluster yang lain). Dengan menggunakan metode complete

lingkage jarak antara dua cluster didefinisikan sebagai berikut :

𝑑(𝐴, 𝐵) = 𝑀𝑎𝑥𝑥∈𝐴,𝑦∈𝐵{𝑆𝑥,𝑦} (2.11)


21

Keterangan :

{𝑆𝑥,𝑦} : jarak antara data x dan y dari masing – masing Cluster A dan B.

Pada Average Linkage kedekatan diantara dua cluster ditentukan dari jarak rata-

rata diantara pasangan diantara dua data dari dua cluster berbeda (satu dari cluster

pertama satu dari cluster yang lain). Dengan menggunakan metode average lingkage

jarak antara dua cluster didefinisikan sebagai berikut :

𝑑(𝐴, 𝐵) = 1

𝑛𝐴𝑛𝐵∑ ∑ 𝑆{𝑥, 𝑦}𝑥∈𝐵𝑥∈𝐴 (2.12)

Keterangan :

𝑛𝐴 : banyaknya data dalam cluster A

𝑛𝐵 : banyaknya data dalam cluster B

Dengan menggunakan rumus perhitungan-perhitungan diatas akan diketahui

jarak antar cluster. Masing – masing perhitungan dapat menghasilkan dendrogram.

Gambar 2. 1 Dendrogram

Dari penjelasan yang telah dipaparkan diatas, maka secara singkat AHC dapat

dimengerti sebagai metode yang dimulai dengan setiap n cluster yang membentuk

cluster masing-masing. Kemudian dua cluster dengan jarak terdekat bergabung.

Selanjutnya cluster yang lama akan bergabung dengan cluster yang sudah ada dan

membentuk cluster baru. Hal ini tetap memperhitungkan jarak kedekatan antar cluster.


22

Proses akan berulang hingga akhirnya membentuk satu cluster yang memuat

keseluruhan cluster.

Sebagai contoh, diketahui data seperti pada tabel dibawah ini

Tabel 2. 4 Contoh Data

Data X Y

A 2 1

B 1 2

C 3 4

D 4 2

Dengan menggunakan rumus Euclidean Distance setiap obyek data tersebut

dihitung similaritasnya sebagai berikut :

𝑑(𝑎, 𝑏) = √(|1 − 2|2 + |2 − 1|2) = 1

𝑑(𝑎, 𝑐) = √(|3 − 2|2 + |4 − 1|2) = 3.16

𝑑(𝑎, 𝑑) = √(|4 − 2|2 + |2 − 1|2) = 2.236

𝑑(𝑏, 𝑐) = √(|3 − 1|2 + |4 − 2|2) = 2.82

𝑑(𝑏, 𝑑) = √(|4 − 1|2 + |2 − 2|2) =3

𝑑(𝑐, 𝑑) = √(|4 − 3|2 + |2 − 4|2) = 2.236

Berdasarkan perhitungan tersebut dapat dibentuk similarity matriks seperti

tabel berikut.

Tabel 2. 5 Similarity Matriks

A b C d

A 0 1 3.16 2.236

B 1 0 2.82 3


23

C 3.16 2.82 0 2.236

D 2.236 3 2.236 0

Karena similarity matriks bersifat simetris maka dapat ditulis seperti dibawah

ini dan menjadi matriks jarak:

Tabel 2. 6 Matriks Jarak

A B C D

A 0 1 3.16 2.236

B 0 2.82 3

C 0 2.236

D 0

1. Single linkage

Dari tabel 2.6 jarak obyek yang paling dekat yaitu a dan b,berjarak 1. Kedua obyek

data ini menjadi satu cluster pertama. Kemudian untuk menemukan cluster berikutnya

dicari jarak antar obyek data dari sisa yang ada (c,d) dan berada paling dekat (jarak

minimum) dengan cluster(ab). Untuk pencarian jarak ini pertama digunakan Single

linkage.

𝑑(𝑎𝑏)𝑐 = min{𝑑𝑎𝑐, 𝑑𝑏𝑐} = min{3.16, 2.82} = 2.82

𝑑(𝑎𝑏)𝑑 = min{𝑑𝑎𝑑 , 𝑑𝑏𝑑} = min{2.236, 3} = 2.236

Setelah mendapat cluster ab, baris – baris dan kolom – kolom matriks jarak yang

bersesuaian dengan cluster a dan b dihapus, kemudian ditambahkan baris dan kolom

untuk cluster ab, matriks jarak menjadi seperti berikut :

Tabel 2. 7 Matriks Jarak pertama Single Linkage

Ab C d


24

Ab 0 2.82 2.236

C 0 2.236

D 0

Berdasarkan pada matriks jarak pertama, dipilih kembali jarak terdekat antar

cluster yaitu abd dan cd dengan nilai 2.236. Maka dapat dipilih salah satu dari kedua

nilai tersebut. Dalam contoh ini cluster yang dipilih yaitu cd. Kemudian hitung jarak

cluster cd dengan cluster ab.

𝑑(𝑐𝑑)𝑎𝑏 = min{𝑑𝑐𝑎, 𝑑𝑐𝑏 , 𝑑𝑑𝑎, 𝑑𝑑𝑏} = min{3.16, 2.82, 2.236, 3} = 2.236

Setelah mendapatkan cluster cd, baris – baris dan kolom – kolom matriks jarak

yang bersesuaian dengan cluster c dan d dihapus, kemudian ditambahkan baris dan

kolom untuk cluster cd, sehingga matriks jarak menjadi seperti berikut :

Tabel 2. 8 Matriks Jarak kedua Single Linkage

ab cd

ab 0 2.236

cd 0

Ketika jarak antar cluster tersisa satu maka proses iterasi perhitungan jarak

untuk pembentukan cluster selesai. Jadi cluster ab dan cd digabung agar membentuk

satu cluster yaitu abcd dengan jarak terdekat 2.236. Berikut ini hasil dendrogram AHC

dengan Single linkage:


25

Gambar 2. 2 Dendrogram Single linkage

2. Complete Linkage

Perhitungan jarak dengan Complete Linkage akan dicari jarak antar cluster

dengan yang paling jauh. Dengan tetap menggunakan tabel matriks jarak (tabel

2.7),perhitungan Complete Linkage ini dilakukan. Pada awal perhitungan, cluster ab

tetap digunakan sebagai cluster pertama karena jarak antar obyek yang paling dekat

yaitu 1. Berikut akan dilakukan perhitungan jarak antar cluster ab dengan c dan d.

𝑑(𝑎𝑏)𝑐 = max{𝑑𝑎𝑐, 𝑑𝑏𝑐} = max{3.16, 2.82} = 3.26

𝑑(𝑎𝑏)𝑑 = max{𝑑𝑎𝑑, 𝑑𝑏𝑑} = max{2.236, 3} = 3

Setelah mendapatkan cluster ab,baris-baris dan kolom-kolom matriks jarak

yang bersesuaian dengan cluster a dan b dihapus, kemudian ditambahkan baris dan

kolom untuk cluster ab, sehingga matriks jarak seperti berikut :

Tabel 2. 9 Matriks jarak pertama Complete Linkage

ab c d

ab 0 3.16 3

c 0 2.236

d 0


26

Dari tabel diatas dipilih jarak terdekat antar cluster yaitu 2.236. Kemudian

dihitung jarak dengan cluster ab.

𝑑(𝑐𝑑)𝑎𝑏 = max{𝑑𝑐𝑎, 𝑑𝑐𝑏 , 𝑑𝑑𝑎 , 𝑑𝑑𝑏} = max{3.16, 2.82, 2.236, 3} = 3.16

Setelah mendapat cluster cd, baris – baris dan kolom – kolom matriks jarak

yang bersesuaian dengan cluster c dan d dihapus, kemudian ditambahkan baris dan

kolom untuk cluster cd, sehingga matriks jarak menjadi seperti berikut :

Tabel 2. 10 Matriks Jarak kedua Complete Linkage

ab cd

ab 0 3.16

cd 0

Ketika jarak antar cluster tersisa satu, maka proses iterasi perhitungan jarak

untuk pembentukan cluster selesai. Jadi cluster ab dan cd digabung menjadi satu

cluster yaitu abcd dengan jarak terdekat 3.16. Berikut ini hasil dendrogram AHC

dengan Complete Linkage:

Gambar 2. 3 Dendrogram Complete Linkage

3. Average Linkage

Menggunakan Average Linkage akan dicari jarak antara cluster dengan

menghitung nilai rata-rata pasangan setiap cluster. Dengan tetap menggunakan tabel


27

matriks jarak (tabel 2.7), perhitungan Average Linkage ini dilakukan. Pada awal

perhitungan, cluster ab teta digunakan sebagai cluster pertama karena jarak antar obyek

yang paling dekat. Berikut ini akan dilakukan perhitungan jarak antara cluster ab

dengan c dan d.

𝑑(𝑎𝑏)𝑐 = average{𝑑𝑎𝑐, 𝑑𝑏𝑐} = average{3.16, 2.82} =3.16+2.82

2= 2.99

𝑑(𝑎𝑏)𝑑 = average{𝑑𝑎𝑑, 𝑑𝑏𝑑} = average{2.236, 3} =2.236+3

2= 2.618

Setelah mendapatan cluster ab, baris-baris dan kolom-kolom matriks jarak yang

bersesuaian dengan cluster a dan b dihapus dan ditambahkan baris dan kolom untuk

cluster ab, sehingga matriks jarak menjadi seperti berikut :

Tabel 2. 11 Matriks Jarak pertama Average Linkage

ab c d

ab 0 2.99 2.618

c 0 2.236

d 0

Dari matriks diatas, dipilih kembali jarak terdekat antar cluster. Ditemukan

cluster cd paling dekat, yaitu bernilai 2.236. Kemudian dihitung jarak dengan cluster

ab.

𝑑(𝑐𝑑)𝑎𝑏 = average{𝑑𝑐𝑎, 𝑑𝑐𝑏 , 𝑑𝑑𝑎 , 𝑑𝑑𝑏} = average{3.16, 2.82, 2.236, 3} =

3.16+2.82+2.236+3

4= 2.804

Setelah mendapatan cluster cd, baris – baris dan kolom – kolom matriks jarak

yang bersesuaian dengan cluster c dan d dihapus dan ditambahkan baris dan kolom

untuk cluster cd, sehingga matriks jarak menjadi seperti berikut :

Tabel 2. 12 Matriks Jarak kedua Average Linkage

ab cd


28

ab 0 2.804

cd 0

Ketika jarak antar cluster tersisa satu, maka proses iterasi perhitungan jarak

untuk pembentukan cluster selesai. Jadi cluster ab dan cd digabung menjadi satu

cluster yaitu abcd dengan jarak terdekat 2.804. Berikut ini hasil dendrogram AHC

dengan Average Linkage:

Gambar 2. 4 Dendrogram average linkage

2.5.1 Langkah Algoritma Agglomerative Hierarchical Clustering

Algoritma Agglomerative Hierarchical Clustering untuk mengelompokkan n

obyek adalah sebagai berikut ( Tan, Steinbach dan Kumar,2006 ) :

1. Hitung matriks kedekatan berdasarkan jenis jarak yang digunakan.

2. Ulangi langkat 3 sampai 4, hingga hanya satu kelompok yang tersisa

3. Gabungkan dua cluster terdekat berdasarkan parameter kedekatan yang ditentukan.

4. Perbarui matriks kedekatan untuk merepresentasikan kedekatan diantara kelompok

baru dan kelompok yang tersisa.

5. Selesai


29

2.5.2 Flowchart Agglomerative Hierarchical Clustering

1. Single Linkage

Gambar 2. 5 Flowchart Single Linkage


30

2. Complete Linkage

Gambar 2. 6 Flowchart Complete Linkage


31

3. Average Linkage

Gambar 2. 7 Flowchart Average Linkage


32

2.7 Confusion Matriks

Pada penelitian ini metode evaluasi clustering yang digunakan yaitu metode

external evaluasi. External evaluasi bekerja dengan membandingkan hasil

pengelompokkan sistem dengan label class. Salah satu metode external evaluasi yaitu,

Confusion Matrix.

Confusion Matriks merupakan metode external evaluasi yang berisi informasi

yang actual dan dapat diprediksi (Kohavi dan Provost, 1998), dimana kinerja sistem

dapat di evaluasi menggunakan data dalam matriks. Tabel berikut menunjukkan

Confusion matrix :

Tabel 2. 13 Tabel Confusion Matriks

Predicted

Negatif Positif

Actual Negatif a b

Positif c d

Keterangan :

a : jumlah prediksi yang benar bahwa contoh bersifat negatif

b : jumlah prediksi yang benar bahwa contoh bersifat negatif

c : jumlah prediksi yang benar bahwa contoh bersifat positif

d : jumlah prediksi yang salah bahwa contoh bersifat positif

Perhitungan akurasi dirumuskan sebagai berikut :

𝐴 =𝑎+𝑑

𝑎+𝑏+𝑐+𝑑𝑥100% (2.13)


33

BAB III

METODE PENELITIAN

Bab ini berisi perancangan penelitian yang akan dibuat oleh penulis meliputi

data, kebutuhan system, tahapan penelitian, desain interface, skenario sistem, dan

desain pengujian.

3.1 Data

Pada penelitian ini, data yang digunakan ialah tweet berbahasa Indonesia yang

terdapat pada Twitter. Tweet yang digunakan ialah tweet-tweet yang mengandung

emosi cinta, senang, marah, takut, dan sedih. Dari masing- masing emosi, diambil 100

data per emosi sehingga total tweet yang digunakan sebagai data berjumlah 500 .

Pencarian data dilakukan dengan menggunakan hashtag #cinta, #senang,

#takut, dan #sedih pada website www.netlytic.org. Pemilihan data secara manual yaitu

memilih kalimat-kalimat tweet yang berbahasa Indonesia dan tidak mengandung

gambar. Tweet yang telah dipilih kemudian di simpan ke file teks. Kemudian file teks

tersebut digunakan sebagai input pada sistem untuk diolah lebih lanjut.

Berikut contoh tweet dengan emosi cinta :

Gambar 3. 1 Tweet Cinta


34

Berikut contoh tweet dengan emosi senang :

Gambar 3. 2Tweet Senang

Berikut contoh tweet dengan emosi marah :

Gambar 3. 3 Tweet Marah

Berikut contoh tweet dengan emosi takut :

Gambar 3. 4 Tweet Takut


35

Berikut contoh tweet dengan emosi sedih :

Gambar 3. 5 Tweet Sedih

3.2 Kebutuhan Sistem

Untuk proses membuat sistem digunakan software dan hardware sebagai

berikut :

1. Software

a) Sistem Operasi : Windows 8 64-bit

b) Bahasa Pemograman : Matlab R2010A

2. Hardware

a) Processor : Intel (R) Core(TM) i3-3217U CPU @ 1.8GHz

b) Memory : 2 Gb

c) Harddisk : 500 Gb

3.3 Tahapan Penelitian

3.3.1 Studi Pustaka

Pada Studi Pustaka ini penulis mencantumkan dan menggunakan teori –

teori yang terkait dengan penelitian yang dilakukan,seperti teori Analisis sentimen,

emosi, Preprocessing text( Information Retrieval), Pembobotan kata, Normalisasi,

Agglomerative Hierarchical Clustering, Euclidean Distance, dan Confusion

matriks.


36

3.3.2 Pengumpulan Data

Data yang digunakan pada penelitian ini adalah tweet berbahasa Indonesia

yang ditulis oleh para pengguna Twitter. Tweet yang dikumpulkan berupa tweet

yang berisi emosi cinta, marah, senang, sedih, dan takut.

3.3.3 Pembuatan Alat Uji

Pada tahap ini, akan dirancang suatu alat uji yang dimulai dengan

perancangan interface dan pembuatan alat uji untuk menguji Agglomerative

Hierarchical Clustering untuk mengelompokkan tweet serta mendapatkan akurasi

dari sistem yang telah dibangun.

3.3.4 Pengujian

Pada tahap pengujian ini, data terlebih dahulu di-preprocessing sehingga

dari data yang dihasilkan dapat dilakukan proses clustering. Dari hasil clustering

yang dilakukan, pengujian dilakukan dengan menggunakan Cofusion Matriks.


37

3.4 Desain Interface

Gambar 3. 6 Desain Interface

3.5 Perancangan Struktur Data

Struktur data digunakan untuk mengelola penyimpanan data agar data dapat

diakses sewaktu – waktu jika sedang diperlukan. Pada penelitian ini konsep

struktur data yang digunakan ialah :

a. ArrayList

ArrayList digunakan untuk menampung data tweet. Sebagai contoh dapat

dilihat pada ilustrasi berikut :

[ 𝐷𝑎𝑡𝑎1𝐷𝑎𝑡𝑎2𝐷𝑎𝑡𝑎3𝐷𝑎𝑡𝑎4𝐷𝑎𝑡𝑎5]

Obyek data 1, Data 2, Data 3, Data 4, Data 5 merupakan representasi dari data

tweet yang akan dijelaskan pada tabel berikut :


38

Obyek Atribut

Data 1 Cinta tak kan menuntut kesempurnaan. Cinta kan menerima,

memahami, rela berkorban. Karena seharusnya cinta

membuat mu bahagia

Data 2 Dalam hidup ini berbagi kepada sesama memberi jiwa rasa

damai. Berbagi dengan tulus tanpa pamrih memberikan

perasaan sukacita..

Data 3 Aku patah hati, mas! Sakit sesakit-sakitnya.

Data 4 Resah dan gelisah tanpa arah.

Data 5 Baru ditinggal berapa jam rasanya khawatir.

3.6 Skenario Sistem

3.6.1 Gambaran Umum Sistem

Gambar 3. 7 Block Diagram

Sistem ini digunakan untuk mengetahui tingkat akurasi penggolongan tweet

berdasarkan emosi dengan menggunakan metode Agglomerative Hierarchical

Clustering. Langkahnya adalah melalui data tweet yang berekstensi .txt. Teks akan

mengalami tahap preprocessing yang terdiri dari Tokenizing, stopword, dan

stemming. Tahap kedua yaitu tahap pembobotan kata menggunakan TF-IDF untuk

menentukan nilai frekuensi dari dokumen, serta melakukan penggabungan kata


39

(sinonim), jika ditemukan kata yang berbeda namun memiliki makna yang sama

maka gabungkan menjadi satu kata. Setelah mendapatkan bobot, maka hasil

pembobotan di normalisasi. Pada tahap normalisasi ini peneliti menggunakan

normalisasi Min-Max dan Z-Score, dilakukan dua macam normalisasi agar

mendapatkan metode yang lebih optimal pada penelitian ini. Tahap selanjutnya

yaitu menentukan kedekatan data emosi (cinta, senang, sedih, marah,dan takut)

dengan metode Agglomerative Hierarchical Clustering menggunakan Euclidean

Distance. Tahap terakhir adalah proses perhitungan akurasi menggunakan

Confusion matriks.

Setelah menemukan hasil akurasi serta pengelompokkan selanjutnya sistem

melakukan proses input data baru, yang berfungsi untuk mengetahui data baru

termasuk dalam cluster emosi yang mana. Maka data baru dapat dikategorikan

termasuk salah satu dari emosi yang ada.

3.5.1.1 Tahap Preprocessing

Tahap preprocessing meliputi tahap Tokenizing, stopword removal, dan

stemming. Sistem akan menghapus link url, username, dan tanda retweet. Sistem

akan mengubah kata tidak baku atau kata yang disingkat menjadi kata yang baku.

Sistem juga akan mengambil kata yang diawali tanda pagar (hashtag).

Penjelasan tahap preprocessing adalah sebagai berikut:

a. Tokenizing

Pada tahap ini sistem akan memotong dokumen menjadi potongan-

potongan kecil yang disebut token dan terkadang disertai langkah untuk membuang

karakter tertentu seperti tanda baca (Manning,Raghavan,dan Schutze, 2009).

Langkah-Langkah Tokenizing :

1. Baca tiap baris pada file text sebagai satu tweet

2. Ambil tiap token pada kalimat tweet dengan menggunakan spasi sebagai

pemisah antara satu token dengan token lain.

3. Simpan tiap kalimat tweet yang terdiri dari token penyusun.


40

Berikut contoh Tokenizing terhadap kalimat tweet cinta, senang, marah, sedih, dan

takut :

- Tokenizing tweet cinta

-

Gambar 3. 8 Tokenizing tweet cinta

- Tokenizing tweet senang

Gambar 3. 9 Tokenizing tweet senang

- Tokenizing tweet marah

Gambar 3. 10 Tokenizing tweet marah


41

- Tokenizing tweet takut

Gambar 3. 11 Tokenizing tweet takut

- Tokenizing tweet sedih

Gambar 3. 12 Tokenizing tweet sedih

b. Stopword

Setelah mengalami proses tokenizing , kemudian data tweet diolah melalui

proses stopword. Dalam proses stopword, kata-kata yang penting akan disaring

sehingga kata yang tidak relevan dapat dibuang.

Langkah – langkah stopword :

1. Baca data hasil tokenizing

2. Cek setiap kata hasil tokenizing dengan stoplist

3.Jika kata pada hasil tokenizing sama dengan kata pada stoplist, maka kata tersebut

dihapus.

4.Jika tidak maka kata akan disimpan.

Maka dibawah ini merupakan contoh tweet yang mengandung emosi cinta,

senang, marah, sedih , dan takut yang mengalami proses stopword.


42

Gambar 3. 13 Stopword tweet cinta

Gambar 3. 14 Stopword tweet senang

Gambar 3. 15 Stopword tweet marah


43

Gambar 3. 16 Stopword tweet sedih

Gambar 3. 17 Stopword tweet takut

c. Stemming

Setelah mengalami proses stopword, proses selanjutnya ialah proses

stemming dimana mencari kata dasar dari data tweet. Stemming dilakukan dengan

menghilangkan awalan dan akhiran. Berikut langkah – langkah stemming :

1. Baca tiap kata dan cek dengan kata pada kamus kata dasar.

2. Jika kata sama dengan kata pada daftar kamus kata dasar, maka kata tersebut

adalah kata dasar.

3. Jika kata tidak sama dengan kata pada daftar kamus kata dasar, hapus

akhiran dan awalan pada kata.

4. Cek hasil langkah ke 3 dengan kata pada daftar kamus kata dasar, jika tidak

sama dengan, anggap kata sebelum dikenali langkah 3 sebagai kata dasar.

Dibawah ini merupakan contoh data tweet yang mengalami proses

stemming:


44

Gambar 3. 18 Stemming tweet cinta

Gambar 3. 19 Stemming tweet senang

Gambar 3. 20 Stemming tweet marah

Gambar 3. 21 Stemming tweet sedih


45

Gambar 3. 22 Stemming tweet takut

3.5.1.2 Tahap Pembobotan dan Penggabungan Sinonim Kata

Setelah data melewati proses preprocessing, langkah selanjutnya ialah

tahap pembobotan. Tahap pembobotan ini bertujuan untuk memberi nilai frekuensi

suatu kata sebagai bobot yang nantinya dapat di proses pada Agglomerative

Hierarchical Clustering. Langkah pertama ialah menghitung nilai term frequency

tiap kata. Langkah kedua yaitu menghitung nilai document frequency tiap kata.

Langkah ketiga yaitu menghitung inverse document frequency. Langkah terakhir

yaitu menghitung bobot atau weight dari hasil perkalian term frequency dikalikan

dengan inverse document frequency. Berikut contoh proses pembobotan kata :

a. Menghitung term frequency

Gambar 3. 23 TF tweet cinta


46

Gambar 3.23 merupakan contoh kalimat tweet yang mengalami proses

penghitungan term frequency. Kalimat tweet yang digunakan pada diatas adalah

tweet yang mengandung emosi cinta.

Gambar 3. 24 TF tweet senang



tweet yang mengandung emosi senang.

Gambar 3. 25 TF tweet marah



tweet yang mengandung emosi marah.

Gambar 3. 26 TF tweet sedih


47



tweet yang mengandung emosi sedih.

Gambar 3. 27 TF tweet takut



tweet yang mengandung emosi takut.

b. Menghitung document frequency

Tabel 3. 1 Tabel menghitung df

No Kata df

1. Cinta 2

2. Sayang 3

3. Ikhlas 1

4. Enak 1

5. Muak 1

6. Sifat 1

7. Selamat 1

8. Sore 1

9. Rumah 1

10. Suasana 1

11. Duka 1

12. Pergi 1

13. Mamah 1


48

14. Sedih 1

15. Ajak 1

16. Nonton 1

17. Horror 1

18. Indonesia 1

19. takut 1

Pada tabel 3.1 merupakan contoh perhitungan document frequency,

document frequency merupakan banyaknya bobot yang terkandung dalam seluruh

data tweet.

c. Menghitung inverse document frequency

Tabel 3. 2 idf

No Kata df Idf

1. Cinta 2 0.397940009

2. Sayang 3 0.22184875

3. Ikhlas 1 0.698970004

4. Enak 1 0.698970004

5. Muak 1 0.698970004

6. Sifat 1 0.698970004

7. Selamat 1 0.698970004

8. Sore 1 0.698970004

9. Rumah 1 0.698970004

10. Suasana 1 0.698970004

11. Duka 1 0.698970004

12. Pergi 1 0.698970004

13. Mamah 1 0.698970004

14. Sedih 1 0.698970004

15. Ajak 1 0.698970004

16. Nonton 1 0.698970004

17. Horror 1 0.698970004


49

18. Indonesia 1 0.698970004

19. Takut 1 0.698970004

Pada tabel 3.2 merupakan contoh perhitungan inverse document frequency.

d. Menghitung bobot atau weight

Setelah menghitung TF dan IDF, langkah selanjutnya ialah menghitung

bobot (Wij) yang terdapat pada masing – masing tweet. Dimana bobot ialah hasil

perkalian term frequency dengan inverse document frequency. Berikut merupakan

contoh perhitungan bobot data tweet :

Hitung bobot (Wij) tweet cinta

Tabel 3. 3 Hitung Wij Tweet Cinta

Kata tf idf Wij

Cinta 2 0.397940009 0.795880018

Sayang 3 0.22184875 0.66554625

Total 1.461426268

Pada tabel 3.3 menunjukkan conntoh perhitungan bobot yang

terkandung dalam tweet. Tweet yang digunakan pada gambar diatas adalah

tweet yang mengandung emosi cinta.

Hitung bobot (Wij) tweet senang

Tabel 3. 4 Hitung Wij Tweet Senang

Kata TF Idf Wij

Ikhlas 1 0.698970004 0.698970004

Enak 1 0.698970004 0.698970004

Total 1.397940008


50

Pada tabel 3.4 menunjukkan conntoh perhitungan bobot yang terkandung

dalam tweet. Tweet yang digunakan pada gambar diatas adalah tweet yang

mengandung emosi senang.

Hitung bobot (Wij) tweet marah

Tabel 3. 5 Hitung Wij Tweet Marah

Kata TF Idf Wij

Muak 1 0.698970004 0.698970004

Sifat 1 0.698970004 0.698970004

Total 1.397940008



mengandung emosi marah.

Hitung bobot (Wij) tweet sedih

Tabel 3. 6 Hitung Wij Tweet Sedih

Kata TF Idf Wij

Selamat 1 0.698970004 0.698970004

Sore 1 0.698970004 0.698970004

Rumah 1 0.698970004 0.698970004

Suasana 1 0.698970004 0.698970004

Duka 1 0.698970004 0.698970004

Pergi 1 0.698970004 0.698970004

Mamah 1 0.698970004 0.698970004

Sedih 1 0.698970004 0.698970004

Total 5.591760032


51



mengandung emosi sedih.

Hitung bobot (Wij) tweet takut

Tabel 3. 7 Hitung Wij tweet takut

Kata TF Idf Wij

Ajak 1 0.698970004 0.698970004

Nonton 1 0.698970004 0.698970004

Horror 1 0.698970004 0.698970004

Indonesia 1 0.698970004 0.698970004

Takut 1 0.698970004 0.698970004

Total 3.49485002



mengandung emosi takut.

e. Penggabungan Kata (Sinonim)

Menurut Kamus Besar Bahasa Indonesia (KBBI) sinonim adalah bahasa

yang maknanya mirip, maka pada proses penggabungan kata dapat dilakukan ketika

terdapat kata berbeda namun memiliki makna yang sama, dapat digabungkan

menjadi satu kata, tanpa mengubah nilai frekuensi.

Berikut contoh kata yang mengalami proses penggabungan kata :

Tabel 3. 8 Tabel contoh data belum mengalami proses penggabungan

Kata TF

Riang 1

Gembira 1

Senang 1


52

Senank 1

Umpat 1

Kesel 1

Kesal 1

Tabel 3. 9 Tabel contoh data setelah penggabungan

Kata TF

Gembira 3

Kesal 3

3.5.1.3 Tahap Normalisasi

Setelah data diproses melalui tahap preprocessing, data selanjutnya di

normalisasi. Normalisasi pada penelitian ini menggunakan normalisasi min-max

dan normalisasi Z-Score.

a) Normalisasi Min-max

Tabel 3. 10 Tabel Contoh data pembobotan

Kata

Cinta senang Kesal Takut Sedih

Tweet 1 1.397940 0 0 0 0

Tweet 2 1.397940 0.698970 0 0 0

Tweet 3 0 2.096910 0 0 0

Tweet 4 0 1.397940 0 0 0

Tweet 5 0 0 1.397940 0 0

Tweet 6 0 0 0.698970 0 0

Tweet 7 0 0 0 0.698970 0

Tweet 8 0 0 0 1.397940 0

Tweet 9 0 0 0 0 1.39794

Tweet

10 0 0 0 0 1.39794


53

Pada tabel 3.10 terdapat bobot yang dominan dibandingkan bobot-bobot

lain. Pada contoh diatas, bobot yang dianggap dominan adalah bobot yang paling

banyak muncul. Bobot dominan diitunjukkan dengan warna biru.

Langkah – Langkah Normalisasi Min-max :

1. Cari masing – masing nilai terkecil (min) dan nilai terbesar (max) pada

setiap kata.

Tabel 3. 11 Tabel Min-max

cinta Senang kesal takut Sedih

Min 0 0 0 0 0

Max 1.397940 2.096910 1.397940 1.397940 1.39794

Tabel 3.11 menunjukkan nilai terkecil dan nilai terbesar pada data. Nilai

terkecil dan terbesar digunakan pada normalisasi min-max.

2. Hitung nilai bobot baru :

𝑋𝑛 =𝑋0−𝑋𝑚𝑖𝑛

𝑋𝑚𝑎𝑥−𝑋𝑚𝑖𝑛 (3.1)

Tabel 3. 12 Tabel data hasil normalisasi min - max

Kata

Cinta Senang kesal Takut Sedih

Tweet 1 1 0 0 0 0

Tweet 2 1 0,3333 0 0 0

Tweet 3 0 1 0 0 0

Tweet 4 0 0,6667 0 0 0

Tweet 5 0 0 1 0 0

Tweet 6 0 0 0,5 0 0

Tweet 7 0 0 0 0,5 0

Tweet 8 0 0 0 1 0

Tweet 9 0 0 0 0 1

Tweet 10 0 0 0 0 1


54

Tabel 3.12 menunjukkan hasil hitung bobot baru menggunakan normalisasi

min-max. Bobot baru ditunjukkan dengan warna biru.

b) Normalisasi Z-Score

Normalisasi Z-Score digunakan supaya kata hasil pembobotan data dapat

dibandingkan. Dibawah ini merupakan langkah – langkah untuk mendapatkan hasil

normalisasi Z-Score.

1. Hasil pembobotan setelah proses preprocessing

Tabel 3.10 Tabel contoh data pembobotan

Kata

Cinta senang kesal Takut Sedih

Tweet 1 1.397940 0 0 0 0

Tweet 2 1.397940 0.698970 0 0 0

Tweet 3 0 2.096910 0 0 0

Tweet 4 0 1.397940 0 0 0

Tweet 5 0 0 1.397940 0 0

Tweet 6 0 0 0.698970 0 0

Tweet 7 0 0 0 0.698970 0

Tweet 8 0 0 0 1.397940 0

Tweet 9 0 0 0 0 1.39794

Tweet 10 0 0 0 0 1.39794

Pada tabel 3.10 terdapat bobot yang dominan dibandingkan bobot-bobot

lain. Pada contoh diatas, bobot yang dianggap dominan adalah bobot yang paling

banyak muncul. Bobot dominan diitunjukkan dengan warna biru..


55

2. Mencari nilai rata-rata dari masing – masing data tweet.

Tabel 3. 13 Tabel Rata - Rata

Rata – rata

Tweet 1 0.279588

Tweet 2 0.419382

Tweet 3 0.419382

Tweet 4 0.279588

Tweet 5 0.279588

Tweet 6 0.139794

Tweet 7 0.139794

Tweet 8 0.279588

Tweet 9 0.279588

Tweet 10 0.279588

Rata-rata

total 0,279588

Tabel 3.13 menunjukkan hasil perhitungan rata-rata setiap kalimat tweet.

Kemudian dicari total rata-rata tweet untuk dapat diproses pada tahap normalisasi

3. Mencari nilai standar deviasi dari masing – masing tweet.

Tabel 3. 14 Tabel Standar Deviasi

Standar Deviasi

Standar

deviasi

0,564853063

Pada tabel 3.14 dicari standar deviasi dari semua data untuk dapat diproses

pada tahap normalisasi.


56

4. Hasil Normalisasi

Perhitungan rumus yang telah dipaparkan pada bab sebelumnya pada persamaan

2.6.

Tabel 3. 15 Hasil Normalisasi Zscore

Kata

cinta Senang kesal Takut Sedih

Tweet 1 1,39794 -0,49497 -0,49497 -0,49497 -0,49497

Tweet 2 1,39794 0,69897 -0,49497 -0,49497 -0,49497

Tweet 3 -0,49497 2,09691 -0,49497 -0,49497 -0,49497

Tweet 4 -0,49497 1,39794 -0,49497 -0,49497 -0,49497

Tweet 5 -0,49497 -0,49497 1,39794 -0,49497 -0,49497

Tweet 6 -0,49497 -0,49497 0,69897 -0,49497 -0,49497

Tweet 7 -0,49497 -0,49497 -0,49497 0,69897 -0,49497

Tweet 8 -0,49497 -0,49497 -0,49497 1,39794 -0,49497

Tweet 9 -0,49497 -0,49497 -0,49497 -0,49497 1,39794

Tweet 10 -0,49497 -0,49497 -0,49497 -0,49497 1,39794

Tabel 3.15 Menunjukkan hasil normalisasi menggunakan Z-Score. Bobot

baru ditunjukkan dengan warna biru.

3.5.1.4 Agglomerative Hierarchical Clustering

Setelah data dinormalisasi, data kemudian masuk pada tahap clustering.

Pengelompokkan pada penelitian ini menggunakan Agglomerative Hierarchical

Clustering (AHC). Matriks jarak dihitung dengan menggunakan Cosine Similarity.

Masing-masing data akan dikelompokkan berdasarkan karakteristik kedekatannya.

Proses pengelompokkan ini akan menggunakan tiga metode yaitu, single linkage,

complete linkage, dan average linkage. Berikut langkah – langkah pengelompokkan

menggunakan AHC.


57

1. Hitung matriks jarak menggunakan Cosine Similarity

a. Hasil Normalisasi min – max

Tabel 3.12 Tabel data hasil normalisasi min – max

Kata

Cinta Senang kesal Takut Sedih

Tweet 1 1 0 0 0 0

Tweet 2 1 0,3333 0 0 0

Tweet 3 0 1 0 0 0

Tweet 4 0 0,6667 0 0 0

Tweet 5 0 0 1 0 0

Tweet 6 0 0 0,5 0 0

Tweet 7 0 0 0 0,5 0

Tweet 8 0 0 0 1 0

Tweet 9 0 0 0 0 1

Tweet 10 0 0 0 0 1

Tabel 3.12 menunjukkan hasil hitung bobot baru menggunakan normalisasi

min-max. Bobot baru ditunjukkan dengan warna biru.

Hasil matriks jarak dari normalisasi min-max :

Tabel 3. 16 Tabel hasil matriks jarak dari normalisasi min - max

Tweet

1

Tweet

2

Tweet

3

Tweet

4

Tweet

5

Tweet

6

Tweet

7

Tweet

8

Tweet

9

Tweet

10

Tweet

1

0 0,333 1,414 1,202 1,414 1,118 1,118 1,414 1,414 1,414

tweet

2

0 1,202 1,054 1,453 1,167 1,167 1,453 1,453 1,453

tweet

3

0 0,333 1,414 1,118 1,118 1,414 1,414 1,414

tweet

4

0 1,202 0,833 0,833 1,202 1,202 1,202

tweet

5

0 0,500 1,118 1,414 1,414 1,414

tweet

6

0 0,707 1,118 1,118 1,118


58

tweet

7

0 0,500 1,118 1,118

tweet

8

0 1,414 1,414

tweet

9

0 0

tweet

10

0

b. Hasil Normalisasi Z-Score

Tabel 3.15 Hasil Normalisasi ZSscore

Kata

cinta Senang kesal Takut Sedih

Tweet 1 1,39794 -0,49497 -0,49497 -0,49497 -0,49497

Tweet 2 1,39794 0,69897 -0,49497 -0,49497 -0,49497

Tweet 3 -0,49497 2,09691 -0,49497 -0,49497 -0,49497

Tweet 4 -0,49497 1,39794 -0,49497 -0,49497 -0,49497

Tweet 5 -0,49497 -0,49497 1,39794 -0,49497 -0,49497

Tweet 6 -0,49497 -0,49497 0,69897 -0,49497 -0,49497

Tweet 7 -0,49497 -0,49497 -0,49497 0,69897 -0,49497

Tweet 8 -0,49497 -0,49497 -0,49497 1,39794 -0,49497

Tweet 9 -0,49497 -0,49497 -0,49497 -0,49497 1,39794

Tweet 10 -0,49497 -0,49497 -0,49497 -0,49497 1,39794

Tabel 3.15 Menunjukkan hasil normalisasi menggunakan Z-Score. Bobot

baru ditunjukkan dengan warna biru.


59

Hasil matriks jarak dari normalisasi Z-Score:

Tabel 3. 17 Hasil matriks jarak normalisasi Z-Score

Tweet

1

Tweet

2

Tweet

3

Tweet

4

Tweet

5

Tweet

6

Tweet

7

Tweet

8

Tweet

9

Tweet

10

Tweet

1 1,000 0,767

-

0,185

-

0,221

-

0,221

-

0,146

-

0,146

-

0,221

-

0,221

-

0,221

tweet

2

1,000 0,365 0,334

-

0,406

-

0,414

-

0,414

-

0,406

-

0,406

-

0,406

tweet

3

1,000 0,985

-

0,250

-

0,231

-

0,231

-

0,250

-

0,250

-

0,250

tweet

4

1,000

-

0,221

-

0,146

-

0,146

-

0,221

-

0,221

-

0,221

tweet

5

1,000 0,943

-

0,146

-

0,221

-

0,221

-

0,221

tweet

6

1,000 0,029

-

0,146

-

0,146

-

0,146

tweet

7

1,000 0,943

-

0,146

-

0,146

tweet

8

1,000

-

0,221

-

0,221

tweet

9

1,000 1,000

tweet

10

1,000

2. Setelah didapatkan matriks jarak, kemudian melakukan perhitungan AHC

seperti yang dapat dilihat dalam bab ke dua pada tulisan ini. Dengan

menggunakan matlab, data sample pada tabel 3.16 menghasilkan dendrogram

seperti berikut :


60

a. Hasil data normalisasi min – max

Gambar 3. 28 Data min – max Single linkage

Gambar 3. 29 Data min – max Complete linkage


61

Gambar 3. 30 Data min – max average linkage

Berikut source code matlab yang digunakan untuk menghasilkan gambar

dendrogram diatas :

Gambar 3. 31 Source code AHC min –max


62

b. Hasil data normalisasi Z-Score

Gambar 3. 32 Data Z-Score Single linkage

Gambar 3. 33 Data Z-Score Complete linkage


63

Gambar 3. 34 Data Z-Score Average linkage

Berikut source code matlab yang digunakan untuk menghasilkan gambar

dendrogram diatas :

Gambar 3. 35 Source code AHC Z-Score


64

3. Hasil Cluster

a. Hasil cluster menggunakan normalisasi Z-Score

Tabel 3. 18 Hasil max cluster 5 single linkage- Z-Score

Cluster

1

Cluster

2

Cluster

3

Cluster

4

Cluster 5

Tweet 7 Tweet 5 Tweet 1 Tweet 3 Tweet 9


Tabel 3. 19 Hasil max cluster 5 complete linkage- Z-Score

Cluster

1

Cluster

2

Cluster 3 Cluster

4

Cluster 5



Tabel 3. 20 Hasil max cluster 5 average linkage- Z-Score

Cluster

1

Cluster 2 Cluster 3 Cluster

4

Cluster 5



b. Hasil cluster menggunakan normalisasi Min - Max

Tabel 3. 21 Hasil max cluster 5 single linkage- Min - Max

Cluster

1

Cluster

2

Cluster

3

Cluster

4

Cluster 5




65

Tabel 3. 22 Hasil max cluster 5 complete linkage- Min - Max

Cluster

1

Cluster

2

Cluster

3

Cluster

4

Cluster 5



Tabel 3. 23 Hasil max cluster 5 average linkage- Min - Max

Cluster

1

Cluster

2

Cluster

3

Cluster

4

Cluster 5



3.5.1.5 Tahap Hitung Akurasi

Setelah dendrogram ditampilkan, maka pengujian akurasi dilakukan agar

dapat mengetahui keakuratan hasil pengelompokkan. Pada pengujian akurasi

menggunakan confusion matriks. Confusion matriks digunakan untuk mengetahui

seberapa besar keberhasilan sistem. Confusion matriks dipilih sebagai alat ukur

evaluasi karena data yang digunakan dalam penelitian ini sudah memiliki label.

Confusion matriks juga dapat memudahkan dalam menganalisa hasil dan

memudahkan dalam melihat suatu permodelan antara 2 class yaitu class prediksi

dan class actual.

Berikut langkah – langkah uji akurasi :

1. Baca label aktual tweet.

2. Baca label tweet hasil prediksi

3. Representasikan label aktual dan prediksi ke dalam confusion matriks

4. Hitung akurasi dengan cara membagi jumlah tweet yang benar dikenali

dengan jumlah seluruh data kemudian dikalikan dengan 100%.

Berikut perbandingan Cluster hasil prediksi dan label aktual :


66

Tabel 3. 24 Tabel perbandingan cluster hasil prediksi dan label aktual

Prediksi Aktual

Tweet 1 3 4

Tweet 2 3 4

Tweet 3 4 3

Tweet 4 4 3

Tweet 5 2 2

Tweet 6 2 2

Tweet 7 1 1

Tweet 8 1 1

Tweet 9 5 5

Tweet

10

5 5

Berikut adalah contoh tabel confusion matriks dari perhitungan sebelumnya

(data yang dinormalisasi menggunakan Z-Score dengan menggunakan single

linkage):

Tabel 3. 25 Tabel Confusion matriks

Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5

Cluster 1 2

Cluster 2 2

Cluster 3 0 2

Cluster 4 2 0

Cluster 5 2

Akurasi = 60

10𝑥100% = 60%


67

3.7 Desain Pengujian

Pengujian yang dilakukan pada penelitian ini menggunakan tiga macam

pendekatan yaitu pengujian tanpa menggunakan normalisasi, pengujian

menggunakan normalisasi z-score, dan pengujian menggunakan normalisasi min-

max. Pengujian – pengujian tersebut dikombinasikan dengan batas atas,batas

bawah, perhitungan jarak, dan metode AHC. Perbedaan perlakuan pada saat

pengujian dilakukan untuk menemukan perlakuan yang paling optimal untuk

mendapatkan hasil akurasi tertinggi.

a. Pengujian Tanpa normalisasi

Pengujian dilakukan tanpa menggunakan tahap normalisasi data. Nilai

parameter yang diubah-ubah pada pengujian ini yaitu batas minimal

kemunculan kata pada keseluruhan dokumen.

b. Pengujian menggunakan normalisasi min - max

Pengujian dilakukan menggunakan normalisasi min - max. Nilai bobot yang

diubah pada penelitian ini ialah nilai bobot yang mendominasi.

c. Pengujian menggunakan normalisasi Z-Score

Pengujian dilakukan menggunakan normalisasi Z-Score. Nilai bobot yang

diubah pada penelitian ini ialah nilai bobot yang mendominasi.


68

BAB IV

HASIL DAN ANALISIS HASIL

Bab ini berisi mengenai implementasi, hasil dan analisis hasil dari

metodologi yang dibahas pada bab sebelumnya.

4.1 Implementasi

4.1.1 Data

Data yang digunakan ialah data berekstensi .txt diambil dari tweet yang

bersumber dari netlytic.org. Tweet yang diambil merupakan tweet yang memiliki

emosi yaitu cinta, senang, sedih, takut, dan marah. Tweet yang digunakan sebanyak

500 data. Berikut kumpulan data dan contoh data tweet :

Gambar 4. 1 Kumpulan Data


69

Gambar 4. 2 Contoh Data

4.1.2 Preprocessing

Preprocessing merupakan tahap awal dalam proses agglomerative

hierarchical clustering. Pada tahap ini data mentah berupa teks kumpulan tweet

akan diubah menjadi data yang memiliki nilai bobot, sehingga dapat diproses pada

tahap selanjutnya. Tahap preprocessing adalah sebagai berikut :

1. Tokenizing

Tokenizing bertujuan untuk memecah kalimat menjadi per kata dengan

memanfaatkan karakter spasi sebagai pemisah setiap kata. Tahap pertama ialah

sistem akan membaca data tweet, lalu data tersebut dipisah menjadi per kata,

selanjutnya data tweet diubah menjadi huruf kecil (lowercase), selanjutnya karakter

yang terdiri dari tanda baca dan angka dihapus. Gambar berikut menunjukkan

potongan source code proses tokenizing :

Gambar 4. 3 Source code Tokenizing (Rarasati,2015 )

2. Stopword

Proses stopword bertujuan untuk menghilangkan kata – kata umum yang

sering muncul. Sistem akan mengambil data dari file stopwords.txt, kemudian

sistem akan mengecek apakah data pada file stopword.txt ada di data tweet, jika ada

kata yang terkandung dalam data tweet tersebut maka kata tersebut akan dihapus.


70

Gambar 4. 4 Source code Stopword (Rarasati, 2015)

3. Stemming

Proses stemming ialah mencari kata dasar dengan menghilangkan imbuhan

pada suatu kata. Proses dilakukan dengan menghapus awalan dan akhiran . Dalam

proses ini, program dibantu dengan kamus kata dasar. Berikut merupakan

implementasi program stemming :

Gambar 4. 5 Source code Stemming (Rarasati,2015)

4. Penanganan Sinonim

Kata yang terkandung di dalam data tweet mengandung kata umum yang

sering digunakan, oleh karena itu proses penanganan sinonim ini dilakukan untuk

mendeteksi kata yang memiliki makna sama pada tweet. Berikut implementasi

penanganan sinonim :


71

Gambar 4. 6 Kamus Kata Sinonim

Gambar 4. 7 Source code Penanganan Sinonim (Rarasati, 2015)

Pada gambar 4.7 merupakan implementasi tahap penanganan sinonim. Pada

penanganan sinonim ini sistem akan membandingkan data tweet dengan kamus

sinonim, jika data tweet terdapat dalam kamus sinonim, maka sistem akan

mengenali sebagai kata unik.

5. Pembobotan

Tahap selanjutnya ialah tahap pembobotan menggunakan tf-idf, dimana

pada tahap ini akan menghitung bobot tweet yaitu pertama menghitung frekuensi

kata dari tiap kata pada tiap tweet kemudian mengalikannya dengan idf. Berikut

implementasi pembobotan tf-idf :


72

Gambar 4. 8 Source code Pembobotan (Rarasati,2015)

6. Normalisasi

Setelah menghitung bobot kata tiap tweet, selanjutnya data di normalisasi.

Normalisasi dilakukan agar tidak ada nilai yang mendominasi. Normalisasi yang

digunakan yaitu normalisasi Z-Score dan normalisasi min – max. Normalisasi ini

dilakukan terpisah untuk mengetahui normalisasi yang lebih cocok pada penelitian

ini.

a. Normalisasi Min – Max

Berikut implementasi normalisasi min- max :

Gambar 4. 9 Source code Normalisasi Min – Max

b. Normalisasi Z-Score

Berikut implementasi normalisasi Z-Score :


73

Gambar 4. 10 Source code Normalisasi Z-Score

4.1.3 Pengujian Sistem

1. Perhitungan Jarak

Setelah data dinormalisasi, selanjutnya dilakukan perhitungan jarak antar

setiap data tweet. Perhitungan jarak yang digunakan ialah perhitungan jarak

menggunakan euclidean distance dan perhitungan jarak menggunakan cosine

similarity. Perhitungan jarak ini dilakukan terpisah agar mengetahui perhitungan

jarak yang cocok untuk penelitian ini.

a. Euclidean distance

Berikut implementasi perhitungan jarak menggunakan euclidean distance

Gambar 4. 11 Source code Hitung Jarak Euclidean

b. Cosine similarity

Berikut implementasi perhitungan jarak menggunakan cosine similarity


74

Gambar 4. 12 Source code Hitung Jarak Cosine

2. Agglomerative Hierarchical Clustering

Setelah mengukur jarak setiap tweet, selanjutnya data akan dikelompokkan

menggunakan Agglomerative hierarchical clustering. Agglomerative hierarchical

clustering dibagi menjadi tiga metode yaitu single linkage , complete linkage, dan

average linkage. Metode pengelompokkan AHC ini dilakukan terpisah agar

mengetahui metode yang cocok untuk penelitian ini. Berikut implementasi AHC :


75


76

Gambar 4. 13 Source code AHC

3. Output

Hasil setiap metode AHC akan ditampilkan dalam tabel yang berisi hasil

prediksi dan dendrogram.

Gambar 4. 14 Gambar Output Hasil


77

4. Akurasi

Pada penelitian ini, perhitungan akurasi yang digunakan ialah Confusion

Matrix. Hasil prediksi akan dibandingkan dengan label aktual. Banyaknya

kecocokan antara prediksi dan label aktual akan mempengaruhi tingkat akurasi

sistem. Berikut implementasi proses perhitungan Confusion Matrix :

Gambar 4. 15 Source code Confusion Matrix

Gambar 4. 16 Hasil Implementasi Confusion Matrix


78

4.1.4 Pengujian Data Baru

Pada pengujian data baru data yang diuji ialah data tweet yang tidak

digunakan untuk data training pada proses sebelumnya. Data baru tersebut diproses

melalui tahap preprocessing, kemudian program akan menentukan tweet termasuk

pada cluster cinta, marah, senang, sedih, atau takut. Penentuan pengelompokkan

dilakukan dengan cara mengukur jarak kedekatan antara data baru dengan centroid

tiap cluster.

Gambar 4.17 menunjukkan contoh tweet yang digunakan sebagai data baru.

Menurut prediksi, data baru termasuk dalam cluster cinta. Hasil prediksi

ditunjukkan pada Gambar 4.18.

Gambar 4. 17 Contoh Tweet Uji

Gambar 4. 18 Hasil Tweet Uji


79

4.2 Hasil & Analisis Hasil

Pada penelitian ini, data yang digunakan sebanyak 500 data tweet dari 100

data masing – masing emosi. Untuk pengelompokkan tweet, tahap pertama yang

dilakukan ialah preprocessing. Preprocessing terdiri dari tokenizing untuk

memisahkan kalimat tweet menjadi tiap - tiap kata dan menghilangkan tanda baca,

stopword untuk menghapus kata yang umum, stemming untuk mencari kata dasar

dari kata berimbuhan. Setelah melakukan stemming, kata – kata unik yang tersaring

akan diberi bobot menggunakan pembobotan TF-IDF. Pembobotan ini bertujuan

menghitung frekuensi kemunculan kata pada tiap data tweet, sehingga kata yang

lebih sering muncul pada suatu tweet dianggap lebih penting. Frekuensi

kemunculan kata unik perlu dibatasi. Kemudian melakukan proses normalisasi data,

pada penelitian ini menggunakan normalisasi min - max dan normalisasi z-score.

Hal ini dilakukan agar dapat mengetahui normalisasi yang paling optimal. Setelah

melakukan normalisasi data, kemudian masuk pada proses Agglomerative

Hierarchical Clustering (AHC) dalam tiga metode(single linkage, complete

linkage, average linkage). Masing – masing metode menggunakan euclidean

distance dan cosine similarity untuk perhitungan jarak. Sejalan dengan proses

AHC, setiap pengelompokkan diuji dengan Confusion Matrix, dimana data prediksi

dibandingkan dengan data actual kemudian dikalikan dengan 100%.

Berikut langkah – langkah percobaan yang dilakukan :

1. Menentukan jumlah cluster=5. Sesuai dengan emosi yang telah ditentukan.

2. Data tweet=500

3. Menginputkan batas atas dan batas bawah yang pada akhirnya sangat

menentukan tingkat akurasi

4. Memilih normalisasi (min – max atau z-score)

5. Memilih perhitungan jarak (euclidean distance atau cosine similarity)

6. Memilih metode AHC (single linkage, complete linkage, average linkage)


80

Sebelum masuk pada tahap normalisasi, frekuensi kemunculan kata perlu

dibatasi. Frekuensi kemunculan kata dengan batas atas = 85 dan batas bawah = 2

menghasilkan pengelompokkan yang baik sehingga batas atas = 85 dan batas bawah

= 2 digunakan untuk percobaan ini. Hasil dari percobaan dapat dilihat pada tabel

dan gambar berikut :

1. Percobaan tanpa normalisasi

Tabel 4. 1 Tabel Percobaan tanpa normalisasi dengan batas atas = 85 dan batas

bawah =2

No Perhitungan Jarak AHC Akurasi

1. Euclidean Distance Average Linkage 34.4

2. Euclidean Distance Single Linkage 34.4

3. Euclidean Distance Complete Linkage 34.4

4. Cosine Similarity Average Linkage 21.4

5. Cosine Similarity Single Linkage 20.2

6. Cosine Similarity Complete Linkage 21.8

Gambar 4. 19 Grafik percobaan tanpa normalisasi

15

19

23

27

31

35

euclidean -average

euclidean -single

euclidean -complete

cosine -average

cosine -single cosine -complete

Akura

si

Perhitungan jarak - Metode AHC

Percobaan Tanpa Normalisasi dengan batas atas = 85 dan

batas bawah = 2

Tanpa Normalisasi 2 3


81

Tabel 4.1 menunjukkan hasil percobaan tanpa menggunakan normalisasi.

Percobaan dilakukan dengan memasukkan batas atas = 85 dan batas bawah = 2,

serta mengubah-ubah perhitungan jarak dan metode AHC. Batas atas dan batas

bawah merupakan batas yang digunakan untuk membatasi total hasil term

frequency yang terdapat pada kata unik. Batas atas = 85 berarti kata unik yang

digunakan hanyalah kata yang mempunyai jumlah kemunculan kurang dari 85,

maka sistem akan membatasi maksimal term frequency = 85. Batas bawah = 2

berarti kata unik yang digunakan hanyalah kata yang mempunyai jumlah

kemunculan lebih dari 2, maka sistem akan membatasi minimal term frequency =

2. Akurasi tertinggi ditandai dengan warna biru yaitu sebesar 34.4 % dengan

menggunakan perhitungan jarak euclidean distance dan metode AHC average

linkage, complete linkage, single linkage. Berikut dendrogram dan confusion matrix

dari akurasi tertinggi :

a. Dendrogram

- Average linkage

Gambar 4. 20 Dendrogram data tanpa normalisasi average linkage


82

b. Confusion Matrix

- Average linkage

Tabel 4. 2 Confusion matrix data tanpa normalisasi average linkage

Cluster tweet 1 2 3 4 5

1 100 0 0 0 0

2 100 0 0 0 0

3 100 0 0 0 0

4 67 13 20 0 0

5 0 0 10 18 72

Akurasi == 100+0+0+0+72

500x100% = 34.4%

2. Percobaan menggunakan normalisasi min – max

Tabel 4. 3 Tabel Percobaan normalisasi min - max dengan batas atas = 85 dan

batas bawah =2


1. Euclidean Distance Average Linkage 20,2

2. Euclidean Distance Single Linkage 20,2

3. Euclidean Distance Complete Linkage 22,8

4. Cosine Similarity Average Linkage 21,2

5. Cosine Similarity Single Linkage 20,2

6. Cosine Similarity Complete Linkage 21,4


83

Gambar 4. 21 Grafik percobaan normalisasi min – max

Tabel 4.3 menunjukkan hasil percobaan menggunakan normalisasi min-max.









2. Akurasi tertinggi ditandai dengan warna biru yaitu sebesar 22,8 % dengan

menggunakan perhitungan jarak euclidean distance dan metode AHC complete

linkage. Berikut dendrogram dan confusion matrix dari akurasi tertinggi :

a. Dendrogram

- Complete linkage

19

21

23

25

Euclidean -Average

Euclidean -Single

Euclidean -Complete

Cosine -Average

Cosine -Single

Cosine -Complete

Akura

si

Perhitungan Jarak - Metode AHC

Percobaan Normalisasi Min-Max dengan batas atas = 85

dan batas akhir = 2

Normalisasi Min-Max Column2 Column3


84

Gambar 4. 22 Dendrogram data normalisasi min – max complete linkage

b. Confusion Matrix

- Complete linkage

Tabel 4. 4 Confusion matrix data normalisasi min – max complete

linkage


1 100 0 0 0 0

2 100 0 0 0 0

3 100 0 0 0 0

4 100 0 0 0 0

5 41 8 3 34 14

Akurasi == 100+0+0+0+14

500x100% = 22,8%


85

3. Percobaan menggunakan normalisasi z-score

Tabel 4. 5 Tabel Percobaan normalisasi z-score dengan batas atas = 85 dan batas

bawah =2


1. Euclidean Distance Average Linkage 34.4

2. Euclidean Distance Single Linkage 34.4

3. Euclidean Distance Complete Linkage 34.4

4. Cosine Similarity Average Linkage 81.6

5. Cosine Similarity Single Linkage 20.2

6. Cosine Similarity Complete Linkage 54

Gambar 4. 23 Grafik percobaan normalisasi z-score

Tabel 4.5 menunjukkan hasil percobaan menggunakan normalisasi z-score.







0

20

40

60

80

100

Euclidean -Average

Euclidean -Single

Euclidean -Complete

Cosine -Average

Cosine -Single

Cosine -Complete

Akura

si

Perhitungan Jarak - Metode AHC

Percobaan Normalisasi ZScore dengan menggunakan

batas atas= 85 dan batas akhir = 2

Normalisasi Zscore Column1 Column2


86



2. Akurasi tertinggi ditandai dengan warna biru yaitu sebesar 81.6 % dengan

menggunakan perhitungan jarak cosine similarity dan metode AHC average

linkage. Berikut dendrogram dan confusion matrix dari akurasi tertinggi :

b. Dendrogram

- Average linkage

Gambar 4. 24 Dendrogram data normalisasi z-score average linkage

c. Confusion Matrix

- Average linkage

Tabel 4. 6 Confusion matrix data normalisasi z-score average

linkage

Cluster

tweet

1 2 3 4 5

1 81 19 0 0 0

2 0 100 0 0 0


87

3 0 24 76 0 0

4 0 0 30 51 19

5 0 0 0 0 100

Akurasi == 81+100+76+51+100

500x100% = 81.6%

Berikut grafik keseluruhan percobaan dengan menggunakan batas atas = 85

dan batas bawah = 2 :

Gambar 4. 25 Grafik percobaan menggunakan batas atas=85 dan batas bawah =2

Melalui Gambar 4.25 dapat disimpulkan bahwa pengelompokkan paling

optimal berada pada percobaan menggunakan batas atas = 85 dan batas bawah =

2 dengan normalisasi z-score, perhitungan jarak cosine similarity dan metode AHC

average linkage.

Euclidean- Average

Euclidean- Single

Euclidean-

Complete

Cosine -Average

Cosine -Single

Cosine -Complete

Tanpa Normalisasi 34,4 34,4 34,4 21,4 20,2 21,8

Normalisasi Z-Score 34,4 34,4 34,4 81,6 20,2 54

Normalisasi Min - Max 34,8 34,4 35,6 50,6 20,2 36,8

0

10

20

30

40

50

60

70

80

90

Akura

si

Perhitungan jarak & metode AHC

Percobaan menggunakan batas atas = 85 dan batas bawah = 2

Tanpa Normalisasi Normalisasi Z-Score Normalisasi Min - Max


88

4.3 User Interface

Dalam pembuatan user interface, sistem menggunakan matlab. Bab ini

mengimplementasikan user interface untuk melakukan preprocessing hingga

mengetahui akurasi dari pengelompokkan data dengan Agglomerative

Hierarchical Clustering. Gambar berikut merupakan tampilan keseluruhan sistem:

Gambar 4. 26 User Interface Sistem

Dari gambar diatas, langkah pertama pengguna ialah menginputkan

banyaknya data yang diinginkan, maksimal banyaknya data ialah 500, kemudian

menekan tombol Preprocessing, untuk melihat kata-kata unik yang digunakan

dalam proses, maka seluruh kata unik akan muncul beserta dengan jumlah dan nilai

terbesar serta terkecil. Setelah itu akan ada pemberitahuan bahwa proses

preprocessing telah berhasil. Maka langkah selanjutnya pengguna memasukkan

batas atas dan batas bawah, kemudian memilih perhitungan jarak, memilih jenis

normalisasi dan memilih jenis clusteringnya, kemudian setelah itu menekan tombol

Clustering. Maka muncul keseluruhan proses, dendrogram, hasil cluster yang

terbentuk, Confusion Matrix dan akurasi.


89

BAB V

PENUTUP

Bab ini berisi mengenai kesimpulan dan saran. Kesimpulan berisi mengenai hal

yang berkaitan dengan pengelompokkan tweet, dan saran berisi mengenai

pengembangan sistem.

5.1 Kesimpulan

Berdasarkan hasil penelitian, analisis sentimen data twitter menggunakan

Agglomrative Hierarchical Clustering dengan data tweet berjumlah 500 dan cluster =

5, diperoleh kesimpulan sebagai berikut :

1. Agglomerative Hierarchical Clustering dapat mengelompokkan data untuk

analisis sentimen data twitter dengan optimal dengan menunjukkan tingkat akurasi

tertinggi dalam percobaan pengelompokkannya

2. Tingkat akurasi tertinggi berada pada batas atas dengan jumlah kata unik sebesar

85, batas bawah dengan jumlah kata unik sebesar 2, menggunakan normalisasi z-score,

menggunakan perhitungan jarak cosine dan metode AHC average linkage yaitu 81,6%.


90

5.2 Saran

Berikut ini saran yang dapat membantu penelitian ini agar lebih baik dan

berkembang, antara lain :

1. Bahasa yang terkandung didalam kalimat tweet - tweet tidak hanya bahasa

Indonesia.

2. Data yang digunakan lebih banyak sehingga dapat mencakup lebih banyak

kosakata dan pengenalan emosi menjadi lebih akurat.

3. Metode AHC dapat dicoba dengan metode lain selain single linkage, average

linkage, dan complete linkage.

4. Perhitungan jarak dapat dicoba dengan perhitungan jarak lain selain euclidean

distance dan cosine similarity.

5. Metode normalisasi dapat dicoba dengan metode lain selain min – max dan z-score.

6. Perhitungan akurasi dapat dicoba dengan perhitungan lain selain confusion matrix


91

Daftar Pustaka

Agusta,L. (2009). Perbandingan Algoritma Stemming Porter dengan Algoritma

Nazief & Adrian untuk Stemming dokumen teks bahasa Indonesia.

Konferensi Nasional sistm dan informatika. Bali.

Budhi, G.S., Rahardjo, A.I.,& Taufik, H, 21 Juni 2008, “Hierarchical Clustering

untuk aplikasi automated text integration”, Seminar Nasional Aplikasi

Teknologi Informasi, Universitas Kristen Petra Jurusan Teknik

Informatika, Surabaya.

Dragut, E., Fang, F., Sistla, P., Yu, S. & Meng, W. 2009. Stop Word and Related

Problems in Web Interface Integration. Diakses dari

http://www.vldb.org/pvldb/2/vldb09-384.pdf. Diakses pada 20 November

2016.

Goleman, D. (2006). Emotional Intelligenve : Kecerdasan emosional, Mengapa

EI lebih penting dari IQ. Jakarta : P.T. Gramedia Pustaka Utama

Harlian, Milkha., (2006) . Text Mining . Di akses dari

http://tessy.lecturer.pens.ac.id/kuliah/dm/6Text%20Mining.pdf . Diakses

pada 1 November 2016

Hartini, E. (2012). Metode Clustering Hirarki. Diakses dari

http://digilib.batan.go.id/ppin/katalog/file/0853-9812-2004-168.pdf.

Diakses pada 9 Oktober 2016

Kohavi dan Provost,. (1998)., Confusion Matriks. Diakses dari

http://faculty.smu.edu/TFomby/eco5385_eco6380/lecture/Confusion%2

0Matriks.pdf , Diakses pada 5 November 2016

Kurniawan, Aloysius Ary. (2017). Implementasi Algoritma Agglomerative

Hierarchical Clustering Untuk Mengelompokkan Capaian Belajar Siswa

SD. Skripsi. Universitas Sanata Dharma


http://tessy.lecturer.pens.ac.id/kuliah/dm/6Text%20Mining.pdf

http://digilib.batan.go.id/ppin/katalog/file/0853-9812-2004-168.pdf

http://faculty.smu.edu/tfomby/eco5385_eco6380/lecture/Confusion%20Matrix.pdf

http://faculty.smu.edu/tfomby/eco5385_eco6380/lecture/Confusion%20Matrix.pdf

92

Liu,B. (2012)., Sentimen Analysis and Opinion Mining., Morgan & Claypool

Publishers. Diakses dari

https://www.cs.uic.edu/~liub/FBS/SentimentAnalysis-and-

OpinionMining.pdf. Di akses pada 18 September 2016

Mandala, R., dan Setiwan, H. ( 2004)., Peningkatan Performannsi Sistem temu

Kembali Informasi dengan perluasan Query secara otomatis. Bandung,

Indonesia : Institut Teknologi Bandung.

Manning,C.D., raghavan, P., & Schutze, H (2009). An Introduction too

Information Retrieval. Cambridge: Cambridge University Press. Diakses

dari http://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf.

Diakses pada 10 September 2016.

Mustaffa,Z., Yusof, Y. (2011). A Comparison of Normalization Techniques in

Predicting Dengue Outbreak. 2010 International Conference on Bussiness

and Economic Research, hal 345 -349. Kuala Lumpur: IACSIT Press

Nazief, B., dan Mirna Adriani.,(2007), Confix-Stripping : Approach to Stemming

algorithm for bahasa Indonesia, Faculty of computer science university of

Indonesia.

Nugroho, Gregorius A.P,.(2016)., Analisis Sentimen Twitter menggunakan K-

Means. Skripsi. Universitas Sanata Dharma

Nur,M.Y.,dan Santika,D.D,.(2011), Analisis Sentimen pada Dokumen berbahasa

Indonesia dengan pendekatan Suport Vector Machine. Konferensi

Nasional Sistem dan Informatika. Universitas Bina Nusantara, Jakarta.

Pang,B dan Lee,L. (2008). Opinion Mining and Sentimen Analysis, Foundations

and Trends in Information Retrieval , vol. Volume 2, no. Issue 1-2,pp. 1-

135.

Prasetyo, E. ( 2014 ), Data Mining : Pengelolahan Data menjadi infromasi

menggunakan matlab. Andi Yogyakarta .

Rarasati, Dionisia B.(2015). Pengelompokkan Tema Lirik Lagu Menggunakan

Metode K-Means Clustering. Skripsi. Universitas Sanata Dharma


https://www.cs.uic.edu/~liub/FBS/SentimentAnalysis-and-OpinionMining.pdf

https://www.cs.uic.edu/~liub/FBS/SentimentAnalysis-and-OpinionMining.pdf

http://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf

93

Shaver, P.R., Murdaya,U.,& Fraley, R.C.(2001). Structure of Indonesian Emotion

Lexicon. Asian Journal of Psychology,4,201-224.

Tala, Fadillah Z. (2003). A Study of Stemming Efects on Information Retrieval in

Bahasa Indonesia. Institute for Logic, Language and

ComputationUniversiteit van Amsterdam The Netherlands. Diakses dari

http://www.illc.uva.nl/Research/Reports/MoL-2003-02.text.pdf. Diakses

pada 29 November 2016.

Tan,P.N., Steinbach,M.,& Kumar,V. (2006). Introduction to Data Mining. Boston

: Pearson Addison Wesley

Yang, Y., dan Liu, X. (1999). A Re-examination of Text Categorization Methods.

Proceedings of SIGIR-99, 22nd ACM International Conference on

Research and Development in Information Retrieval: 42-49

https://m.tempo.co/read/news/2012/02/02/072381323/indonesia-pengguna-

twitter-terbesar-kelima-dunia di akses 1 September 2016


https://m.tempo.co/read/news/2012/02/02/072381323/indonesia-pengguna-twitter-terbesar-kelima-dunia

https://m.tempo.co/read/news/2012/02/02/072381323/indonesia-pengguna-twitter-terbesar-kelima-dunia

94

LAMPIRAN

1. Uji Validitas Sistem menggunakan 15 data

a. Perhitungan Manual menggunakan Excel

Berikut data perhitungan manual menggunakan excel dengan 15 data, data

1,2, dan 3 merupakan cluster 1. Data 4,5,6 merupakan cluster 2. Data 7,8, dan 9

merupakan cluster 3. Data 10,11, dan 12 merupakan cluster 4. Data 13,14, dan

15 merupakan cluster 5.

Data

1

kan ku berikan kau SENJA iya SENJA SENandung manJA agar kau

merasakan betapa tulusnya sayang ku

2

kamu itu SENJA! SEksi dan maNJA buat aku juga jadi SENJA!

SEmangat mENJalin cintA

3 Ditepi senja yang mulai beranjak pergi ini ku titip kan cinta ku untuk mu

4 Pramuka keren gembira asik. Selalu ceria bersama pramuka

5 Ketika anak-anak ceria Hati ku jadi gembira

6 Bahagia itu melihat dia bisa tersenyum riang gembira.

7

Anies oh anies.... Demi jabatan Gubernur semua dihalalkan... Disitu

kadang saya merasa sedih

8 Ya Allah beneran sedih banget ini keluar dari mulut Anies

9

Gue sebenarnya sangat sedih sekali mengapa Kubu Anies Baswedan

begitu tega menyakiti hati Gue........

10 Ya Tuhan.. Serem banget angin di luar... #takut

11 SENDIRIAN DIRUMAH.. SEREM AMAT #TAKUT

12 Ada yang nangis tapi ga ada orang yah,ih serem #takut

13 kesal hati jengkel gue lembur mulu

14

Dari tadi di jahilin terus sama dia di buat marah kesel jengkel Sampai lupa

hari

15

sangat jengkel dan kesal. Dan kami berharap setelah itu ia akan berhenti

menjahili orang-orang


95

TOKENIZING

1

kan ku berikan kau senja iya senja senandung manja agar kau merasakan

betapa tulusnya sayang ku

2

kamu itu senja seksi dan manja buat aku juga jadi senja semangat

menjalin cinta

3 ditepi senja yang mulai beranjak pergi ini ku titip kan cinta ku untuk mu

4 pramuka keren gembira asik selalu ceria bersama pramuka

5 ketika anak anak ceria hati ku jadi gembira

6 bahagia itu melihat dia bisa tersenyum riang gembira

7

anies oh anies demi jabatan gubernur semua dihalalkan disitu kadang saya

merasa sedih

8 ya allah beneran sedih banget ini keluar dari mulut anies

9

gue sebenarnya sangat sedih sekali mengapa kubu anies baswedan begitu

tega menyakiti hati gue

10 ya Tuhan serem banget angin di luar takut

11 sendirian dirumah serem amat takut

12 ada yang nangis tapi ga ada orang yah ih serem takut

13 kesal hati jengkel gue lembur mulu

14

dari tadi di jahilin terus sama dia di buat marah kesal jengkel sampai lupa

hari

15

sangat jengkel dan kesal dan kami berharap setelah itu ia akan berhenti

menjahili orang orang

STOPWORD

1 senja senja senandung manja merasakan tulusnya sayang

2 senja seksi manja senja semangat menjalani cinta

3 senja beranjak pergi cinta

4 pramuka keren gembira asik selalu ceria bersama pramuka

5 ceria hati gembira

6 bahagia melihat tersenyum riang gembira

7 demi jabatan dihalalkan merasa sedih

8 beneran sedih keluar

9 sebenarnya sedih kubu tega menyakiti hati

10 serem angin takut

11 sendirian serem takut

12 nangis serem takut

13 kesal hati jengkel lembur

14 jahilin marah kesal jengkel lupa

15 jengkel kesal berharap berhenti menjahili


96

STEMMING

1 senja senja senandung manja rasa tulus sayang

2 senja seksi manja senja semangat jalan cinta

3 senja pergi cinta

4 pramuka keren gembira asik selalu ceria pramuka

5 ceria hati gembira

6 bahagia senyum riang gembira

7 demi jabatan halal rasa sedih

8 sedih

9 sedih kudu tega sakit hati

10 serem angin takut

11 serem takut

12 nangis serem takut

13 kesal hati jengkel lembur

14 jahil marah kesal jengkel lupa

15 jengkel kesal harap henti jahil

TF

1 senja = 2

senandung =

1 manja = 1 rasa = 1 tulus =1

sayang

=1

2 senja = 2 seksi =1 manja =1

semangat

=1 jalan =1 cinta =1

3 senja =1 pergi =1 cinta =1

4 pramuka =2 keren =1

gembira

=1 asik =1 selalu=1 ceria =1

5 ceria =1 hati =1

gembira

=1

6 bahagia = 1 senyum =1 riang =1 gembira =1

7 demi =1 jabatan =1 halal =1 rasa =1 sedih =1

8 sedih =1

9 sedih =1 kudu = 1 tega =1 sakit =1 hati =1

10 serem =1 angin =1 takut =1

11 serem =1 takut =1

12 nangis =1 serem =1 takut=1

13 kesal = 1 hati =1 jengkel =1 lembur =1

14 jahil = 1 marah =1 kesal =1 jengkel =1 lupa =1

15 jengkel =1 kesal =1 harap=1 jhenti=1 jahil=1


97

Kata Unik df D D/DF IDF

1 senja 5 15 3 0,477121255

2 senandung 1 15 15 1,176091259

3 manja 2 15 7,5 0,875061263

4 rasa 2 15 7,5 0,875061263

5 tulus 1 15 15 1,176091259

6 seksi 1 15 15 1,176091259

7 semangat 1 15 15 1,176091259

8 jalan 1 15 15 1,176091259

9 cinta 3 15 5 0,698970004

10 pergi 1 15 15 1,176091259

11 pramuka 2 15 7,5 0,875061263

12 keren 1 15 15 1,176091259

13 gembira 6 15 2,5 0,397940009

14 asik 1 15 15 1,176091259

15 selalu 1 15 15 1,176091259

16 hati 3 15 5 0,698970004

17 rasa 1 15 15 1,176091259

18 senyum 1 15 15 1,176091259

19 riang 1 15 15 1,176091259

20 demi 1 15 15 1,176091259

21 jabatan 1 15 15 1,176091259

22 halal 1 15 15 1,176091259

23 sedih 3 15 5 0,698970004

24 kudu 1 15 15 1,176091259

25 tega 1 15 15 1,176091259

26 sakit 1 15 15 1,176091259

27 serem 3 15 5 0,698970004

28 angin 1 15 15 1,176091259

29 takut 3 15 5 0,698970004

30 nangis 1 15 15 1,176091259

31 lembur 1 15 15 1,176091259

32 jahil 2 15 7,5 0,875061263

33 marah 7 15 2,142857143 0,330993219

34 lupa 1 15 15 1,176091259

35 harap 1 15 15 1,176091259

36 henti 1 15 15 1,176091259


98

Sinonim

cinta = sayang

gembira = ceria = bahagia

kesal = jengkel = marah


99

Bobot setiap data

ATRIBUT

Data senja Senandung manja rasa tulus seksi Semangat jalan cinta pergi pramuka keren gembira asik selalu hati rasa senyum

1 0,954 1,176 0,875 0,875 1,176 0,000 0,000 0,000 0,699 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

2 1,908 0,000 0,875 0,000 0,000 1,176 1,176 1,176 0,699 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

3 0,477 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 1,176 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 1,750 1,176 0,796 1,176 1,176 0,000 0,000 0,000

5 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,796 0,000 0,000 0,699 0,000 0,000

6 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,796 0,000 0,000 0,000 0,000 1,176

7 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 1,176 0,000

8 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

9 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 0,000 0,000

10 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

11 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

12 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

13 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 0,000 0,000

14 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

15 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000


100

Atribut

Data riang demi jabatan halal sedih kudu tega sakit serem angin takut nangis lembur jahil marah lupa harap henti

1 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

2 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

3 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

5 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

6 1,176 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

7 0,000 1,176 1,176 1,176 1,176 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

8 0,000 0,000 0,000 0,000 0,699 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

9 0,000 0,000 0,000 0,000 0,699 1,176 1,176 1,176 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

10 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 1,176 0,699 0,000 0,000 0,000 0,000 0,000 0,000 0,000

11 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 0,000 0,699 0,000 0,000 0,000 0,000 0,000 0,000 0,000

12 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 0,000 0,699 1,176 0,000 0,000 0,000 0,000 0,000 0,000

13 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 1,176 0,000 0,662 0,000 0,000 0,000

14 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,875 0,993 1,176 0,000 0,000

15 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 1,176 0,662 0,000 1,176 1,176


101

Normalisasi Z-score

Warna merah menunjukkan hasil normalisasi.

Atribut

Data senja senandung manja rasa tulus seksi semangat jalan cinta pergi pramuka keren gembira asik selalu hati rasa senyum

1 0,954 0,616 0,875 0,875 0,616 0,000 0,000 0,000 0,699 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

2 1,000 0,000 0,875 0,000 0,000 1,176 1,176 1,176 0,699 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

3 0,477 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 0,616 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,917 0,917 0,796 0,917 0,917 0,000 0,000 0,000

5 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,417 0,000 0,000 0,699 0,000 0,000

6 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,796 0,000 0,000 0,000 0,000 0,917

7 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,917 0,000

8 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

9 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 0,000 0,000

10 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

11 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

12 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

13 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 0,000 0,000

14 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

15 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000


102

Normalisasi Z-score

Atribut

Data riang demi jabatan halal sedih kudu tega sakit serem angin takut nangis lembur jahil marah lupa harap henti

1 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

2 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

3 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

4 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

5 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

6 0,917 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

7 0,000 0,917 0,917 0,917 0,917 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

8 0,000 0,000 0,000 0,000 0,366 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

9 0,000 0,000 0,000 0,000 0,699 0,917 0,917 0,917 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

10 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 0,917 0,699 0,000 0,000 0,000 0,000 0,000 0,000 0,000

11 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,366 0,000 0,366 0,000 0,000 0,000 0,000 0,000 0,000 0,000

12 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 0,000 0,699 0,616 0,000 0,000 0,000 0,000 0,000 0,000

13 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,616 0,000 0,662 0,000 0,000 0,000

14 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,875 0,993 0,616 0,000 0,000

15 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,616 0,662 0,000 0,616 0,616


103

Matriks Jarak menggunakan Cosine similarity

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

1 1 0,45 0,47 0 0 0 0 0 0 0 0 0 0 0 0

2 1 0,36 0 0 0 0 0 0 0 0 0 0 0 0

3 1 0 0 0 0 0 0 0 0 0 0 0 0

4 1 0,20 0,21 0 0 0 0 0 0 0 0 0

5 1 0,27 0 0 0,32 0 0 0 0,53 0 0

6 1 0 0 0 0 0 0 0 0 0

7 1 0,45 0,17 0 0 0 0 0 0

8 1 0,37 0 0 0 0 0 0

9 1 0 0 0 0,23 0 0

10 1 0,73 0,62 0 0 0

11 1 0,85 0 0 0

12 1 0 0 0

13 1 0,39 0,31

14 1 0,65

15 1

Pengelompokkan menggunakan AHC dengan metode Average linkage

1

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

1 1 0,45 0,47 0 0 0 0 0 0 0 0 0 0 0 0

2 1 0,36 0 0 0 0 0 0 0 0 0 0 0 0

3 1 0 0 0 0 0 0 0 0 0 0 0 0

4 1 0,20 0,21 0 0 0 0 0 0 0 0 0

5 1 0,27 0 0 0,32 0 0 0 0,53 0 0

6 1 0 0 0 0 0 0 0 0 0

7 1 0,45 0,17 0 0 0 0 0 0

8 1 0,37 0 0 0 0 0 0

9 1 0 0 0 0,23 0 0

10 1 0,73 0,62 0 0 0

11 1 0,85 0 0 0

12 1 0 0 0

13 1 0,39 0,31

14 1 0,65

15 1


104

2

1 2 3 4 5 6 7 8 9 10 11.12 13 14 15

1 1 0,45 0,47 0 0 0 0 0 0 0 0,00 0,00 0,00 0,00

2 1 0,36 0 0 0 0 0 0 0 0,00 0,00 0,00 0,00

3 1 0 0 0 0 0 0 0 0,00 0,00 0,00 0,00

4 1 0,20 0,21 0 0 0 0 0,00 0,00 0,00 0,00

5 1 0,27 0 0 0,32 0 0,00 0,53 0,00 0,00

6 1 0 0 0 0 0,00 0,00 0,00 0,00

7 1 0,45 0,17 0 0,00 0,00 0,00 0,00

8 1 0,37 0 0,00 0,00 0,00 0,00

9 1 0 0,00 0,23 0,00 0,00

10 1 0,68 0,00 0,00 0,00

11.12 1,00 0,00 0,00 0,00

13 1,00 0,39 0,31

14 1,00 0,65

15 1,00

3

1 2 3 4 5 6 7 8 9

11.12.

10 13 14 15

1 1,00 0,45 0,47 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00

2 1,00 0,36 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00

3 1,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00

4 1,00 0,20 0,21 0,00 0,00 0,00 0,00 0,00 0,00 0,00

5 1,00 0,27 0,00 0,00 0,32 0,00 0,53 0,00 0,00

6 1,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00

7 1,00 0,45 0,17 0,00 0,00 0,00 0,00

8 1,00 0,37 0,00 0,00 0,00 0,00

9 1,00 0,00 0,23 0,00 0,00

11.12.

10 1,00 0,00 0,00 0,00

13 1,00 0,39 0,31

14 1,00 0,65

15 1,00


105

4

1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 11.12.10 13,00 14.15

1,00 1,00 0,45 0,47 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00

2,00 1,00 0,36 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00

3,00 1,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00

4,00 1,00 0,20 0,21 0,00 0,00 0,00 0,00 0,00 0,00

5,00 1,00 0,27 0,00 0,00 0,32 0,00 0,53 0,00

6,00 1,00 0,00 0,00 0,00 0,00 0,00 0,00

7,00 1,00 0,45 0,17 0,00 0,00 0,00

8,00 1,00 0,37 0,00 0,00 0,00

9,00 1,00 0,00 0,23 0,00

11.12.10 1,00 0,00 0,00

13,00 1,00 0,35

14.15 1,00

5

1,00 2,00 3,00 4,00 5.13 6,00 7,00 8,00 9,00 11.12.10 14.15

1,00 1,00 0,45 0,47 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00

2,00 1,00 0,36 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00

3,00 1,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00

4,00 1,00 0,10 0,21 0,00 0,00 0,00 0,00 0,00

5.13 1,00 0,13 0,00 0,00 0,27 0,00 0,17

6,00 1,00 0,00 0,00 0,00 0,00 0,00

7,00 1,00 0,45 0,17 0,00 0,00

8,00 1,00 0,37 0,00 0,00

9,00 1,00 0,00 0,00

11.12.10 1,00 0,00

14.15 1,00


106

6

1.3 2,00 4,00 5.13 6,00 7,00 8,00 9,00 11.12.13 14.15

1.3 1,00 0,41 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00

2,00 1,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00

4,00 1,00 0,10 0,21 0,00 0,00 0,00 0,00 0,00

5.13 1,00 0,10 0,21 0,00 0,00 0,00 0,00

6,00 1,00 0,00 0,00 0,00 0,00 0,00

7,00 1,00 0,45 0,17 0,00 0,00

8,00 1,00 0,37 0,00 0,00

9,00 1,00 0,00 0,00

11.12.13 1,00 0,00

14.15 1,00

7

1.3 2,00 4,00 5.13 6,00 7.8 9,00 11.12.13 14.15

1.3 1,00 0,41 0,00 0,00 0,00 0,00 0,00 0,00 0,00

2,00 1,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00

4,00 1,00 0,10 0,21 0,00 0,00 0,00 0,00

5.13 1,00 0,10 0,10 0,00 0,00 0,00

6,00 1,00 0,00 0,00 0,00 0,00

7.8 1,00 0,27 0,00 0,00

9,00 1,00 0,00 0,00

11.12.13 1,00 0,00

14.15 1,00

8

1.3.2 4,00 5.13 6,00 7.8 9,00 11.12.13 14.15

1.3.2 1,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00

4,00 1,00 0,10 0,21 0,00 0,00 0,00 0,00

5.13 1,00 0,10 0,10 0,00 0,00 0,00

6,00 1,00 0,00 0,00 0,00 0,00

7.8 1,00 0,27 0,00 0,00

9,00 1,00 0,00 0,00

11.12.13 1,00 0,00

14.15 1,00


107

9

1.3.2 4,00 5.13 6,00 7.8.9 11.12.13 14.15

1.3.2 1,00 0,00 0,00 0,00 0,00 0,00 0,00

4,00 1,00 0,10 0,21 0,00 0,00 0,00

5.13 1,00 0,10 0,05 0,00 0,00

6,00 1,00 0,00 0,00 0,00

7.8.9 1,00 0,00 0,00

11.12.13 1,00 0,00

14.15 1,00

10

1.3.2 4.6 5.13 7.8.9 11.12.13 14.15

1.3.2 1,00 0,00 0,00 0,00 0,00 0,00

4.6 1,00 0,10 0,00 0,00 0,00

5.13 1,00 0,05 0,00 0,00

7.8.9 1,00 0,00 0,00

11.12.13 1,00 0,00

14.15 1,00

11

1.3.2 4.6.5.13 7.8.9 11.12.13 14.15

1.3.2 1,00 0,00 0,00 0,00 0,00

4.6.5.13 1,00 0,03 0,00 0,00

7.8.9 1,00 0,00 0,00

11.12.13 1,00 0,00

14.15 1,00


108

Dendrogram

Hasil Cluster :

Cluster 1 : Data 1, Data 2, dan Data 3

Cluster 2 : Data 4, Data 5, Data 6, dan Data 13

Cluster 3 : Data 7, Data 8 dan Data 9

Cluster 4 : Data 10. Data 11, dan Data 12

Cluster 5 : Data 14 dan Data 15


109

Confusion Matriks


1 3 0 0 0 0

2 0 3 0 0 1

3 0 0 3 0 0

4 0 0 0 3 0

5 0 1 0 0 2

Akurasi == 3+3+3+3+2

15x100% = 93.3%

b. Pengujian menggunakan sistem dengan perhitungan jarak cosine similarity,

normalisasi Z-score dan metode Average linkage

No Batas Atas Batas Bawah Akurasi

1. 5 0 66.67 %

2. 5 1 86.67 %

3. 5 2 93.33 %

4. 4 0 66.67 %

5. 4 1 86.67 %

6. 4 2 100 %


110

Berikut Dendrogram dan Confusion matriks dari hasil clustering menggunakan

batas atas = 4 dan batas bawah = 2.

Dendrogram

Confusion Matriks


1 3 0 0 0 0

2 0 3 0 0 0

3 0 0 3 0 0

4 0 0 0 3 0

5 0 0 0 0 3

Akurasi == 3+3+3+3+3

15x100% = 100%


111

2. Tabel

2.1 Tabel Tanpa Normalisasi

2.1.1 Percobaan Menggunakan Euclidean distance

a. Metode Average linkage

Pengujian

Data Tanpa Normalisasi, Euclidean Distane,Average

B

A

T

A

S

B

A

W

A

H

Batas

Atas 86 85 84 83 82

0 23.8 34.4 34.4 34.4 34.4

1 23.8 34.4 34.4 34.4 34.4

2 23.8 34.4 34.4 34.4 34.4

3 23.8 34.4 34.4 34.4 34.4

4 23.8 34.4 34.4 34.4 34.4

5 23.8 34.4 34.4 34.4 34.4

6 23.8 34.4 34.4 34.4 34.4

7 23.8 34.4 34.4 34.4 34.4

8 23.8 34.4 34.4 34.4 34.4

9 23.8 36 36 36 36

10 23.8 36 36 36 36

11 27 36 36 36 36

12 20.2 36 36 36 36

13 20.2 36 36 36 36

14 20.2 34.4 34.4 34.4 34.4

15 34.2 23.6 23.6 23.6 23.6

16 34.2 34.4 34.4 34.4 34.4

17 38 34.4 34.4 34.4 34.4

18 38 34.4 34.4 34.4 34.4

19 38 34.4 34.4 34.4 34.4

20 38 34.4 34.4 34.4 34.4

21 38 34.4 34.4 34.4 34.4

22 38 34.4 34.4 34.4 34.4


112

b. Metode Single linkage

Pengujian

Data Tanpa Normalisasi, Euclidean Distane,Single

B

A

T

A

S

B

A

W

A

H

Batas

Atas 86 85 84 83 82

0 20.2 34.4 34.4 34.4 34.4

1 20.2 34.4 34.4 34.4 34.4

2 20.2 34.4 34.4 34.4 34.4

3 20.2 34.4 34.4 34.4 34.4

4 20.2 34.4 34.4 34.4 34.4

5 20.2 34.4 34.4 34.4 34.4

6 23.8 34.4 34.4 34.4 34.4

7 23.8 34.4 34.4 34.4 34.4

8 23.8 34.4 34.4 34.4 34.4

9 23.8 34.4 34.4 34.4 34.4

10 23.8 34.4 34.4 34.4 34.4

11 23.8 34.4 34.4 34.4 34.4

12 23.8 34.4 34.4 34.4 34.4

13 23.8 34.4 34.4 34.4 34.4

14 23.8 34.4 34.4 34.4 34.4

15 23.8 34.4 34.4 34.4 34.4

16 23.8 34.4 34.4 34.4 34.4

17 23.8 34.4 34.4 34.4 34.4

18 23.8 34.4 34.4 34.4 34.4

19 23.8 34.4 34.4 34.4 34.4

20 23.8 34.4 34.4 34.4 34.4

21 23.8 34.4 34.4 34.4 34.4

22 23.8 34.4 34.4 34.4 34.4


113

c. Metode Complete linkage

Pengujian

Data Tanpa Normalisasi, Euclidean Distane,Complete

B

A

T

A

S

B

A

W

A

H

Batas

Atas 86 85 84 83 82

0 24 34.4 34.4 34.4 34.4

1 24 34.4 34.4 34.4 34.4

2 24 34.4 34.4 34.4 34.4

3 24 34.4 34.4 34.4 34.4

4 24 34.4 34.4 34.4 34.4

5 24 34.4 34.4 34.4 34.4

6 24 34.4 34.4 34.4 34.4

7 24 34.4 34.4 34.4 34.4

8 24 34.4 34.4 34.4 34.4

9 24 34.4 34.4 34.4 34.4

10 24 34.4 34.4 34.4 34.4

11 24 34.4 34.4 34.4 34.4

12 24 34.4 34.4 34.4 34.4

13 27.2 34.4 34.4 34.4 34.4

14 27.2 34.4 34.4 34.4 34.4

15 34.4 34.4 34.4 34.4 34.4

16 34.4 34.4 34.4 34.4 34.4

17 34.4 34.4 34.4 34.4 34.4

18 34.4 34.4 34.4 34.4 34.4

19 34.4 34.4 34.4 34.4 34.4

20 34.4 34.4 34.4 34.4 34.4

21 34.4 34.4 34.4 34.4 34.4

22 34.4 34.4 34.4 34.4 34.4


114

2.1.2 Percobaan Menggunakan Cosine similarity


Pengujian

Data Tanpa Normalisasi, Cosine similarity, Average

B

A

T

A

S

B

A

W

A

H

Batas

Atas 86 85 84 83 82

0 20.4 20.4 20.4 20.4 20.4

1 21.4 20.6 20.6 20.6 20.6

2 21.4 21.4 21.4 21.4 21.4

3 23.8 23.8 23.8 23.8 23.8

4 26 26 26 26 26

5 29.2 26 26 26 26

6 28.2 28.2 28.2 28.2 28.2

7 28.2 28.2 28.2 28.2 28.2

8 30.2 30.2 30.2 30.2 30.2

9 39.2 40.2 40.2 40.2 40.2

10 28.2 30.2 30.2 30.2 30.2

11 40.2 39.8 39.8 39.8 39.8

12 40.2 40.2 40.2 40.2 40.2

13 37.6 40.2 40.2 40.2 40.2

14 27.4 40.2 40.2 40.2 40.2

15 40.2 40.2 40.2 40.2 40.2

16 39.8 27.4 27.4 27.4 27.4

17 27.4 50 50 50 50

18 27.4 50 50 50 50

19 27.4 50 50 50 50

20 27.4 50 50 50 50

21 27.4 50 50 50 50

22 49.2 27.4 27.4 27.4 27.4


Pengujian

Data Tanpa Normalisasi, Cosine similarity, Single

86 85 84 83 82


115

B

A

T

A

S

B

A

W

A

H

Batas

Atas

0 20.2 20.2 20.2 20.2 20.2

1 20.2 20.2 20.2 20.2 20.2

2 20.2 20.2 20.2 20.2 20.2

3 20.2 20.2 20.2 20.2 20.2

4 20.2 20.2 20.2 20.2 20.2

5 20.2 20.2 20.2 20.2 20.2

6 20.2 20.2 20.2 20.2 20.2

7 20.2 20.2 20.2 20.2 20.2

8 20.2 20.2 20.2 20.2 20.2

9 20.2 20.2 20.2 20.2 20.2

10 20.2 20.2 20.2 20.2 20.2

11 20.2 20.2 20.2 20.2 20.2

12 20.2 20.2 20.2 20.2 20.2

13 20.2 20.2 20.2 20.2 20.2

14 20.2 20.2 20.2 20.2 20.2

15 20.2 20.2 20.2 20.2 20.2

16 20.2 20.2 20.2 20.2 20.2

17 20.2 20.2 20.2 20.2 20.2

18 20.2 20.2 20.2 20.2 20.2

19 20.2 20.2 20.2 20.2 20.2

20 20.2 20.2 20.2 20.2 20.2

21 20.2 20.2 20.2 20.2 20.2

22 20.2 20.2 20.2 20.2 20.2


Pengujian

Data Tanpa Normalisasi, Cosine similarity, Complete

Batas

Atas 86 85 84 83 82

0 21.8 21.8 21.8 21.8 21.8

1 21.8 21.8 21.8 21.8 21.8

2 21.8 21.8 21.8 21.8 21.8

3 21.8 21.8 21.8 21.8 21.8


116

B

A

T

A

S

B

A

W

A

H

4 21.8 21.8 21.8 21.8 21.8

5 21.8 21.8 21.8 21.8 21.8

6 21.8 21.8 21.8 21.8 21.8

7 21.8 21.8 21.8 21.8 21.8

8 21.8 21.8 21.8 21.8 21.8

9 21.8 21.8 21.8 21.8 21.8

10 21.8 21.8 21.8 21.8 21.8

11 21.8 21.8 21.8 21.8 21.8

12 21.8 21.8 21.8 21.8 21.8

13 21.8 21.8 21.8 21.8 21.8

14 21.8 21.8 21.8 21.8 21.8

15 21.8 21.8 21.8 21.8 21.8

16 21.8 21.8 21.8 21.8 21.8

17 21.8 21.8 21.8 21.8 21.8

18 21.8 21.8 21.8 21.8 21.8

19 21.8 21.8 21.8 21.8 21.8

20 21.8 21.8 21.8 21.8 21.8

21 21.8 21.8 21.8 21.8 21.8

22 21.8 21.8 21.8 21.8 21.8

2.2 Tabel Normalisasi Min – Max



Pengujian

Data Normalisasi Min - max, Euclidean Distane,Average

B

A

T

Batas

Atas 86 85 84 83 82

0 20,6 20,2 20,2 20,2 20,2

1 20,2 20,2 20,2 20,2 20,2

2 20,2 20,2 20,2 20,2 20,2

3 20,2 20,2 20,2 20,2 20,2

4 20,4 20,2 20,2 20,2 20,2

5 20,2 20,4 20,4 20,4 20,4

6 20,2 20,2 20,2 20,2 20,2


117

A

S

B

A

W

A

H

7 20,2 20,4 20,4 20,4 20,4

8 20,2 20,4 20,4 20,4 20,4

9 20,2 20,4 20,4 20,4 20,4

10 20,4 20,4 20,4 20,4 20,4

11 20,4 20,4 20,4 20,4 20,4

12 21 20,4 20,4 20,4 20,4

13 21 25,2 25,2 25,2 25,2

14 20,8 25,2 25,2 25,2 25,2

15 25,2 23,2 23,2 23,2 23,2

16 25,2 23,2 23,2 23,2 23,2

17 23,2 34,4 34,4 34,4 34,4

18 23,2 34,4 34,4 34,4 34,4

19 23,2 34,4 34,4 34,4 34,4

20 23,2 34,4 34,4 34,4 34,4

21 23,2 34,4 34,4 34,4 34,4

22 23,2 34,4 34,4 34,4 34,4


Pengujian

Data Normalisasi Min - max, Euclidean Distane,Single

B

A

T

A

S

B

A

W

A

H

Batas

Atas 86 85 84 83 82

0 20,2 20,2 20,2 20,2 20,2

1 20,2 20,2 20,2 20,2 20,2

2 20,2 20,2 20,2 20,2 20,2

3 20,2 20,2 20,2 20,2 20,2

4 20,2 20,2 20,2 20,2 20,2

5 20,2 20,2 20,2 20,2 20,2

6 20,2 20,2 20,2 20,2 20,2

7 20,2 20,2 20,2 20,2 20,2

8 20,2 20,2 20,2 20,2 20,2

9 20,2 20,2 20,2 20,2 20,2

10 20,2 20,2 20,2 20,2 20,2

11 20,2 20,2 20,2 20,2 20,2

12 20,2 20,2 20,2 20,2 20,2


118

13 20,2 20,2 20,2 20,2 20,2

14 20,2 20,2 20,2 20,2 20,2

15 22,6 22,6 22,6 22,6 22,6

16 22,6 22,6 22,6 22,6 22,6

17 22,6 22,6 22,6 22,6 22,6

18 22,6 22,6 22,6 22,6 22,6

19 22,6 22,6 22,6 22,6 22,6

20 22,6 22,6 22,6 22,6 22,6

21 22,6 22,6 22,6 22,6 22,6

22 22,6 22,6 22,6 22,6 22,6


Pengujian

Data Normalisasi Min - max, Euclidean

Distane,Complete

B

A

T

A

S

B

A

W

A

H

Batas

Atas 86 85 84 83 82

0 20,4 20,4 20,4 20,4 20,4

1 21 23,4 23,4 23,4 23,4

2 27,6 22,8 22,8 22,8 22,8

3 21 20,2 20,2 20,2 20,2

4 24,6 24,2 24,2 24,2 24,2

5 25,8 24 24 24 24

6 21,8 22,8 22,8 22,8 22,8

7 21,6 38,2 38,2 38,2 38,2

8 27,4 30,2 30,2 30,2 30,2

9 27,4 20,2 20,2 20,2 20,2

10 20,2 72,2 72,2 72,2 72,2

11 58,6 24,2 24,2 24,2 24,2

12 43,4 31 31 31 31

13 23,4 40,2 40,2 40,2 40,2

14 27,6 35,4 35,4 35,4 35,4

15 20,4 25,8 25,8 25,8 25,8

16 20,4 25,8 25,8 25,8 25,8

17 38,6 40,8 40,8 40,8 40,8


119

18 38,6 40,8 40,8 40,8 40,8

19 38,6 40,8 40,8 40,8 40,8

20 38,6 40,8 40,8 40,8 40,8

21 38,6 40,8 40,8 40,8 40,8

22 38,6 40,8 40,8 40,8 40,8



Pengujian

Data Normalisasi Min - max, Cosine similarity, Average

B

A

T

A

S

B

A

W

A

H

Batas

Atas 86 85 84 83 82

0 20,2 20,4 20,4 20,4 20,4

1 21,4 20,6 20,6 20,6 20,6

2 21,4 21,2 21,2 21,2 21,2

3 23,8 23,8 23,8 23,8 23,8

4 26 26 26 26 26

5 26 26 26 26 26

6 31.2 28,2 28,2 28,2 28,2

7 28,2 30,2 30,2 30,2 30,2

8 30,2 40,2 40,2 40,2 40,2

9 28,2 40,2 40,2 40,2 40,2

10 28,2 28,2 28,2 28,2 28,2

11 40,2 39,8 39,8 39,8 39,8

12 40,2 40,2 40,2 40,2 40,2

13 37,6 40,2 40,2 40,2 40,2

14 40,2 40,2 40,2 40,2 40,2

15 40,2 40,2 40,2 40,2 40,2

16 39,8 27,4 27,4 27,4 27,4

17 27,4 27,2 27,2 27,2 27,2

18 27,4 27,2 27,2 27,2 27,2

19 27,4 27,2 27,2 27,2 27,2

20 27,4 27,2 27,2 27,2 27,2

21 27,4 27,2 27,2 27,2 27,2

22 27,4 27,2 27,2 27,2 27,2


120


Pengujian

Data Normalisasi Min - max, Cosine similarity, Single

B

A

T

A

S

B

A

W

A

H

Batas

Atas 86 85 84 83 82

0 20.2 20.2 20.2 20.2 20.2

1 20.2 20.2 20.2 20.2 20.2

2 20.2 20.2 20.2 20.2 20.2

3 20.2 20.2 20.2 20.2 20.2

4 20.2 20.2 20.2 20.2 20.2

5 20.2 20.2 20.2 20.2 20.2

6 20.2 20.2 20.2 20.2 20.2

7 20.2 20.2 20.2 20.2 20.2

8 20.2 20.2 20.2 20.2 20.2

9 20.2 20.2 20.2 20.2 20.2

10 20.2 20.2 20.2 20.2 20.2

11 20.2 20.2 20.2 20.2 20.2

12 20.2 20.2 20.2 20.2 20.2

13 20.2 20.2 20.2 20.2 20.2

14 20.2 20.2 20.2 20.2 20.2

15 20.2 20.2 20.2 20.2 20.2

16 20.2 20.2 20.2 20.2 20.2

17 20.2 20.2 20.2 20.2 20.2

18 20.2 20.2 20.2 20.2 20.2

19 20.2 20.2 20.2 20.2 20.2

20 20.2 20.2 20.2 20.2 20.2

21 20.2 20.2 20.2 20.2 20.2

22 20.2 20.2 20.2 20.2 20.2


121


Pengujian

Data Normalisasi Min - max, Cosine similarity, Complete

B

A

T

A

S

B

A

W

A

H

Batas

Atas 86 85 84 83 82

0 21,8 21,8 21,8 21,8 21,8

1 21,4 21,4 21,4 21,4 21,4

2 21,4 21,4 21,4 21,4 21,4

3 21,4 21,4 21,4 21,4 21,4

4 21,4 21,4 21,4 21,4 21,4

5 21,4 21,4 21,4 21,4 21,4

6 21,4 21,4 21,4 21,4 21,4

7 21,4 21,8 21,8 21,8 21,8

8 21,8 21,8 21,8 21,8 21,8

9 21,8 21,8 21,8 21,8 21,8

10 21,8 21,8 21,8 21,8 21,8

11 21,8 21,8 21,8 21,8 21,8

12 21,8 21,8 21,8 21,8 21,8

13 21,8 21,8 21,8 21,8 21,8

14 21,8 21,8 21,8 21,8 21,8

15 21,8 21,8 21,8 21,8 21,8

16 21,8 21,8 21,8 21,8 21,8

17 21,8 21,8 21,8 21,8 21,8

18 21,8 21,8 21,8 21,8 21,8

19 21,8 21,8 21,8 21,8 21,8

20 21,8 21,8 21,8 21,8 21,8

21 21,8 21,8 21,8 21,8 21,8

22 21,8 21,8 21,8 21,8 21,8


122

2.3 Tabel Normalisasi Z-score



Pengujian

Data Normalisasi zscore, Euclidean Distane,Average

B

A

T

A

S

B

A

W

A

H

Batas

Atas 86 85 84 83 82

0 23.8 34.4 34.4 34.4 34.4

1 23.8 34.4 34.4 34.4 34.4

2 23.8 34.4 34.4 34.4 34.4

3 23.8 34.4 34.4 34.4 34.4

4 23.8 34.4 34.4 34.4 34.4

5 23.8 34.4 34.4 34.4 34.4

6 23.8 34.4 34.4 34.4 34.4

7 23.8 34.4 34.4 34.4 34.4

8 23.8 34.4 34.4 34.4 34.4

9 23.8 23.6 23.6 23.6 23.6

10 23.8 23.6 23.6 23.6 23.6

11 27 23.6 23.6 23.6 23.6

12 20.2 23.6 23.6 23.6 23.6

13 20.3 23.6 23.6 23.6 23.6

14 20.4 34.4 34.4 34.4 34.4

15 34.2 23.6 23.6 23.6 23.6

16 34.2 34.4 34.4 34.4 34.4

17 38 34.4 34.4 34.4 34.4

18 38 34.4 34.4 34.4 34.4

19 38 34.4 34.4 34.4 34.4

20 38 34.4 34.4 34.4 34.4

21 38 34.4 34.4 34.4 34.4

22 38 34.4 34.4 34.4 34.4


123


Pengujian

Data Normalisasi zscore, Euclidean Distane,Single

B

A

T

A

S

B

A

W

A

H

Batas

Atas 86 85 84 83 82

0 20.2 34.4 34.4 34.4 34.4

1 20.2 34.4 34.4 34.4 34.4

2 20.2 34.4 34.4 34.4 34.4

3 20.2 34.4 34.4 34.4 34.4

4 20.2 34.4 34.4 34.4 34.4

5 20.2 34.4 34.4 34.4 34.4

6 23.8 34.4 34.4 34.4 34.4

7 23.8 34.4 34.4 34.4 34.4

8 23.8 34.4 34.4 34.4 34.4

9 23.8 34.4 34.4 34.4 34.4

10 23.8 34.4 34.4 34.4 34.4

11 23.8 34.4 34.4 34.4 34.4

12 23.8 34.4 34.4 34.4 34.4

13 23.8 34.4 34.4 34.4 34.4

14 23.8 34.4 34.4 34.4 34.4

15 23.8 34.4 34.4 34.4 34.4

16 23.8 34.4 34.4 34.4 34.4

17 23.8 34.4 34.4 34.4 34.4

18 23.8 34.4 34.4 34.4 34.4

19 23.8 34.4 34.4 34.4 34.4

20 23.8 34.4 34.4 34.4 34.4

21 23.8 34.4 34.4 34.4 34.4

22 23.8 34.4 34.4 34.4 34.4


124


Pengujian

Data Normalisasi zscore, Euclidean Distane,Complete

B

A

T

A

S

B

A

W

A

H

Batas

Atas 86 85 84 83 82

0 24 34.4 34.4 34.4 34.4

1 24 34.4 34.4 34.4 34.4

2 24 34.4 34.4 34.4 34.4

3 24 34.4 34.4 34.4 34.4

4 24 34.4 34.4 34.4 34.4

5 24 34.4 34.4 34.4 34.4

6 24 34.4 34.4 34.4 34.4

7 24 34.4 34.4 34.4 34.4

8 24 34.4 34.4 34.4 34.4

9 24 34.4 34.4 34.4 34.4

10 24 34.4 34.4 34.4 34.4

11 24 34.4 34.4 34.4 34.4

12 24 34.4 34.4 34.4 34.4

13 27.2 34.4 34.4 34.4 34.4

14 23.8 34.4 34.4 34.4 34.4

15 34.4 34.4 34.4 34.4 34.4

16 34.4 34.4 34.4 34.4 34.4

17 34.4 34.4 34.4 34.4 34.4

18 34.4 34.4 34.4 34.4 34.4

19 34.4 34.4 34.4 34.4 34.4

20 34.4 34.4 34.4 34.4 34.4

21 34.4 34.4 34.4 34.4 34.4

22 34.4 34.4 34.4 34.4 34.4


125



Pengujian

Data Normalisasi zscore, Cosine similarity, Average

B

A

T

A

S

B

A

W

A

H

Batas

Atas 86 85 84 83 82

0 57 79,8 79,8 79,8 79,8

1 60.4 72 72 72 72

2 61.6 81.6 81.6 81.6 81.6

3 29.2 81.2 81.2 81.2 81.2

4 69.8 80.6 80.6 80.6 80.6

5 61,8 61.2 61.2 61.2 61.2

6 63.8 64 64 64 64

7 65 65 65 65 65

8 66.8 63.2 63.2 63.2 63.2

9 66.8 61.6 61.6 61.6 61.6

10 65.2 67.4 67.4 67.4 67.4

11 64.8 59.6 59.6 59.6 59.6

12 72.8 67.6 67.6 67.6 67.6

13 72.4 67.2 67.2 67.2 67.2

14 68.4 64 64 64 64

15 60.6 58.2 58.2 58.2 58.2

16 48 34 34 34 34

17 40.6 49 49 49 49

18 40.6 49 49 49 49

19 40.6 49 49 49 49

20 40.6 49 49 49 49

21 40.6 49 49 49 49

22 40.6 49 49 49 49


126


Pengujian

Data Normalisasi zscore, Cosine similarity, Single

B

A

T

A

S

B

A

W

A

H

Batas

Atas 86 85 84 83 82

0 20.2 20.2 20.2 20.2 20.2

1 20.2 20.2 20.2 20.2 20.2

2 20.2 20.2 20.2 20.2 20.2

3 20.2 20.2 20.2 20.2 20.2

4 20.2 20.2 20.2 20.2 20.2

5 20.2 20.2 20.2 20.2 20.2

6 20.2 20.2 20.2 20.2 20.2

7 20.2 20.2 20.2 20.2 20.2

8 20.2 20.2 20.2 20.2 20.2

9 20.2 20.2 20.2 20.2 20.2

10 20.2 20.2 20.2 20.2 20.2

11 20.2 20.2 20.2 20.2 20.2

12 20.2 20.2 20.2 20.2 20.2

13 20.2 20.2 20.2 20.2 20.2

14 20.2 20.2 20.2 20.2 20.2

15 20.2 20.2 20.2 20.2 20.2

16 20.2 20.2 20.2 20.2 20.2

17 20.2 20.2 20.2 20.2 20.2

18 20.2 20.2 20.2 20.2 20.2

19 20.2 20.2 20.2 20.2 20.2

20 20.2 20.2 20.2 20.2 20.2

21 20.2 20.2 20.2 20.2 20.2

22 20.2 20.2 20.2 20.2 20.2


127


Pengujian

Data Normalisasi zscore, Cosine similarity, Complete

B

A

T

A

S

B

A

W

A

H

Batas

Atas 86 85 84 83 82

0 44.8 33.2 33.2 33.2 33.2

1 63.6 68.6 68.6 68.6 68.6

2 70.2 54 54 54 54

3 76.4 67.2 67.2 67.2 67.2

4 74.8 51.8 51.8 51.8 51.8

5 47.8 65.6 65.6 65.6 65.6

6 65.2 60.2 60.2 60.2 60.2

7 58.6 58.2 58.2 58.2 58.2

8 45.6 45.4 45.4 45.4 45.4

9 45.6 71.2 71.2 71.2 71.2

10 44.8 45.8 45.8 45.8 45.8

11 50.6 69 69 69 69

12 62.4 41.6 41.6 41.6 41.6

13 66.8 46.6 46.6 46.6 46.6

14 37 58.6 58.6 58.6 58.6

15 75.4 56.4 56.4 56.4 56.4

16 62.4 24 24 24 24

17 55.6 44.4 44.4 44.4 44.4

18 55.6 44.4 44.4 44.4 44.4

19 55.6 44.4 44.4 44.4 44.4

20 55.6 44.4 44.4 44.4 44.4

21 55.6 44.4 44.4 44.4 44.4

22 55.6 44.4 44.4 44.4 44.4


ANALISIS SENTIMEN PADA TWITTER MENGGUNAKAN … · dari, menghitung matriks jarak antar data,...

Documents

Transcript of ANALISIS SENTIMEN PADA TWITTER MENGGUNAKAN … · dari, menghitung matriks jarak antar data,...