TESIS KI142502 PEMILIHAN KATA KUNCI UNTUK DETEKSI...

TESIS – KI142502

PEMILIHAN KATA KUNCI UNTUK DETEKSI KEJADIAN TRIVIAL MENGGUNAKAN AUTOCORRELATION WAVELET COEFFICIENTS PADA PERINGKASAN DOKUMEN TWITTER RIZAL SETYA PERDANA NRP. 5113201020 DOSEN PEMBIMBING: Dr.Eng. Chastine Fatichah, S.Kom, M.Kom. Diana Purwitasari, S.Kom, M.Sc. PROGRAM MAGISTER JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNOLOGI INFORMASI INSTITUT TEKNOLOGI SEPULUH NOPEMBER SURABAYA 2015

ii

PEMILIHAN KATA KUNCI UNTUK DETEKSI KEJADIAN

TRIVIAL MENGGUNAKAN AUTOCORRELATION WAVELET

COEFFICIENTS PADA PERINGKASAN DOKUMEN

TWITTER Nama mahasiswa : Rizal Setya Perdana

NRP : 5113201020

Pembimbing : Dr.Eng. Chastine Fatichah, S.Kom, M.Kom.

Diana Purwitasari, S.Kom, M.Sc.

ABSTRAK

Sistem peringkasan multi-dokumen (Multi-document Summarization) pada

microblog Twitter tengah menjadi perhatian para peneliti beberapa tahun terakhir.

Proses peringkasan dilakukan pada kumpulan dokumen Twitter (tweet) yang

merepresentasikan kejadian penting (non-trivial) bertujuan untuk mendapatkan inti

kejadian dari kumpulan dokumen tersebut. Permasalahan yang mendasari

dilakukannya peringkasan tweet adalah pengguna harus membaca sejumlah tweet

secara manual untuk memahami suatu kejadian (event), sedangkan pengguna

Twitter memiliki batasan waktu untuk membaca seluruh tweet terkait kejadian.

Pemisahan kejadian biasa (trivial) dengan kejadian penting (non-trivial) dilakukan

untuk mengeliminasi tweet trivial sehingga dapat meningkatkan kualitas hasil

peringkasan kejadian. Salah satu cara untuk menentukan suatu kejadian dianggap

sebagai kejadian trivial dapat dilakukan dengan melakukan pemilihan kata kunci

yang dianggap merepresentasikan kejadian trivial. Kejadian yang berulang secara

periodik dianggap sebagai suatu kejadian trivial.

Pendeteksian kejadian dilakukan dengan memanfaatkan pola-pola temporal

atau sinyal dari data Twitter dalam bentuk sinyal wavelet untuk mendeteksi

kemunculan kejadian penting. Wavelet analysis merupakan metode yang sering

digunakan untuk mendeteksi perubahan dan puncak pada sinyal sehingga dapat

dimanfaatkan untuk mendeteksi kemunculan suatu kejadian pada Twitter. Namun

pendekatan tersebut tidak menjamin apakah kejadian-kejadian yang dideteksi

merupakan kejadian yang berulang secara periodik atau tidak. Pada penelitian ini

diajukan sebuah cara pendeteksian terhadap kejadian berulang secara periodik

dengan melakukan pemilihan kata kunci trivial berdasarkan perhitungan korelasi

(autocorrelation) pada wavelet coefficient kata kunci. Setelah mendapatkan kata

kunci trivial maka dilakukan eliminasi terhadap tweet yang mengandung kata kunci

trivial. Peringkasan multi-dokumen Twitter berdasarkan metode clustering tweet

dilakukan untuk mengelompokkan kejadian yang sama kedalam sebuah cluster.

Pemilihan kata kunci trivial tersebut pada peringkasan tweet diharapkan mampu

memilih kejadian penting sehingga dapat meningkatkan kualitas hasil ringkasan.

Penelitian menunjukkan bahwa nilai confidence boundary yang digunakan

adalah sebesar 0.20 dan nilai minimum korelasi 27 untuk mendapatkan kata kunci

trivial. Hasil clustering yang didahului proses eliminasi kata kunci trivial

menghasilkan akurasi lebih baik yaitu 12 cluster dengan nilai sihlouette sebesar

0.45.

Kata kunci: peringkasan, autocorrelation, Twitter, event detection, K-Medoids

iii

KEYWORDS SELECTION

FOR DETECTING TRIVIAL EVENTS USING

AUTOCORRELATION WAVELET COEFFICIENTS IN

TWITTER DOCUMENT SUMMARIZATION Student Name : Rizal Setya Perdana

Student Identity Number : 5113201020

Supervisors : Dr.Eng. Chastine Fatichah, S.Kom, M.Kom.

Diana Purwitasari, S.Kom, M.Sc.

ABSTRACT

Multi-document summarization system on Twitter is a new topic of

researchers in recent years. One of summarization is applied in Twitter's document

(tweets) to the results of the detection of a significant event (non-trivial) to obtain

information that includes a collection of tweets that represents an event. Underlying

issues does summarization is needed in tweet because Twitter's users should read

manually to understand from an event, whereas Twitter users have limit time to read

all related tweets.

Separation of normal incidence (trivially) with important events (nontrivial)

done to eliminate the trivial tweets in order to improve the quality of the results of

summarization of events. One way to determine an important event or not can be

done by choosing keywords that are considered to represent an important event.

Periodically recurring events regarded as a trivial incident that required a special

method to detect the occurrence of such events for the next eliminated.

Event detection is done by exploiting temporal patterns or signals of Twitter

data in the form of signal wavelet to detect the emergence of important events.

Wavelet analysis is a method often used to detect changes and peaks in the signal

so it can be used to detect the occurrence of an event on Twitter. However, such

approaches do not guarantee whether the detected events are periodically recurring

events or not.

This study aimed at detecting the occurrence of a repeated periodically for

important events keyword selection by calculating the correlation (autocorrelation)

in the wavelet coefficients in multi-document peringkasan Twitter tweets based

clustering methods. The selection of the keywords in a tweet peringkasan expected

to choose important events so as to improve the quality of the summaries.

Keywords: multi-document summarization, event detection, Twitter, K-Medoids,

clustering keyword phrase.

iv

DAFTAR ISI

halaman

JUDUL ……...…………….………………………………………………………………i

ABSTRAK .............................................................................................................. ii

ABSTRACT .......................................................................................................... iiii

DAFTAR ISI ......................................................................................................... iiv

DAFTAR GAMBAR ............................................................................................ vii

DAFTAR TABEL .................................................................................................. ix

BAB 1 PENDAHULUAN ....................................................................................... 1

1.1 Latar Belakang ...................................................................................... 1

1.2 Perumusan Masalah............................................................................... 3

1.3 Tujuan dan Manfaat Penelitian ............................................................. 3

1.4 Batasan Penelitian ................................................................................. 4

BAB 2 DASAR TEORI ........................................................................................... 5

2.1 Peringkasan Teks Otomatis ................................................................... 5

2.2 Clustering .............................................................................................. 6

2.3 K-medoids.............................................................................................. 7

2.4 Clustering Dokumen Twitter ................................................................ 8

2.5 Ekstraksi Fitur Tweet pada Cluster ....................................................... 8

2.6 Deteksi Kejadian pada Twitter .............................................................. 9

2.7 Wavelet Analysis................................................................................. 11

2.8 Wavelet Autocorrelation ..................................................................... 13

BAB 3 METODOLOGI PENELITIAN................................................................. 15

3.1 Studi Literatur ..................................................................................... 15

3.2 Desain Model Sistem .......................................................................... 16

3.2.1 Fase Text Preprocessing .......................................................... 16

3.2.2 Fase Transformasi Teks Frekuensi Kata Kunci tiap Periode .. 16

3.2.3 Fase Transformasi Sinyal Wavelet Kata Kunci ...................... 19

3.2.4 Fase Clustering Tweet dengan K-medoids .............................. 21

3.2.5 Fase Pemilihan Kalimat Representatif .................................... 21

3.2.6 Fase Penyusunan Ringkasan ................................................... 21

v

3.3 Pembuatan Perangkat Lunak ............................................................... 21

3.4 Skenario Uji coba ................................................................................ 22

3.5 Metode Evaluasi .................................................................................. 24

BAB 4 HASIL DAN PEMBAHASAN.................................................................. 27

4.1 Implementasi Metode .......................................................................... 27

4.1.1 Implementasi Fase Text Preprocessing ................................... 27

4.1.2 Implementasi Fase Transformasi Wavelet Kata Kunci ........... 29

4.1.3 Implementasi Fase Autocorrelation Wavelet .......................... 29

4.1.4 Implementasi Fase Clustering Teks Tweet ............................. 30

4.1.5 Implementasi Fase Peringkasan Tweet ................................... 32

4.2 Data Ujicoba ........................................................................................ 33

4.3 Hasil dan Ujicoba ................................................................................ 36

4.3.1 Ujicoba 1: Pengujian Autocorrelation Wavelet Kata Kunci ... 37

4.3.2 Ujicoba 2: Pengukuran Kualitas Clustering dan Peringkasan . 42

4.4 Analisa dan Pembahasan ..................................................................... 47

4.4.1 Analisa Pemilihan Kata Kunci Kejadian Trivial ..................... 47

4.4.2 Analisa Pengelompokan Tweets dan Peringkasan .................. 48

BAB 5 KESIMPULAN DAN SARAN ................................................................. 51

DAFTAR PUSTAKA ............................................................................................ 53

LAMPIRAN 1- Word Frequency (WF) ................................................................ 57

LAMPIRAN 2(A) - Urutan Kata Berdasar Nilau Autocorrelation (cb=0.05) ....... 62

LAMPIRAN 2(B) - Urutan Kata Berdasar Nilau Autocorrelation (cb=0.10) ....... 64

LAMPIRAN 2(C) - Urutan Kata Berdasar Nilau Autocorrelation (cb=0.15) ....... 66

LAMPIRAN 2(D) - Urutan Kata Berdasar Nilau Autocorrelation (cb=0.20) ....... 68

LAMPIRAN 2(E) - Urutan Kata Berdasar Nilau Autocorrelation (cb=0.25) ....... 70

LAMPIRAN 3(A) - Gambar Wavelet dan Correlogram Kata Kunci (koef > 50) 72

LAMPIRAN 3(B) - Gambar Wavelet dan Correlogram Kata Kunci (koef < 10) 74

LAMPIRAN 4.(A) -Sampel Tweet (Melalui Tahap Preproses,tanpa Eliminasi) .. 75

LAMPIRAN 4.(B) -Sampel Tweet (Melalui Tahap Preproses,dengan Eliminasi) 77

LAMPIRAN 5.(A) – Hasil Percobaan untuk Optimasi Nilai k Pada Tweet dengan

Eliminasi Kata Kunci Trivial ................................................................................. 79

vi

LAMPIRAN 5.(B) – Hasil Percobaan untuk Optimasi Nilai k Pada Tweet tanpa

Eliminasi Kata Kunci Trivial ................................................................................. 82

LAMPIRAN 6 – Kuesioner Hasil Peringkasan oleh Responden ........................... 83

LAMPIRAN 7 – Groundtruth dan Hasil Peringkasan ........................................... 86

vii

DAFTAR GAMBAR

halaman

Gambar 2.1 Ilustrasi Clustering Data ..................................................................... 6

Gambar 2.2 Wavelet Kata Kunci 'pagi' ................................................................. 13

Gambar 2.3 Correlogram kejadian yang berulang secara periodik ....................... 14

Gambar 3.1 Alur metodologi penelitian................................................................ 15

Gambar 3.2 Framework peringkasan dokumen twitter dengan mendeteksi kejadian

trivial untuk pemilihan kata kunci ........................................................................ 17

Gambar 3.3 Flowchart transformasi teks menjadi frekuensi kata kunci tiap periode

waktu ..................................................................................................................... 18

Gambar 3.4 Flowchart clustering dokumen twitter dengan menggunakan

algoritma K-medoids ............................................................................................. 20

Gambar 4.1 Format dokumen tweets sebagai dataset ujicoba .............................. 28

Gambar 4.2 Potongan Kode Program untuk Fase Text Preprocessing ................. 28

Gambar 4.3 Potongan Kode Program untuk Fase Transformasi Wavelet ............ 29

Gambar 4.4 Potongan Kode Program untuk Proses Autocorrelation ................... 30

Gambar 4.5 Potongan Kode Program untuk proses clustering tweet.................... 31

Gambar 4.6 Potongan Kode Program untuk proses peringkasan .......................... 32

Gambar 4.7 Potongan Kode Program untuk menentukan Tweet hasil ringkasan . 33

Gambar 4.8 Struktur data penyimpanan tweet format JSON ................................ 34

Gambar 4.9 Struktur data collection term frequency format JSON ...................... 35

Gambar 4.10 Struktur data collection detail frequency format JSON .................. 35

Gambar 4.11 Wavelet kata kunci ‘pagi’ ............................................................... 40

Gambar 4.12 Wavelet dan correlogram kata kunci ‘pagi’ yang memiliki nilai

korelasi tinggi ........................................................................................................ 41

Gambar 4.13 Wavelet dan correlogram kata kunci ‘polri’ yang memiliki nilai

korelasi rendah ...................................................................................................... 42

viii

Gambar 4.14 Wavelet dan correlogram kata kunci ‘kerja’ yang memiliki nilai

korelasi sedang ...................................................................................................... 42

Gambar 4.15. Proses pengelompokkan tweets dengan k-medoids ....................... 43

Gambar 4.16. Tweet hasil proses peringkasan ...................................................... 47

ix

DAFTAR TABEL

halaman

Tabel 3.1 Parameter-parameter yang Diestimasi .................................................. 22

Tabel 4.1 Struktur Tabel Penyimpanan Tweet ...................................................... 34

Tabel 4.2 Struktur Tabel Term Frequency ............................................................ 34

Tabel 4.3 Struktur Tabel Term Detail Frequency ................................................. 35

Tabel 4.4 Tabel Frequency Kata Kunci ................................................................ 38

Tabel 4.5 Tabel Frekuensi Kata Kunci Per Interval .............................................. 38

Tabel 4.6 Tabel Koefisien Wavelet ....................................................................... 39

Tabel 4.7 Tabel Jumlah Nilai Autocorrelation Kata Kunci .................................. 40

Tabel 4.8 Tabel Kata Kunci Masing-masing Cluster pada Tweet yang Sudah

Dieliminasi Kata Kunci Periodik .......................................................................... 44

Tabel 4.9 Tabel Kata Kunci Masing-masing Cluster pada Tweet yang Tidak

Dieliminasi Kata Kunci Periodik .......................................................................... 45

Tabel 4.10 Contoh Kuisioner Hasil Peringkasan dengan Masukan Berupa Ranking

............................................................................................................................... 47

x

[Halaman ini sengaja dikosongkan]

1

1 BAB 1

PENDAHULUAN

1.1 Latar Belakang

Sistem peringkasan multi-dokumen (Multi-document Summarization)

pada microblog Twitter tengah menjadi perhatian para peneliti beberapa tahun

terakhir (El-Fishawy dkk, 2014; Winatmoko dkk, 2013; Lioret dkk, 2013; Sharifi

dkk, 2010; Olariu, 2012). Beberapa penelitian melakukan peringkasan pada

dokumen Twitter (tweet) terhadap hasil pendeteksian suatu kejadian penting (non-

trivial) untuk mendapatkan informasi yang mencakup kumpulan tweet yang

merepresentasikan sebuah kejadian (Long dkk, 2011; Cordeiro, 2012). Pemisahan

kejadian biasa (trivial) dengan kejadian penting (non-trivial) dilakukan untuk

mengeliminasi tweet trivial sehingga dapat meningkatkan kualitas hasil

peringkasan kejadian. Salah satu cara untuk menentukan suatu kejadian penting

atau tidak dapat dilakukan dengan melakukan pemilihan kata kunci yang dianggap

merepresentasikan sebuah kejadian penting (Long dkk, 2011). Kejadian yang

berulang secara periodik dianggap sebagai suatu kejadian trivial sehingga

diperlukan metode khusus untuk mendeteksi kemunculan kejadian tersebut untuk

selanjutnya dieliminasi.

Permasalahan yang mendasari dilakukannya peringkasan tweet adalah

pengguna harus membaca sejumlah tweet secara manual untuk memahami suatu

kejadian (event), sedangkan pengguna Twitter memiliki batasan waktu untuk

membaca seluruh tweet terkait (El-Fishawy dkk, 2014). Peringkasan dilakukan

dengan memilih tweet yang mewakili informasi pada suatu kejadian tertentu

sehingga ringkasan yang dihasilkan memeberikan gambaran singkat tentang suatu

kejadian secara cepat.

Ringkasan yang baik adalah ringkasan yang mampu mencakup (coverage)

sebanyak mungkin konsep-konsep penting (saliency) yang ada pada dokumen

sumber (Ouyang dkk, 2013). Menurut jenis pendekatan peringkasan yang dilakukan

pada tweet, pendekatan metode extractive lebih sesuai digunakan karena struktur

keberagaman data yang dimiliki oleh tweet (Sharifi dkk, 2010). Peringkasan

berdasarkan metode extractive terdiri dari proses pemilihan tweet penting dari

2

dokumen sumber dan proses penyusunan tweet-tweet penting tersebut menjadi lebih

singkat (Gupta dkk, 2010). Jika diterapkan pada tweet, pemilihan kalimat penting

adalah memilih tweet mana yang masuk ke dalam kelompok tweet penting.

Clustering tweet merupakan salah satu metode yang mampu memeberikan

coverage yang baik pada ringkasan (Boros dkk, 2001; Wan dan Yang 2008; Sarkar,

2009; Ge dkk, 2011). Cluster yang baik adalah cluster yang memiliki koherensi

yang baik antar cluster. Cluster tweet yang telah terbentuk selanjutnya akan

dihitung word frequency (WF) atau frekuensi kemunculan kata pada masing-

masing cluster. Cluster tweet yang terbentuk selanjutnya diurutkan berdasarkan

tingkat kemiripan dengan kata kunci yang memiliki nilai WF yang tinggi untuk

kemudian dipililih sebuah tweet representatif pada setiap cluster. Tweet

representatif tersebut adalah tweet penting yang dianggap sebagai hasil ringkasan

dari sebuah cluster.

Twitter merupakan layanan jejaring sosial yang memiliki perbedaan

dengan jejaring sosial media yang lain yaitu memiliki ukuran panjang teks terbatas

140 karakter (Cordeiro, 2012). Pesan yang dikirim cenderung ditulis secara singkat

dan langsung pada inti dari informasi apa yang ingin disampaikan. Namun, data

Twitter mengandung banyak tweet yang tidak memiliki arti atau tidak merujuk pada

kejadian tertentu (pointless babbles) (Hurlock dkk, 2011).

Beberapa penelitian melakukan pendeteksian kejadian dengan

memanfaatkan pola-pola secara temporal atau sinyal dari data twitter seperti

penelitian yang dilakukan pada (Cordeiro, 2012; Weng dkk, 2011; Chen dkk, 2009)

yang memanfaatkan sinyal wavelet untuk mendeteksi munculnya kejadian penting.

Berdasarkan penelitian sebelumnya, sinyal individu dari masing-masing kata atau

term dibentuk dengan berdasarkan wavelet analysis pada frekuensi masing-masing

kemunculan kata (Weng dkk, 2011). Dalam pemrosesan sinyal, wavelet analysis

merupakan metode yang sering digunakan untuk mendeteksi perubahan dan puncak

pada sinyal sehingga dapat dimanfaatkan untuk mendeteksi kemunculan suatu

kejadian. Inti dari wavelet analysis adalah pada wavelet transformation yaitu

merubah sinyal dari time domain menjadi time-scale domain (Weng dkk, 2011).

Penggunaan wavelet analysis masih belum dapat mendeteksi kejadian

yang berulang secara periodik yang dapat dianggap sebagai kejadian trivial. Salah

3

satu penelitian yang berusaha menemukan sinyal yang berulang secara periodik

dilakukan pada (Rafiee dkk, 2009) dengan metode wavelet autocorrelation.

Pencarian kejadian berulang dengan mencari korelasi antar coefficient sehingga

dapat dideteksi kemunculan kejadian yang berulang secara periodik untuk

kemudian dilakukan eliminasi terhadap kata kunci sebelum proses peringkasan.

Untuk meningkatkan hasil peringkasan, dilakukan pengelompokkan antar kata

kunci yang merujuk pada satu kejadian yang sama.

Oleh karena itu, dibutuhkan sebuah langkah untuk mendeteksi kata kunci

yang berulang secara periodik dan mengelompokkan tweet yang memiliki

kemiripan untuk diproses dalam satu proses peringkasan. Tweet yang mengandung

kata kunci yang termasuk kedalam kejadian trivial akan dieliminasi pada

peringkasan sebagai hasil deteksi kejadian pada Twitter sehingga ringkasan yang

dihasilkan mampu mencakup informasi penting pada kumpulan tweet.

1.2 Perumusan Masalah

Berdasarkan uraian yang telah dijelaskan pada latar belakang, maka

permasalahan-permasalahan yang akan diselesaikan dirumuskan sebagai berikut:

1. Bagaimana mendeteksi kejadian trivial pada Twitter untuk menemukan kejadian

yang berulang secara periodik untuk pemilihan kata kunci ?

2. Bagaimana mengelompokkan beberapa kata kunci yang merupakan representasi

dari kejadian yang sama untuk diringkas menjadi informasi ?

1.3 Tujuan dan Manfaat Penelitian

Tujuan dari penelitian ini adalah mendeteksi kejadian trivial karena

kemunculan kejadian berulang secara periodik untuk memilih kata kunci pada

peringkasan data Twitter berbasis wavelet sehingga diharapkan menghasilkan

akurasi yang lebih tinggi dibandingkan dengan metode sebelumnya.

Manfaat yang didapat dari penelitian ini secara khusus adalah untuk

menjelaskan metode pendeteksian kejadian yang terjadi berulang secara periodik

yang dianggap bukan sebagai kejadian penting pada peringkasan tweet. Kejadian

berulang dianggap sebagai kejadian tidak penting untuk selanjutnya dieliminasi

pada proses peringkasan.

Adapun kontribusi yang diberikan dalam penelitian ini terkait peringkasan

dokumen Twitter, yaitu:

4

1. Perhitungan korelasi dari coefficient wavelet untuk mendeteksi kejadian berulang

secara periodik pada pemilihan kata kunci tertentu.

2. Pengelompokan tweet yang merupakan representasi pada kejadian yang sama

untuk diringkas dalam sebuah kejadian

1.4 Batasan Penelitian

Mengingat permasalahan deteksi kejadian merupakan hal yang kompleks

dan luas maka penelitian ini dibatasi sesuai dengan poin-poin berikut:

1. Data yang dijadikan data uji adalah dokumen Twitter unspecified berbahasa

Indonesia yang dikumpulkan melalui API stream Twitter

2. Kejadian yang dianggap trivial adalah kejadian yang dibentuk oleh kata kunci

yang berulang secara periodik.

3. Jenis peringkasan otomatis yang dibangun adalah generic multi-document

summarization yang berbasiskan metode extractive.

4. Sistem yang dibangun mengunakan bahasa pemrograman Python, PHP, NodeJS

dan database server MongoDB.

5

2 BAB 2

DASAR TEORI

Pada bagian ini akan dipaparkan konsep dasar tentang teori-teori yang

dipakai sebagai pegangan dalam melakukan penelitian ini.

2.1 Peringkasan Teks Otomatis

Peringkasan teks otomatis didefinisikan sebagai sebuah teks yang

dihasilkan dari satu atau banyak teks yang menyampaikan informasi penting dari

teks sumber (Zhu dan Li, 2012).

Terdapat dua arah dari penelitian-penelitian pada bidang peringkasan teks

otomatis yaitu extractive dan abstractive. Metode peringkasan extractive umumnya

fokus terhadap konten-konten mana yang harus menjadi ringkasan. Metode ini

sepenuhnya mengandalkan ekstraksi kalimat-kalimat yang ada pada dokumen

sumber (Das dan Martin, 2007). Metode peringkasan abstractive mengedepankan

penekanan yang kuat pada bentuk ringkasan dan bertujuan untuk menghasilkan

ringkasan sesuai dengan tata bahasa (Zhu dan Li, 2012). Pada penelitian digunakan

metode extractive untuk memilih dokumen twitter mana yang dapat mewakili suatu

kejadian yang dianggap sama.

Metode peringkasan teks dapat diaplikasikan pada single atau multi-

dokumen. Peringkasan single-dokumen adalah peringkasan berdasarkan sebuah

dokumen sumber, sedangkan peringkasan multi-dokumen adalah peringkasan

berdasarkan berberapa dokumen sumber. Pada peringkasan multi-dokumen,

dokumen-dokumen sumber terlebih dahulu dikelompok-kelompokkan dalam

cluster-cluster tertentu. Pada penelitian tweet yang memiliki kesamaan kata kunci

atau kata kunci lain yang memiliki kemiripan akan dijadikan kedalam sebuah

cluster. Fokus pada penelitian ini adalah peringkasan teks otomatis berdasarkan

metode extractive yang diaplikasikan pada multi dokumen twitter. Sedangkan jenis

peringkasan yang dikembangkan adalah generic summarization.

6

2.2 Clustering

Clustering adalah pembagian data kedalam kelompok-kelompok dari

objek-objek yang serupa (similar) (Rai dan Singh, 2010). Setiap kelompok yang

disebut cluster terdiri dari objek-objek yang serupa satu dengan yang lainya dan

tidak serupa (dissimilar) dengan objek-objek pada cluster lain. Secara intuitif, pola-

pola objek yang berada pada cluster yang sama lebih serupa satu sama lain

dibandingkan dengan pola-pola objek pada cluster lainnya (Jain dkk, 1999). Contoh

dari clustering data diilustrasikan pada Gambar 2.1. Pola elemen-elemen input

ditunjukkan pada Gambar 2.1(a) dan bentuk-bentuk cluster yang diinginkan

ditunjukkan pada Gambar 2.1(b). Titik-titik yang terdapat pada cluster yang sama

diberikan label yang sama.

Gambar 2.1 Ilustrasi Clustering Data

(Jain dkk, 1999)

Teknik-teknik clustering yang digunakan untuk menempatkan objek-

objek ke dalam cluster-cluster harus memenuhi dua kriteria:

1. Setiap cluster adalah homogeneous; objek-objek yang berada pada satu cluster

serupa satu dengan lainnya.

2. Setiap cluster yang terbentuk harus berbeda dari cluster-cluster yang lainnya;

objek-objek yang berada pada suatu cluster harus tak serupa dengan objek-objek

yang ada pada cluster lain.

7

2.3 K-medoids

Clustering adalah metode pengelompokan data secara otomatis

berdasarkan pola dari data itu sendiri atau tanpa menggunakan data latih

(unsupervised). Berdasarkan cara pengelompokan data menjadi cluster, metode

clustering dibedakan menjadi dua jenis, yaitu hierarchical dan partitioning. Salah

satu jenis partitioning clustering yang akan digunakan pada penelitian ini adalah K-

medoids. K-medoids atau yang sering disebut juga dengan Partitioning Around

Medoids (PAM) merupakan algoritma clustering yang hampir sama dengan K-

means diperkenalkan pertama kali oleh (Kaufman, 1987). Konsep dari K-medoids

adalah memecah dataset menjadi kelompok-kelompok. Perbedaan antara K-

medoids dengan K-means adalah bahwa K-medoids menggunakan medoids yang

merupakan entitas dari dataset dan merupakan perwakilan dari kelompok dimana

dia dimasukkan. Sedangkan K-means bekerja dengan centroid biasanya berupa

nilai rata-rata dari jarak antar objek dalam satu kelompok yang sama. Pada

persamaan 2.1 𝑥𝑖 adalah masing-masing titik dan 𝑐𝑖 adalah centroid atau pusat

cluster.

𝑐𝑜𝑠𝑡(𝑥, 𝑐) = ∑ |𝑥𝑖 − 𝑐𝑖|𝑑𝑖=1 (2.1)

K-medoids akan mengelompokkan sekumpulan n obyek menjadi sejumlah

k cluster. Algoritma ini menggunakan obyek pada kumpulan objek untuk mewakili

sebuah cluster. Objek yang mewakili sebuah cluster inilah yang disebut dengan

medoids.

Algoritma K-medoids

Input : 𝐷 = {𝑑1, 𝑑2, … , 𝑑𝑛}

1. Tentukan jumlah cluster yang akan dibentuk (k)

2. Pilih k obyek secara random pada sekumpulan n obyek sebagai medoid

3. Hitung kemiripan antara objek non-medoids dengan k medoids

4. Dapatkan kemiripan yang paling besar antara obyek non-medoids dengan

medoids

5. Update medoids dengan cara memilih secara acak objek non-medoids

6. Hitung total biaya S (current total cost – past total cost)

7. Jika current total cost > past total cost maka update medoids, jika tidak

medoids tetap

8. Ulangi langkah 3 sampai 7 sampai tidak ada perubahan

8

,

2.4 Clustering Dokumen Twitter

Clustering tweet adalah bagian yang penting dalam sistem peringkasan

otomatis karena setiap topik dalam kumpulan tweet harus diidentifikasi secara tepat

untuk menemukan similarity dan dissimilarity yang ada dalam dokumen sehingga

menjamin good coverage (Sarkar, 2009). Pada penelitian ini digunakan algoritma

K-medoids untuk melakukan clustering.

Salah satu faktor penting dari setiap teknik clustering adalah bagaimana

untuk menghitung similarity antara dua objek. Cosine similarity adalah metode

pengukuran yang sering digunakan clustering dan peringkasan (Erkan dan Randev,

2004). Tweet direpresentasikan ke dalam bobot vector ketika menghitung cosine

similarity. Namun fitur vector yang menunjukkan similarity dari kalimat-kalimat

menjadi sangat jarang (too sparse) karena kalimat terlalu pendek ketika

dibandingkan satu dengan yang lain. Kadang-kadang dalam sebuah tweet hanya

terdapat sebuah kata yang sama yang menunjukkan nilai cosine similarity. Untuk

mengatasi hal tersebut diajukan metode uni-gram matching-based similarity

measure (Sarkar, 2009):

(2.1)

dimana si dan sj adalah tweet s ke-i dan ke-j. | si | | sj | merepresentasikan jumlah

dari kata-kata yang sesuai (match) antara tweet s ke-i dan kalimat s ke-j. |si| adalah

panjang tweet s ke-i yaitu jumlah kata yang menyusun tweet tersebut. Metode uni-

gram matching-based similarity measure adalah metode yang digunakan untuk

mengukur similarity untuk setiap pasangan tweet pada cluster dan kandidat anggota

cluster baru dalam K-medoid.

Penambahan suatu tweet dalam suatu cluster berdasarkan distribusi

peningkatan similarity dapat menciptakan suatu masalah pada kasus cluster

sempurna. Tweet mungkin saja dapat ditolak oleh cluster yang sempurna walaupun

tweet tersebut memiliki similarity yang tinggi pada sebagian besar anggota cluster.

2.5 Ekstraksi Fitur Tweet pada Cluster

Ekstraksi fitur-fitur tweet yang ada pada cluster dilakukan untuk

mendapatkan fitur-fitur yang ada pada tweet sebagai acuan perhitungan skor tweet.

||||

|)|||*2(),(

ji

ji

jiss

sssssim

9

Semakin besar skor tweet merepresentasikan bahwa tweet tersebut adalah tweet

yang semakin penting/representatif. Konsep fitur local importance dan global

importance adalah suatu konsep fitur yang diajukan oleh (Sarkar, 2009) untuk

menentukan tweet representatif. Konsep tersebut mencerminkan seberapa central

suatu tweet terhadap suatu cluster dan seberapa banyak multi sub-topik yang

dicakup oleh kalimat tersebut (Sarkar, 2009). Dalam local importance

diperkenalkan konsep cluster term frequency (CTF) yang menghitung bobot kata

penting dengan persamaan log (1+CTF), dimana CTF adalah jumlah dari suatu kata

w pada suatu cluster. Global importance dihitung dengan log (1+CF) dimana

cluster frequency (CF) adalah jumlah cluster yang mengandung kata w. Skor suatu

kalimat s ke-k yang terdapat pada cluster ke-j dihitung dengan Persamaan (2.5)

sedangkan bobot suatu kata w dihitung dengan Persamaan (2.6) berikut:

, (2.5)

, (2.6)

dimana mengindikasikan pentingnya tweet s ke-k pada cluster ke-j dan

adalah pentingnya kata w yang dihitung berdasarkan bobot local

importance dan global importance dari kata w. Nilai bobot fitur dan bobot fitur

yang digunakan adalah 0,5 (Sarkar, 2009). Proses perhitungan pada persamaan

2.6 logritma difungsikan untuk menormalisasi perhitungan bobot w.

2.6 Deteksi Kejadan pada Twitter

Deteksi kejadian memiliki tujuan untuk menemukan peristiwa yang telah

terjadi dimana masing-masing kejadian tersebut merujuk pada kejadian yang

memiliki waktu dan tempat spesifik (Allan dkk, 1998). Dilihat dari jenis kejadian

yang dideteksi, penelitian dibagi menjadi dua bagian yaitu kejadian yang terspesifik

dan kejadian yang tidak terspesifik. Twitter berisi pesan singkat yang berisi

reportase dari seluruh kejadian baik dari lingkup sempit atau lokal maupun global.

Pesan-pesan yang tergolong tidak memiliki arti (trivial) atau merujuk pada kejadian

tertentu sebagai contoh adalah iklan, konten pornografi, pengguna yang hanya

sekedar ingin menaikkan reputasi saja, dan kejadian yang berulang secara periodik.

kjsw

kjLG wWeightsSkor )()(

)1log()1log()( 21 CFCTFwWeight

)( kjLG sSkor

)(wWeight

1

2

10

Hal ini menjadi tantangan utama dalam melakukan deteksi kejadian pada twitter

untuk memisahkan kejadian biasa dan pesan yang tidak memiliki arti dengan pesan

singkat yang mengandung kejadian atau peristiwa dalam dunia nyata.

Twitter merupakan layanan jejaring sosial yang memiliki perbedaan

dengan jejaring sosial media yang lain yaitu memiliki ukuran panjang teks terbatas

140 karakter (Cordeiro, 2012). Batasan tersebut menyebabkan pengguna dengan

mudah mengirim tweet dengan cepat tentang informasi yang akan disampaikan.

Pengguna mengirim pesan singkat berisi kritik, saran, opini, kabar berita, suasana

hati penulis, peristiwa, fakta, dan hal lain yang tidak terkategorikan. Pesan yang

dikirim cenderung ditulis secara singkat dan langsung pada inti dari informasi apa

yang ingin disampaikan.

Saat ini jumlah pengguna twitter telah mencapai angka 140 juta pengguna

aktif yang rata-rata per hari mengirimkan pesan singkat sejumlah 400 juta pesan

(Atefeh dkk, 2013). Angka-angka tersebut menunjukkan bahwa twitter banyak

digunakan karena beberapa hal seperti portabilitas, mudah dalam penggunaan,

berisi pesan yang singkat, dan tidak ada batasan pengguna untuk menyebarkan

informasi melalui media tersebut. Dari sekian banyak pesan singkat yang

dikirimkan tersebut, sebagian besar tweet merupakan laporan peristiwa atau

kejadian yang dialami atau diketahui oleh pengguna (Sakaki dkk, 2010). Sebagai

contoh peristiwa yang dibahas tersebut adalah kejadian terkait sosial seperti adanya

kejadian yang menimpa tokoh di masyarakat, pesta olahraga, pemilu presiden,

kemacetan di suatu wilayah, bencana alam, dan sebagainya.

Beberapa penelitian tentang deteksi kejadian pada twitter secara umum

dapat diklasifikasikan menjadi tiga fokus penelitian yaitu kejadian yang sudah

spesifik ditentukan, kejadian yang terfokus pada seorang tokoh, dan deteksi

kejadian umum atau tidak spesifik (Zhao dkk, 2014). Pada penelitian yang akan

dilakukan termasuk ke dalam kategori yang ketiga yaitu melakukan deteksi

kejadian yang tidak spesifik atau yang bersifat umum. Oleh karena tidak memiliki

informasi tentang kejadian yang akan dideteksi, beberapa penelitian melakukan

pendeteksian kejadian dengan memanfaatkan pola-pola secara temporal atau sinyal

dari data twitter seperti penelitian yang dilakukan pada (Cordeiro, 2012) dan (Weng

dkk, 2011). Selain memanfaatkan pola-pola sinyal, metode lain yang banyak

11

digunakan adalah metode klaster seperti yang dilakukan pada penelitian-penelitian

(Zhao dkk, 2014), (Becker dkk, 2011), dan (Petrovic dkk, 2010). Metode klaster

mengelompokkan kata-kata yang sering muncul ke dalam klaster tertentu dimana

kata-kata yang terdapat pada satu klaster dianggap sebagai representasi kejadian

yang sama.

2.7 Wavelet Analysis

Kebutuhan akan resolusi tinggi dalam analisis sinyal non-stasioner telah

mengakibatkan perkembangan berbagai sarana (tools) untuk menganalisis data-

data sinyal non-stasioner (yaitu sinyal yang kandungan frekuensinya bervariasi

terhadap waktu). Metode Transformasi berbasis Wavelet merupakan suatu sarana

yang dapat digunakan untuk menganalisis sinyal-sinyal non-stasioner. Dalam

beberapa tahun terakhir ini, metode ini telah dibuktikan kegunaannya dan sangat

populer di berbagai bidang ilmu. Analisis Wavelet dapat digunakan untuk

menunjukkan kelakuan secara temporal pada suatu sinyal. Metode Transformasi

Wavelet dapat digunakan untuk menyaring data, menghilangkan sinyal-sinyal yang

tidak diinginkan serta mendeteksi kejadian-kejadian tertentu pada sinyal (Foster

dkk., 1994).

Transformasi Wavelet juga sangat berguna untuk menganalisis sinyal-

sinyal non-stasioner karena berkaitan dengan kemampuannya untuk memisahkan

berbagai macam karakteristik pada berbagai skala (Anant dan Dowla, 1997). Pada

data twitter yang akan diproses frekuensi kata kunci yang muncul tidak konstan

atau non-stasioner sehingga penggunaan Wavelet sesuai dengan data yang

digunakan. Proses yang dilakukan dalam transformasi wavelet adalah pertama kali

membentuk sinyal yang berasal dari data frekuensi terhadap waktu. Tahap

selanjutnya adalah mendekomposisi sinyal menggunakan beberapa jenis wavelet

yang salah satunya adalah db1 dan coiflet yang nantinya akan digunakan dalam

penelitian ini karena sifatnya menghasilkan wavelet yang baik untuk aproksimasi

maupun detail. Hasil dari proses dekomposisi adalah coefficients yang nantinya

akan dilakukan proses scaling atau translating sehingga coefficients disusun

kembali pada tahap constructing.

12

Secara khusus Wavelet digunakan dalam dua cara yaitu sebagai alat untuk

mengekstraksi informasi suatu data dan sebagai penyajian atau karakterisasi suatu

data. Dalam mengekstraksi informasi, merujuk pada sifat utama Wavelet yaitu

time-frequency localization dimana analisis sinyal menggunakan Wavelet adalah

bahwa dapat dipelajarinya karakteristik sinyal secara lokal dan detail, sesuai dengan

skalanya. Penyajian data menggunakan Wavelet dilakukan dengan cara ekspansi

tak berhingga dari Wavelet yang diulur (dilated) dan digeser (translated) (Kumar

dan Foufoula-Georgiou, 1994). Wavelet merupakan fungsi matematik yang

membagi-bagi data menjadi beberapa komponen frekuensi yang berbeda-beda,

kemudian dilakukan analisis untuk masing-masing komponen menggunakan

resolusi yang sesuai dengan skalanya (Graps, 1995).

Wavelet analysis merupakan metode untuk melakukan pengukuran terkait

kapan dan bagaimana frekuensi dari sinyal berubah terhadap waktu (Weng dkk,

2011). Apabila dibandingkan dengan Fourier, kedua metode ini dalam menganalisis

sinyal diawali dengan memecah sinyal mencadi potongan-potongan sinyal. Wavelet

baik digunakan untuk memproses sinyal yang tidak teratur dan berubah-ubah

bentuk. Keunggulan wavelet adalah mampu menemukan korelasi atau hubungan

antara waktu dan frekuensi pada domain sinyal. Inti dari wavelet analysis adalah

wavelet transformation yaitu merubah sinyal dari time domain menjadi time-scale

domain (Weng dkk, 2011). Proses pemecahan sinyal akan menghasilkan wavelet

coefficients dan himpunan basis fungsi. Himpunan basis fungsi disebut sebagai

wavelet family terbentuk dari proses scaling dan translating dari mother wavelet

ψ(t). Proses scaling pada wavelet adalah melakukan peregangan atau penyusutan

ψ(t), sedangkan proses translation hanya memindahkan posisi temporal tanpa

melakukan perubahan pada sinyal itu sendiri. Wavelet family didefinisikan sebagai

berikut (Weng dkk, 2011) :

𝜑𝑎,𝑏(𝑡) = 𝑎−1/2𝜑 (𝑡−𝑏

𝑎) (2.7)

𝑎, 𝑏 ∈ ℝ dimana 𝑎 dan 𝑏 adalah nilai scaling dan translating dan t adalah

waktu.

Wavelet transformation dibagi menjadi continuous wavelet

transformation (CWT) dan discrete wavelet transformation (DWT). Secara umum,

pada saat proses analisis CWT menghasilkan representasi sinyal yang berulang atau

13

redundant. Selain itu CWT apabila dilakukan pemrosesan atau transformasi secara

langsung membutuhkan waktu yang cukup lama. Berkebalikan dengan DWT,

proses yang dilakukan akan menghasilkan representasi sinyal yang tidak berulang

atau non-redundant dan tidak membutuhkan waktu yang banyak ketika melakukan

tranformasi. Pada penelitian akan digunakan DWT sebagai pemroses Wavelet

karena data frekuensi twitter berupa data diskrit. Gambar 2.2 merupakan contoh

wavelet kata kunci kejadian yang berulang secara periodik.

Gambar 2.2 Wavelet Kata Kunci ‘pagi’

2.8 Wavelet Autocorrelation

Korelasi merupakan operasi matematika yang mirip dengan proses

konvolusi. Sebagaimana pada konvolusi, korelasi menggunakan dua siyal untuk

menghasilkan sinyal ketiga. Sinyal ketiga ini disebut dengan cross correlation dari

dua sinyal masukan. Jika sinyal dikorelasikan dengan dirinya sendiri, maka

hasilnya disebut autocorrelation. Pendeteksian sinyal berulang secara periodik

pada sinyal non-stasioner dapat dilakukan dengan metode autocorrelation pada

Wavelet. Sinyal yang berulang secara periodik merepresentasikan kejadian yang

berulang pada data twitter sehingga tidak diperlukan dalam proses peringkasan.

Autocorrelation digunakan dalam analisis sinyal dengan membaca perubahan

sinyal berdasarkan waktu menggunakan hubungan probabilitas. Perhitungan

dilakukan dengan membandingkan coefficients yang berasal dari proses

transformasi sinyal Wavelet sehingga dapat membandingkan apakah antar

14

coefficient (Rafiee dkk, 2009). Prinsip kerja pada autocorrelation adalah dengan

menggeser sinyal dengan beberapa penyesuaian pada waktu atau periode yang

dinyatakan sebagai berikut :

(2.8)

dimana C adalah fungsi autocorrelation, x(n) adalah koefisien Wavelet dan m

adalah pergeseran waktu. Setelah ditemukan sinyal-sinyal yang berulang pada

wavelet maka kata kunci tersebut tidak diperhitungkan dalam melakukan

peringkasan dokumen yang dilakukan selanjutnya. Perhitungan autocorrelation

ditampilkan dalam diagram correlogram seperti nampak pada gambar dibawah ini

pada Lag pertama nilai korelasi melebihi batas threshold yang telah ditentukan

sehingga hal tersebut dapat disimpulkan sebagai kejadian berulang karena memiliki

korelasi tinggi pada sebuah Wavelet.

Gambar 2.3 Correlogram kejadian yang berulang secara periodik

15

3 BAB 3

METODOLOGI PENELITIAN

Tahapan-tahapan yang dilalui pada penelitian ini meliputi (1) Studi

Literatur, (2) Desain Model Sistem, (3) Pembuatan Perangkat Lunak, (4) Uji Coba,

dan (5) Analisa Hasil. Alur tahapan-tahapan tersebut dapat dilihat pada Gambar 3.1.

Gambar 3.1 Alur Metodologi Penelitian

3.1 Studi Literatur

Studi literatur dilakukan untuk mendapatkan informasi dari berbagai

literatur yang akan digunakan, perkembangan, serta metode yang pernah dipelajari

sebelumnya. Studi literatur yang dilakukan diharapkan dapat memberikan data,

informasi, dan fakta mengenai peringkasan dokumen Twitter dengan deteksi

kejadian trivial untuk pemilihan kata kunci yang akan dikembangkan. Studi

literatur yang dilakukan mencakup pencarian dan mempelajari referensi-referensi

yang terkait, seperti:

Studi Literatur

Desain Model Sistem

Pembuatan Perangkat Lunak

Uji Coba

Analisa Hasil

16

1. Text preprocessing yaitu segmentation (tweet), stopword removal dan

stemming Bahasa Indonesia.

2. Metode transformasi wavelet dan autocorrelation coefficient

3. Metode unigram matching based similarity dan metode K-medoids untuk

clustering tweet.

4. Ekstraksi fitur dari tweet berdasarkan fitur kata kunci cluster tweet berdasarkan

hasil pembobotan.

5. Metode evaluasi hasil ringkasan dengan mengadopsi ROUGE yaitu perhitungan

nilai Recall.

3.2 Desain Model Sistem

Secara global, desain model sistem yang digunakan diadopsi dari

(Cordeiro, 2012) yang ditunjukkan pada Gambar 3.2. Sesuai dengan uraian pada

sub-bab 1.4, sistem yang dibangun diuji dengan data streaming twitter unspecified

berdasarkan API twitter Berbahasa Indonesia. Data diambil dengan proses

streaming secara berkelanjutan atau terus menerus pada rentang waktu tertentu

sehingga data yang dihasilkan tidak terpotong-potong waktu.

3.2.1 Fase Text Preprocessing

Fase Text preprocessing adalah fase yang pertama dilakukan sebelum

dokumen diproses untuk dibentuk menjadi dokumen frekuensi dan sinyal Wavelet.

Data yang digunakan merupakan data teks twitter yang diperoleh dari Stream API

Twitter yang dibatasi pada wilayah geografis Indonesia sehingga bahasa yang

dituliskan oleh pengguna yang menggunakan Bahasa Indonesia pada rentang waktu

tertentu. Data twitter yang dimanfaatkan pada penelitian adalah dokumen teks dan

waktu pengirimannya. Dokumen teks tweets yang digunakan merupakan dokumen

teks yang tidak spesifik pada sebuah kejadian (unspecified) sehingga dokumen-

dokumen tersebut tidak memiliki prior knowledge mengenai isi dari dokumen.

Adapun tahap yang dilalui dalam text preprocessing adalah sebagai berikut :

Segmentation

Segmentasi merupakan proses untuk mencari kata-kata yang menyusun sebuah

tweet dari dokumen-dokumen twitter. Segmentasi kata dilakukan dengan

memisahkan setiap kata berdasarkan spasi dan tanda baca.

17

Dokumen Twitter

Teks

Preprocessing

Transformasi sinyal

Wavelet frekuensi kata

kunci

Pemilihan kata kunci

kejadian

(autocorrelation)

Clustering tweet Peringkasan tweet pada

setiap cluster

Ringkasan

kejadian

Eliminasi tweet

mengandung kata kunci

trivial

Dekomposisi sinyal

Perhitungan coefficient

correlation

Gambar 3.2 Framework peringkasan dokumen twitter dengan mendeteksi

kejadian trivial untuk pemilihan kata kunci

Stopword removal

Stopword removal berguna untuk menghilangkan kata-kata yang dianggap

tidak penting dalam suatu dokumen. Kata-kata yang dimaksud adalah kata-kata

seperti ‘di, ‘adalah‘, ‘tidak’, ‘lalu’, dan sebagainya. Kamus stopword list yang

digunakan merupakan kumpulan Bahasa Indonesia yang didapatkan pada

appendix pada sebuah penelitian (Tala, 2003). Selain kata-kata yang terdapat

pada daftar proses ini juga melakukan penghapusan terhadap URL dan kata

yang sering muncul pada Twitter seperti "RT".

18

Stemming

Stemming dilakukan untuk mendapatkan kata dasar dari semua kata-kata

penyusun dokumen. Algoritma stemming Bahasa Indonesia yang digunakan

dalam penelitian ini adalah algoritma yang ada pada sebuah penelitian (Arifin,

2001).

3.2.2 Fase Transformasi Teks menjadi Frekuensi Kata Kunci tiap Periode

Kata kunci yang dihasilkan pada tahap preproses diurutkan berdasarkan

frekuensi kemunculan untuk kemudian dipilih kata kunci mana yang masuk

kedalam top-N frequency. Fase ini bertujuan merubah representasi data teks

menjadi numerik berupa frekuensi dan periode waktu untuk dibentuk menjadi

Wavelet. Kata kunci disimpan dengan disertai informasi waktu kemunculan dari

tweet yang mengandung kata tersebut. Frekuensi yang dibentuk merupakan

pengelompokan pada rentang periode waktu tertentu, pada penelitian dilakukan

pengelompokan frekuensi setiap enam puluh menit. Proses transformasi teks

menjadi frekuensi tiap periode dilakukan berdasarkan beberapa tahap pada Gambar

3.3.

Mulai

Term dan waktu

kemunculan

Pengurutan kemunculan term

berdasarkan waktu

Pengelompokkan frekuensi term

per periode

Pengurutan frekuensi term per

periode berdasarkan waktu

Selesai

Gambar 3.3 Flowchart transformasi teks menjadi frekuensi kata kunci tiap periode

waktu

19

3.2.3 Fase Transformasi Sinyal Wavelet Kata Kunci

Frekuensi kemunculan kata yang pada tahap sebelumnya disimpan dengan

disertai informasi waktu kemunculan dari tweet yang mengandung kata tersebut.

Dari data-data tersebut dapat ditentukan frekuensi kemunculan sebuah kata pada

rentang atau interval waktu tertentu. Adapun tahap yang dilalui dalam transformasi

sinyal wavelet adalah sebagai berikut :

Dekomposisi sinyal

Dekomposisi sinyal adalah proses merubah data frekuensi kemunculan kata

yang sudah tersusun dalam urutan waktu menjadi coefficients. Proses ini dilakukan

pada kata-kata yang memiliki document frequency N besar dari keseluruhan

kemunculan kata pada rentang interval waktu ternetu. Pada penelitian ini jenis

Wavelet yang dihasilkan adalah bersinyal diskrit karena kejadian kemunculan

bersifat diskrit dengan jenis Wavelet Coifman atau yang disebut sebagai Coiflet.

Jenis Wavelet ini memiliki memiliki sifat pemampatan yang sama baik untuk

coefficient aproksimasi maupun detail.

Deteksi puncak (peak) sinyal

Deteksi puncak dari wavelet dilakukan untuk menentukan kata kunci mana

yang dianggap sebagai representasi suatu kejadian penting. Apabila sebuah wavelet

dari kata kunci tidak terdeteksi peak maka kata kunci tidak akan dianggap sebagai

kata kunci pada kejadian penting.

Perhitungan coefficient correlation

Perhitungan korelasi coefficient dilakukan dengan proses autocorrelation

yaitu dengan menghitung korelasi antara coefficient sebuah wavelet dengan wavelet

itu sendiri. Bagian ini merupakan kontribusi dalam penelitian ini untuk menentukan

apakah kata kunci untuk menentukan apakah kata kunci pada wavelet tersebut

mengalami perulangan secara periodik atau tidak. Wavelet dari kata kunci yang

terjadi perulangan akan dieliminasi dari kata kunci penting dan dianggap sebagai

kejadian trivial. Hasil dari proses ini adalah nilai korelasi dari sebuah kata kunci

apakah akan diproses pada tahap clustering atau tidak sehingga diproses untuk

peringkasan.

20

3.2.4 Fase Clustering Tweet dengan K-medoids

Tweet yang berisi kata kunci yang terpilih sebagai representasi kejadian

penting akan diproses pada bagian ini. Tujuan dari tahap ini adalah untuk

mengumpulkan tweet yang memiliki kesamaan bahasan atau topik kejadian

sehingga tweet akan terkumpul dalam kelompok-kelompok. Pada saat clustering

tweet menggunakan K-medoids terdapat perhitungan similarity yang dilakukan

untuk setiap tweet yang belum diproses dengan semua tweet yang ada pada cluster.

Secara umum proses clustering dokumen twitter melalui tahap seperti pada Gambar

3.4.

start

Kumpulan

tweets

Inisialisasi k,

Inisialisasi medoids,

Hitung jarak similarity

tweets terhadap medoids

(cost baru)

Update medoids



(cost lama)

Cost baru>cost lama? Update cost

End

N

Y

Gambar 3.4 Flowchart clustering dokumen twitter dengan menggunakan

algoritma K-medoids

Fungsi similarity yang digunakan adalah uni-gram matching-based

similarity yang ditunjukkan pada Persamaan 2.1. Proses clustering kalimat

menggunakan algoritma K-medoids dapat dilihat pada pseudocode yang

ditunjukkan pada Gambar 3.4.

21

3.2.5 Fase Pemilihan Tweet Representatif

Pemilihan tweet representatif ditentukan berdasarkan skor kalimat.

Semakin besar skor sebuah tweet di dalam cluster merepresentasikan bahwa tweet

tersebut adalah semakin penting atau representatif. Perhitungan skor dilakukan

berdasarkan kemiripan tweet dengan kata kunci yang masuk kedalam word

frequency tertinggi. Konsep ini mengindikasikan perhitungan skor dilihat dari

seberapa sentral sebuah tweet terhadap cluster dan seberapa banyak sub-topik lain

yang dicakup. Pembobotan dilakukan berdasar fitur kata yang sering muncul pada

sebuah cluster dengan persamaan pada 2.5.

3.2.6 Fase Penyusunan Ringkasan

Setelah tweet terkelompok dalam cluster maka akan terbentuk beberapa

cluster sesuai dengan nilai k yang dikehendaki. Jumlah k menandakan banyaknya

kelompok tweet yang masing-masing kelompok dianggap mewakili sebuah

kejadian. Pada masing-masing cluster memiliki word frequency yang merupakan

kata kunci yang paling sering muncul dalam sebuah cluster. Tweet akan diurutkan

berdasarkan tingkat kemiripannya dengan daftar word frequency dimana tweet yang

menduduki urutan tertinggi akan dianggap sebagai tweet representatif dalam

cluster.

3.3 Pembuatan Perangkat Lunak

Pada tahapan ini dilakukan implementasi desain model sistem ke dalam

kode program sehingga dapat dimengerti oleh komputer. Sistem yang dibangun

adalah berbasis web dimana pada tahap preprocessing serta proses perhitungan

yang lain dengan bahasa pemrograman Python dan database MongoDB. Proses

analisis wavelet dilakukan menggunakan library bahasa Python. Data dokumen

Twitter didapatkan pada API Streaming Twitter dengan metode Firehouse yaitu

mengambil stream data tweet dengan batasan letak geografis tertentu. Setelah

melalui proses text preprocessing data disimpan kedalam database untuk proses

selanjutnya data-data hasil ekstraksi menggunakan data yang tersimpan pada

database.

22

Terdapat dua komponen utama dalam fase ini yaitu pengembangan sistem

peringkasan multi-dokumen sesuai dengan metode yang diusulkan dan

pengembangan interface sistem sebagai sarana interaksi sistem dengan pengguna.

3.4 Skenario Uji Coba

Uji coba sistem dilakukan untuk menguji atau menjalankan sistem dengan

beberapa parameter yang ada pada metode. Parameter-parameter yang digunakan

akan diestimasi untuk mendapatkan nilai yang optimal sehingga memberikan hasil

pengujian yang terbaik. Pada Tabel 3.1 dijelasakan beberapa parameter yang akan

diestimasi.

Tabel 3.1 Parameter-parameter yang Diestimasi

Parameter Keterangan

confidence boundary Nilai batas atas dan bawah koefisien pada correlogram

yang menentukan sebuah wavelet dianggap memiliki

tingkat keperiodikan tinggi atau rendah

nilai minimum kata

kunci trivial (R)

Nilai batas bawah jumlah koefisien yang berada diatas nilai

confidence boundary yang dianggap sebagai kata kunci

trivial.

nilai k Jumlah cluster yang akan dibentuk dalam proses

perhitungan k-medoids

Skenario pengujian sistem merupakan kumpulan langkah-langkah yang

menjelaskan apa dan bagaimana alur pengujian sistem. Pada penelitian ini kinerja

dari metode yang diajukan dievaluasi berdasarkan nilai recall dan silhouette.

Parameter pengujian secara umum dibagi menjadi dua bagian yaitu :

Pemilihan kata kunci trivial

Nilai batas atas dan bawah koefisien pada correlogram yang menentukan

sebuah wavelet dianggap memiliki tingkat keperiodikan tinggi atau rendah

Nilai 𝑅 yang menentukan nilai autocorrelation yang dianggap sebagai

kejadian berulang (trivial) dengan beberapa variasi.

Peringkasan

Jumlah cluster (k) yang digunakan dalam proses pengelompokkan

23

Batas frekuensi minimal kata w dalam proses cluster ordering dengan

beberapa variasi.

Semua parameter yang ada diuji dengan berbagai kombinasi nilai untuk

menghasilkan ringkasan yang bertujuan untuk mengoptimalkan nilai recall dan

silhouette dengan membandingkan apakah didahului oleh proses eliminasi terhadap

tweet yang mengandung kata kunci trivial atau tidak. Silhouette merupakan nilai

kualitas cluster yang mengindikasikan derajat kepemilikan setiap objek yang

berada di dalam cluster, sedangkan recall merupakan tingkat keberhasilan sistem

dalam menghasilkan sebuah ringkasan yang paling sesuai dibandingkan secara

manual. Proses evaluasi sistem mengacu pada nilai parameter-parameter yang telah

dioptimalkan sehingga mendapatkan hasil yang baik. Ringkasan akhir yang

terbentuk berdasarkan parameter-paramter optimal selanjutnya dievaluasi

berdasarkan nilai recall yang membandingkan dengan Groundtruth atau proses

manual.

Lingkungan pengembangan penelitian yang digunakan dalam penelitian

ini sebagai berikut:

1. Spesifikasi perangkat lunak yang digunakan:

a. Sistem operasi Centos 7 64-bit

b. IDE Aptana 3

c. Bahasa pemrograman Python, PHP, NodeJS

d. DBMS berbasis NoSQL MongoDB

2. Spesifikasi perangkat keras yang digunakan:

a. Intel(R) Xeon(R) CPU E5-2630L V2 @ 2.40GHz, RAM 512 MB,

hardisk 20 GB Memory (RAM) 8 GB

b. Implementasi dilakukan pada virtual machine Digital Ocean Singapura

dengan alamat http://socmed.io

Penelitian ini dilaksanakan di laboratorium Pascasarjana Fakultas

Teknologi Informasi, Jurusan Teknik Informatika, Institut Teknologi Sepuluh

Nopember. Penelitian ini dimulai dari bulan Oktober 2014 s/d April 2015.

24

3.5 Metode Evaluasi

Kualitas hasil pengelompokkan pada penelitian ini dievaluasi dengan

metode silhouette untuk kemudian dilakukan evaluasi pada hasil ringkasan

menggunakan recall. Nilai silhouette merupakan merupakan nilai kualitas cluster

yang menunjukkan derajat kedekatan antar objek di dalam sebuah cluster. Pada

penelitian ini akan dibandingkan hasil perhitungan cluster antara kumpulan data

tweet yang telah mengalami eliminasi untuk tweet yang mengandung kata kunci

trivial dengan kumpulan data tweet yang tidak mengalami proses eliminasi. Hasil

perhitungan terhadap kata kunci yang berulang secara periodik (trivial) akan

mengeliminasi sebagian besar tweet yang mengandung kata kunci trivial.

Pengukuran kualitas cluster digunakan metode evaluasi Silhouette

Coefficient (Rousseeuw, 1987). Silhouette Coefficient akan mengukur kualitas

cluster yang dihasilkan sekaligus mengindikasikan derajat kepemilikan setiap objek

yang berada di dalam cluster. Nilai Silhouette dari sebuah objek Oj berada pada

rentang antara -1 sampai dengan 1. Semakin dekat nilai Silhouette objek Oj ke 1,

maka semakin tinggi derajat Oj di dalam klaster. Dimana pada penelitian ini Oj

direpresentasikan dengan tweet. Adapun penghitungan nilai Silhouette (𝑠(𝑖)) untuk

tiap tweet menggunakan persamaan 3.1 dan 3.2. Dimana a(i) adalah jarak kedekatan

tweet i terhadap seluruh tweets yang ada di cluster internal, yaitu cluster tempat

tweet i berada. Sedangkan b adalah jarak kedekatan antara tweet i terhadap seluruh

cluster eksternal, yatiu seluruh cluster selain cluster internal.

𝑏(𝑖) = max𝑐𝑗≠𝐴

𝑑(𝑖, 𝑐𝑗) (3.1)

𝑠(𝑖) =𝑏(𝑖)−𝑎(𝑖)

max {𝑎(𝑖),𝑏(𝑖)} (3.2)

𝑟𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃

𝑇𝑃+𝐹𝑁 (3.3)

Setelah didapatkan nilai (𝑠(𝑖)) untuk tiap tweet pada tiap cluster langkah

selanjutnya adalah rata-rata nilai (𝑠(𝑖)) untuk tiap cluster atau yang lebih dikenal

dengan Average Silhouette Width (ASW). Nilai ASW ini mampu mengindikasikan

kualitas clustering. Berdasarkan range nilai ASW yang dihasilkan dibedakan

menjadi 4 kriteria (Rousseeuw, 1987), yaitu : sangat baik ( dengan range 0.71 ≤

ASW ≤ 1), sudah baik (0.51 ≤ ASW < 0.71), cukup baik (0.26 ≤ ASW < 0.51), dan

kurang baik (ASW < 0.26).

25

Nilai parameter yang terpengaruh untuk mendapatkan hasil silhouette dan

recall telah disebutkan pada bagian 3.4 yang kemudian dilakukan pencarian nilai

optimal untuk mendapatkan hasil evaluasi yang paling baik. Perbandingan kualitas

hasil pengelompokkan berdasarkan nilai silhouette dilakukan untuk mengetahui

apakah metode yang diajukan dapat berjalan efektif atau tidak. Metode-metode

yang diajukan adalah yang ada pada fase pemilihan tweet kejadian penting yang

dilakukan dengan mengeliminasi tweet yang mengandung kata kunci kejadian yang

berulang secara periodik. Setelah diketahui bahwa metode tersebut akan

menghasilkan hasil pengelompokkan yang baik, maka perhitungan ringkasan

dilakukan dengan metode recall seperti pada persaman 3.3 dimana tujuan utama

dari evaluasi ini adalah membandingkan hasil peringkasan yang dilakukan oleh

sistem terhadap hasil ringkasan yang dilakukan secara manual atau yang disebut

dengan groundtruth.

27

BAB 4

HASIL DAN PEMBAHASAN

Pada bab ini dipaparkan hasil uji coba penelitian yang telah dilakukan

terkait dengan peringkasan dokumen Twitter dengan melakukan pendeteksian

kejadian penting (non-trivial) untuk pemilihan kata kunci menggunakan metode

autocorrelation wavelet coefficient.

4.1 Implementasi Metode

Mengacu pada Gambar 3.2, ada lima fase yang dilalui dalam membangun

sistem deteksi kejadian trivial untuk pemilihan kata kunci pada peringkasan

dokumen Twitter yaitu text preprocessing, transformasi wavelet kata kunci,

autocorrelation wavelet, clustering tweet, dan peringkasan tweet. Spesifikasi

komputer server pemroses yang digunakan dalam implementasi adalah proses

Intel(R) Xeon(R) CPU E5-2630L v2 @ 2.40GHz, RAM 512 MB, hardisk 20 GB

dan alamat server socmed.io. Sistem operasi yang digunakan adalah Centos 7 64-

bit. Sedangkan spesifikasi perangkat lunak yang digunakan adalah Python 3.4,

PHP, NodeJS dengan IDE Aptana 3. Sistem diimplementasikan menggunakan

database NoSQL berbasis dokumen MongoDB yang disimpan dengan struktur file

JSON.

4.1.1 Implementasi Fase Text Preprocessing

Sesuai dengan sub sub-bab 3.2.1 terdapat tiga buah proses utama yang

terdapat pada fase ini yaitu segmentation (segmentasi), stopword removal, dan

stemming. Semua proses tersebut dilakukan secara langsung sebelum tweets

disimpan pada collections atau tabel pada database MongoDB. Tweets disimpan

dalam kondisi asli dan disertai juga dengan bentuk sudah melalui tahap preproses.

Langkah pertama yang dilakukan dalam fase ini adalah memproses

masing-masing tweet yang berformat JSON untuk diproses menghasilkan teks yang

siap diproses pada tahap selanjutnya. Gambar 4.1 merupakan contoh format

dokumen yang digunakan dalam penelitian ini.

28

Gambar 4.1 Format dokumen tweets sebagai dataset ujicoba

Proses segmentasi didahului dengan menghilangkan seluruh tanda baca

sehingga dalam tweets hanya tersisa huruf dan angka saja. Selanjutnya proses

segmentasi dilakukan dengan memecah masing-masing kata berdasarkan pembatas

spasi sehingga akan dihasilkan daftar term untuk masing-masing tweets. Proses

selanjutnya adalah mengeliminasi term yang terdapat terdaftar di dalam stopword

untuk dieliminasi dari dalam daftar term. Tahap akhir dari proses text preprocess

adalah dengan melakukan proses stemming yaitu melakukan perubahan term

menjadi bentuk dasarnya. Pada Gambar 4.2 potongan kode program untuk proses

inti dari fase text preprocess.

Gambar 4.2 Potongan Kode Program untuk Fase Text Preprocessing

Kalo lg mau foto ber2 megang kaca diketawain pkony ribet

@JawabJUJUR: Buat kalian, momen seperti apa yg bisa bikin

inget sama mantan ? #JJ

#fungsi untuk menghapus stopword

def get_stopword():

with open('/twitter/nlp/stopword_list.csv') as csvfile:

reader = csv.DictReader(csvfile)

global stopword

stopword=[]

for row in reader:

stopword.append(row['kata'])

#fungsi untuk memeriksa kata terdapat pada kamus/tidak

def get_kata(kata):

if kata in daftar_kata:

return 1

else:

return 0

#memotong akhiran pada sebuah kata

def potong_akhiran(kata):

kata = kata.lower();

akhiran1 = get_akhiran_1();



akhir = [None] * 3

akhir[0] = ""

akhir[1] = ""

akhir[2] = ""

29

4.1.2 Implementasi Fase Transformasi Wavelet Kata Kunci

Pada fase ini sesuai dengan sub sub-bab 2.7 dan 3.2.3 adalah melakukan

perubahan atau transformasi frekuensi kata kunci dari time-domain menjadi time-

scale-domain. Penjelasan mengenai transformasi wavelet telah dijelaskan pada

bagian sebelumnya yaitu menggunakan mother wavelet berjenis coiflet atau juga

disebut wavelet coifman. Secara singkat langkah ini adalah untuk menunjukkan

kelakuan sinyal secara temporal sehingga dapat digunakan pada analisis

selanjutnya. Secara garis besar fase ini terdiri dari tiga langkah yaitu pembentukan

sinyal yang berasal dari data frekuensi pada interval waktu tertentu, dekomposisi

sinyal menggunakan wavelet berjenis coiflet, dan pembentukan wavelet yang

menghasilkan coefficient approximately dan detail. Potongan kode program untuk

proses transformasi wavelet pada Gambar 4.3. Proses pembentukan wavelet

dilakukan dengan memproses data masukan berupa urutan waktu detail beserta

frekuensi pada masing-masing waktu tersebut sampai menjadi koefisien wavelet.

Gambar 4.3 Potongan Kode Program untuk Fase Transformasi Wavelet

4.1.3 Implementasi Fase Autocorrelation Wavelet

Fase perhitungan autocorrelation wavelet merupakan fase inti dari proses

pemilihan kata kunci. Proses ini dilakukan setelah mendapatkan koefisien wavelet

##############################

####wavelet transformation####

import pywt

cA, cD = pywt.dwt(table, 'coif1')

ax_1 = fig_1.add_subplot(111)

ax_2 = fig_2.add_subplot(111)

ax_1.plot(cA)

ax_2.plot(cD)

fig_1.savefig('approximation-wavelet.png')

plt2.title('Wavelet Detail')

plt2.xlabel('time lags')

plt2.ylabel('frequency')

fig_2.savefig('detail-wavelet.png')

result.append({"waktu":"cA","jumlah":link_cA});

result.append({"waktu":"cD","jumlah":link_cD});

print result

30

berupa nilai approximation dari perhitungan wavelet. Setelah mendapatkan nilai

tersebut maka dilakukan perhitungan autocorrelation seperti pada Gambar 4.4.

Gambar 4.4 Potongan Kode Program untuk Proses Autocorrelation

Pada potongan kode program di atas, proses perhitungan autocorrelation

dilakukan dengan menggunakan fungsi st.stattools.acf dengan parameter

masukan berupa koefisien wavelet dari proses sebelumnya dan nlags atau jumlah

berapa kali proses penggeseran dari wavelet. Setelah menghasilkan nilai korelasi

dari perhitungan autocorrelation maka dilakukan proses penghitungan jumlah

korelasi yang lebih besar dan lebih kecil dari nilai negatif dari confidence boundary

yang telah ditentukan sebelumnya. Proses akhir dari perhitungan autocorrelation

adalah berupa nilai yang akan digunakan sebagai penentuan apakah sebuah kata

kunci merupakan kata kunci trivial atau bukan.

4.1.4 Implementasi Fase Clustering Teks Tweet

Proses implementasi clustering tweet dilakukan setelah ditentukan kata

kunci mana yang dianggap kata kunci penting setelah dieliminasi kata kunci-kata

kunci yang dianggap trivial. Proses clustering menggunakan algoritma k-medoids

bertujuan untuk mengelompokkan teks tweet yang memiliki kesamaan topik ke

dalam satu cluster. Proses pengukuran similarity dilakukan menggunakan unigram

similarity seperti pada pembahasan sub bab 2.4 yang memperhitungkan tingkat

kemiripan antar tweet. Pada bagian ini akan ditampilkan Gambar 4.5 sebagai

#autocorrelation

autocorr_count =0

autocorr =[]

autocorr_res =[];

conf_boundary =0.25

for data in st.stattools.acf(result,nlags=len(result)):

if data >= conf_boundary:

autocorr_count+=1

if data <= -(conf_boundary):

autocorr_count+=1

autocorr.append(data)

print str(i)+"-"+term['term']+"-"+str(autocorr_count)

i=i+1

31

potongan kode program untuk melakukan proses clustering seperti pada gambar di

bawah ini.

Gambar 4.5 Potongan Kode Program untuk proses clustering tweet

Pada potongan kode program clustering di atas adalah untuk melakukan

proses perhitungan penentuan jarak sebuah tweet dengan tweet yang dijadikan

centroid untuk menghitung jarak terdekat yang diperoleh dari perhitungan

similarity dengan nilai terbesar. Proses perulangan untuk mendapatkan hasil nilai

medoids tetap dilakukan maksimal sebanyak tiga puluh kali sehingga akan

menghasilkan medoids yang tetap.

i=1

for tweet in collection.find(timeout=False).limit(limit):

print i

i=i+1

if cluster_list.find({"id_str":tweet['id_str']}).count()==0:

#pemeriksaan masing-masing cluster

distance_res=[]

for cluster in cluster_list.find({"is_medoid":"1"}):

tweet1['text_clean']=tweet1['text_clean'].strip()

total=tweet1['text_clean'].strip()+"

"+cluster['text'].strip()

union =len(total.split(" "))

n = 0.

words1 = set(tweet1['text_clean'].split())

for word in cluster['text'].split():

if word in words1:

n += 1

sim=float((2*n)/union)

distance_res.append(sim)

#jarak per tweet pada masing-masing cluster

if (len(distance_res)>0):

x=np.array(distance_res)

if(max(distance_res)>0.0):

text=

[{"id_str":""+tweet1['id_str']+"","cluster":""+str(int(x.a

rgmax()+1))+"","text":""+tweet1['text_clean']+"","is_medoi

d":"0","sim":max(distance_res)}]

cluster_list.insert(text);

32

4.1.5 Implementasi Fase Peringkasan Tweet

Proses peringkasan dilakukan dengan diawali proses ekstraksi kata kunci

dari masing-masing kelompok tweet yang sebelumnya telah diproses pada fase

clustering. Proses ekstraksi dilakukan dengan menggunakan pembobotan kata

berdasarkan Word Frequency (WF) kemudian menyeleksi kata yang memiliki nilai

bobot diatas nilai ambang. Sehingga hasil akhir dari proses ini adalah masing-

masing grup cluster memiliki kumpulan kata kunci yang merepresentasikan

kejadian atau topic words. Proses ekstraksi kata kunci dilakukan dengan kode

program seperti pada Gambar 4.6 dibawah ini.

Gambar 4.6 Potongan Kode Program untuk proses peringkasan

Setelah kata kunci penting pada masing-masing cluster telah ditentukan,

maka langkah selanjutnya adalah melakukan pembobotan pada masing-masing kata

kunci penting menggunakan konsep cluster importance. Pembobotan dilakukan

untuk menyeleksi sebuah kejadian yang paling trending atau paling banyak

diperbincangkan. Metode ini melakukan pengurutan tweet berdasarkan kesamaan

kata penting yang muncul pada cluster. Proses pengurutan tweet dilakukan pada

potongan kode program seperti pada Gambar 4.7 dibawah ini.

client = pymongo.MongoClient('localhost', 27017);

db = client['twitter']

collection = db["stream.indonesia.cluster"]

tf_collection = db["cluster.tf"]

tweets = collection.find({"cluster":cluster});

tf_collection.drop()

for text in tweets:

for term in set(text['text'].split()):

tf_collection.update({'term':term}, {'$inc': {'df':

1}}, upsert=True)

for term in text['text'].split():

tf_collection.update({'term':term}, {'$inc': {'tf':

1}}, upsert=True)

33

Gambar 4.7 Potongan Kode Program untuk menentukan Tweet hasil ringkasan

4.2 Data Ujicoba

Data ujicoba yang digunakan pada penelitian ini berasal dari data teks

Twitter atau yang disebut dengan tweet berbahasa Indonesia. Tweet diambil dengan

melakukan proses crawling menggunakan Twitter API dengan memanfaatkan

library Python Twitter 1.16.0. Dokumen tweets diambil menggunakan metode

Streaming APIs Twitter dimana proses pengambilan data tidak melakukan

penyaringan atau pemilihan terhadap kata kunci tertentu (non-query).

Proses pembatasan crawling pada tweet berbahasa Indonesia dilakukan

dengan membatasi proses Stream dengan konfigurasi geolocation atau lokasi

geografis Negara Indonesia yaitu 94,-11,141,6. Proses pengambilan dilakukan

secara kontinyu atau berkelanjutan selama sepuluh hari (15-24 Januari 2015)

dengan jumlah total tweet sebesar 643.196. Proses crawling secara langsung

memproses setiap tweet dengan melakukan tahap praproses seperti segmentation,

stopword removal, dan stemming. Setelah melewati tahap praproses, data Twitter

disimpan pada tiga tabel (collection) yang berbeda yaitu penyimpanan tweet asli

beserta tweet yang sudah terpreproses, tabel ‘term.frekuensi’ untuk masing-masing

kata, dan tabel detail masing-masing term beserta waktu. Struktur tabel (collection)

sebagai penyimpanan tweet ditampilkan pada Tabel 4.1.

vectorizer = TfidfVectorizer(min_df=1)

def cosine_sim(text1, text2):

tfidf = vectorizer.fit_transform([text1, text2])

return ((tfidf * tfidf.T).A)[0,1]

centroid = (sys.argv[1]).replace("-"," ")

score=[]

for x in content:

score.append(cosine_sim(centroid,x))

print ({np.argmax(score):max(score)})

34

Tabel 4.1 Struktur tabel penyimpanan tweet

No. Field Keterangan

1. ObjectId kode otomatis sebagai key dari database

2. Id_str kode tweet

3. Created_at Waktu pengiriman tweet

4. Text tweet sebelum melalui praproses

5. Text_clean tweet setelah melalui praproses

6. Screen_name Username pengirim tweet

Dokumen tweet yang tersimpan memiliki bentuk seperti pada Gambar 4.8

disimpan dalam format JSON merupakan implementasi dalam satu baris data yang

terdiri dari ‘_id’ merupakan kode unik yang secara otomatis diperoleh dari

MongoDB, ‘screen_name’ merupakan id pengguna yang ditampilkan secara

publik, ‘text’ merupakan pesan teks dari sebuah tweet yang merupakan sumber

informasi yang akan diproses, ‘created_at’ merupakan waktu tweet tersebut

dikirim, ‘text_clean’ merupakan data pada ‘text’ yang telah melewati tahap

preproses, dan ‘id_str’ merupakan kode id masing-masing tweet.

Gambar 4.8 Struktur data penyimpanan tweet format JSON

Proses pengambilan tweet secara langsung memproses tweet untuk

dilakukan tahap praproses juga dilakukan perhitungan word frequency atau

frekuensi kemunculan kata kunci yang memiliki struktur seperti pada Tabel 4.2.

Tabel 4.2 Struktur tabel term frequency


1. ObjectId Id otomatis sebagai key dari database

2. Term Kata atau term identik

3. Count Jumlah kemunculan atau term frequency

{

"_id" : ObjectId("54de48ab86b6a96291f1f274"),

"screen_name" : "nyonk_ambone",

"text":"Happy valentine buat kamu http://t.co/bZCCOc",

"created_at" : "2015-02-14 01:55:38",

"text_clean" : "happy valentine ",

"id_str" : "566309298242736128"

}

35

Pemrosesan dipercepat dengan melakukan penyimpanan frekuensi masing-

masing kata atau word frequency yang dilakukan dengan menyimpan kata kunci

beserta frekuensi seperti yang ditampilkan pada Gambar 4.9.

Gambar 4.9 Struktur data collection term frequency format JSON

Setiap kemunculan kata kunci akan disimpan ke dalam tabel ‘term detail

frequency’ yang akan mencatat secara historikal kemunculan kata kunci yang

disertai dengan waktu kemunculan seperti pada Tabel 4.3. Data ini dibutuhkan saat

proses transformasi wavelet yang memperhatikan urutan kemunculan kata kunci.

Tabel 4.3 Struktur tabel term detail frequency


1. ObjectId Id otomatis sebagai key dari database

2. Term Kata atau term

3. Created at Waktu kemunculan term pada tweet

Proses perhitungan transformasi wavelet membutuhkan informasi waktu

kemunculan pada masing-masing kata kunci, maka masing-masing kemunculan

kata kunci disimpan di dalam sebuah struktur tabel yang memberikan informasi

kemunculan kata kunci dengan informasi waktu kemunculannya seperti pada

Gambar 4.10.

Gambar 4.10 Struktur data collection detail frequency format JSON

Seluruh data disimpan pada database MongoDB dengan format JSON

memiliki ukuran total sebesar 1046.89 MB.

{

"_id" : ObjectId("54e2925bbb50ee6a113c420b"),

"term" : "pagi",

"count" : 12560

}

{

"_id" : ObjectId("54e288acbb50ee6a112b1a87"),

"term" : "tinggi",

"created_at" : "2015-01-15 00:00:00"

}

36

4.3 Hasil dan Ujicoba

Pada sub-bab ini dipaparkan hasil ujicoba dari sistem pemilihan kata kunci

untuk pendeteksian kejadian trivial pada peringkasan dokumen twitter dengan

metode perhitungan yang ditentukan. Ujicoba yang akan dilakukan terdiri dari dua

skenario yaitu ujicoba 1 dan ujicoba 2.

Ujicoba 1 terkait dengan pengujian perhitungan wavelet autocorrelation pada

kata kunci yang merupakan kontribusi pada penelitian ini. Pengujian ini akan

mendapatkan nilai optimal confidence boundary dan nilai minimum koefisien

wavelet pada kata kunci yang tergolong trivial. Setelah didapatkan nilai yang

optimal maka selanjutnya akan didapatkan kata kunci-kata kunci yang berulang

secara periodik yang merupakan kejadian trivial. Kejadian trivial seperti yang

dijelaskan pada bagian sebelumnya adalah kejadian yang muncul berulang secara

periodik. Setelah dilakukan eliminasi pada tweet yang mengandung kata kunci

trivial maka langkah selanjutnya adalah proses clustering yaitu membagi tweet

menjadi beberapa kelompok cluster. Penentuan nilai optimal confidence boundary

dan minimum nilai autocorrelation dilakukan dengan pengamatan secara manual

terhadap kata kunci yang muncul pada nilai tertentu. Nilai terbaik muncul ketika

seluruh kata kunci pada rentang nilai-nilai tersebut merupakan tergolong kata kunci

trivial.

Ujicoba 2 terkait dengan pengukuran kualitas pengelompokan dan

peringkasan tweet dalam cluster. Pengukuran kualitas clustering dilakukan untuk

melihat pengaruh proses perhitungan autocorrelation pada wavelet kata kunci

dengan membandingkan pada kumpulan tweet yang sebelumnya telah dilakukan

proses eliminasi tweet yang mengandung kata kunci trivial dengan yang tidak

melalui tahap eliminasi. Setelah dilakukan eliminasi pada tweet yang mengandung

kata kunci trivial maka langkah selanjutnya adalah proses clustering yaitu membagi

tweet menjadi beberapa kelompok cluster. Hasil dari pengelompokkan tweet inilah

yang nantinya akan dimanfaatkan pada tahap peringkasan. Untuk pengelompokan

tweet, penelitian ini menggunakan algoritma K-medoids. Sedangkan untuk

mengukur kualitas clustering digunakan metode evaluasi Silhouette. Pengujian

peringkasan dilakukan pada masing-masing cluster yang telah terbentuk dari proses

sebelumnya. Metode peringkasan dilakukan secara ekstraktif seperti yang telah

37

dijelaskan pada bagian 2.1 yang memiliki fokus mencari bagian mana yang dapat

digunakan sebagai hasil peringkasan. Proses peringkasan yang dilakukan dengan

menghitung similarity masing-masing tweet dalam cluster dengan N kata kunci

yang memiliki word frequency tinggi setelah proses clustering. Pengukuran

performa peringkasan pada masing-masing cluster metode evaluasi berupa recall

seperti pada sub bab 3.5. Penelitian ini menggunakan Groundtruth yang

membandingkan ringkasan yang dihasilkan oleh sistem. Groundtruth diperoleh

dengan melakukan kuesioner pada kelas mata kuliah Analisis Sosial Media dengan

jumlah responden sebanyak 33 mahasiswa pada tahun 2015.

4.3.1 Ujicoba 1 : Pengujian Autocorrelation Wavelet Kata Kunci

Tujuan dari ujicoba 1 ini adalah untuk menentukan nilai confidence

boundary atau nilai ambang batas apakah sebuah wavelet tergolong periodik atau

tidak. Proses penentuan tingkat keperiodikan sebuah wavelet dilakukan dengan

melakukan perhitungan autocorrelation seperti pada persamaan 2.8 yang

menghasilkan nilai koefisien yang direpresentasikan secara grafis ke dalam

correlogram. Apabila sebuah koefisien correlogram dari kata kunci melewati batas

tersebut maka kata kunci tergolong statistically significant atau bisa dianggap kata

kunci memiliki tingkat keperiodikan tinggi. Pada penelitian ini digunakan nilai

Bartlett’s formula yang merupakan tetapan yang biasa digunakan pada perhitungan

autocorrelation sebesar 0.05 sebagai confidence boundary dengan disertai beberapa

nilai lain yang berada dibawah ataupun diatas nilai berdasarkan Bartlett’s formula.

Proses perhitungan dilakukan dengan memperhatikan frekuensi

kemunculan kata kunci atau word frequency (WF) dengan memperhatikan kata

kunci yang memiliki kemunculan frekuensi tinggi. Pada Tabel 4.4 ditampilkan 50

kata kunci WF tertinggi yang merupakan cuplikan dari 4000 kata kunci WF

tertinggi yang akan diproses dalam perhitungan autocorrelation. Nilai 4000 WF

tertinggi tersebut ditentukan karena apabila lebih dari 4000 WF terbesar, maka nilai

autocorrelation akan kurang dari sama dengan 0 yang bermakna bahwa kata kunci

tersebut tidak muncul secara periodik (non-trivial).

38

Tabel 4.4 Tabel frekuensi kata kunci

No. Kata Kunci Frekuensi No. Kata Kunci Frekuensi

1 pagi 12560 26 kerja 3259

2 selamat 8411 27 follow 3257

3 orang 6956 28 jakarta 3256

4 tidur 6231 29 wkwk 3221

5 hati 5561 30 indonesia 3192

6 makan 5545 31 anak 3184

7 kalo 5479 32 bangun 3171

8 morning 5239 33 semangat 2996

9 happy 4753 34 kali 2840

10 malam 4713 35 indah 2807

11 sayang 4641 36 mata 2729

12 love 4522 37 main 2718

13 rumah 4399 38 hidup 2709

14 polri 4375 39 lupa 2707

15 good 4228 40 dont 2694

16 cinta 4090 41 follback 2673

17 jalan 3942 42 salah 2668

18 sakit 3939 43 sekolah 2627

19 banget 3791 44 alhamdulillah 2500

20 moga 3715 45 hujan 2460

21 suka 3442 46 bambang 2447

22 time 3382 47 rindu 2440

23 savekpk 3374 48 kangen 2401

24 negeri 3349 49 Bang 2400

25 biar 3345 50 Hehe 2383

Proses perhitungan autocorrelation dilakukan pada masing-masing kata

kunci yang didahului dengan proses transformasi wavelet. Pembentukan atau

transformasi wavelet dilakukan dengan mengelompokan kemunculan kejadian ke

dalam kelompok interval waktu, pada penelitian ini interval waktu adalah selama

60 menit. Tabel 4.5 merupakan contoh frekuensi kemunculan pada interval waktu.

Pada contoh kata ‘pagi’ dalam satu hari terdapat 1207 tweet yang terdapat kata

‘pagi’ yang terbagi dalam frekuensi pada Tabel 4.5 dengan total tweet sekitar

85000.

Tabel 4.5 Tabel frekuensi kata kunci per interval kata kunci ‘pagi’

No. Interval waktu Frekuensi

1 2015-01-15 00:00:00 16

2 2015-01-15 01:00:00 25

3 2015-01-15 02:00:00 50

4 2015-01-15 03:00:00 81

5 2015-01-15 04:00:00 141

6 2015-01-15 05:00:00 253

7 2015-01-15 06:00:00 186

8 2015-01-15 07:00:00 183

9 2015-01-15 08:00:00 119

39

10 2015-01-15 09:00:00 49

11 2015-01-15 10:00:00 37

12 2015-01-15 11:00:00 14

13 2015-01-15 12:00:00 10

14 2015-01-15 13:00:00 7

15 2015-01-15 14:00:00 10

16 2015-01-15 15:00:00 6

17 2015-01-15 16:00:00 4

18 2015-01-15 17:00:00 3

19 2015-01-15 18:00:00 5

20 2015-01-15 19:00:00 8

Frekuensi kemunculan kata kunci per interval waktu selanjutnya akan

digunakan dalam proses transformasi wavelet yang pada proses ini menggunakan

mother wavelet jenis coiflet seperti pada penjelasan bagian 2.7 dan 3.2.3. Proses

pembentukan wavelet akan menghasilkan koefisien wavelet yang nantinya akan

digunakan dalam merepresentasikan wavelet secara grafis. Pada Tabel 4.6

merupakan contoh nilai koefisien dari kata kunci ‘pagi’ yang telah dikelompokan

pada interval per 60 menit pada Tabel 4.5. Setelah koefisien wavelet diperoleh dari

proses sebelumnya, maka langkah selanjutnya merepresentasikan koefisien-

koefisien tersebut secara grafis seperti pada Gambar 4.7 yang merupakan wavelet

pada kata kunci ‘pagi’.

Tabel 4.6 Tabel koefisien wavelet pada kata kunci ‘pagi’

No. Koefisien wavelet

1 36.920

2 21.946

3 66.870

4 224.923

5 294.819

6 165.711

7 43.998

8 12.437

9 12.134

10 5.376

11 7.331

12 11.458

13 8.028

14 16.075

15 34.367

16 179.361

17 262.927

18 124.119

19 37.585

20 9.994

40

Gambar 4.11 Wavelet kata kunci ‘pagi’

Setelah kata kunci melalui tahap transformasi wavelet dalam bentuk

koefisien wavelet, selanjutnya adalah melakukan perhitungan nilai autocorrelation

yang menghasilkan correlogram dengan variasi nilai confidence boundary.

Penentuan nilai autocorrelation dipengaruhi oleh nilai confidence boundary yang

digunakan sebagai batasan kriteria sebuah kata kunci merupakan kata kunci trivial

atau tidak. Pada uji coba digunakan acuan nilai Bartlett’s formula sebesar 5% (0.05)

sebagai nilai yang biasa digunakan sebagai confidence boundary serta beberapa

variasi nilai untuk mencari nilai yang lebih optimal seperti 0.10, 0.15, 0.20, dan

0.25. Tabel 4.7 merupakan hasil perhitungan autocorrelation yang paling optimal

dengan confidence boundary 0.20 berdasarkan hasil pengamatan secara manual

pada masing-masing confidence boundary. Kriteria penentuan nilai confidence

boundary secara manual dipertimbangkan berdasarkan kedekatan hubungan sebuah

kata kunci dengan keterangan waktu atau kata kunci terkait dengan hal-hal yang

dilakukan secara jelas pada waktu-waktu tertentu.

Tabel 4.7 Tabel jumlah nilai autocorrelation kata kunci

No. Kata Kunci Jumlah autocorrelation > 0.20

1 tidur 61

2 night 61

3 good 60

4 pagi 58

5 malam 52

6 bangun 51

7 sleep 45

8 mall 45

9 selamat 43

10 morning 38

41

No. Kata Kunci Jumlah autocorrelation >0.20

11 cafe 38

12 ayam 38

13 bismillah 36

14 sarap 36

15 lunch 34

16 semangat 31

17 ngantuk 31

18 langor 30

19 mimpi 29

20 besok 27

Pada Tabel 4.7 merupakan hasil perhitungan autocorrelation kata kunci

yang didasarkan pada jumlah kemunculan kata berfrekuensi tinggi. Semakin tinggi

jumlah autocorrelation mengindikasikan bahwa kata kunci tersebut memiliki

tingkat keperiodikan yang tinggi pula. Berikut adalah beberapa gambar pasangan

wavelet dengan correlogram dari kata kunci yang memiliki nilai autocorrelation

yang bervariasi. Pada bagian ini akan ditampilkan Gambar 4.12, Gambar 4.13, dan

Gambar 4.14 yang merupakan variasi wavelet dan correlogram untuk kata kunci

yang memiliki nilai jumlah autocorrelation tinggi, rendah, dan sedang. Proses

selanjutnya adalah eliminasi tweet yang mengandung kata kunci yang memiliki

jumlah autocorrelation tinggi. Perhitungan autocorrelation dilakukan dengan

dengan menghitung jumlah koefisien yang berada di luar batas confidence

boundary sebagai nilai koefisien. Pada correlogram terdapat lag yang merupakan

jumlah tingkat pergeseran wavelet dalam proses mengkorelasikan.

Gambar 4.12 Wavelet dan correlogram kata kunci ‘pagi’ yang memiliki nilai

korelasi tinggi (akan dilakukan proses eliminasi pada tweet yang mengandung kata

kunci yang memiliki tingkat korelasi tinggi)

42

Gambar 4.13 Wavelet dan correlogram kata kunci ‘polri’ yang memiliki nilai

korelasi rendah (tidak dilakukan proses eliminasi pada kata kunci yang

mengandung kata kunci yang memiliki tingkat korelasi rendah)

Gambar 4.14 Wavelet dan correlogram kata kunci ‘kerja’ yang memiliki nilai

korelasi sedang (akan dilakukan eliminasi apabila perhitungan autocorrelation

pada correlogram lebih dari atau sama dengan batas yang ditentukan manual)

4.3.2. Ujicoba 2 : Pengukuran Kualitas Clustering dan Peringkasan

Tujuan dari ujicoba 2 ini adalah untuk mengukur kualitas clustering dan

peringkasan. Dimana clustering merupakan salah satu fase pada penelitian ini yang

bertujuan untuk mengelompokkan tweet yang selanjutnya akan digunakan pada

proses peringkasan. Proses clustering dilakukan pada kumpulan tweet yang belum

dieliminasi oleh kata kunci yang berulang periodik dan yang sudah dieliminasi

seperti kata kunci pada Tabel 4.7. Sebagaimana dijelaskan pada bab 3 bahwa

43

penelitian menggunakan algoritma K-medoids untuk pengelompokkan tweet.

Adapun langkah-langkah pengelompokkan tweet dijelaskan pada Gambar 4.15.

start

Kumpulan

tweets

Inisialisasi k,

Inisialisasi medoids,



(cost baru)

Update medoids



(cost lama)

Cost baru>cost lama? Update cost

End

N

Y

Gambar 4.15. Proses pengelompokkan tweets dengan k-medoids

Skenario pengujian clustering akan dilakukan dengan memberikan

beberapa variasi jumlah centroid (k) atau titik pusat untuk mendapatkan satu hasil

clustering yang terbaik yang selanjutnya hasil pengelompokkan akan digunakan

untuk proses peringkasan. Pengukuran kualitas clustering menggunakan metode

evaluasi Silhouette yang telah dibahas pada sub bab 3.4 dan 3.5.

Salah satu permasalahan yang mempengaruhi hasil clustering adalah

penentuan jumlah centroid (k). Dalam penelitian ini, untuk mendapatkan nilai k

yang optimal dilakukan ujicoba dari beberapa nilai k untuk kemudian dipilih jumlah

k terbaik. Ujicoba nilai k dimulai dari k=2 sampai nilai k yang menunjukkan nilai

Silhouette yang memiliki kecenderungan menurun. Hasil clustering untuk setiap

nilai k akan dihitung validasinya menggunakan metode Silhouette (s) tweet i sesuai

dengan Persamaan 3.1 dan Persamaan 3.2.

Selanjutnya akan dihitung rata-rata nilai Silhouette untuk tiap cluster

(ASW) untuk mengetahui kualitas dari clustering, penjelasan tentang Silhouette dan

ASW dapat dilihat pada subbab 3.5. Clustering dengan k terbaik adalah yang

memiliki nilai rata-rata Silhouette paling besar. Selanjutnya hasil clustering dengan

44

nilai k terbaik atau k optimal inilah yang digunakan untuk melakukan peringkasan

tweet.

Tabel 4.8 menunjukkan hasil perhitungan cluster dengan jumlah k terbaik

(k optimal) berdasarkan besar nilai ASW sekaligus inisialisasi centroid. Berikut

kata kunci dengan Medoid pada masing-masing cluster dengan nilai rata-rata

Silhouette clustering yang terbaik dengan nilai 0.45 dengan nilai k adalah 12.

Tabel 4.8 Tabel Kata Kunci Masing-masing Cluster pada Tweet yang Sudah

Dieliminasi Kata Kunci Periodik

Cluster Kata kunci Waktu Id Tweet Medoid Silhouette

0

jakarta, dki, smkn, selat, pusat,

smpn, barat, timur indonesia,

smk

2015-01-17

06:08:15

554731350964453377 0.45

1

mati, pas, temu, hukum, lampu,

moga, hujan, narkoba,

koruptor, korupsi

2015-01-16

03:07:15

554911882503405568

2

moga, amin, doa, aamiin, hasil,

sembuh, berkah, cepat, sukses,

CR7

2015-01-15

01:57:48

554713811211386881

3

budi, calon, sangka, kapolri,

kpk, gunawan, jokowi, komjen,

dpr, bg

2015-01-15

15:47:52

554922719599271936

4

bahagia, sederhana, cinta,

senyum, buat, doa, sedih,

syukur, sakit, temu

2015-01-17

04:01:59

554745127239831552

5 turun, harga, bbm, hujan, latih

tarif, premium, rp, rncn

2015-01-20

05:13:23

554763061324554240

6

hujan, deras, reda, turun,

pulang, henti, awet, cuaca,

lebat, ringan

2015-01-20

01:38:28

554708949648166912

7

ronaldo, dor, ballon, cristiano,

congrats, fifa, ssi, neuer,

congratulation

2015-01-24

01:23:56

554705310653218816

8 kawan, gila, main, suka, moga,

sukses, tarik, salah, sangka

2015-01-16

01:42:03

554709908055011329

9

sukses, moga, hbd, amin, gagal,

theworldofaliando, doa, raih,

usaha, keras,

2015-01-16

05:28:09

555129165045723137

10 kerja, moga, gila, coba, dunia,

menang, turun, pilih, rasa, serah

2015-01-15

14:51:20

554908266212237312

11

mkwikku, mobilenya, kwikku,

jejaring, saran, sosial, kritik,

mohon, indonesia

2015-01-20

04:29:50

555114522520723456

Pada Tabel 4.8 dan Tabel 4.9 terdapat ‘Id Tweet medoid’ atau titik pusat

cluster, dimana masing-masing cluster memiliki medoids sebanyak satu. Jumlah

medoids ditentukan oleh nilai k yang telah ditentukan sebelumnya. Dimana dalam

penelitian ini menggunakan nilai k yang paling optimal. Tiap medoids tersebut akan

45

menunjuk pada angka yang merupakan id_str atau kode unik yang dimiliki oleh

masing-masing tweet yang ditampilkan pada kolom ‘Id Tweet Medoid’.

Tweet yang ditunjuk sebagai medoids ini nantinya yang akan dibandingkan

kemiripannya dengan tweet lainnya. Perhitungan jarak kemiripan antara tweets

terhadap medoids menggunakan uni-gram similarity. Setelah dihitung jarak

kemiripan tweets terhadap medoids langkah selanjutnya adalah menghitung total

cost dari cluster. Total cost inilah yang akan menentukan perlu tidaknya dilakukan

update medoids. Jika total cost baru (current) lebih besar dari total cost lama (past)

maka akan dilakukan update medoids, jika tidak maka medoids yang digunakan

adalah medoids lama.

Pada Tabel 4.9 menunjukkan hasil perhitungan clustering dari tweet yang

tidak didahului dengan proses eliminasi pada tweet yang mengandung kata kunci

yang berulang secara periodik. Hasil terbaik untuk nilai ASW cluster yang

terbentuk adalah sebesar 0.03 dengan menghasilkan sejumlah 22 cluster. Pada

Tabel 4.9 terlihat kata-kata yang muncul merupakan kata kunci trivial seperti kata

‘morning’ pada cluster 1, ‘pagi’ pada cluster 3, ‘bismillah’ pada cluster 16 dan kata

kunci lainnya.

Tabel 4.9 Tabel Kata Kunci Masing-masing Cluster pada Tweet yang tidak

Dieliminasi Kata Kunci Periodik

Cluster Kata kunci Id Tweet Medoid Silhouette

0 banget, kadang, chat, orang, baper, grup, ken,

sih, hati, sakit,

555116871743901000 0.0300

1 morning, tidur, love, good, malam, follow,

happy, makan, selamat, hati

555116800918129000

2 mall, tang, town, city, george, ioi, bayan,

square, avenue, lepas

555117026777323000

3 Alhamdulillah, masuk, al, selamat, syukur,

pagi, jam, sekolah, rumah, sampe

555117462146595000

4 Je, dgn, sikit, t, goal, mcm, nk, kat, org, haah 555116697161832000

5 Pagi, selamat, hotel, ayam, sarap, semangat,

bubur, bangun, mie, sayang

555116319531410000

6 Semangat, lupa, jaga, sehat, moga, jgn, hati,

shooting, al, yaa

555116811958817000

7 Negeri, sma, smk, makassar, smp, jakarta,

sembilan, surabaya, politeknik, seremban

555117409467819000

8 Kena, pulak, t, la, je, kat, esok, mcm, nk, dgn 555116529303495000

9 Kangen, salah, bgt, m, dr, kabar, ahaha, sih,

hati, ta

555114714295078000

10 Sayang, kalo, nggak, ngerti, gin, ta, banget,

mah, sih, hati

555117118225055000

11 Hujan, kuliah, berangkat, pagipagi, pagi, gin,

turun, jam, deras, sekolah

555116320346657000

46

Cluster Kata kunci Id Tweet Medoid

12 Today, day, good, persijaday, happy,

morning, yesterday, birthday, tomorrow, time

555114617394532000

13 Follback, yaa, follow, tion, mksh, ka, min,

yah, makasih, donk

555115474441955000

14 La, duit, t, je, nk, kat, mcm, org, tido, dh 555114577825990000

15 Orang, suka, tungg, rela, sayang, cinta, hati, t,

hidup, bahagia

555117148492563000

16 Bismillah, moga, lancar, al, pagi, semangat,

otw, selamat, uas, amin

555115700929121000

17 Kuala, lumpur, wp, music, international,

airport, langor, sepang, federal, territory

555116417949716000

18 Np, bareng, kpk, goyang, md, cc, polri,

dumang, justmusic, savekpk

555115946840681000

19 Lfie, otw, gor, cibubur, likeforlike, latepost,

bimasakti, instalike, foto, kota

555114726967285000

20 Ketem, ade, kantor, bakar, intan, roti, ayam,

mad, ikan, pusat

555117334184103000

21 Banget, kadang, chat, orang, baper, grup, ken 555116871743901000

Proses perhitungan cluster yang dilakukan dengan menggunakan algoritma

k-medoids kemudian diikuti dengan perhitungan WF (Word Frequency) pada

masing-masing cluster sehingga menghasilkan kata kunci yang memiliki frekuensi

kemunculan yang tinggi. Kata kunci yang sering muncul selanjutnya digunakan

untuk menentukan tweet yang paling mewakili dalam sebuah cluster untuk menjadi

tweet hasil peringkasan. Nilai WF menunjukkan banyaknya term i yang muncul

pada cluster j. Semakin banyak kemunculan term maka nilai WF dari term tersebut

semakin besar dan term tersebut dianggap semakin penting. Pada Tabel 4.7 dan

Tabel 4.8 dimunculkan sepuluh kata kunci yang memiliki frekuensi tinggi. Pada uji

coba dilakukan penggunaan nilai WF > 1 untuk masing-masing cluster.

Selanjutnya dari hasil proses ekstraksi untuk setiap cluster yang telah

didapatkan selanjutnya dilakukan pembobotan masing-masing tweet dalam cluster

yang memiliki bobot paling besar sesuai kata kunci yang muncul setelah proses

perhitungan WF. Pemilihan tweet yang paling mewakili dilakukan dengan

menghitung jarak atau similarity kata kunci hasil perhitungan WF dengan masing-

masing tweet sehingga akan ditemukan satu tweet yang paling mewakili dan

nantinya dianggap sebagai hasil peringkasan karena merupakan tweet paling

penting pada sebuah cluster.

Tabel 4.7 dan Tabel 4.8 menunjukkan hasil ekstraksi kata kunci yang

dihitung pada masing-masing cluster dengan membandingkan antara proses yang

47

didahului dengan pendeteksian kata yang berulang secara periodik dan tidak. Hasil

menunjukkan apabila tidak dilakukan proses eliminasi terhadap tweet yang

mengandung kata yang berulang secara periodik akan menghasilkan jumlah cluster

yang lebih besar untuk mendapatkan nilai Silhouette yang paling baik pada uji coba.

Proses peringkasan yang dihasilkan oleh sistem didapatkan dengan mencari

tweet yang paling mewakili topik dalam sebuah cluster. Tweet yang paling

mewakili merupakan tweet yang memiliki nilai similarity terbesar terhadap topical

word atau kata kunci yang memiliki word frequency tinggi dalam sebuah cluster.

Proses pengukuran akurasi terhadap hasil peringkasan dilakukan dengan

membandingkan hasil ringkasan yang dihasilkan oleh sistem dengan groundtruth

yang merupakan hasil peringkasan secara manual melalui kuesioner dari 33

responden yang berasal dari mahasiswa mata kuliah Analisis Sosial Media. Pada

Tabel 4.10 proses pengambilan kuisioner dengan menentukan mana yang dianggap

sebagai hasil ringkasan. Penghitungan akurasi mengadopsi perhitungan ROUGE

yaitu berdasarkan nilai recall yang merupakan tingkat keberhasilan sistem dalam

melakukan peringkasan dibandingkan dengan yang telah dilakukan secara manual

seperti yang telah dijelaskan pada bagian sub bab 3.5. Contoh tweet hasil

peringkasan ditunjukkan pada Gambar 4.16.

Gambar 4.16 Tweet hasil proses peringkasan

Tabel 4.10 Contoh Kuisioner Hasil Peringkasan dengan Masukan Berupa Ranking

No Tweet Ranking

( 1 – 4 )

1 SMK Jakarta Pusat 1 http://t.co/Nnfmsd739a

2 I'm at @PlazaIndonesia in Jakarta Pusat, DKI Jakarta https://t.co/KLL5bPGI2c

3 I'm at @ChatimeIndo in Jakarta Pusat, DKI Jakarta https://t.co/BZFoHb9xuF

4 Hangout (at @PlazaSenayan in Jakarta Pusat, DKI Jakarta)

http://t.co/exKTjhQBB6

4.4 Analisa dan Pembahasan

4.4.1. Analisa Pemilihan Kata Kunci Kejadian Trivial

Pada subbab 3.2.3 telah dijelaskan bahwa pada pendeteksian kejadian

Trivial dilakukan dengan mendeteksi kata kunci yang berulang secara periodik.

Proses dilakukan dengan melakukan pengurutan kata kunci berdasarkan WF (Word

@GunRomli: Jokowi payah RT @kompascom KPK Tetapkan Calon

Kapolri Budi Gunawan sebagai Tersangka http://t.co/H0yCqMQCg2


48

Frequency) untuk selanjutnya dihitung frekuensi yang dikumpulkan pada interval

tertentu. Pada proses ujicoba digunakan waktu interval sebesar satu jam yang

nantinya masing-masing interval akan digunakan untuk proses transformasi

wavelet. Setelah masing-masing kata kunci sudah melalui proses transformasi,

maka selanjutnya adalah perhitungan nilai autocorrelation untuk mengetahui

tingkat keperiodikan kemunculan kata kunci yang akan menjadi pertimbangan

dalam menentukan kata kunci tersebut merupakan kejadian trivial atau tidak.

Hasil dari perhitungan frekuensi kemunculan kata kunci yang sudah

dikelompakan berdasarkan interval waktu terdapat pada Tabel 4.5 yang kemudian

digunakan sebagai masukan untuk proses transformasi wavelet yang akan

menghasilkan wavelet coefficient seperti pada Tabel 4.6. Setelah proses

transformasi, untuk mendapatkan hasil apakah sebuah kata kunci merupakan kata

kunci yang berulang secara periodik adalah dengan melakukan perhitungan

autocorrelation dengan menghitung koefisien yang berada diatas confidence

boundary yang telah ditentukan. Hasil pengamatan secara manual menunjukkan

bahwa nilai confidence boundary yang paling optimal adalah sebesar 0.20 dengan

nilai minimal autocorrelation sebesar 27. Kata kunci hasil perhitungan

autocorrelation yang berada diatas nilai minimal adalah tidur, night, good, pagi,

malam, bangun, sleep, mall, selamat, morning, cafe, ayam, bismillah, sarap, lunch,

semangat, ngantuk, mimpi, besok. Pemilihan confidence boundary dan nilai

minimal autocorrelation dilakukan dengan pengamatan secara manual apakah

sebuah kata tergolong kata kunci trivial atau tidak. Nilai autocorrelation diperoleh

untuk menentukan apakah kata kunci tergolong representasi kejadian trivial atau

tidak. Hasil penelitian menunjukkan bahwa kata kunci yang memiliki nilai

autocorrelation tinggi adalah kata kunci yang memiliki kedekatan makna dengan

kata keterangan waktu dan kata yang kemunculannya jelas pada waktu-waktu

tertentu.

Selanjutnya akan dilakukan proses eliminasi terhadap tweet yang

mengandung kata kunci yang memiliki nilai minimal autocorrelation dan

confidence boundary yang ditentukan pada proses sebelumnya. Proses eliminasi

akan mempengaruhi jumlah tweets yang diproses pada tahap pengelompokkan dan

peringkasan.

49

4.4.2. Analisa Pengelompokkan Tweets dan Peringkasan

Pada subbab 3.5 telah dijelaskan tentang empat kriteria kualitas clustering

berdasarkan nilai ASW yang dihasilkan. Tabel 4.7 dan 4.8 menunjukkan hasil k

atau jumlah cluster optimal berdasarkan nilai ASW terbesar untuk kumpulan tweets

yang belum dieliminasi (Tabel 4.8) dan sudah dieliminasi kata kunci yang berulang

secara periodik (Tabel 4.7). Apabila dilihat dari kualitas cluster dari kedua buah

tabel maka hasil perhitungan menunjukkan bahwa pada Tabel 4.8 dari kumpulan

tweets yang tidak didahului dengan proses eliminasi maka hasil optimal

berdasarkan ASW menghasilkan 21 cluster dengan nilai ASW 0.0300 dimana

memiliki kriteria kualitas cluster “kurang baik”. Sedangkan pada Tabel 4.7 dari

kumpulan tweets yang dilakukan tahap eliminasi pada tweets yang mengandung

kata kunci yang berulang secara periodik berdasarkan ASW menghasilkan 11

cluster dengan nilai ASW 0.45 dimana memiliki kualitas cluster “cukup baik”.

Hasil analisa tentang kualitas cluster dengan menggunakan metode evaluasi

Silhoutte dapat disimpulkan bahwa nilai ASW untuk kumpulan tweets yang

didahului dengan eliminasi pada tweets yang mengandung kata kunci trivial yaitu

kata kunci yang berulang secara periodik akan menghasilkan nilai yang lebih tinggi

yaitu 0.45 dengan kualitas “cukup baik” karena jumlah tweets yang diproses lebih

kecil dan terfokus pada kejadian penting saja.

Pada algoritma K-medoids akan dilakukan update centroid ketika

memenuhi kondisi cost baru bernilai lebih besar daripada cost lama (current cost>

past cost). Hal ini dilakukan sampai kondisi cost baru bernilai lebih kecil sama

dengan cost lama (current cost <= past cost). Kelemahan dari algoritma medoids

adalah jika pada iterasi pertama sudah memenuhi kondisi current cost <= past cost

sehingga iterasi hanya dilakukans sekali. Hal ini mengakibatkan update centroid

tidak pernah dilakukan yang akan mengakibatkan hasil clustering menjadi kurang

optimal. Selain ketidakoptimalan pada proses pengelompokan tweets juga

mengalami adanya data outlier.

Proses peringkasan yang dilakukan pada masing-masing cluster

menghasilkan sebuah ringkasan berupa sebuah tweet yang dianggap paling

mewakili dalam sebuah cluster. Proses peringkasan dilakukan secara extractive

merupakan metode peringkasan yang berfokus dalam mencari tweet mana yang

50

paling mewakili dalam sebuah cluster yang harus menjadi ringkasan. Penenentuan

ringkasan dilakukan dengan menghitung 10 word frequency pada masing-masing

cluster dan selanjutnya melakukan perhitungan kedekatan unigram similarity

dengan masing-masing tweet dalam cluster sehingga ditemukan nilai kedekatan

yang paling tinggi. Proses pengujian peringkasan memanfaatkan prinsip kerja

ROUGE yaitu memperhitungkan nilai recall yaitu dengan memanfaatkan groundtruth

yang merupakan hasil peringkasan yang dilakukan secara manual. Hasil rata-rata recall

dari keseluruhan cluster adalah sebesar 0.50 yang menandakan jumlah tweet yang dapat

diringkas oleh sistem secara benar menurut hasil groundtruth.

51

BAB 5

KESIMPULAN DAN SARAN

Berdasarkan ujicoba dan analisa hasil, maka dapat ditarik beberapa

kesimpulan antara lain :

1. Hasil ujicoba perhitungan autocorrelation wavelet pada kata kunci

menghasilkan nilai optimal untuk confidence boundary pada correlogram

sebesar 0.20 (batas koefisien dalam correlogram yang menunjukkan

tingkat keperiodikan) dan jumlah nilai minimal autocorrelation sebesar 27

untuk menentukan apakah kata kunci merupakan kata kunci kejadian

trivial atau bukan. Kata kunci yang memiliki nilai minimal autocorrelation

kurang lebih dari atau sama dengan 27 dianggap sebagai kata kunci trivial

yaitu berulang secara periodik. Contoh kata-kata yang ada pada nilai ini

adalah tidur, night, good, pagi, malam, bangun, sleep, mall, selamat,

morning.

2. Hasil ujicoba pengelompokkan tweet dilakukan pada dua kelompok data

tweet yaitu kelompok data yang dikelompokkan tanpa didahului proses

eliminasi dan kelompok data yang dikelompokkan dengan didahuli proses

eliminasi pada tweet yang mengandung kata kunci kejadian trivial.

Kelompok yang didahului proses eliminasi masuk kriteria “cukup baik”

yaitu pengguna dapat melihat kejelasan topik pada masing-masing cluster

dengan nilai ASW sebesar 0.45 dengan 12 cluster dan kelompok yang

tidak didahului prose eliminasi masuk kriteria “kurang baik” yaitu

pengguna tidak dapat melihat topik bahasan pada cluster dengan nilai

ASW sebesar 0.03 dengan 22 cluster .

3. Proses eliminasi tweet yang mengandung kata kunci trivial terbukti dapat

digunakan untuk mendeteksi kejadian penting pada proses

pengelompokkan dan peringkasan tweet. Hasil proses peringkasan pada

kelompok tweet yang didahului proses eliminasi memiliki rata-rata recall

dari keseluruhan cluster adalah sebesar 0.50 dengan nilai tertinggi pada

sebuah cluster sebesar 0.89.

52

Adapun saran untuk pengembangan selanjutnya dari metode pemilihan kata

kunci untuk deteksi kejadian trivial pada peringkasan dokumen Twitter adalah :

1. Proses pendeteksian kata kunci kejadian berulang secara periodik dilakukan

dengan memperhatikan kata kunci yang sebelumnya telah terdeteksi berulang

(proses inkremental).

2. Proses penentuan kata kunci trivial berdasar nilai autocorrelation dilakukan

secara otomatis tanpa ada proses manual.

3. Confidence Boundary pada correlogram dapat ditentukan menggunakan

standar error ACF

53

5 DAFTAR PUSTAKA

Allan, J., Carbonell, J. G., Doddington, G., Yamron, J., & Yang, Y. (1998). Topic

detection and tracking pilot study final report.

Anant, K. S. dan F.U. Dowla, (1997). Wavelet Transform Methods for Phase

Identification in Three-Component Seismograms, Bulletins of Seismological

Society America, Vol. 87, No.5, 1598 - 1612

Atefeh, F., & Khreich, W. (2013). A survey of techniques for event detection in

Twitter. Computational Intelligence.

Becker, H., Naaman, M., & Gravano, L. (2011). Beyond Trending Topics: Real-

World Event Identification on Twitter. ICWSM, 11, 438-441.

Boros, E. Kantor, P. B. dan Neu, D. J. (2001), “A Clustering Based Approach to

Creating Multi-Document Summaries”. In Proceedings of the 24th ACM

SIGIR Conference, Eds: Kraft, D. H. et al., ACM, New Orleans, Los Angeles,

hal. 1-4.

Chen, L., & Roy, A. (2009, November). Event detection from flickr data through

wavelet-based spatial analysis. In Proceedings of the 18th ACM conference

on Information and knowledge management (pp. 523-532). ACM.

Cordeiro, Mário. "Twitter event detection: Combining wavelet analysis and topic

inference summarization." Doctoral Symposium on Informatics Engineering,

DSIE. 2012.

Das, D. dan Martins, A. F. T. (2007), A Survey on Automatic Text Summarization,

Technical Report Literature Survey for the Language and Statistics II course

Carnegie Mellon University, Pittsburgh.

El-Fishawy, N., Hamouda, A., Attiya, G. M., & Atef, M. (2014). Arabic

summarization in Twitter social network. Ain Shams Engineering Journal,

5(2), 411-420.

Erkan, G. dan Radev, D. R. (2004), “LexRank: Graph-Based Lexical Centrality as

Salience in Text Summarization”, Journal of Artificial Intelligence Research

(JAIR) 22, Vol. 22 Issue 1, hal. 457-479.

54

Foster, D. J., C.C. Mosher, dan S. Hassanazadeh, (1994). Wavelet Transform

Methods for Geophsical Application, 64th Annual International Meeting,

Soc. Expl. Geophys., Ecpanded Abstract, 1465 - 1468

Ge, S. S., Zhang Z., dan He, H. (2011), “Weighted Graph Model Based Sentence

Clustering and Ranking for Document Summarization” Proceeding of 2011

4th International Conference on Interaction Sciences (ICIS), National

University of Singapore, Singapore, hal. 90-95.

Graps, A., (1995), "An Introduction to Wavelets, IEEE Computational Science and

Engineering, vol.2, Wavelet in Geophysics, Academic Press Inc., USA, 1-43

Gupta, V., & Lehal, G. S. (2010). A survey of text summarization extractive

techniques. Journal of Emerging Technologies in Web Intelligence, 2(3), 258-

268.

Hammouda, K. M. dan Kamel, M. S. (2003), “Incremental Document Clustering

Using Cluster Similarity Histograms” Proceeding of the 2003 IEEE/WIC

International Conference on Web Intelligence, Eds: Liu, J. et al., University

of Waterloo, Halifax, Canada, hal. 597-601.

Hurlock, J., & Wilson, M. L. (2011, May). Searching Twitter: Separating the Tweet

from the Chaff. In ICWSM (pp. 161-168).

Jain, A. K., Murty, M. N., dan Flynn, P. J. (1999), “Data Clustering: A Review”,

Journal of ACM Computing Surveys, Vol. 31, No. 3, hal. 264-323.

Kumar, P., & Foufoula Georglou, E. (1997). Wavelet analysis for geophysical

application. Reviews of Geophysics, 35(4), 385-412.

Lin, C. Y. (2004), “ROUGE: a Package for Automatic Evaluation of Summaries”,

In Proceedings of Workshop on Text Summarization Brances Out, Eds:

Moens, M. F. dan Szpakowicz, S., Association for Computational Linguistics,

Barcelona, hal. 74-81.

Lloret, E., & Palomar, M. (2013). Towards automatic tweet generation: A

comparative study from the text summarization perspective in the journalism

genre. Expert Systems with Applications, 40(16), 6624-6630.

Long, R., Wang, H., Chen, Y., Jin, O., & Yu, Y. (2011). Towards effective event

detection, tracking and summarization on microblog data. In Web-Age

55

Information Management (pp. 652-663). Springer Berlin Heidelberg.

Chicago

Olariu, A. (2012, September). Clustering to improve microblog stream

summarization. In Symbolic and Numeric Algorithms for Scientific

Computing (SYNASC), 2012 14th International Symposium on (pp. 220-

226). IEEE.

Ouyang, Y., Li, W., Zhang, R., Li, S., & Lu, Q. (2013). A progressive sentence

selection strategy for document summarization. Information Processing &

Management, 49(1), 213-221.Chicago

Petrović, S., Osborne, M., & Lavrenko, V. (2010, June). Streaming first story

detection with application to twitter. In Human Language Technologies: The

2010 Annual Conference of the North American Chapter of the Association

for Computational Linguistics (pp. 181-189). Association for Computational

Linguistics.

Rafiee, J., & Tse, P. W. (2009). Use of autocorrelation of wavelet coefficients for

fault diagnosis. Mechanical Systems and Signal Processing, 23(5), 1554-

1572.

Rai, P. dan Singh, S. (2010), “A Survey of Clustering Techniques”, International

Journal of Computer Applications (0975 – 8887), Vol. 7, No.12, hal. 1-5.

Sakaki, T., Okazaki, M., & Matsuo, Y. (2010, April). Earthquake shakes Twitter

users: real-time event detection by social sensors. In Proceedings of the 19th

international conference on World wide web (pp. 851-860). ACM.

Sarkar, K. (2009), “Sentence Clustering-based Summarization of Multiple Text

Documents”, International Journal of Computing Science and

Communication Technologies, Vol. 2, No. 1, hal. 325-335.

Sharifi, B., Hutton, M. A., & Kalita, J. K. (2010, August). Experiments in microblog

summarization. In Social Computing (SocialCom), 2010 IEEE Second

International Conference on (pp. 49-56). IEEE. Chicago

Wan, X. dan Yang, J. (2008), “Multi-Document Summarization Using Cluster-

Based Link Analysis”, Proceedings of the 31st annual international ACM

SIGIR conference on Research and Development in Information Retrieval,

56

Eds: Chua T. S. et al., Association for Computational Linguistics, New York,

hal. 181-184.

Weng, Jianshu, and Bu-Sung Lee. "Event Detection in Twitter." ICWSM 11 (2011):

401-408.

Winatmoko, Y. A., & Khodra, M. L. (2013). Automatic Summarization of Tweets

in Providing Indonesian Trending Topic Explanation. Procedia Technology,

11, 1027-1033.

Zhao, J., Wang, X., & Ma, Z. (2014). Towards Events Detection from Microblog

Messages. International Journal of Hybrid Information Technology, 7(1).

Zhu T., dan Li, K. (2012), “The Similarity Measure based on LDA for Automatic

Summarization”, International workshop on Information and Electronics

Engineering (IWIEE), Vol. 29, hal. 2944-2949.

57

LAMPIRAN 1 – Word Frequency (WF)

No Kata Frekuensi No Kata Frekuensi No Kata Frekuensi

1 pagi 12560 41 hidup 2709 81 night 1868

2 selamat 8411 42 lupa 2707 82 sabar 1863

3 orang 6956 43 dont 2694 83 sampe 1860

4 tidur 6231 44 follback 2673 84 ketua 1856

5 hati 5561 45 salah 2668 85 ayam 1825

6 makan 5545 46 sekolah 2627 86 alam 1819

7 kalo 5479 47 alhamdulillah 2500 87 pergi 1811

8 morning 5239 48 hujan 2460 88 besok 1810

9 kuala 5163 49 bambang 2447 89 mana 1792

10 happy 4753 50 rindu 2440 90 liat 1784

11 malam 4713 51 kangen 2401 91 tuhan 1773

12 lumpur 4675 52 bang 2400 92 harap 1743

13 sayang 4641 53 hehe 2383 93 ajar 1741

14 love 4522 54 hahahaha 2370 94 pacar 1706

15 rumah 4399 55 jaya 2369 95 siang 1684

16 polri 4375 56 foto 2307 96 dukung 1667

17 good 4228 57 kota 2278 97 sman 1661

18 cinta 4090 58 pulang 2208 98 susah 1660

19 langor 4080 59 tangkap 2205 99 kelas 1655

20 jalan 3942 60 bikin 2186 100 nasi 1626

21 sakit 3939 61 waktu 2159 101 pake 1607

22 banget 3791 62 kena 2146 102 emang 1606

23 moga 3715 63 kasih 2128 103 mati 1598

24 suka 3442 64 bandung 2122 104 minggu 1597

25 time 3382 65 kaya 2114 105 kirim 1596

26 savekpk 3374 66 tunggu 2090 106 international 1575

27 negeri 3349 67 birthday 2046 107 room 1571

28 biar 3345 68 cari 2033 108 beli 1569

29 kerja 3259 69 masuk 2031 109 dunia 1561

30 follow 3257 70 singapore 2022 110 life 1556

31 jakarta 3256 71 hotel 2022 111 teman 1539

32 wkwk 3221 72 gitu 1992 112 jokowi 1539

33 indonesia 3192 73 lagu 1990 113 coba 1535

34 anak 3184 74 bismillah 1983 114 makasih 1522

35 bangun 3171 75 nama 1951 115 universitas 1515

36 semangat 2996 76 cafe 1950 116 enak 1492

37 kali 2840 77 bahagia 1941 117 johor 1492

38 indah 2807 78 cantik 1928 118 sleep 1486

39 mata 2729 79 taman 1876 119 sehat 1479

40 main 2718 80 tinggal 1870 120 habis 1446

58


121 wakil 1444 161 libur 1195 201 badan 1047

122 cerita 1429 162 senyum 1192 202 hahah 1046

123 jaga 1422 163 bilang 1190 203 raya 1044

124 esok 1418 164 nggak 1179 204 salam 1042

125 warung 1414 165 neng 1177 205 skrg 1038

126 lepas 1412 166 tang 1173 206 abis 1036

127 maaf 1408 167 lunch 1165 207 house 1035

128 airport 1405 168 surabaya 1163 208 kenal 1033

129 mimpi 1388 169 butuh 1161 209 gedung 1028

130 awak 1369 170 baca 1160 210 movie 1026

131 pulak 1368 171 pantai 1159 211 atuh 1023

132 kuat 1366 172 buka 1156 212 pakai 1022

133 baik 1362 173 buku 1156 213 stay 1006

134 terima 1359 174 bareng 1150 214 wkwkwk 1002

135 subuh 1357 175 kantor 1150 215 tengok 1002

136 mall 1341 176 kampus 1149 216 duit 996

137 gila 1334 177 sedih 1148 217 sore 995

138 school 1329 178 hilang 1145 218 restoran 993

139 mama 1325 179 presiden 1136 219 masjid 992

140 today 1315 180 pasar 1128 220 family 991

141 nonton 1314 181 photo 1128 221 diri 986

142 city 1314 182 kurang 1128 222 mandi 986

143 muka 1311 183 dapet 1127 223 kuliah 983

144 widjojanto 1306 184 langsung 1122 224 sarap 982

145 malem 1293 185 tweet 1121 225 lfie 977

146 amin 1269 186 makassar 1119 226 pikir 973

147 ketemu 1263 187 nice 1114 227 cepat 972

148 gimana 1260 188 latepost 1114 228 malaysia 965

149 shah 1250 189 kadang 1108 229 sahabat 960

150 tido 1248 190 bagus 1103 230 ikut 960

151 lihat 1232 191 fakultas 1095 231 guys 955

152 ngantuk 1229 192 laku 1091 232 nunggu 954

153 twitter 1225 193 kawan 1090 233 manusia 953

154 coffee 1214 194 batu 1077 234 ngga 951

155 kakak 1213 195 order 1067 235 tugas 951

156 bawa 1208 196 dingin 1061 236 lapar 947

157 takut 1207 197 temen 1060 237 karna 940

158 kembali 1207 198 sukses 1052 238 tahan 939

159 kayak 1204 199 ople 1050 239 bukit 933

160 harga 1204 200 sweet 1048 240 bogor 932

59


241 muhammad 931 281 bakar 832 321 weekend 756

242 cakap 931 282 usaha 829 322 marah 750

243 petaling 924 283 sikit 827 323 hihi 750

244 abang 923 284 malas 827 324 hari 749

245 kopi 923 285 jumpa 826 325 barat 749

246 galau 921 286 class 822 326 kaki 742

247 layan 910 287 bosan 822 327 ajak 741

248 mudah 907 288 subang 820 328 jogja 739

249 mari 906 289 keluarga 820 329 jatuh 739

250 free 904 290 jual 817 330 buat 738

251 doang 900 291 ronaldo 815 331 goodnight 731

252 laka 897 292 watching 814 332 breakfast 730

253 perut 895 293 kabar 807 333 medan 730

254 feel 893 294 lewat 805 334 terminal 729

255 jugak 891 295 yogyakarta 804 335 ubah 727

256 lancar 891 296 lapang 801 336 cewek 725

257 mulu 884 297 posted 799 337 males 724

258 food 879 298 ganti 796 338 marang 722

259 futsal 877 299 mantan 795 339 ayah 721

260 malang 876 300 film 795 340 hahahahaha 721

261 baju 875 301 ulang 793 341 sabtu 721

262 temu 870 302 bandar 787 342 ujan 719

263 percaya 863 303 tangan 786 343 iyaa 718

264 yaaa 858 304 menang 784 344 start 717

265 mesti 858 305 engga 782 345 tenang 717

266 work 854 306 takde 778 346 long 715

267 tolong 854 307 kuis 776 347 keren 715

268 baby 852 308 hehehe 775 348 ready 714

269 beda 851 309 syukur 772 349 gunung 713

270 luar 851 310 selesai 769 350 umur 712

271 centre 847 311 putri 766 351 cepet 712

272 goreng 847 312 hasil 765 352 center 710

273 panas 846 313 suruh 765 353 perak 710

274 jawa 845 314 trus 764 354 kang 709

275 mbak 844 315 park 763 355 minum 709

276 care 838 316 pilih 762 356 diam 707

277 senang 834 317 info 760 357 bantu 706

278 lanjut 834 318 tion 759 358 lelah 706

279 bank 833 319 bakso 757 359 perumahan 706

280 turun 832 320 plaza 756 360 sini 704

60


361 rasa 702 401 ballon 644 441 muda 595

362 timur 701 402 ruang 643 442 pahang 592

363 hope 701 403 bobo 642 443 penat 592

364 kepala 701 404 girl 640 444 acara 590

365 nner 701 405 live 640 445 dream 590

366 dengar 698 406 kampung 637 446 ntar 588

367 manis 697 407 waiting 636 447 henti 580

368 tangerang 695 408 lari 636 448 cuti 580

369 kaka 694 409 inget 635 449 istirahat 579

370 black 690 410 putih 635 450 negara 579

371 suara 689 411 selat 631 451 kenang 578

372 sepi 689 412 jomblo 630 452 tuju 578

373 malu 685 413 study 629 453 kedai 578

374 janji 684 414 sembuh 626 454 hmmm 577

375 kamar 683 415 fuck 625 455 sadar 576

376 pondok 683 416 mohon 625 456 sapa 575

377 wanita 683 417 duduk 623 457 berat 575

378 real 682 418 pusat 623 458 smkn 574

379 adik 681 419 gambar 622 459 office 571

380 budak 681 420 mending 622 460 shopping 569

381 vscocam 681 421 setia 620 461 perempuan 567

382 restaurant 679 422 puncak 617 462 yakin 567

383 hubung 677 423 club 617 463 guru 567

384 dear 675 424 tawa 617 464 pulau 564

385 tetep 675 425 terimakasih 617 465 situ 562

386 untung 672 426 assalamualaikum 616 466 niat 559

387 motor 667 427 ganteng 615 467 grand 558

388 ilmu 664 428 pasal 614 468 gonna 557

389 juang 663 429 madrid 614 469 benci 556

390 jadi 662 430 otak 613 470 video 555

391 heart 661 431 ngapain 613 471 utama 555

392 late 660 432 penuh 612 472 benda 554

393 komplek 659 433 friends 612 473 ambil 554

394 kalah 657 434 villa 611 474 kira 552

395 uang 656 435 nangis 610 475 nasib 551

396 finally 655 436 lucu 607 476 moment 551

397 test 653 437 great 606 477 padang 551

398 game 649 438 kasi 603 478 super 551

399 sibuk 649 439 wanna 596 479 studio 550

400 online 647 440 hahahah 596 480 latih 548

61


481 minat 548 521 bumi 513 561 lepak 476

482 sungguh 547 522 nilai 513 562 ngomong 476

483 tanah 546 523 resort 513 563 maju 476

484 jahat 546 524 lampu 512 564 cowok 475

485 join 543 525 smile 509 565 capek 475

486 januari 543 526 antan 508 566 eting 473

487 masak 543 527 laper 508 567 cuaca 472

488 blok 542 528 rest 506 568 barang 472

489 sholat 542 529 kecewa 506 569 nnti 472

490 jumat 542 530 maen 506 570 lelaki 467

491 lambat 541 531 kemarin 506 571 smpai 466

492 resto 541 532 desa 506 572 angin 466

493 hukum 541 533 mood 505 573 sumpah 466

494 bintang 540 534 papa 504 574 hadap 465

495 holiday 540 535 hang 500 575 soto 465

496 friend 539 536 sari 500 576 nyaman 464

497 bahru 538 537 sana 499 577 asli 463

498 tutup 537 538 islam 499 578 nyari 463

499 hahaa 536 539 serius 498 579 check 462

500 sunday 532 540 fans 498 580 engkau 462

501 wait 532 541 tulis 497 581 utiful 462

502 bodoh 531 542 ramai 497 582 luck 462

503 wisata 531 543 feat 495 583 sulit 461

504 yaudah 529 544 cuman 494 584 dasar 460

505 bentar 528 545 merah 494 585 seru 460

506 agung 528 546 bola 494 586 paper 459

507 telat 526 547 hate 492 587 ampun 459

508 putus 526 548 tired 490 588 utara 459

509 nemenin 525 549 roti 489 589 urus 459

510 bahasa 525 550 alas 488 590 university 458

511 sultan 524 551 college 485 591 chelsea 458

512 jodoh 524 552 putrajaya 485 592 residence 456

513 aamiin 523 553 pasang 484 593 team 456

514 budi 520 554 sing 483 594 pusing 455

515 hard 516 555 pindah 481 595 turut 455

516 huhu 516 556 murah 481 596 shit 454

517 nampak 514 557 yeah 480 597 song 453

518 tarik 514 558 nyata 480 598 hadiah 452

519 adek 514 559 music 479 599 bingung 452

520 ikan 513 560 solo 479 600 ngopi 451

62

LAMPIRAN 2.(A) – Urutan Kata Berdasar Nilai Autocorrelation (confidence

boundary = 0.05)

No Kata Autocor. No Kata Autocor. No Kata Autocor.

1 rumah 148 41 room 107 81 goreng 90

2 tidur 145 42 besok 105 82 kuala 89

3 mata 138 43 kali 104 83 pake 89

4 malam 137 44 bandung 104 84 makasih 88

5 good 132 45 esok 104 85 today 88

6 pagi 130 46 sekolah 103 86 sore 88

7 semangat 128 47 banget 102 87 layan 88

8 selamat 127 48 gila 102 88 awak 87

9 wkwk 126 49 kalo 101 89 ketemu 87

10 bangun 123 50 negeri 101 90 dingin 87

11 jaya 123 51 gitu 100 91 plaza 87

12 waktu 123 52 cantik 100 92 mall 86

13 love 122 53 kelas 100 93 salam 86

14 hati 121 54 indah 99 94 food 86

15 night 121 55 sampe 99 95 morning 85

16 tuhan 120 56 suka 97 96 main 85

17 jalan 119 57 alhamdulillah 97 97 cari 85

18 hidup 119 58 nice 97 98 ajar 85

19 ayam 119 59 tido 96 99 life 85

20 kota 118 60 time 95 100 kakak 85

21 sayang 117 61 pulang 95 101 tolong 85

22 sakit 117 62 universitas 95 102 school 84

23 mana 116 63 sleep 95 103 kantor 84

24 langor 115 64 nama 94 104 warung 83

25 mimpi 115 65 kampus 94 105 pasal 83

26 rindu 114 66 tweet 94 106 mudah 82

27 orang 113 67 kena 93 107 assalamualaikum 82

28 bismillah 113 68 cafe 93 108 hotel 81

29 ngantuk 113 69 bawa 93 109 alam 81

30 makan 112 70 diri 93 110 pulak 81

31 kaya 111 71 hujan 92 111 lihat 81

32 anak 110 72 birthday 92 112 surabaya 81

33 hahahaha 109 73 susah 92 113 makassar 81

34 sehat 109 74 international 92 114 work 81

35 moga 108 75 baik 92 115 kuat 80

36 siang 108 76 lancar 92 116 nonton 80

37 kirim 108 77 happy 91 117 libur 80

38 cinta 107 78 airport 91 118 kawan 80

39 lupa 107 79 lumpur 90 119 abis 79

40 dont 107 80 bang 90 120 movie 79

63


121 jugak 79 161 manusia 72 201 benci 67

122 coffee 78 162 malang 72 202 benda 67

123 buku 78 163 muka 71 203 exam 67

124 dapet 78 164 kembali 71 204 shah 66

125 perut 78 165 sedih 71 205 takut 66

126 sabar 77 166 sukses 71 206 latepost 66

127 amin 77 167 house 71 207 sweet 66

128 temen 77 168 mbak 71 208 kenal 66

129 badan 77 169 bakso 71 209 bank 66

130 petaling 77 170 bobo 71 210 murah 66

131 centre 77 171 singapore 70 211 cowok 66

132 class 77 172 johor 70 212 indonesia 65

133 kerja 76 173 ikut 70 213 bikin 65

134 jakarta 76 174 muhammad 70 214 lapar 65

135 bahagia 76 175 mulu 70 215 mari 65

136 harap 76 176 subang 70 216 mesti 65

137 minggu 76 177 ulang 70 217 panas 65

138 malem 76 178 hasil 70 218 putri 65

139 stay 76 179 trus 70 219 hihi 65

140 kuliah 76 180 cewek 70 220 medan 65

141 sarap 76 181 game 70 221 kalah 65

142 bogor 76 182 study 70 222 hmmm 65

143 feel 76 183 januari 70 223 luck 65

144 sman 75 184 bareng 69 224 nasi 64

145 hahah 75 185 laku 69 225 lunch 64

146 karna 75 186 pakai 69 226 photo 64

147 ganggu 75 187 nunggu 69 227 abang 64

148 pergi 74 188 sikit 69 228 malas 64

149 mati 74 189 komplek 69 229 keluarga 64

150 gimana 74 190 nnti 69 230 film 64

151 pusat 74 191 takde 68 231 great 64

152 pacar 73 192 ntar 68 232 maksud 64

153 futsal 73 193 istirahat 68 233 kolej 64

154 umur 73 194 sapa 68 234 mama 63

155 center 73 195 office 68 235 wkwkwk 63

156 hope 73 196 yakin 68 236 bandar 63

157 budi 73 197 beli 67 237 timur 63

158 biar 72 198 enak 67 238 tangerang 63

159 maaf 72 199 family 67 239 kamar 63

160 bilang 72 200 care 67 240 friends 63

64

LAMPIRAN 2.(B) – Urutan Kata Berdasar Nilai Autocorrelation (confidence

boundary = 0.10)

No Kata

Autocor

.

N

o Kata

Autocor

. No Kata

Autocor

.

1 malam 109 41 jalan 61 81 food 46

2 good 108 42 room 61 82 center 46

3 rumah 106 43 orang 60 83 makan 45

4 tidur 103 44 lupa 60 84 kuala 45

5 night 102 45 internationa 60 85 petaling 45

6 pagi 99 46 lancar 60 86 suka 44

7 semangat 97 47 sarap 59 87 kali 44

8 bangun 91 48 plaza 58 88 nice 44

9 selamat 82 49 rindu 57 89 sore 44

10 waktu 82 50 coffee 56 90 class 43

11 ayam 82 51 centre 56 91 today 42

12 sayang 80 52 hahahaha 55 92 assalamualaiku 42

13 bismillah 80 53 lunch 54 93 pasal 42

14 ngantuk 77 54 cinta 53 94 kantor 41

15 hidup 74 55 bandung 53 95 family 41

16 mimpi 73 56 gila 53 96 putri 41

17 mata 72 57 dapet 53 97 breakfast 41

18 besok 72 58 dingin 53 98 nner 41

19 langor 71 59 airport 52 99 party 41

20 hati 70 60 moga 51 100 time 40

21 sleep 70 61 malem 51 101 cantik 40

22 tuhan 69 62 goreng 51 102 sampe 40

23 universitas 69 63 lumpur 50 103 layan 40

24 esok 69 64 indah 50 104 shopping 40

25 banget 68 65 movie 50 105 fakultas 39

26 wkwk 68 66 anak 49 106 bakar 39

27 jaya 68 67 mana 49 107 petang 39

28 siang 68 68 tweet 49 108 dont 38

29 negeri 67 69 happy 48 109 hujan 38

30 kota 67 70 libur 48 110 kaya 38

31 kampus 67 71 bakso 48 111 birthday 38

32 cafe 66 72 kelas 47 112 bank 38

33 mall 66 73 futsal 47 113 johor 37

34 minggu 64 74 pulang 46 114 sukses 37

35 kalo 63 75 sman 46 115 pake 36

36 sakit 63 76 warung 46 116 biar 35

37 tido 63 77 baik 46 117 main 35

38 morning 62 78 buku 46 118 kirim 35

39 love 62 79 diri 46 119 life 35

40 sehat 62 80 ikut 46 120 ketemu 35

65


121 lihat 35 161 pulak 29 201 sadar 27

122 tengok 35 162 pasar 29 202 benci 27

123 feel 35 163 kuis 29 203 jumat 27

124 bobo 35 164 ujan 29 204 resort 27

125 alhamdulillah 34 165 office 29 205 hospital 27

126 gitu 34 166 wisata 29 206 turu 27

127 mati 34 167 cowok 29 207 kolej 27

128 school 34 168 smpai 29 208 ganggu 27

129 tangerang 34 169 gede 29 209 friday 27

130 university 34 170 wedding 29 210 nyampe 27

131 exam 34 171 afood 29 211 chicken 27

132 cari 33 172 musik 29 212 pria 27

133 kakak 33 173 polri 28 213 dada 27

134 surabaya 33 174 sekolah 28 214 jago 27

135 house 33 175 maaf 28 215 monday 27

136 istirahat 33 176 nonton 28 216 kerja 26

137 jugak 32 177 amin 28 217 nama 26

138 ulang 32 178 muhammad 28 218 pergi 26

139 pusat 32 179 tolong 28 219 mama 26

140 smkn 32 180 panas 28 220 salam 26

141 soto 32 181 lapang 28 221 watching 26

142 gereja 32 182 hope 28 222 hasil 26

143 bahagia 31 183 kamar 28 223 resto 26

144 kuliah 31 184 restaurant 28 224 sunday 26

145 karna 31 185 benda 28 225 nnti 26

146 work 31 186 paper 28 226 gatau 26

147 murah 31 187 teknik 28 227 jujur 26

148 saturday 31 188 sentral 28 228 karaoke 26

149 salon 31 189 deui 28 229 matahari 26

150 bunyi 31 190 lembaga 28 230 lumayan 26

151 tangkap 30 191 hotel 27 231 ayat 26

152 shah 30 192 lagu 27 232 merem 26

153 hahah 30 193 susah 27 233 nabila 26

154 hmmm 30 194 bawa 27 234 lantak 26

155 yaal 30 195 kawan 27 235 makasih 25

156 smpn 30 196 stay 27 236 makassar 25

157 woman 30 197 galau 27 237 pakai 25

158 korupsi 30 198 sikit 27 238 trus 25

159 alam 29 199 subang 27 239 black 25

160 ajar 29 200 late 27 240 waiting 25

66

LAMPIRAN 2.(C) – Urutan Kata Berdasar Nilai Autocorrelation (confidence

boundary = 0.15)


1 tidur 84 41 sehat 31 81 class 22

2 good 83 42 negeri 30 82 putri 22

3 pagi 79 43 coffee 30 83 salon 22

4 night 78 44 family 30 84 gereja 22

5 malam 73 45 futsal 30 85 lembaga 22

6 bangun 71 46 bakso 30 86 rindu 21

7 sleep 64 47 hahahaha 29 87 gila 21

8 selamat 61 48 international 29 88 sore 21

9 bismillah 61 49 shopping 29 89 petaling 21

10 mall 57 50 jalan 28 90 layan 21

11 ayam 56 51 movie 28 91 sunday 21

12 semangat 55 52 hati 27 92 jumaat 21

13 langor 54 53 sman 27 93 kali 20

14 sarap 51 54 warung 27 94 bandung 20

15 kalo 50 55 malem 27 95 room 20

16 cafe 50 56 petang 27 96 assalamualaikum 20

17 morning 48 57 dapet 26 97 university 20

18 rumah 47 58 fakultas 26 98 love 19

19 besok 47 59 center 26 99 sakit 19

20 ngantuk 47 60 wkwk 25 100 cantik 19

21 tido 46 61 pulang 25 101 nyampe 19

22 universitas 43 62 airport 25 102 anak 18

23 mimpi 43 63 buku 25 103 mana 18

24 lunch 43 64 dingin 25 104 sukses 18

25 plaza 42 65 bank 25 105 teknik 18

26 mata 40 66 breakfast 25 106 operation 18

27 minggu 39 67 party 25 107 klcc 18

28 esok 39 68 banget 24 108 sadino 18

29 centre 39 69 tuhan 24 109 makan 17

30 kampus 38 70 siang 24 110 sampe 17

31 sayang 37 71 orang 23 111 kirim 17

32 nner 37 72 kelas 23 112 johor 17

33 jaya 36 73 nice 23 113 smkn 17

34 food 36 74 saturday 23 114 karaoke 17

35 lancar 35 75 happy 22 115 jago 17

36 hidup 33 76 kota 22 116 pdip 17

37 waktu 32 77 baik 22 117 biar 16

38 goreng 32 78 libur 22 118 indah 16

39 kuala 31 79 tweet 22 119 sekolah 16

40 lumpur 31 80 ikut 22 120 alhamdulillah 16

67

No Kata

Autocor

. No Kata

Autocor

. No Kata

Autocor

.

121 mati 16 161 wedding 14 201 tipe 13

122 subuh 16 162 goal 14 202 khilaf 13

123 school 16 163 musik 14 203 abdi 13

124 kantor 16 164 kirain 14 204 labil 13

125 house 16 165 konser 14 205 angkut 13

126 jumat 16 166 garagara 14 206 kena 12

127 gede 16 167 deui 14 207 gitu 12

128 begadang 16 168 tionsimilag 14 208 ajar 12

129 afood 16 169 avenged 14 209 susah 12

130 view 16 170 koruptor 14 210 pake 12

131 nayan 16 171 suke 14 211 badan 12

132 monday 16 172 cendol 14 212 tengok 12

133 korupsi 16 173 gapunya 14 213 feel 12

134 matematika 16 174 nich 14 214 tolong 12

135 lantak 16 175 luah 14 215 trus 12

136 tegak 16 176 suka 13 216 weekend 12

137 lupa 15 177 main 13 217 bobo 12

138 life 15 178 hotel 13 218 villa 12

139 pulak 15 179 mama 13 219 office 12

140 pasar 15 180 today 13 220 wisata 12

141 bakar 15 181 city 13 221 murah 12

142 kuis 15 182 pantai 13 222 soto 12

143 pasal 15 183 makassar 13 223 gatau 12

144 bubur 15 184 panas 13 224 sedap 12

145 pizza 15 185 park 13 225 kolej 12

146 matahari 15 186 restaurant 13 226 sejuk 12

147 melek 15 187 game 13 227 pontianak 12

148 woman 15 188 benda 13 228 cuba 12

149 pria 15 189 smpn 13 229 karo 12

150 merem 15 190 simpan 13 230 market 12

151 dapur 15 191 chicken 13 231 style 12

152 cicak 15 192 bunyi 13 232 kiri 12

153 prillvers 15 193 umah 13 233 nabila 12

154 cinta 14 194 anjir 13 234 suci 12

155 time 14 195 katolik 13 235 khas 12

156 dont 14 196 geram 13 236 Understa 12

157 jugak 14 197 brapa 13 237 jones 12

158 sadar 14 198 mingguan 13 238 angels 12

159 smpai 14 199 impin 13 239 cibubur 12

160 steak 14 200 magang 13 240 tahu 12

68

LAMPIRAN 2.(D) – Urutan Kata Berdasar Nilai Autocorrelation (confidence

boundary = 0.20)


1 tidur 61 41 jaya 17 81 happy 11

2 night 61 42 waktu 17 82 sekolah 11

3 good 60 43 international 17 83 kota 11

4 pagi 58 44 family 17 84 goreng 11

5 malam 52 45 sunday 17 85 bank 11

6 bangun 51 46 party 17 86 begadang 11

7 sleep 45 47 salon 17 87 teknik 11

8 mall 45 48 lumpur 16 88 tionsimilagi 11

9 selamat 43 49 sayang 16 89 jalil 11

10 morning 38 50 hidup 16 90 pdip 11

11 cafe 38 51 siang 16 91 orang 10

12 ayam 38 52 sman 16 92 banget 10

13 bismillah 36 53 minggu 16 93 time 10

14 sarap 36 54 airport 16 94 alhamdulillah 10

15 lunch 34 55 libur 16 95 tuhan 10

16 semangat 31 56 petang 16 96 kelas 10

17 ngantuk 31 57 kuala 15 97 room 10

18 langor 30 58 rindu 15 98 school 10

19 mimpi 29 59 movie 15 99 presiden 10

20 besok 27 60 saturday 15 100 sore 10

21 dinner 27 61 gereja 15 101 layan 10

22 esok 26 62 sadino 15 102 panas 10

23 centre 26 63 bandung 14 103 class 10

24 tido 25 64 warung 14 104 operation 10

25 shopping 25 65 malem 14 105 match 10

26 kalo 24 66 dapet 14 106 cendol 10

27 food 23 67 ikut 14 107 kaku 10

28 mata 22 68 love 13 108 polri 9

29 plaza 22 69 buku 13 109 sakit 9

30 universitas 21 70 fakultas 13 110 wkwk 9

31 coffee 21 71 futsal 13 111 pulang 9

32 rumah 20 72 lembaga 13 112 kirim 9

33 kampus 20 73 luah 13 113 wakil 9

34 lancar 20 74 makan 12 114 baik 9

35 bakso 20 75 jalan 12 115 subuh 9

36 negeri 19 76 lupa 12 116 gila 9

37 hahahaha 19 77 kena 12 117 tweet 9

38 sehat 18 78 petaling 12 118 makassar 9

39 breakfast 18 79 putri 12 119 sukses 9

40 jumaat 18 80 mingguan 12 120 kuis 9

69


121 resiko 9 161 pizza 8 201 johor 7

122 exam 9 162 rakyat 8 202 pasar 7

123 karaoke 9 163 deres 8 203 nice 7

124 sangka 9 164 goal 8 204 laku 7

125 wedding 9 165 kapolri 8 205 salam 7

126 polisi 9 166 view 8 206 lapar 7

127 melek 9 167 woman 8 207 umur 7

128 afood 9 168 nayan 8 208 kamar 7

129 save 9 169 masyarakat 8 209 game 7

130 pria 9 170 ggmu 8 210 pusat 7

131 monday 9 171 korupsi 8 211 negara 7

132 klcc 9 172 matematika 8 212 smkn 7

133 gelora 9 173 tuesday 8 213 jumat 7

134 keluh 9 174 error 8 214 hukum 7

135 pahlawan 9 175 brapa 8 215 gatau 7

136 wash 9 176 koruptor 8 216 lawan 7

137 makcik 9 177 gmim 8 217 olahraga 7

138 china 9 178 anda 8 218 wake 7

139 nich 9 179 akang 8 219 lemah 7

140 keroh 9 180 church 8 220 musik 7

141 azan 9 181 khilaf 8 221 lapor 7

142 bangku 9 182 indomie 8 222 telkom 7

143 sahur 9 183 pancake 8 223 bangsa 7

144 hati 8 184 borneo 8 224 jurus 7

145 kali 8 185 anter 8 225 umah 7

146 indah 8 186 kati 8 226 juta 7

147 tangkap 8 187 sumatra 8 227 khas 7

148 hotel 8 188 tahajud 8 228 email 7

149 ketua 8 189 choice 8 229 konser 7

150 dukung 8 190 madam 8 230 anti 7

151 jokowi 8 191 direktorat 8 231 tenan 7

152 kantor 8 192 satnite 8 232 dapur 7

153 dingin 8 193 hkbp 8 233 success 7

154 mudah 8 194 savekpk 7 234 jarak 7

155 jugak 8 195 anak 7 235 skripsi 7

156 center 8 196 bang 7 236 yess 7

157 bobo 8 197 cantik 7 237 atletico 7

158 budi 8 198 sampe 7 238 manchester 7

159 nyata 8 199 mana 7 239 bela 7

160 university 8 200 mati 7 240 endorphins 7

70

LAMPIRAN 2.(E) – Urutan Kata Berdasar Nilai Autocorrelation (confidence

boundary = 0.25)


1 tidur 48 41 hahahaha 11 81 nyata 8

2 night 48 42 airport 11 82 exam 8

3 pagi 43 43 plaza 11 83 rakyat 8

4 good 42 44 party 11 84 tuesday 8

5 bangun 38 45 makan 10 85 tionsimilagi 8

6 mall 36 46 kalo 10 86 jalil 8

7 sleep 34 47 negeri 10 87 lupa 7

8 malam 33 48 waktu 10 88 sekolah 7

9 sarap 29 49 esok 10 89 kota 7

10 morning 27 50 coffee 10 90 pulang 7

11 lunch 26 51 libur 10 91 kena 7

12 cafe 25 52 bakso 10 92 bandung 7

13 ayam 22 53 breakfast 10 93 ketua 7

14 bismillah 21 54 begadang 10 94 tuhan 7

15 selamat 20 55 hidup 9 95 wakil 7

16 semangat 19 56 sman 9 96 presiden 7

17 mimpi 19 57 warung 9 97 fakultas 7

18 nner 18 58 dapet 9 98 laku 7

19 shopping 17 59 movie 9 99 bobo 7

20 tido 16 60 sore 9 100 negara 7

21 mata 15 61 family 9 101 jumat 7

22 besok 15 62 lancar 9 102 saturday 7

23 minggu 14 63 sangka 9 103 lawan 7

24 food 14 64 operation 9 104 polisi 7

25 centre 14 65 sadino 9 105 save 7

26 sunday 14 66 orang 8 106 korupsi 7

27 jumaat 14 67 happy 8 107 bela 7

28 sayang 13 68 polri 8 108 koruptor 7

29 langor 13 69 banget 8 109 lembaga 7

30 siang 13 70 wkwk 8 110 azan 7

31 ngantuk 13 71 tangkap 8 111 love 6

32 salon 13 72 dukung 8 112 jalan 6

33 jaya 12 73 jokowi 8 113 sakit 6

34 international 12 74 universitas 8 114 kirim 6

35 kampus 12 75 sehat 8 115 subuh 6

36 mingguan 12 76 malem 8 116 school 6

37 kuala 11 77 tweet 8 117 goreng 6

38 lumpur 11 78 ikut 8 118 class 6

39 rumah 11 79 petaling 8 119 assalamualaikum 6

40 rindu 11 80 futsal 8 120 hukum 6

71


121 budi 6 161 dingin 5 201 tgif 5

122 petang 6 162 salam 5 202 baro 5

123 lemah 6 163 panas 5 203 gelora 5

124 goal 6 164 bank 5 204 gilang 5

125 bukti 6 165 tangan 5 205 pahlawan 5

126 lapor 6 166 kuis 5 206 anggota 5

127 ggmu 6 167 weekend 5 207 saksi 5

128 dapur 6 168 sabtu 5 208 misi 5

129 klcc 6 169 umur 5 209 gmim 5

130 bawain 6 170 pusat 5 210 astagfirullah 5

131 negri 6 171 smkn 5 211 bangang 5

132 gelar 6 172 office 5 212 ahad 5

133 sahur 6 173 chelsea 5 213 gera 5

134 bara 6 174 pizza 5 214 samarahan 5

135 gunadarma 6 175 karaoke 5 215 gramedia 5

136 tegak 6 176 pura 5 216 hohoho 5

137 nich 6 177 serang 5 217 river 5

138 nita 6 178 friday 5 218 lantak 5

139 prillvers 6 179 wedding 5 219 ckson 5

140 bangku 6 180 satu 5 220 gudeg 5

141 pdip 6 181 teknik 5 221 demo 5

142 solat 6 182 melek 5 222 tahajud 5

143 satnite 6 183 kapolri 5 223 evening 5

144 satnight 6 184 afood 5 224 madam 5

145 hkbp 6 185 sikap 5 225 pavilion 5

146 hati 5 186 woman 5 226 abraham 5

147 savekpk 5 187 gereja 5 227 promopaket 5

148 indonesia 5 188 pria 5 228 proses 5

149 dont 5 189 terbang 5 229 time 4

150 alhamdulillah 5 190 berita 5 230 biar 4

151 bambang 5 191 jago 5 231 kali 4

152 bang 5 192 monday 5 232 hujan 4

153 hotel 5 193 gunawan 5 233 pake 4

154 kelas 5 194 tari 5 234 mati 4

155 room 5 195 masyarakat 5 235 widjojanto 4

156 kuat 5 196 south 5 236 buku 4

157 gila 5 197 anti 5 237 kantor 4

158 amin 5 198 resmi 5 238 makassar 4

159 pasar 5 199 skripsi 5 239 sukses 4

160 nice 5 200 musuh 5 240 house 4

72

LAMPIRAN 3.(A) – Gambar Wavelet dan Correlogram Kata Kunci (jumlah

koefisien > 50)

74

LAMPIRAN 3.(B) – Gambar Wavelet dan Correlogram Kata Kunci (jumlah

koefisien < 10)

75

LAMPIRAN 4.(A) – Sampel Tweet (Melalui Tahap Preproses, Tanpa

Eliminasi Kata Kunci Trivial)

No Tweet

1 kalo foto gang kaca ketawain pkony ribet momen bikin inget mantan jj

2 maren tidur ampe jam tidur xd

3 cuba nk jd adik baik

4 boek plak perempuan tu fairplay tu mc tu pon ngehngeh

5 skrang ridur

6 nunggu waktu bgt sampe tutup mata bilang selamat tinggal dunia

7 mata sebam whut

8 huhuokay

9 sky stars

10 otak jam gin bangun

11 masuh ganjen

12 salah fokus

13 cinta ruang waktu hilang

14

gawahawkeyers atletpenggawa prgktantarabgsa obesi lehasemput lehapower lehastriker

lehaskor

15 enak bang coba

16 warhouse raise bar subang jaya langor darul ehsan

17 test drive ngilangin e simon

18 rn instapict asrama putri assalam sapen

19 question hahah

20 kangen ketemu dy harap dy ubah belomx

21 babi la poen ckp lucah

22 untung pon kelas cancel kena ganti nantiemmmtry baring lelap matamata tau jadikahhh

23 lihat sisi sempurna duli lemah jth cinta karna hati

24 malen yah ahahah

25 touchepasamoncharlie

26 akutansi kelar

27 fiewwwwiiiitttttt

28 restoran ariff kuala lumpur wp kuala lumpur

29 nemo

30

shipping goals cup semifinal country luiz silva nominated golden raspberry awards

bbcfootball

31 housemate sume dh baliktinggallh perjuangkn paper nie

32 wonderfull edge apartment baros cimahi

33 tweet

34 rindu hensem tu harap mimpi indah malam

35

omg piya menang ballon mapa mapa mapa bera bera bera bo lawey staro demo blana

blana blana

36 terima kasih awak

37 wajar din nama cintaaa wajar kaaaan banggain cowo kaya re ehehehe

38 jam gin acara tv anak yaa pusing nonton i timur depok

39 fifpro xi award congratulations angel maria je wakil epl

40 takmatured ikiran pro pleaseeeeee

41 ajis laut e makan ikan paus wkwk wetdeh jam ajis ajiz bruak

42 abis potong rambut wkwkwk

43 night sahabat sayang dtg bikin rempong jogja

44 ret

45 ceh makan satay kajang

46 anus robek beda kulit vagina lho

47 ive problems starts

48 rodo loro rodo telu papalimo

76

49 yamg pasti lapar duduk kelas

50 sia doe sape ramshit

51 perangai manusia jumpa

52 taman bahagia bukit

53 bangla mari

54 tidur

55 abai

56 hahahahhaaha waniii lynn tdoq bye yunk muah bye muah lynn

57 udh psti neuer menang brrti aneh kayak ronaldobrazil cedera cemerlang

58 travel love

59 aigo susah tidur sbb hidung sumbat

60 mahu tidur

61 imy

62 argh fuck goodnight

63 ampun

64 deg deg

65 persie header lajames girl volley

66 touchepasamoncharlie

67 dian indonesia

68 sbenarnya kanbila pergi mall feeling mcm kaya tuh muslims eat muslim restaurant

69 zonk kali ___

70 bt

71 blg gada sms batu banget

72 tido esok bangun pulak kang

73 comel hahah duhhh masuk la pnya byk mnghafal adeyh

74 atiati salah luh maksutnya sajeel eh ita gua doain biar balikan onoh

75 bangun pup apartment itc roxy mas

76 supper org stress

77 arhh rindu pagi buta hmm

78 vampir abis nongol jam gin melulu ahahah

79 sikit nyamuk ek jahanam

80 ainda rindo da foto hermano fone kkkkkkkkkkkkkkk

81 lepas niy single mika partner

82 fine mana anak vespa hoi kabarrrr

83 photography modelling xiestarmy batalyon kavaleri cobra

84 bbmme pin

85 ikut daftar diri jamin nyesel insya al nambah ilmu buka umum stais

86 whaaaaaaat lmao

87 ssappoint

88 duhh cacihan sma anak gaoll saikk

89 tir kaget

90 kejam ka kejam ka

91 volunteer hot

92

step tame negotiation kalo selesai jugok masaloh tu stage terus nye iaitu damai ngan

industrial relation

93 sayank aqhu meni dgna qm ihklas jujur hati mu

94 clvss daily activity breaktown goodluck supply breaktown hellarmy gdck

95 kill

96 bandung ka hehe uas ka

97 numec nangis wey takut esuk mistake haihh

98 sanchez deserves spot

99 ngerti ajaaaaa kalam bhahahaha

100 hmm sek mu tok bui motivasi lasung nok prekso esok

77

LAMPIRAN 4.(B) – Sampel Tweet (Melalui Tahap Preproses, Didahului

Eliminasi Kata Kunci Trivial)

No Tweet

1 kpk mntap kpk tetap calon kapolri budi gunawan sangka

2 cuba nk jd adik baik

3 enak bang coba

4

omg piya menang ballon mapa mapa mapa bera bera bera bo lawey staro demo blana

blana blana

5 jam gin acara tv anak yaa pusing nonton i timur depok

6 taman bahagia bukit

7 udh psti neuer menang brrti aneh kayak ronaldobrazil cedera cemerlang

8 babeng lambat laa sape menang

9 betapa indah dunia syukur imati nikmat

10 congrats fifa coach year german national coach joachim

11 cristiano ronaldo deserve award hope

12 rodgers menang ples cuman si rodgers nolak

13 nk tunjuk kat sapecukup malaikat maut hati ko

14 yakin baik svaha

15 thn gosok ulang kupon latih baik gan

16 nikmat syukur moga tdk amin

17 warteg hujan

18 moga kuat amin

19 ballon dor

20

gua usul fifa kne wajibkn player amek ielts minima band senang mjlis mcm ballon dor

nie xyah translator bhasa

21 kawan kutuk eh tunjuk je perangai benar muka talam

22 rgio ramos agent haa main dam je umah skrg main

23 tulah mna nk letak muka weih nk tgok piniteu live malaysia

24 hehe bahagia amat tau dua hehe mishh bby jumpaa

25 ballon safee Sali

26 lionel ssi cristiano ronaldo

27 kerja rody loyalitas

28 krn klh sma mil kmrin hwhahs latih baik carlo ancelotti yah trofi

29 stay watching fifa ballon dor gala

30 menang nasib je tu

31 won ballon dor

32 chat youtube fifa blm baca tiban gokil

33 kerja fun

34 germany dor

35 ronaldo beli arema bentar

36 masingmasing kill tunjuk pero sruh support hampehkan haa hahacc

37 beda lurah kek nye fifa pssi

38 rolling stones ruby tuesday live official lewat

39 ballon dor

40 live streamming ballon dor granada bookmart

41 nerima trophy fifa fair play award sih min ngga ngehargain trophyy taro bawa

42 tol sidoarjo surabaya

43 women ballon dor yakin marta menang

44 lul vincent kompany david luiz fifa team year

45 bahagia cipta

46 tuju adlh sakit hati jdi abai sj

47 ajar gila

48 ssi pelik dunia

49 ego godin bek baik dunia tuju

78

50 korupsi blatter fifa coach year votes ancelotti simeone cm sisa golputtt

51

joachim received percent votes winning fifa coach year carlo ancelotti ego simeone espn

fc

52 madrid bayern ain tim baik fifa

53 gila lu _ liar lahapp bibir rona wk

54 sape mng ballon dor

55 maaf hilang ingat

56 turut mbah ancelotti tetep baik

57

versi sih gk neur defender lahm hummels ramos silva midfelder maria kroos hazard

striker ssi ibra ronaldo

58 ssi takleh menang alien

59 rgio ramos ton kroos cristiano ronaldo

60 gmna kondisi yudha baik min

61 fifa fair play award

62 bilang serba salah tetehteteh bilang raisih coba maksud ubah jelma raisa gituhciao

63 hubung ujung indah sakit bahagia diri

64 bangga bahagia

65 cristiano ronaldo win ballon dor dont mind neuer win

66 tu award lagu camtu haa bola coach baik player baik laki perempuan hihihi

67 kerja kaya bgini doang bgtu

68

iniesta official fifa xi neuer lahm ramos thiago silva david luiz maria kroos iniesta robben

ssi ronaldo

69 adik main instagram hp si mama doi nggak nggak bolehin gadget

70 fifa snorting coke

71 hilang coba rubah nama tepat janji

72 iyaa serah putus jadi blum

73 player jdt masok fifa kothaha

74 madrid munchen klub baik terhabat dunia

75 sadar doa doa bahagia bahagia

76 cristiano ronaldo

77 entre los jores delanteros del fifa fifpro grande ballondor

78 kaya fifa ilai turnamen pas brazil td joachim ancelloti trofi

79 cristiano ronaldo tuju tuju tuju

80 de kat tepi tv tau

81 laaaa acara ballon dor cakap aimar main jdt seh

82 cuti kerja cari duit blh usha slow slow kerja rehat dahni pok lim

83 cristiano ronaldo fantastis menang la decima momen

84 Baik

85 ain baik ronaldo

86 dinding lewat bahagia dapat

87 wow jdts legend ballon dor

88 hahahatu mmg award rahsiakan dunia

89 nasib jgk unfollow amboi tuit skang main biar ye hmm manusia manusia

90 manuel neuer ballon dor kirakira

91 cristiano ronaldo emosional karir pergi trofi baru menang

92 sakit kerja suap nasi learning center pt tirta investama danone aqua

93 piala dunia klub

94 pacar subhanal baik moga baikan bls al tbdandyagungpratama

95 latih baik ancelotti

96 jakarta ongs

97 cristiano ronaldo eighth convective fifa fifpro award ballondor

98 moga neuer ballon dor kirakira

99 lionel ssi cristiano ronaldo

100 engkau hapusny al wlw tau anugerah indah rasa

79

LAMPIRAN 5.(A) – Hasil Percobaan untuk Optimasi Nilai k Pada Tweet dengan

Eliminasi Kata Kunci Trivial

jumlah

cluster

(k)

Waktu

(detik)

Silhouette

Coefficient Top Term per cluster

2

0.703

0.004

Cluster 0: moga kerja jakarta main bahagia ronaldo coba baik gila

dunia

Cluster 1: hujan deras reda turun pulang henti lebat cuaca awet

jebak

3

1.015

0.006

Cluster 0: moga jakarta main bahagia ronaldo coba baik gila dunia

dor

Cluster 1: kerja keras cari pulang jam malas je masuk tu kuliah

Cluster 2: hujan deras reda turun pulang henti lebat awet jebak

cuaca

4

1.046

0.015

Cluster 0: hujan moga kerja jakarta bahagia ronaldo baik gila dunia

coba

Cluster 1: budi sangka kpk kapolri gunawan calon jokowi komjen

dpr bg

Cluster 2: main game bola je suka gitar twitter la coc tu

Cluster 3: mkwikku mobilenya kwikku jejaring saran sosial kritik

mohon utk indonesia

5

2.468

0.011

Cluster 0: moga jakarta main bahagia ronaldo gila coba dor ballon

menang

Cluster 1: baik dunia al ain akhirat fantasi cinta dufan doa moga


mohon utk indonesia



cuaca

6

1.733

0.012

Cluster 0: gila dunia rasa sukses serah jadi budi gunawan sakit al


cuaca

Cluster 2: jakarta moga ronaldo coba baik dor ballon menang

cristiano pilih


Cluster 4: kerja keras cari jam pulang malas je masuk tu kuliah

Cluster 5: bahagia sederhana cinta senyum doa buat sedih syukur

moga sakit

7

0.937

0.017

Cluster 0: kerja jakarta bahagia coba gila dunia menang pilih turun

rasa

Cluster 1: tv nonton metro trans tgk liat net kompas acara lokal


cuaca


Cluster 4: ronaldo dor ballon cristiano congrats fifa ssi neuer

congratulations congratulation

Cluster 5: moga amin al doa aamiin hasil sembuh berkah cepat

sukses

Cluster 6: baik ain al dunia doa untuk laku cinta langit moga

8

1.718

0.016


mohon utk indonesia

80

Cluster 1: bahagia sederhana cinta senyum buat sedih doa syukur

temu mu


Cluster 3: jakarta main baik gila dunia coba menang pilih turun rasa

Cluster 4: hujan deras reda turun pulang henti awet jebak lebat

cuaca

Cluster 5: berani cinta takut ajar tindak la crush ambil nk laku

Cluster 6: moga amin al aamiin doa hasil sembuh berkah cepat

sukses


congratulation congratulations

9

1.11

0.016

Cluster 0: main coba baik gila dunia menang pilih turun rasa serah


Cluster 2: bahagia sederhana cinta senyum buat sedih doa syukur

temu mu

Cluster 3: ronaldo cristiano ssi congrats ballondor congratulation

neuer ain congratulations halamadrid

Cluster 4: moga amin al aamiin doa hasil sembuh berkah cepat

sukses

Cluster 5: tuju retweet dpr capai hukum satu mati cari mana arah

Cluster 6: hujan deras reda turun pulang henti awet jebak lebat

cuaca

Cluster 7: dor ballon ronaldo fifa cristiano congrats neuer kirakira

ssi congratulations

Cluster 8: jakarta dki smkn selat pusat smpn barat timur indonesia

smk

10

1.16

0.016


smk

Cluster 1: mati pas temu hukum lampu moga hujan narkoba

koruptor korupsi

Cluster 2: beda dunia rasa dg tuju kerja pssi coba jadi donghaha

Cluster 3: budi calon sangka kapolri kpk gunawan jokowi komjen

dpr bg

Cluster 4: bahagia sederhana cinta senyum buat doa sedih syukur

sakit temu

Cluster 5: jadi al hati motivasi salah inget lajaran kuat mu hikmah

Cluster 6: hujan deras reda turun pulang henti awet cuaca lebat

ringan



Cluster 8: kawan gila main suka moga sukses tu tarik salah sangka

Cluster 9: sukses moga hbd amin gagal theworldofaliando doa raih

usaha keras

11

1.16

0.016


smk


koruptor korupsi



dpr bg


sakit temu


81


ringan





usaha keras

Cluster 10: main game bola je gitar suka twitter la coc tu

12 1.32 0.45 Cluster 0: jakarta, dki, smkn, selat, pusat, smpn, barat, timur indonesia, smk

Cluster 1: mati, pas, temu, hukum, lampu, moga, hujan, narkoba, koruptor, korupsi

Cluster 2: moga, amin, doa, aamiin, hasil, sembuh, berkah, cepat, sukses, CR7

Cluster 3: budi, calon, sangka, kapolri, kpk, gunawan, jokowi, komjen, dpr, bg

Cluster 4: bahagia, sederhana, cinta, senyum, buat, doa, sedih, syukur, sakit, temu

Cluster 5: turun, harga, bbm, hujan, latih tarif, premium, rp, rncn

Cluster 6: hujan, deras, reda, turun, pulang, henti, awet, cuaca, lebat, ringan

Cluster 7: ronaldo, dor, ballon, cristiano, congrats, fifa, ssi, neuer, congratulation

Cluster 8: kawan, gila, main, suka, moga, sukses, tarik, salah, sangka

Cluster 9: sukses, moga, hbd, amin, gagal, theworldofaliando, doa, raih, usaha, keras,

Cluster 10: kerja, moga, gila, coba, dunia, menang, turun, pilih, rasa, serah

Cluster 11: mkwikku, mobilenya, kwikku, jejaring, saran, sosial, kritik, mohon, indonesia

13

1.16

0.016


smk


koruptor korupsi



dpr bg


sakit temu



ringan





usaha keras


82

Cluster 11: kerja moga gila coba dunia menang turun pilih rasa

serah


mohon utk indonesia

14

1.71

0.018


smk


koruptor korupsi



dpr bg


sakit temu



ringan





usaha keras


Cluster 11: kerja moga gila coba dunia menang turun pilih rasa

serah


mohon utk indonesia

Cluster 13: baik ain al dunia doa moga laku cinta untuk langit

83

LAMPIRAN 5.(B) – Hasil Percobaan untuk Optimasi Nilai k Pada Tweet

tanpa Eliminasi Kata Kunci Trivial

jumlah

cluster

(k)

Waktu

(detik)

Silhouette

Coefficient Top Term per cluster

2

92.629

0.002 Cluster 0: moga kerja jakarta main bahagia ronaldo coba baik gila

dunia

Cluster 1: hujan deras reda turun pulang henti lebat cuaca awet

jebak

3

40.974

0.001

Cluster 0: moga jakarta main bahagia ronaldo coba baik gila dunia

dor



cuaca

4

61.752

0.001

Cluster 0: hujan moga kerja jakarta bahagia ronaldo baik gila dunia

coba

Cluster 1: budi sangka kpk kapolri gunawan calon jokowi komjen

dpr bg



mohon utk indonesia

5 32.282 0.001 Cluster 0: hahah la tu je lu tau wkwk kat main nk

Cluster 1: pagi selamat malam semangat sayang tidur dunia bangun

moga siang

Cluster 2: morning tidur follback orang love la good hati tu makan

Cluster 3: tunggu arti apa raisa waktu pagi sabar jam la cinta

Cluster 4: tau kalo orang gua lu hati kasih tu sih mana

84

LAMPIRAN 6 – Kuesioner Hasil Peringkasan oleh Responden

Cluster 0

Topik : jakarta, dki, smkn, selat, pusat, smpn, barat, timur indonesia, smk

No Tweet Ranking

( 1 – 4 )

1 SMK Jakarta Pusat 1 http://t.co/Nnfmsd739a (Terbaik)

2 I'm at @PlazaIndonesia in Jakarta Pusat, DKI Jakarta https://t.co/KLL5bPGI2c

3 I'm at @ChatimeIndo in Jakarta Pusat, DKI Jakarta https://t.co/BZFoHb9xuF

4 Hangout (at @PlazaSenayan in Jakarta Pusat, DKI Jakarta)


Cluster 1

Topik : mati, pas, temu, hukum, lampu, moga, hujan, narkoba, koruptor, korupsi

No Tweet Ranking

( 1 – 4 )

1 Pak @ridwankamil setuju koruptor di hukum mati?\nSemoga terlaksana

hukuman mati untuk koruptor, Karena itu kebijakan yang saya impikan. (Terbaik)

2 Terpidana kasus narkoba sudah dihukum mati. Terpidana kasus korupsi kapan

dihukum mati?

3 Harusnya koruptor dihukum mati

4 Hujan gini malah mati lampu

Cluster 2

Topik : moga, amin, doa, aamiin, hasil, sembuh, berkah, cepat, sukses, CR7

No Tweet Ranking

( 1 – 4 )

1 semoga berkah .amin (Terbaik)

2 Aamiin "@adelladellaide: Doa saya sama, semoga kita berjodoh. Amin.

3 Gws untuk saya dan mereka yg sedang sakit. Semoga cepat sembuh amin

4 Semoga ibu cepat sembuh. Amin In Shaa Allah

Cluster 3

Topik : budi, calon, sangka, kapolri, kpk, gunawan, jokowi, komjen, dpr, bg

No Tweet Ranking

( 1 – 4 )

1 @GunRomli: Jokowi payah RT @kompascom KPK Tetapkan Calon Kapolri

Budi Gunawan sebagai Tersangka http://t.co/H0yCqMQCg2 (Terbaik)

2 Budi Gunawan Tersangka KPK, Jokowi Harus Tarik dari Calon Kapolri

http://t.co/2vLQWMJnZc Beranii ? @PintarPolitik

3 padahal sdh d daulatkan tersangka oleh KPK RT @detikcom: DPR Sahkan

Komjen Budi Gunawan Jadi Kapolri http://t.co/AEltJWCe1e via @detik_foto

4 KPK mantap "@kompascom: KPK Tetapkan Calon Kapolri Budi Gunawan

sebagai Tersangka http://t.co/kPjyriIUek

Cluster 4

Topik : bahagia, sederhana, cinta, senyum, buat, doa, sedih, syukur, sakit, temu

No Tweet Ranking

( 1 – 4 )

1 Kesakitan menjadi sebuah kebahagiaan, saat kita sangat mencintai seseorang (Terbaik)

2 Bahagia itu sederhana. Apa yang membuatmu tersenyum, jangan dilepaskan

3 Cintai BAHAGIA karena dia membuatmu ceria, tapi cintai juga SEDIH karena

dia membuatmu dewasa

4 "Bahagia itu sederhana. Apa yang membuatmu tersenyum, jangan lepaskan!

Apa yg membuatmu menangis tinggalkan!


85

Cluster 5

Topik : turun, harga, bbm, hujan, latih tarif, premium, rp, rncn

No Tweet Ranking

( 1 – 4 )

1 Jika BBM februari turun jadi Rp 6000,- bagaimana dengan tarif angkutan dan

harga lain yg telah melambung, turunkan harga bareng agar adil. (Terbaik)

2 @Express_Group BBM turun, bakal turun juga gak tarifnya?

3 Mulai tanggal 19 januari 2015 harga bbm turun jadi Rp 6.600,-

4 Harga BBM boleh naik turun asalkan pesangon jangan naik turun :D

Cluster 6

Topik : hujan, deras, reda, turun, pulang, henti, awet, cuaca, lebat, ringan

No Tweet Ranking

( 1 – 4 )

1 Baru mau pulang... Make hujan lebat... (at @trans7) —

https://t.co/jIz40dzLVr (Terbaik)

2 Cuacanya hujan terus

3 Hujannya awet

4 Karena itu hujanku... untukmu.

Cluster 7

Topik : ronaldo, dor, ballon, cristiano, congrats, fifa, ssi, neuer, congratulation

No Tweet Ranking

( 1 – 4 )

1 Congrats Cristiano Ronaldo FIFA Ballon D'or 2014 (Terbaik)

2 Congratulation (Cristiano Ronaldo) Fifa Ballon D'or 2014.

http://t.co/JvNeF1fvX2

3 Congrats do. "@my_supersoccer: Jumlah suara FIFA Ballon d'Or 2014.

Cristiano Ronaldo: 37,66%. Lionel Messi: 15,76%. Manuel Neuer: 15,72%.

4 FIFA Ballon D'Or 2014 = Cristiano Ronaldo!!! http://t.co/paVmIdnSrs

Cluster 8

Topik : kawan, gila, main, suka, moga, sukses, tarik, salah, sangka

No Tweet Ranking

( 1 – 4 )

1 Permainan semakin menarik kawan.. (Terbaik)

2 Semoga try out nya sukses @Dwiafisa @ishakjoguess @nitasaf1

@PetraKrister @DickyGuntara

3 Bisa, suka "@MentiionSimi: Bisa main catur ? Suka ?"

4 Kau main gila dengan aku hahaha *immortal

Cluster 9

Topik : sukses, moga, hbd, amin, gagal, theworldofaliando, doa, raih, usaha, keras,

No Tweet Ranking

( 1 – 4 )

1 Semoga sukses ya bang konser nya.. Amin. @alysyarief @yhiyie23

@aliando26 @BuDhila_ #TheWorldOfAliando #TheWorldOfAliando (Terbaik)

2 Amin :) "@nadyaaptri: Semoga sukses acara nanti @BluesTroopsPKU amin!"

3 "#TheWorldOfAliando @alysyarief @yhiyie23__ @BuDhila_ sukses yaaa

bwt mini concert nya hari ini smga brjln dgn lancaarrrr......

4 #TheWorldOfAliando \n#TheWorldOfAliando\n#TheWorldOfAliando.

Sukses Abang @alysyarief @ALIANDOO_FAN @AliandoFan @yhiyie23

86

Cluster 10

Topik : kerja, moga, gila, coba, dunia, menang, turun, pilih, rasa, serah

No Tweet Ranking

( 1 – 4 )

1 Dunia semakin gila (Terbaik)

2 Semua ini bukan pilihan tapi cobaan

3 Semoga hari ini tidak ada kerjaan

4 mencoba merasakan penderitaan mereka yg kerja di jakarta… (at Macet

Kampret Gila Di Km 13 Tol Jagorawi) [pic] — https://t.co/YZS4DLoYGx

Cluster 11

Topik : mkwikku, mobilenya, kwikku, jejaring, saran, sosial, kritik, mohon, indonesia

No Tweet Ranking

( 1 – 4 )

1 @waguwiwulado coba ya :) jejaring sosial indonesia kwikku .com, utk

mobilenya di m.kwikku .com :) mohon kritik dan sarannya :) (Terbaik)

2 jejaring sosial indonesia kwikku .com lumayan nih

3 @Tips_Gadget: Nenek Kesepian Ini Temukan Dunia Baru di Jejaring Sosial

http://t.co/Mo7csTYia9”amazing!

4 Indonesia punya kwikku .com

87

LAMPIRAN 7 – Groundtruth dan Hasil Peringkasan

Cluster 0

Opsi 1 Jumlah Opsi 2 Jumlah Opsi 3 Jumlah Opsi 4 Jumlah

1 25 2 20 3 18 4 18

4 7 3 8 2 8 3 6

3 1 1 4 4 7 2 5

4 1 1 4

Peringkasan oleh sistem : SMK Jakarta Pusat 1 http://t.co/Nnfmsd739a

Peringkasan manual : SMK Jakarta Pusat 1 http://t.co/Nnfmsd739a

Nilai Recall : 0.757576

Cluster 1


1 16 2 15 3 23 4 33

2 13 1 12 1 5

3 4 3 6 2 5

Peringkasan oleh sistem : Pak @ridwankamil setuju koruptor di hukum mati?\nSemoga

terlaksana hukuman mati untuk koruptor, Karena itu kebijakan yang saya impikan.

Peringkasan manual : Pak @ridwankamil setuju koruptor di hukum mati?\nSemoga

terlaksana hukuman mati untuk koruptor, Karena itu kebijakan yang saya impikan.


Cluster 2


3 13 4 17 2 14 1 14

4 10 3 12 1 11 2 13

1 6 2 2 3 7 4 5

2 4 1 2 4 1 3 1

Peringkasan oleh sistem : semoga berkah .amin

Peringkasan manual : Gws untuk saya dan mereka yg sedang sakit. Semoga cepat sembuh

amin


88

Cluster 3

Cluster 4


4 22 3 13 3 13 1 18

2 5 2 11 2 8 2 9

3 4 1 6 1 7 4 3

1 2 4 3 4 5 3 3

Peringkasan oleh sistem : Kesakitan menjadi sebuah kebahagiaan, saat kita sangat mencintai

seseorang

Peringkasan manual : "Bahagia itu sederhana. Apa yang membuatmu tersenyum, jangan

lepaskan! Apa yg membuatmu menangis tinggalkan!


Cluster 5


2 22 3 23 1 25 4 25

1 7 4 6 2 6 3 6

3 4 2 3 4 2 2 2

1 1

Peringkasan oleh sistem : Jika BBM februari turun jadi Rp 6000,- bagaimana dengan tarif

angkutan dan harga lain yg telah melambung, turunkan harga bareng agar adil.

Peringkasan manual : @Express_Group BBM turun, bakal turun juga gak tarifnya?


Cluster 3


4 13 1 21 3 13 3 9

2 12 3 5 4 9 4 9

3 6 2 5 2 7 2 9

1 2 4 2 1 4 1 6

Peringkasan oleh sistem : @GunRomli: Jokowi payah RT @kompascom KPK Tetapkan

Calon Kapolri Budi Gunawan sebagai Tersangka http://t.co/H0yCqMQCg2

Peringkasan manual : KPK mantap "@kompascom: KPK Tetapkan Calon Kapolri Budi

Gunawan sebagai Tersangka http://t.co/kPjyriIUek


89

Cluster 6


3 15 1 17 2 13 4 29

2 8 2 12 3 11 3 3

1 7 3 4 1 8 1 1

4 3 4 1

Peringkasan oleh sistem : Baru mau pulang... Make hujan lebat... (at @trans7) —

https://t.co/jIz40dzLVr

Peringkasan manual : Hujannya awet


Cluster 7


2 11 2 14 1 15 4 14

3 11 1 10 4 8 3 11

4 6 4 5 3 7 2 5

1 5 3 4 2 3 1 3

Peringkasan oleh sistem : Congrats Cristiano Ronaldo FIFA Ballon D'or 2014

Peringkasan manual : Congratulation (Cristiano Ronaldo) Fifa Ballon D'or 2014.

http://t.co/JvNeF1fvX2


Cluster 8


2 11 1 25 2 15 4 16

4 10 3 3 3 12 3 12

1 6 2 3 4 5 2 4

3 6 4 2 1 1 1 1

Peringkasan oleh sistem : Permainan semakin menarik kawan..

Peringkasan manual : Semoga try out nya sukses @Dwiafisa @ishakjoguess @nitasaf1

@PetraKrister @DickyGuntara


90

Cluster 9


1 17 4 16 3 11 3 11

2 7 2 9 2 10 4 10

3 5 3 6 1 9 2 7

4 4 1 2 4 3 1 5

Peringkasan oleh sistem : Semoga sukses ya bang konser nya.. Amin. @alysyarief @yhiyie23

@aliando26 @BuDhila_ #TheWorldOfAliando #TheWorldOfAliando

Peringkasan manual : Semoga sukses ya bang konser nya.. Amin. @alysyarief @yhiyie23

@aliando26 @BuDhila_ #TheWorldOfAliando #TheWorldOfAliando


Cluster 10


4 10 3 13 2 12 1 12

1 9 1 10 4 11 4 9

2 7 2 7 3 8 2 7

3 7 4 3 1 2 3 5

Peringkasan oleh sistem : Dunia semakin gila

Peringkasan manual : mencoba merasakan penderitaan mereka yg kerja di jakarta… (at

Macet Kampret Gila Di Km 13 Tol Jagorawi) [pic] — https://t.co/YZS4DLoYGx


Cluster 11


1 14 2 16 4 16 3 12

2 10 3 12 1 11 4 11

3 6 4 3 2 3 1 6

4 3 1 2 3 3 2 4

Peringkasan oleh sistem : @waguwiwulado coba ya :) jejaring sosial indonesia kwikku .com,

utk mobilenya di m.kwikku .com :) mohon kritik dan sarannya :)

Peringkasan manual : @waguwiwulado coba ya :) jejaring sosial indonesia kwikku .com,

utk mobilenya di m.kwikku .com :) mohon kritik dan sarannya :)


91

6 BIOGRAFI PENULIS

Rizal Setya Perdana adalah anak pertama dari tiga

bersaudara. Lahir di Malang, tanggal 18 Januari 1991.

Penulis besar di lingkungan keluarga sederhana yang penuh

kasih sayang dari pasangan Irfan dan Dwi Orbaningsih.

Mengenyam pendidikan Sekolah Dasar di SDN Dinoyo 3

Malang Jawa Timur pada tahun 1997, Sekolah Lanjutan

Tingkat Pertama di SMP Negeri 1 Malang pada tahun 2003

dan pendidikan Sekolah Menengah Atas di SMA Negeri 3 Malang pada tahun

2006. Pada tahun 2009 melanjutkan kuliah sarjana di Teknik Informatika,

Universitas Brawijaya dan kemudian pada tahun 2013 melanjutkan pendidikan

pascasarjana di Program Magister Teknik Informatika, ITS Surabaya. Sejak tahun

2013 sampai sekarang aktif sebagai tenaga pengajar di Teknik Informatika,

Fakultas Ilmu Komputer, Universitas Brawijaya Malang.

Email: [email protected]

mailto:[email protected]

TESIS KI142502 PEMILIHAN KATA KUNCI UNTUK DETEKSI...

Documents

Transcript of TESIS KI142502 PEMILIHAN KATA KUNCI UNTUK DETEKSI...