Download - ANALISIS SENTIMEN TERHADAP PEMINDAHAN IBU KOTA …repository.uinjkt.ac.id/dspace/bitstream/123456789...Dr. Imam Marzuki Shofi, M.T. NIP. 19720205 200801 1 010. ... Azhar, Amir, M.

ANALISIS SENTIMEN TERHADAP PEMINDAHAN

IBU KOTA INDONESIA PADA MEDIA SOSIAL

TWITTER MENGGUNAKAN METODE ALGORITMA

K-NEAREST NEIGHBOR (K-NN)

SKRIPSI

Oleh

Muhammad Ilham Ramadhon

11140910000103

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS ISLAM NEGERI SYARIF

HIDAYATULLAH JAKARTA

2020 M / 1441 H

ANALISIS SENTIMEN TERHADAP PEMINDAHAN

IBU KOTA INDONESIA PADA MEDIA SOSIAL

TWITTER MENGGUNAKAN METODE ALGORITMA

K-NEAREST NEIGHBOR (K-NN)

SKRIPSI

Untuk Memenuhi Persyaratan Memperoleh Gelar Sarjana Komputer

Fakultas Sains dan Teknologi

Disusun Oleh :


11140910000103

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS ISLAM NEGERI SYARIF

HIDAYATULLAH JAKARTA

2020 M/1441 H

i UIN SYARIF HIDAYATULLAH JAKARTA

PERNYATAAN ORISINALITAS

ii UIN SYARIF HIDAYATULLAH JAKARTA

LEMBAR PERSETUJUAN PEMBIMBING

“ANALISIS SENTIMEN TERHADAP PEMINDAHAN IBU

KOTA INDONESIA PADA MEDIA SOSIAL TWITTER

MENGGUNAKAN METODE ALGORITMA K-NEAREST

NEIGHBOR (K-NN)”

SKRIPSI

Sebagai Salah Satu Syarat Untuk

Memperoleh Gelar Sarjana Komputer (S.Kom)

Oleh :


11140910000103

Menyetujui,

Dosen Pembimbing I, Dosen Pembimbing II,

Arini, MT Fitri Mintarsih, M.Kom

NIP. 19760131 200901 2 001 NIP. 197212233 200710 2 004

Mengetahui,

Ketua Program Studi Teknik Informatika

Dr. Imam Marzuki Shofi, M.T.

NIP. 19720205 200801 1 010

iii UIN SYARIF HIDAYATULLAH JAKARTA

LEMBAR PENGESAHAN

Skripsi berjudul “Analisis Sentimen Terhadap Pemindahan Ibu Kota Indonesia

Pada Media Sosial Twitter Menggunakan Metode Algoritma K-Nearest

Neighbor (K-NN)” yang ditulis oleh Muhammad Ilham Ramadhon, NIM

11140910000103 telah diujikan dalam sidang munaqasyah Fakultas Sains dan

Teknologi UIN Syarif Hidayatullah Jakarta pada 10 Februari 2020. Skripsi ini telah

diterima sebagai salah satu syarat memperoleh gelar Sarjana Komputer (S.Kom)

pada Program Studi Teknik Informatika.

Jakarta, 10 Februari 2020

Tim Penguji,

Penguji I, Penguji II,

Dewi Khairani, M.Sc Fenty Eka Muzayyana A, M.Kom

NIP. 19820522 201101 2 009 NIP. 19760805 200912 2 003

Tim Pembimbing,

Dosen Pembimbing I, Dosen Pembimbing II,

Arini, MT Fitri Mintarsih, M.Kom

NIP. 19760131 200901 2 001 NIP. 19721223 200710 2 004

Mengetahui

Dekan Ketua Program

Fakultas Sains dan Teknologi Studi Teknik Informatika,

Prof. Dr. Lily Surraya Eka Putri, M.Env.Stud Dr. Imam Marzuki Shofi, M.T.

NIP. 19690404 200501 2 005 NIP. 19720205 200801 1 010

iv UIN SYARIF HIDAYATULLAH JAKARTA

PERNYATAAN PERSETUJUAN PUBLIKASI SKRIPSI

v UIN SYARIF HIDAYATULLAH JAKARTA

KATA PENGANTAR

Puji syukur penulis panjatkan kepada Allah SWT, karena atas nikmat dan

rahmat-Nya sehingga penulis dapat menyeselaikan skripsi ini. Penulisan skripsi ini

dilakukan dalam rangka memenuhi salah satu syarat untuk mencapai salah satu

syarat untuk mencapai gelar Sarjana Komputer Program Studi Teknik Informatika

Fakultas Sains dan Teknologi Universitas Islam Negeri Syarif Hidayatullah Jakarta.

Proses penyeselaian skripsi ini tidak lepas dari berbagai bantuan, dukungan, saran,

dan kritik yang telah penulis dapatkan, oleh karena itu dalam kesempatan ini

peneliti ingin mengucapkan terima kasih kepada:

1. Kedua orang tua penulis, yaitu Bapak Senen dan Ibu Siti Wachidah serta

keluarga besar yang telah mencurahkan kasih saying dan selalu memberikan

dukungan penuh serta iringan do’a kepada penulis dalam menyeselaikan

skripsi ini.

2. Ibu Prof. Dr. Lily Surraya Eka Putri. M.Env.Stud, selaku Dekan Fakultas

Sains dan Teknologi

3. Bapak Imam Marzuki Shofi, M.T., selaku ketua Program Studi Teknik

Informatika, serta Bapak Andrew Fiade M.Kom., selaku sekretaris Program

Studi Teknik Informatika

4. Ibu Arini, MT selaku dosen pembimbing satu.

5. Ibu Fitri Mintarsih, M.Kom selaku dosen pembimbing kedua.

6. Seluruh Dosen, Staff Karyawan Fakultas Sains dan Teknologi, khususnya

Program Studi Teknik Informatika yang telah memberikan bantuan dan

kerjasama dari awal perkuliahan.

7. Teman-teman seperjuangan Teknik Informatika CCIT angkatan 2014

khusunya TI-A, dan TI-B. Terima kasih buat semua kenangan dan

kebersamaan selama ini.

8. Sahabat baik, teman berbagi cerita, canda tawa bersama semasa kuliah, yaitu:

Azhar, Amir, M. Taufik, Desy, Adi, dan Mahdi.

9. Teman-teman yang memberikan support dan semangat selalu, yaitu warsep

family.

vi UIN SYARIF HIDAYATULLAH JAKARTA

10. Seluruh pihak yang secara langsung maupun tidak langsung membantu

penulis dalam menyelesaikan skripsi ini.

Akhir kata, penulis menyadari bahwa dalam penyajian skripsi ini masih jauh

dari sempurna. Apabila ada kebenaran dari makalah ini maka kebenaran tersebut

datangnya dari Allah SWT, tetapi apabila ada kesalahan dalam makalah ini maka

kesalahan ini berasal dari penulis. Semoga Allah SWT meridhoi segala usaha kita.

Wassalamualaikum Wr. Wb

Jakarta, 10 Februari 2020


11140910000103

vii UIN SYARIF HIDAYATULLAH JAKARTA

Nama : Muhammad Ilham Ramadhon

Program Studi : Teknik Informasi

Judul : Analisis Sentimen Komentar Terhadap Pmindahan

Ibu Kota Indonesia Pada Media Sosial Twitter

Menggunakan Metode Algoritma K-Nearest

Neighbor (K-NN)

ABSTRAK

Analisis sentimen merupakan jenis natural language yaitu pengolahan kata untuk

mengetahui opini, sikap atau mood masyarakat tentang suatu hal tertentu.

Pengolahan kata dalam penelitian ini berkaita dengan proses klasifikasi dokumen

tekstual ke dalam sentimen positif dan sentimen negatif. Data diperoleh dari media

sosial twitter berkaitan dengan komentar masyarakat terhadap pemindahan ibu kota

Indonesia dari Jakarta ke Kalimantar Timur dengan keyword ibu kota baru,

pemindahan ibu kota, dan ibu kota pindah sebanyak 1.000 komentar menggunakan

teknik crawling data. Pada penelitian ini penulis menggunakan algoritma K-Nearest

Neighbor (K-NN) dalam melakukan pengklasifikasian terhadap data uji dan data

latih menggunakan pendekatan lexicon dalam klasifikasi data uji. Penelitian ini

bertujuan untuk mengetahui tingkat akurasi, error rate, presisi, f-measure, dan

recall dengan menggunakan algoritma K-Nearest Neighbor (K-NN). Pengujian juga

dilakukan terhadap penentuan nilai k pada algoritma K-Nearest Neighbor (K-NN)

untuk mencari parameter terbaik. Kesimpulan dari pada pengambilan data pertama

pengujian algoritma K-Nearest Neighbor (K-NN) dengan tingkat akurasi terbaik

yaitu sebesar 62% dengan nilai k adalah k=9. Pada pengambilan data kedua

pengujian algoritma K-Nearest Neighbor (K-NN) dengan tingkat akurasi terbaik

yaitu sebesar 64% dengan nilai k adalah k=5. Saran untuk peneliti selanjutnya dapat

mengembangkan teks selain bahasa Indonesia dan dapat mengklasifikasi yang

mengandung gambar. Lalu peningkatan koleksi kamus, ekstraksi fitur bigram,

trigram, quadgram dan seterusnya. Kemudian dalam fitur hitung akurasi dapat

menggunakan metode algoritma lain.

Kata kunci : Analisis Sentimen, Perbandingan, Twitter, klasifikasi, K-

Nearest Neighbor (K-NN), Lexicon.

Daftar Pustaka : 24 (2003 - 2018)

Jumlah Halaman : VI BAB + xv Halaman + 106 Halaman + 19 Gambar + 45

Tabel

viii UIN SYARIF HIDAYATULLAH JAKARTA

Name : Muhammad Ilham Ramadhon

Study Program : Informatics Engineering

Title : Analysis Sentimen Comment of Indonesian Capital

Movements on Twitter Sosial Media Using the K-

Nearest Neighbor (K-NN)

ABSTRACT

Sentimen Analysis is a type of natural language that is word processing to find out

people's opinions, attitudes or moods about a particular thing. Word processing in

this study is related to the process of classifying textual documents into positive and

negatif sentimens. Data obtained from sosial media Twitter related to netizens'

comments on moving the Indonesian capital from Jakarta to East Kalimantan with

the keyword new capital, moving capital, and moving the capital of 1.000 comments

using data crawling techniques. In this study the authors to classification the

performance of the K-Nearest Neighbor (K-NN) and training data using the lexicon

approach in the classification of test data. This study aims to determine the level of

accuracy, precision, recall by using the K-Nearest Neighbor (K-NN). Testing is also

carried out on determining the value of k on the K-Nearest Neighbor (K-NN)

algorithm to find the best parameters. The conclusion of the first data collection

testing the K-Nearest Neighbor (K-NN) algorithm with the best level of accuracy

that is equal to 62% with the value of k is k = 9. In taking the second data testing

K-Nearest Neighbor (K-NN) algorithm with the best level of accuracy that is equal

to 64% with the value of k is k = 5. Suggestions for future researchers can develop

texts other than Indonesian and can classify those containing images. Then an

increase in dictionary collections, feature extraction of bigram, quadgram,

trigrams and so on. Then the accuracy calculation feature can use other algorithm

methods.

Keywords : Sentimen analysis, Comparison, Twitter, Classification, K-

Nearest Neighbor (K-NN), Lexicon.

Bibliography : 24 (2003-2018)

Page Number : VI Chapters + xv Pages + 106 Pages + 19 Pictures + 45

Tables

ix UIN SYARIF HIDAYATULLAH JAKARTA

DAFTAR ISI

LEMBAR PERSETUJUAN PEMBIMBING ...................................................... i

LEMBAR PENGESAHAN ................................................................................. iii

PERNYATAAN PERSETUJUAN PUBLIKASI SKRIPSI .............................. iv

KATA PENGANTAR ............................................................................................ v

ABSTRAK ........................................................................................................... vii

ABSTRACT ......................................................................................................... viii

DAFTAR ISI ......................................................................................................... ix

DAFTAR GAMBAR .......................................................................................... xiii

DAFTAR TABEL .............................................................................................. xiv

BAB I PENDAHULUAN ....................................................................................... 1

1.1 Latar Belakang ......................................................................................... 1

1.2 Rumusan Masalah .................................................................................... 6

1.3 Batasan Masalah ....................................................................................... 6

1.3.1 Proses ................................................................................................ 6

1.3.2 Metode............................................................................................... 7

1.3.3 Tools .................................................................................................. 7

1.4 Tujuan Penelitian ...................................................................................... 7

1.5 Manfaat Penelitian .................................................................................... 7

1.6 Metodologi Penelitian .............................................................................. 8

1.6.1 Pengumpulan Data ............................................................................ 8

1.6.2 Analisis Pengembangan Sistem ........................................................ 8

1.7 Sistematika Penulisan ............................................................................... 9

x UIN SYARIF HIDAYATULLAH JAKARTA

BAB II LANDASAN TEORI .............................................................................. 10

2.1 Analisis Sentimen ................................................................................... 10

2.1.1 Level Analisis Sentimen ................................................................. 10

2.2 Pemindahan Ibu Kota ............................................................................. 11

2.3 Twitter .................................................................................................... 12

2.3.1 Twitter API ..................................................................................... 14

2.3.2 Sentimen Analisis pada Twitter ...................................................... 15

2.3.3 Struktur Data Twitter ...................................................................... 15

2.4 Natural Language Proccessing (NLP) ................................................... 16

2.5 Emosi ...................................................................................................... 17

2.6 Text Mining ............................................................................................. 19

2.7 Pre-proccessing ...................................................................................... 21

2.8 Klasifikasi ............................................................................................... 22

2.9 Metode Lexicon ...................................................................................... 23

2.9.1 Kamus Lexicon ................................................................................ 24

2.10 Metode K-Nearest Neighbour (K-NN) ................................................... 26

2.11 Confussion Matrix .................................................................................. 28

2.12 Metode Simulasi ..................................................................................... 29

2.12.1 Problem Formulation ...................................................................... 30

2.12.2 Conceptual Model ........................................................................... 30

2.12.3 Collection of Input/Output Data ...................................................... 31

2.12.4 Modelling Phase.............................................................................. 31

2.12.5 Simulation Phase ............................................................................. 31

2.12.6 Verification, Validation and Experimentation ................................ 32

xi UIN SYARIF HIDAYATULLAH JAKARTA

2.12.7 Output Analysis Phase .................................................................... 32

2.13 Studi Literatur ......................................................................................... 32

2.14 Studi Pustaka .......................................................................................... 39

BAB III METODE PENELITIAN ..................................................................... 40

3.1 Metode Pengumpulan Data .................................................................... 40

3.1.1 Studi Pustaka ................................................................................... 40

3.1.2 Studi Literatur ................................................................................. 40

3.1.3 Observasi ......................................................................................... 40

3.2 Metode Simulasi ..................................................................................... 41

3.2.1 Problem Formulasi (Formulasi Masalah) ....................................... 41

3.2.2 Conceptual Model (Pemodelan Konsep) ........................................ 42

3.2.3 Collection of Input/Output Data (Pengumpulan Masukan atau

Keluaran Data) .............................................................................................. 42

3.2.4 Modelling Phase (Tahap Permodelan) ........................................... 43

3.2.5 Simulation Phase (Tahap Simulasi) ................................................ 43

3.2.6 Conclusion (Verification, Validation, and Experimentation) ......... 43

3.2.7 Output Analysis Phase (Fase Analisa Hasil) .................................. 43

3.3 Skenario Pengujian ................................................................................. 44

3.4 Alur Penelitian ........................................................................................ 44

BAB IV IMPLEMENTASI ................................................................................ 46

4.1 Problem Formulation ............................................................................. 46

4.2 Conceptual Model .................................................................................. 46

4.2.1 Conceptual Model Text Mining ....................................................... 46

xii UIN SYARIF HIDAYATULLAH JAKARTA

4.2.2 Conceptual Model Klasifikasi Sentimen dengan Pendekatan Lexicon

......................................................................................................... 48

4.2.3 Conceptual Model Klasifikasi Sentimen dengan Algoritma K-NN 49

4.3 Collection Input/Output Data ................................................................. 51

4.4 Modelling Phase ..................................................................................... 52

4.4.1 Konstruksi Pendekatan Lexicon ...................................................... 52

4.4.2 Konstruksi Algoritma K-Nearest Neighbor Manual ....................... 55

4.5 Simulation Phase .................................................................................... 81

4.5.1 Tahap Pengujian Data Uji ............................................................... 82

4.6 Verification, Validation and Experimentation ....................................... 83

4.7 Output Analysis Phase ............................................................................ 83

BAB V HASIL DAN PEMBAHASAN ............................................................... 84

5.1 Verification, Validation and Experimentation ....................................... 84

5.2 Output Analysis Phase ............................................................................ 85

5.2.1 Analisis Sentimen Komentar Mengenai Pemindahan Ibu Kota

Indonesia Menggunakan Metode Algoritma K-NN ....................................... 85

5.2.2 Analisis Implementasi Dan Kinerja Dari Metode Algoritma K-NN 85

BAB VI KESIMPULAN DAN SARAN.............................................................. 95

6.1 Kesimpulan ............................................................................................. 95

6.1 Saran ....................................................................................................... 95

DAFTAR PUSTAKA ........................................................................................... 96

LAMPIRAN .......................................................................................................... 98

xiii UIN SYARIF HIDAYATULLAH JAKARTA

DAFTAR GAMBAR

Gambar 2. 1 Rencana Pemindahan Ibu Kota Indonesia (Sumber : Wikipedia

Indonesia) .............................................................................................................. 12

Gambar 2. 2 Sistem Arsitektur Text Mining (Sumber :Feldman, R., & Sanger,

2007) ..................................................................................................................... 20

Gambar 3. 1 Tahapan Pengambilan Data Twitter ................................................. 41

Gambar 3. 2 Alur Penelitian.................................................................................. 45

Gambar 4. 1 Contoh Case Folding ....................................................................... 46

Gambar 4. 2 Contoh Filtering ............................................................................... 47

Gambar 4. 3 Contoh Tokenizing ........................................................................... 47

Gambar 4. 4 Contoh Normalisasi .......................................................................... 47

Gambar 4. 5 Contoh Stopword .............................................................................. 48

Gambar 4. 6 Contoh Stemming ............................................................................. 48

Gambar 4. 7 Proses Case Folding ......................................................................... 49

Gambar 4. 8 Proses Filtering ................................................................................ 50

Gambar 4. 9 Proses Tokenizing ............................................................................. 50

Gambar 4. 10 Proses Normalisasi ......................................................................... 50

Gambar 4. 11 Proses Stopwords ........................................................................... 50

Gambar 4. 12 Proses Stemming ............................................................................. 50

Gambar 4. 13 Hasil Crawling Data ....................................................................... 52

Gambar 5. 1 Grafik K-NN Data I .......................................................................... 91

Gambar 5. 2 Grafik K-NN Data II ........................................................................ 92

xiv UIN SYARIF HIDAYATULLAH JAKARTA

DAFTAR TABEL

Tabel 1. 1 Sejarah Lokasi Ibu Kota Indonesia (Sumber : Wikipedia Indonsia) ..... 2

Tabel 2. 1 Perbandingan Twitter Dengan Facebook (Kompasiana, 2015) ........... 12

Tabel 2. 2 Kosakata Emosi (Sumber : Shaver, Murdaya, dan Fraley, 2001) ........ 18

Tabel 2. 3 Klasifikasi (Sumber: Prasetyo, 2012) .................................................. 22

Tabel 2. 4 Perbandingan K-NN, Naive Bayes dan SVM ...................................... 27

Tabel 2. 5 Confussion Matrix (Sumber : Prasetyo, 2012) ..................................... 29

Tabel 2. 6 Studi Literatur Sejenis .......................................................................... 35

Tabel 2. 7 Keunikan Peneliti Dengan Peneliti Sebelumnya ................................. 37

Tabel 4. 1 Tokenizing ............................................................................................ 53

Tabel 4. 2 Normalisasi .......................................................................................... 54

Tabel 4. 3 Identifikasi Setiap Kata Pada Query .................................................... 54

Tabel 4. 4 Dokumen data latih .............................................................................. 55

Tabel 4. 5 Hasil case folding pada data latih ........................................................ 56

Tabel 4. 6 Filtering ............................................................................................... 57

Tabel 4. 7 Hasil Tokenizing pada data latih .......................................................... 57

Tabel 4. 8 Hasil normalisasi pada data latih ......................................................... 58

Tabel 4. 9 Hasil stopwords data latih .................................................................... 59

Tabel 4. 10 Hasil Stemming Pada Data Latih ....................................................... 60

Tabel 4. 11 Hasil proses indexing ......................................................................... 60

Tabel 4. 12 Hasil pembobotan kata tf.................................................................... 62

Tabel 4. 13 Perhitungan IDF(Inverse Dokumen Frekuensi) ................................. 64

Tabel 4. 14 Query Uji............................................................................................ 69

Tabel 4. 15 Tokenizing Data Uji ........................................................................... 69

Tabel 4. 16 Normalisasi Data Uji .......................................................................... 69

Tabel 4. 17 Stopwords Data Uji ............................................................................ 69

Tabel 4. 18 Stemming Data Uji ............................................................................. 69

Tabel 4. 19 Query Uji............................................................................................ 70

Tabel 4. 20 Hasil Pembobotan Query Uji dengan data latih ................................. 70

Tabel 4. 21 Hasil perkalian skalar antara query dan data latih ............................. 75

Tabel 4. 22 Hasil panjang setiap dokumen ........................................................... 78

xv UIN SYARIF HIDAYATULLAH JAKARTA

Tabel 4. 23 Cosine Similarity ................................................................................ 80

Tabel 4. 24 Hasil Perhitungan Tabel ..................................................................... 81

Tabel 4. 25 Faktor-faktor dalam proses simulasi .................................................. 81

Tabel 4. 26 Pengujian I ......................................................................................... 82

Tabel 4. 27 Pengujian II ........................................................................................ 83

Tabel 5. 1 Hasil akurasi K-NN dengan k = 1 ........................................................ 86



Tabel 5. 4 Hasil Akurasi K-NN dengan k = 9 ....................................................... 87

Tabel 5. 5 Hasil akurasi K-NN dengan k =10 ....................................................... 87





Tabel 5. 10 Hasil akurasi K-NN dengan k =10 ..................................................... 90

Tabel Lampiran 1 Hasil Data Pertama .................................................................. 98

Tabel Lampiran 2 Hasil Data Kedua .................................................................. 101

1 UIN SYARIF HIDAYATULLAH JAKARTA

BAB I

PENDAHULUAN

1.1 Latar Belakang

Ibu kota dalam Kamus Besar Bahasa Indonesia (KBBI) adalah kota tempat

kedudukan pusat pemerintahan suatu negara, tempat dihimpun unsur administratif,

yaitu eksekutif, legislatif dan yudikatif. Dalam praktik pemerintahan, hampir setiap

tingkatan administrasi pemerintahan memiliki ibu kota dan pada kenyataannya di

beberapa negara, pusat pemerintahan tidak berkedudukan di ibu kota. Sehingga, ibu

kota adalah kota atau munisipalitas penting atau utama di sebuah negara, negara

bagian, provinsi, atau wilayah administratif lainnya, yang menjadi pusat

administrasi pemerintahan.

Secara konstitusional, Jakarta ditetapkan sebagai ibu kota Indonesia melalui

undang-undang Nomor 10 Tahun 1964. Jakarta telah menjadi pusat pemerintahan

sejak masih benama Batavia pada masa Hindia Belanda Pada awal abad ke-20 ada

upaya lebih pemerintah Hindia Belanda untuk mengubah lokasi ibu kota Batavia ke

Bandung, walaupun gagal karena depresi besar dan perang dunia II. Kemudian

setelah menjadi wacana selama puluhan tahun, Presiden Joko Widodo

mengumumkan pemindahan ibu kota negara ke Kalimantan Timur pada tahun

2019.

Usulan pemindahan ibu kota Indonesia dari Jakarta ke lokasi lainnya telah

didiskusikan sejak kepresidenan Soekarno hingga Susilo Bambang Yudhoyono

untuk membuat ide pusat politik dan administrasi baru, karena masalah lingkungan

dan overpopulasi Jakarta. Ada tiga pedapat utama proposal ini :

Pindahkan ibu kota resmi, seperti Brasil memindahkan ibu kotanya dari Rio de

Janerio ke Brasilia.

Pisahkan pusat administratif dan Jakarta masih menjadi ibu kota resmi, seperti

Malaysia memindahkan pusat administrasinya ke Putrajaya.

Jakarta masih tetap sebagai ibu kota dan pusat administatif.

Akan tetapi lokasi ibu kota sudah beberapa kali berpindah tempat saat pada

zaman dahulu saat Belanda melakukan agresi militer sehingga ibu kota beberapa

2

UIN SYARIF HIDAYATULLAH JAKARTA

kali sempat dipindahkan ke kota yang lebih aman.Ini beberapa urutan tabel sejarah

ibu kota Indonesia, yaitu :

Tabel 1. 1 Sejarah Lokasi Ibu Kota Indonesia (Sumber : Wikipedia Indonsia)

Tanggal Ibu kota Catatan

17 Agustus 1945 Jakarta Proklamasi kemerdekaan Indonesia dilaksanakan

oleh Soekarno dan Mohammad Hatta di Jalan

Pengangsaan Timur No. 56, Jakarta. Sejak saat itu,

Jakarta menjadi ibu kota Republik Indonesia secara

de facto.

4 Januari 1946 Yogyakarta Jakarta diduduki oleh Netherlands Indies Civil

Administration (NICA) sehingga ibu kota negara

harus dipindahkan ke Yogyakarta. Pemerintah

Republik Indonesia melakukan pemindahan secara

diam-diam pada tengah malam dengan

menggunakan kereta api

19 Desember 1948 Bukit

Tinggi

Yogyakarta diserang oleh pasukan militer Belanda

dalam Agresi Militer Belanda II, sehingga Presiden

Soekarno dan Wakil Presiden Mohammad Hatta

ditangkap dan diasingkan di Pulau Bangka.

Sjafruddin Prawiranegara mendapat amanat untuk

membentuk pemerintahan darurat di Bukit Tinggi

yang dikenal dengan Pemerintahan Darurat Republik

Indonesia (PDRI).

6 Juli 1949 Yogyakarta Soekarno dan Hatta kembali dari pengasingan ke

Yogyakarta. Sjafruddin Prawiranegara

mengembalikan amanat pemerintahan negara dan

membubarkan PDRI secara resmi pada 13 Juli 1949.

Yogyakarta kemudian menjadi ibu kota Republik

Indonesia, yang merupakan negara bagian dari

https://id.wikipedia.org/wiki/Republik_Indonesia_(1949%E2%80%931950)

https://id.wikipedia.org/wiki/Republik_Indonesia_(1949%E2%80%931950)

3


Republik Indonesia Serikat (RIS) yang dibentuk

pada 27 Desember 1949.

17 Agustus 1949 Jakarta RIS dibubarkan dan Jakarta kembali menjadi ibu

kota Republik Indonesia secara de facto.

28 Agustus 1961 Jakarta Jakarta secara de jure menjadi ibu kota Indonesia

dengan keluarnya Peraturan Presiden Nomor 2

Tahun 1961. Status sebagai ibu kota negara tersebut

diperkuat melalui Undang-Undang Nomor 10 Tahun

1964.

26 Agustus 2019 Jakarta Presiden Joko Widodo mengumumkan pemindahan

ibu kota Indonesia ke Kalimantan Timur. Ibu kota

baru tersebut akan dibangun di antara Kabupaten

Kutai Kartanegara dan Kabupaten Penajam Paser

Utara, dan ditargetkan mulai dapat digunakan pada

tahun 2024.

Melalui rapat terbatas pemerintah pada tanggal 29 April 2019, Presiden Joko

Widodo memutuskan untuk memindahkan ibu kota negara ke pulau Kalimantan.

Pemindahan ibu kota ini tertuang dalam rencana pembangungan jangka menengah

nasional 2020-2024. Pada 26 Agustus 2019, Presiden Joko Widodo mengumumkan

ibu kota baru akan dibangun di wilayah administratif Kabupaten Penajam Paser

Utara dan Kabupaten Kutai Kartanegara, Kalimantan Timur.

Menurut Presiden Joko Widodo dipilihnnya Kabupaten Penajam Paser Utara

dan Kabupaten Kutai Kartanegara, Kalimantan Timur, yaitu:

Resiko bencana kecil terjadi, seperti : bencana banjir, gempa bumi, tsunami,

kebakaran hutan, dan gunung berapi.

Lokasi geografi berada di tengah kepulauan Indonesia,

Yang mana dekat dengan wilayah kota yang berkembang, yaitu Balikpapan dan

Samarinda.

Lahan sudah dikuasai pemerintah 180 ribu hektar.

https://id.wikipedia.org/wiki/Republik_Indonesia_Serikat

https://id.wikipedia.org/wiki/De_jure

https://id.wikipedia.org/wiki/Peraturan_Presiden

https://id.wikipedia.org/wiki/Undang-Undang_(Indonesia)

https://id.wikipedia.org/wiki/Joko_Widodo

https://id.wikipedia.org/wiki/Kalimantan_Timur

https://id.wikipedia.org/wiki/Kabupaten_Kutai_Kartanegara


https://id.wikipedia.org/wiki/Kabupaten_Penajam_Paser_Utara


4


Dengan fenomena pemindahan ibu kota Indonesia tersebut, para masyarakat

banyak yang memberi tanggapan setuju maupun tanggapan bersifat tidak setuju

yang dipublikasikan di berbagai media sosial, salah satunya adalah Twitter.

Twitter adalah tempat yang tepat berbagi ide, bank gagasan, tempat

mengumpulkan informasi, untuk microblogging mengalami banyak perkembangan,

terhitung pada 2018 Twitter menyebutkan ada 126 juta pengguna aktif setiap

harinya selama kuartal empat (Q4). Rata-rata jumlah pengguna harian di Q4 adalah

126 juta, naik sembilan persen dari tahun ke tahun. Banyak pengguna yang

melakukan posting ekspresi dan pendapat mereka terhadap sebuah produk layanan,

isu-isu politik atau hal-hal yang sedang viral.

Data yang dirilis oleh Asosiasi Penyelenggara Jasa Internet Indonesia (APJII)

menyatakan bahwa pengguna aktif Twitter di Indonesia di 2018 mencapai 1,7 %

(2.9 juta). Berdasarkan data tersebut Twitter berada pada posisi kelima. Terdapat

beberapa media sosial lainnya yang paling sering digunakan di Indonesia antara lain

Facebook sebanyak 50,7% (86,7 juta), Instagram sebanyak 17,8% (30,4 juta),

Youtube sebanyak 15,1% (25,5 juta), dan Linked sebanyak 0,4% (684 Ribu).

Twitter memungkinkan pengguna untuk berbagi pesan menggunkan teks pendek

yang disebut dengan tweet.

Twitter seringkali digunakan untuk mengungkapkan emosi mengenai sesuatu

hal, baik memuji ataupun mencela. Emosi dapat dikelompokkan menjadi emosi

positif dan emosi negatif. Emosi manusia dapat dikategorikan menjadi lima emosi

dasar yaitu cinta, senang, sedih, marah dan takut. Emosi cinta dan senang termasuk

kedalam emosi positif. Emosi sedih, marah, dan takut merupakan emosi negatif

(Shaver & Fraley, 2001).

Dengan Twitter salah satu media sosial yang sering kali digunakan banyak

orang dalam memberikan pendapatnya tentang berbagai hal tidak terkecuali

masyarakat yang memberikan pendapatnya akan fenomena pemindahan ibu kota

Indonesia. Masyarakat memberikan pendapat setuju maupun tidak setuju dengan

berbagai alasan yang diungkapkan melalui cuitan di dalam Twitter.

Twitter berfokus pada pengembangan pendekatan analisis sentimen yang

dirancang khusus untuk tweet. Analisis sentimen pada Twitter dilakukan untuk

5


melihat pendapat atau kecenderungan opini terhadap nilai akurasi. Akurasi dihitung

dengan menghitung persentasi jumlah data latih dan data uji.

Solusi algoritma klasifikasi yang peneliti gunakan adalah K-Nearest

Neighbor. Peneliti memilih K-Nearest Neighbor karena penelitian sudah

melakukan tinjauan pustaka dari beberapa metode sejenis sebelumnya, diantaranya

adalah sebagai berikut : Penelitian yang dilakukan oleh Azhar, 2018, analisis

kinerja algoritma Naïve Bayes dan K-Nearest Neighbor pada sentimen analisis

dengan pendekatan lexicon. Sosial media yang diambil sentimennya adalah Twitter

API. Proses NLP yang digunakan adalah case folding, filtering, tokenizing,

normalisasi, stopwords, dan stemming. Dengan mempunyai kelebihan yaitu nilai K-

NN pada tingkat akurasi k=5 dengan tingkat akurasi mencapai 77%

Penelitian yang dilakukan oleh Sucitra Sahara, 2016, dilakukan penelitian

analisis sentimen terhadap game android. Akurasi yang dihasilkan adalah sebesar

74,5%. Pengujian yang dilakukan memberikan kesimpulan bahwa algoritma K-NN

merupakan metode yang sesuai dengan klasifikasi text dan memiliki performa yang

tinggi.

Penelitian yang dilakukan oleh Nurjanah, Perdana &Fauzi, 2017, analisis

sentimen terhadap tayangan televisi berdasarkan opini masyarakat pada media

sosial twitter mengggunakan K-NN. Sosial media yang diambil sentimennya adalah

Twitter API. Proses NLP yang digunakan adalah tokenizing, case folding,

cleansing, filterisasi, dan stemming. Dengan mempunyai kelebihan yaitu Tingkat

akurasi pembobotan tekstual mencapai 82,50% dan non-tekstual 60% sedangkan

gabungan keduanya mencapai 83,33%. Nilai k yang digunakan yaitu k = 3 yang

merupakan k optimal, dan konstanta α=0,8 dan β=0,2 %..

Adapun beberapa hal yang menjadikan keunikan tersendiri dari penelitian

lainnya adalah

Pada penelitian ini akan dilakukan klasifikasi orientasi sentimen dengan

menggunakan algoritma K-Nearest Neighbor (K-NN), sehingga untuk

mengetahui seberapa besar peningkatan akurasi. Algoritma K-NN pada

penelitian ini akan bertindak sebagai algoritma yang akan melakukan klasifikasi

hasil orientasi sentimen.

6


Data latih pada penelitian penulis diklasifikasikan sentimennya menggunakan

metode lexicon based.

Proses pengklasifikasian teks menggunakan pemecahan satu kata (tokenisasi).

Pengambilan data tweet yaitu 1.000 tweet, dimana 900 tweet digunakan sebagai

data latih dan 100 tweet digunakan sebagai data uji.

Peneliti juga akan mengukur tingkat akurasi, error rate, f-measure, recall dan

presisi menggunakan algoritma K-Nearest Neighbor (K-NN).

Berdasarkan latar belakang permasalahan diatas, maka penulis bermaksud

untuk menyusun skripsi berjudul “Analisis Sentimen Komentar Terhadap

Pemindahan Ibu Kota Indonesia Pada Media Sosial Twitter Menggunakan

Metode Algoritma K-Nearest Neighbor (K-NN)” dari judul tersebut diharapkan

penulis akan mendapatkan tingkat akurasi dari algoritma tersebut dalam

menentukan orientasi sentimen.

1.2 Rumusan Masalah

Berdasarkan latar belakang, maka rumusan masalah adalah sebagai berikut :

1. Apa pendapat warganet terhadap pemindahan ibukota dari media sosial

Twitter?

2. Berapa tingkat akurasi metode K-Nearest Neighbor (K-NN) dalam

memprediksi pendapat warganet terhadap pemindahan ibu kota Indonesia

pada media sosial Twitter?

1.3 Batasan Masalah

Batasan-batasan masalah pada penelitian ini mencakup tiga aspek, yaitu

proses, metode, dan tools antara lain sebagai berikut:

1.3.1 Proses

Proses yang digunakan dalam penelitian ini yaitu:

1. Klasifikasi sentimen dibagi menjadi tiga, yaitu sentimen positif, negatif

dan netral.

2. Tweet yang dianalisis tidak mengandung gambar.

3. Menggunakan fitur pembobotan kata TF-IDF pada algoritma K-NN.

4. Nilai k yang digunakan pada algoritma K-NN adalah k=1, k=3, k=5,

k=9 dan k=10

7


5. Pengambilan data dilakukan pada periode 10 Oktober 2019 – 23

Oktober 2019 dan 23 Januari 2020 – 02 Februari 2020 dengan kata

kunci ibu kota pindah, ibu kota baru dan pemindahan ibu kota.

6. Proses pengklasifikasikan teks pada data latih yang digunakan

menggunakan proses pemecah satu kata (tokenisasi).

1.3.2 Metode

Adapun metode yang digunakan dalam penelitian ini yaitu:

1. Metode yang digunakan dalam klasifikasi sentimen terhadap data latih

adalah menggunakan pendekatan lexicon.

2. Metode pengembangan sistem yang digunakan adalah metode

prototyping.

1.3.3 Tools

Berikut ini merupakan tools yang digunakan untuk merancang dan

membangun aplikasi ini:

1. Menggunakan bahasa pemrograman PHP.

2. Menggunakan MySQL untuk menyimpan data.

1.4 Tujuan Penelitian

Adapun tujuan penelitian ini adalah sebagai berikut

1. Untuk mengetahui pendapat warganet mengenai pemindahan ibu kota

Indonesia dari media sosial Twitter.

2. Untuk mengetahui tingkat akurasi dari metode K-Nearest Neighbor (K-

NN) dalam memprediksi pendapat warganet terhadap pemindahan ibu kota

Indonesia pada media sosial Twitter

1.5 Manfaat Penelitian

Manfaat penulisan adalah sebagai berikut :

Bagi Penulis

1. Untuk memenuhi salah satu syarat kelulusan strata satu (S1) Program

Studi Teknik Informatika Fakultas Sains dan Teknologi

2. Menerapkan ilmu-ilmu yang diperoleh selama perkuliahan.

Bagi Universitas

8


1. Mengetahui kemampuan mahasiswa dalam menguasai materi yang

telah diperoleh selama masa kuliah.

2. Mengetahui kemampuan mahasiswa dalam menerapkan ilmunya dan

sebagai bahan evaluasi.

Bagi Pembaca

1. Menambah wawasan pembaca mengenai metode algoritma K-Nearest

Neighbor (K-NN) dalam melakukan analisis orientasi sentimen

terhadap data Twitter.

2. Membantu pembaca dalam menerapkan metode algoritma K-Nearest

Neighbor (K-NN) dalam aplikasi berbasis PHP.

1.6 Metodologi Penelitian

Metodologi penelitian adalah suatu cara atau teknik yang sistematis untuk

mengerjakan atau menyeselaikan suatu penelitian. Adapun metodologi yang

digunakan dalam penulisan untuk menyeselaikan berbagai permasalahan yang

ditemukan adalah sebagai berikut:

1.6.1 Pengumpulan Data

Penulis memperoleh data dilakukan dengan studi kepustakaan dan studi

literatur, yaitu dengan mencari buku-buku yang berkaitan serta jurnal-jurnal

sebagai referensi dan melakukan observasi dengan cara crawling data dari

Twitter.

1.6.2 Analisis Pengembangan Sistem

Pada penelitian ini penulis melakukan simulasi terhadap sistem yang

dibuat. Adapun langkah-langkah yang dilakukan yaitu (Madani, Kazmi, &

Mahlknecht, 2010):

1. Problem formulation

2. Conceptual model

3. Input output data

4. Modelling

5. Simulation

6. Verification, validation, experimentation and output analysis

9


1.7 Sistematika Penulisan

Penyusunan laporan terdiri dari lima bab sebagai berikut :

BAB I PENDAHULUAN

Bab ini membahas tentang gambaran umum isi tugas akhir yang meliputi latar

belakang masalah, rumusan masalah, batasan masalah, tujuan, manfaat

penelitian, metodologi penelitian dan sistematika penulisan.

BAB II TINJAUAN PUSTAKA

Bab ini menyajikan tentang teori-teori yang bersumber dari buku, jurnal dan

e-book berhubungan dengan fakta atau kasus yang sedang dibahas.

BAB III METODOLOGI PENELITIAN

Bab ini membahas langkah-langkah yang dilaksanakan dalam proses

penelitian berkaitan dengan pengumpulan data dan metode yang digunakan

dalam melakukan simulasi.

BAB IV PERANCANGAN DAN PENGUJIAN SISTEM

Bab ini berisi tentang simulasi sistem dari perancangan sampai pengujian

sistem sesuai dengan metode yang digunakan pada sistem.

BAB V HASIL DAN PEMBAHASAN

Bab ini membahas tentang output yang dihasilkan berdasarkan analisis

perancangan dan implementasi yang dilakukan pada sistem.

BAB VI PENUTUP

Bab ini berisi mengenai beberapa kesimpulan dan saran berdasarkan

pembahasan pada bab-bab sebelumnya.


BAB II

LANDASAN TEORI

2.1 Analisis Sentimen

Analisis sentimen adalah bidang studi yang menganalisis pendapat, sentimen,

evaluasi, penilaian, sikap dan emosi seseorang terhadap sebuah produk, organisasi,

individu, masalah, peristiwa atau topik (Liu, 2012). Analisis sentimen dilakukan

untuk melihat pendapat terhadap sebuah masalah, atau dapat juga digunakan untuk

melihat pendapat terhadap sebuah masalah, atau dapat juga untuk identifikasi

kecendurungan hal yang menjadi topik pembicaraan. Analisis sentimen dalam

penelitian ini adalah proses pengelompokkan tweet ke dalam lima emosi yaitu

emosi senang, emosi cinta, emosi sedih, emosi marah dan emosi takut.

Pengaruh dan manfaat dari analisis sentimen menyebabkan penelitian

mengenai analisis sentimen berkembang pesat. Di Amerika kurang lebih 20-30

perusahaan yang memfokuskan pada layanan analisis sentimen (Liu, 2012).

Manfaat sentimen analisis dalam dunia usaha antara lain untuk melakukan

pemantauan terhadap suatu produk. Secara cepat dapat digunakan sebagai alat

bantu untuk melihat respon masyarakat terhadap suatu produk, sehingga dapat

diambil langkah strategis berikutnya.

Pada umumnya sentimen analisis merupakan klasifikasi tetapi kenyataannya

tidak semudah proses kualifikasi biasa karena terkait penggunaan bahasa, dimana

terdapat ambigu dalam penggunaan kata serta perkembangan bahasa itu sendiri.

2.1.1 Level Analisis Sentimen

Analisis sentimen terdiri dari tiga level analisis yaitu :

1. Level dokumen

Level dokumen menganalisis satu dokumen penuh dan mengklasifikasikan

dokumen tersebut memiliki sentimen positif atau negatif. Level analisis ini

berasumsi bahwa keseluruhan dokumen hanya berisi opini tentang satu

entitas saja. Level analisis ini tidak cocok diterapkan pada dokumen yang

membandingkan lebih dari satu entitas (Liu, 2012).

2. Level kalimat

11


Level kalimat menganalisis satu kalimat dan menentukan tiap kalimat

sentimen bernilai positif, netral, atau negatif. Sentimen netral berarti

kalimat tersebut bukan opini (Liu, 2012).

3. Level Entitas dan Aspek

Level aspek tidak melakukan analisis pada konstruksi bahasa (dokumen,

paragraf, kalimat, klausa, atau frase) melakukan langsung pada opini itu

sendiri. Hal ini didasari bahwa opini terdiri dari sentimen (positif dan

negatif) dan target dari opini tersebut. Tujuan level analisis ini adalah

untuk menemukan sentimen entitas pada tiap aspek yang dibahas (Liu,

2012).

2.2 Pemindahan Ibu Kota

Menurut Kepala Bapennas upaya pemindahan ibu kota Indonesia dimulai

pada tahun 2019 pada masa kepresidenan Joko Widodo. Melalui rapat terbatas

pemerintah pada tanggal 29 April 2019, Joko Widodo memutuskan untuk

memindahkan ibu kota negara ke luar pulau Jawa. Pemindahan ibu kota ini tertuang

dalam rencana pembangunan jangka menengah nasional 2020-2024. Pada 26

Agustus 2019, Presiden Joko Widodo mengumumkan bahwa ibu kota baru akan

dibangun di wilayah administratif Kabupaten Penajam Paser Utara dan Kabupaten

Kutai Kartanegara, Kalimantan Timur.

Latar belakang pemindahan ibu kota Indonesia sebenarnya sudah

didiskusikan pada era kepresidenan Soekarno hingga era Susilo Bambang

Yudhoyono. Dimana membuat pusat politik dan administrasi yang baru, karena

masalah lingkungan dan overpopulasi Jakarta. Menurut Presiden Jokowi, alasan

memilihh di Penajam Pasir Utara dan Kutai Kertanegara dijadikan lokasi ibu kota

baru adalah kecilnya resiko bencana alam di wilayah itu, lokasi yang ada di tengah-

tengah Indonesia, lokasi di dekat kota Balikpapan dan Samarinda yang sudah

berkembang, infrastruktur yang relatif lengkap, dan adanya 180 hektar tanah yang

telah dikuasai pemerintah. Rencana pemerintah dalam pengumuman 26 Agustus

2019, Joko Widodo menyebutkan pemerintah akan segera merancang undang-

undang untuk pemindahan ibu kota untuk disetujui Dewan Perwakilan Rakyat

(DPR). Pembangunan akan dimulai pada 2020, dan pemindahan akan dilakukan

https://id.wikipedia.org/wiki/Ibu_kota_Indonesia

https://id.wikipedia.org/wiki/Joko_Widodo




https://id.wikipedia.org/wiki/Kalimantan_Timur

https://id.wikipedia.org/wiki/Balikpapan

https://id.wikipedia.org/wiki/Samarinda

https://id.wikipedia.org/wiki/Hektare

https://id.wikipedia.org/wiki/Dewan_Perwakilan_Rakyat_Republik_Indonesia

12


bertahap dimulai dari 2024. Dan terdapat polemik masyarakat akan pro dan kontra

pemindahan ibu kota Indonesia ini.

Gambar 2. 1 Rencana Pemindahan Ibu Kota Indonesia (Sumber : Wikipedia Indonesia)

2.3 Twitter

Twitter adalah sebuah situs web yang dimiliki dan dioperasikan oleh Twitter

Inc., yang menawarkan jaringan sosial berupa microblog sehingga memungkinkan

penggunanya untuk mengirim dan membaca pesan tweet (Twitter, 2013).

Microblog adalah adalah satu jenis alat komunikasi online berupa pengguna dapat

memperbarui status tentang mereka yang sedang memikirkan dan melakukan

sesuatu, apa pendapat mereka tentang suatu objek atau fenomena tertentu. Tweet

adalah teks tulisan hingga 140 karakter yang ditampilkan pada halaman profil

pengguna. Tweet bisa dilihat secara publik, namun pengirim dapat membatasi

pengiriman pesan ke daftar teman-teman mereka saja. Pengguna dapat melihat

tweet pengguna lain yang dikenal dengan sebutan pengikut (follower).

Tabel 2. 1 Perbandingan Twitter Dengan Facebook (Kompasiana, 2015)

No Sosial Media Kelebihan Kekurangan

1. Twitter 1. Mudah dalam

menemukan akun

figure.

2. Interkasi yang

dihasilkan cepat dan

deras karena

1. Penulisan teks

terbatas, maksimal 4

foto dalam satu tweet,

video dan audio di

tempat lain

2. Umur keterbacaan

konten lebih sedikit

13


maksimal waktu

respon balik 30 menit

3. Mesin pencari

terbanyak kedua

setelah Google

4. Performa aplikasi

Twitter lebih cepat

dibuka karena hanya

sinkronisasi teks

dalam ukuran kecil

dan foto dalam jumlah

terbatas.

5. Konektivitas internet

lebih cepat

6. Tracking dan

monitoring secara

real time

7. Media sosial pertama

yang mempopulerkan

hastag dan sampai

sekarang adalah satu-

satunya yang

memiliki fitur

trending yang paling

akurat berdasarkan

hastag dan keyword.

daripada Facebook

yaitu hanya 3 jam

sedangkan Facebook

5 jam.

2. Facebook 1. Mempunyai banyak

fitur seperti chat,

inbox, game.

2. Jumlah teks tidak

terbatas, upload foto

1. Dari kecepatan

interaksi Facebook

lebih lambat dari

Twitter

14


tidak terbatas dan

dapat melakukan

tagging video dan

foto.

3. Umur konten lebih

lama dari Twitter

2. Tidak mudah dalam

menemukan akun

figur

3. Aplikasi yang

membutuhkan

memory yang besar.

4. Segi kecepatan

konektivitas lambat

karena banyaknya

sinkronisasi konten.

2.3.1 Twitter API

Application Programming Interface (API) merupakan fungsi-fungsi /

perintah-perintah untuk menggantikan bahasa yang digunakan dalam system

calls dengan bahasa yang lebih terstruktur dan mudah dimengerti oleh

programmer. Fungsi yang dibuat dengan menggunakan API tersebut kemudian

akan memanggil system calls sesuai dengan sistem operasinya. Tidak tertutup

kemungkinan nama dari system calls sama dengan nama di API. Twitter

menyediakan API yang diperuntukkan untuk developer yang ada pada website

https://developer.Twitter.com. Twitter API terdiri dari 3 bagian yaitu :

a. Search API

Search API dirancang untuk memudahkan user dalam mengelola query

Search di konten Twitter. User dapat menggunakannya untuk mencari tweet

berdasarkan keywords khusus atau mencari tweet lebih spesifik berdasarkan

username Twitter. Search API juga menyediakan akses pada data trending

topic.

b. REST API

REST API memperbolehkan developer untuk mengakses inti dari Twitter

seperti timeline, status update dan informasi user. REST API digunakan

dalam membangun sebuah aplikasi Twitter yang kompleks yang memerlukan

inti dari Twitter

c. Streaming API

https://developer.twitter.com/

15


Streaming API digunakan developer untuk kebutuhan yang lebih intensif

seperti melakukan penelitian dan analisis data. Streaming API dapat

menghasilkan aplikasi yang dapat mengetahui statistik status update, follower

dan lain sebagainya.

2.3.2 Sentimen Analisis pada Twitter

Definisi analisis sentimen Twitter pada dasarnya merujuk pada pendapat

komentar yang ada pada media Twitter. Pesan Twitter lebih mudah untuk

dilakukan analisis karena penulisan yang dibatasi. Kalimat seringkali memuat

pendapat tunggal, meskipun tidak bersifat mutlak bahwa setiap kalimat berisi

pendapat tunggal. Dalam kasus lain terdapat kalimat dengan pendapat lebih dari

satu pada suatu kalimat namun ini hanya sebagian kecil (Liu, 2016).

Pada dasarnya sentimen analisis merupakan tahapan klasifikasi. Namun

tahapan klasifikasi sentimen pada Twitter yang tidak terstruktur menyebabkan

sedikit lebih sulit dibanding dengan klasifikasi dokumen terstruktur. Langkah

pertama adalah untuk mengklasifikasikan apakah kalimat mengungkapkan

pendapat atau tidak. Langkah kedua adalah mengklasifikasikan kalimat-kalimat

pendapat menjadi positif dan kelas negatif.

2.3.3 Struktur Data Twitter

Untuk mendalami permasalahan analisis sentimen Twitter diperlukan

pemahaman terhadap struktur data Twitter itu sendiri. Twitter menjadi sumber

yang hampir tak terbatas yang digunakan pada text classification. Menurut Go

(2009), terdapat banyak karakteristik pada tweet Twitter. Pesan pada Twitter

memiliki banyak attribute yang unik, yang membedakan dari media sosial

lainnya:

1. Twitter memiliki maksimal panjang karakter yaitu 140 karakter.

2. Twitter menyediakan data yang bisa diakses secara bebas dengan

menggunakan Twitter API, mempermudah saat proses pengumpulan tweet

dalam jumlah yang sangat banyak.

3. Pengguna Twitter mem-posting pesan melalui banyak media berbeda untuk

mengungkapkan pendapat tentang suatu topik atau kejadian tertentu,

16


sehingga merupakan sumber yang bagus dalam menemukan pendapat orang

lain.

4. Terdapat ragam topik didalamnya. Setiap pengguna dapat menuliskan topik

apapun pada pesan Twitter.

2.4 Natural Language Proccessing (NLP)

Natural Language Processing (NLP) adalah salah satu bidang ilmu komputer

yang merupakan cabang dari kecerdasan buatan, dan bahasa (linguistik) yang

berkaitan dengan interaksi antara komputer dan bahasa alami manusia, seperti

bahasa Indonesia atau bahasa Inggris. Tujuan utama dari studi NLP adalah

membuat mesin yang mampu mengerti dan memahami makna bahasa manusia lalu

memberikan respon yang sesuai (Rio, 2016).

Natural Language Processing (NLP) merupakan salah satu cabang ilmu AI

yang berfokus pada pengolahan bahasa natural. Bahasa natural adalah bahasa yang

secara umum digunakan oleh manusia dalam berkomunikasi satu sama lain. Bahasa

yang diterima oleh komputer butuh untuk diproses dan dipahami terlebih dahulu

supaya maksud dari user bisa dipahami dengan baik oleh komputer. Ada berbagai

terapan aplikasi dari NLP. Diantaranya adalah chatbot (aplikasi yang membuat user

bisa seolah-olah melakukan komunikasi dengan komputer), stemming atau

lemmatization (pemotongan kata dalam bahasa tertentu menjadi bentuk dasar

pengenalan fungsi setiap kata dalam kalimat), summarization (ringkasan dari

bacaan), translation tools (menterjemahkan bahasa) dan aplikasi-aplikasi lain yang

memungkinkan komputer mampu memahami instruksi bahasa yang diinputkan

oleh user (www.socs.binus.ac.id, 2013).

Berdasarkan (Putstejovsky & Stubbs, 2012) dalam penerapannya, tujuan NLP

untuk memahami bahasa manusia ini memiliki bahasa tantangan, yang antara lain

adalah sebagai berikut:

1. Penandaan kelas kata (part of speech tagging). Sulit untuk menandai kelas kata

(kata benda, kata kerja, kata sifat) suatu kata dalam teks karena pengelasan kata

sangat bergantung kepada konteks penggunaanya.

17


2. Segmentasi teks. Penentuan segmentasi sulit dilakukan pada bahasa tulis yang

tidak memiliki pembatas kata spesifik seperti (Mandarin, Thailand dan Jepang)

serta bahasa lisan yang terkadang membaurkan bunyi antar kata.

3. Disambiguasi makna kata. Banyak kata yang memiliki lebih dari satu makna

baik dalam bentuk homonim maupun polisemi. Pembedaan makna hanya dapat

dilakukan dengan melihat konteks penggunaan.

4. Ambiguitas sintak. Suatu bahasa memiliki berbagai kemungkinan struktur

kalimat. Pemilihan struktur yang paling tepat biasanya membutuhkan gabungan

informasi semantik dan kontekstual.

Diluar dari kesulitan-kesulitan tersebut, NLP telah berhasil diterapkan untuk

berbagai tugas yang semula hanya dapat dilakukan oleh manusia. Beberapa bidang

populer dalam penerapan NLP adalah sebagai berikut:

1. Pemerolehan Informasi. Pencarian dokumen yang relevan, pencarian informasi

yang spesifik di dalam dokumen, serta pembuatan metadata.

2. Penjawaban pertanyaan. Secara otomatis menjawab pertanyaan yang diajukan

dengan bahasa alami dengan jawaban bahasa alami pula.

3. Perangkuman otomatis. Pembuatan versi singkat berisi butir-butir penting dari

suatu dokumen dengan menggunakan program komputer.

4. Penerjemahan mesin. Penerjemahan otomatis dari suatu bahasa alami ke bahasa

lain.

5. Pengenalan wicara. Pengubahan bahasa lisan menjadi masukan yang dikenali

oleh mesin, misalnya pada pendiktean bahasa lisan kepada komputer untuk

menghasilkan bahasa tulis atau pelaksanaan suatu perintah oleh komputer

berdasarkan bahasa lisan dari manusia.

6. Pengenalan karakter optis. Pengubahan penulisan tangan atau teks tercetak

menjadi dokumen yang dapat dikenali oleh mesin.

2.5 Emosi

Emosi adalah suatu pikiran dan perasaan khas yang disertai perubahan

fisiologis dan biologis serta menimbulkan kecenderungan untuk melakukan

tindakan. Twitter seringkali digunakan dalam mengungkapkan emosi mengenai

sesuatu hal, baik memuji ataupun mencela. Pengenalan emosi pada tweet dapat

18


dilakukan menggunakan analisis sentimen. Analisis sentimen dapat juga

dimanfaatkan untuk menggali opini public tentang suatu topik

1. Emosi Dasar

Emosi yang dimiliki manusia dikategorikan menjadi lima emosi dasar yaitu

cinta, senang, marah, takut, dan sedih. Emosi cinta dan senang merupakan emosi

positif. Emosi marah, takut, dan sedih merupakan emosi negatif (Shaver,

Murdaya, dan Fraley, 2001).

2. Kosakata Emosi

Peneliitian terhadap 124 kosa kata emosi di Indonesia menghasilkan dua

kelompok besar yaitu kosa kata emosi positif dan negatif. Pengelompokkan kosa

kata emosi positif terdiri dari dua emosi dasar yaitu cinta dan senang.

Kelompokkan kosa kata emosi negatif terdiri dari tiga emosi dasar, yaitu marah,

takut dan sedih (Shaver, Murdaya, dan Fraley, 2001).

Tabel 2. 2 Kosakata Emosi (Sumber : Shaver, Murdaya, dan Fraley, 2001)

Superordinat Emosi Dasar Subordinat

Positif Cinta Ingin, kepingin, hasrat,

birahi, terangsang, gairah,

demen, suka, terpesona,

setia, kangen, rindum,

kasih, sayang, hati, mesra,

kemesraan, asmara,

mesra, cinta

Positif Senang Kepuasan, puas, berani,

yakin, ikhlas, tulus, besar

hati, sabar, tabah, rendah

hati, bangga, kagum, asik,

suka cita, bahagia,

senang, gembira, ceria,

riang, damai, aman,

tentram, lega

19


Negatif Marah Bosan, jenuh, cemberut,

curiga, kesel, sebel,

emosi, benci, dengki,

gemas, gregetan,

ngambek, tersinggungm

naik pitam, marah,

berang, geram

Negatif Takut Gentar, takut, berdebar,

kalut, gusar, cemas,

gundahh, khawatir,

waswas, galau, gelisah,

risau

Negatif Sedih Patah hati, kecil hati,

simpati, malu, iba,

kasihan, sendu, sedih,

duka, sakit hati, sesal,

menyesal, frustasi,

penyesalan, remuk hati,

patah hati, haru, prihatin

2.6 Text Mining

Menurut (Mooney, 2006), Text Mining memiliki definisi menambang data

yang berupa teks sumber data biasanya didapatkan dari dokumen, dan tujuannya

adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat

dilakukan analisa keterhubungan antar dokumen. Berikut ini merupakan tahapan

dari text mining :

1. Tahap tokenizing

Tahap tokenizing adalah tahap pemotongan string input berdasarkan tiap kata

yang menyusunnya. Contoh dari tahap ini adalah sebagai berikut:

a. Manajemen pengetahuan (teks input)

b. Manajemen pengetahuan (hasil tokenizing)

2. Tahap filtering

20


Tahap filtering adalah tahap mengambil kata-kata penting dari hasil tokenizing.

Bisa menggunakan stoplist (membuang kata yang kurang penting) dan wordslist

(menyimpan kata yang penting). Contoh dari tahap ini adalah sebagai berikut:

a. Manajemen pengetahuan adalah sebuah konsep baru (hasil token).

b. Manajemen pengetahuan konsep baru (hasil filtering)

3. Tahap stemming

Tahap stemming adalah adalah tahap mencari root kata dari teks yang

dimasukan. Contoh dari tahap ini adalah sebagai berikut:

a. Memasukan (teks input)

b. Masuk (hasil stemming)

4. Tahap analisis

Tahap analisis adalah tahap penentuan seberapa jauh keterhubungan antara kata-

kata dengan dokumen yang ada.

Berikut gambaran sistem arsitektur text mining yang dicantumkan pada buku

(Feldman, R., & Sanger, 2007)

Gambar 2. 2 Sistem Arsitektur Text Mining (Sumber :Feldman, R., & Sanger, 2007)

Penelitian di bidang text mining menangani masalah yang berkaitan dengan

representasi teks, klasifikasi, clustering, ekstraksi informasi atau pencarian dan

pemodelan pola. Dalam hal ini pemilihan karakteristik, juga domain penelitan dan

prosedur penelitian menjadi peran penting. Oleh karena itu, adaptasi dari algoritma

data mining dari teks yang diketahui sangat diperlukan. Maka dari itu untuk

mencapai hal ini seringkali berdasarkan penelitian sebelumnya text mining

bergantung pada information retrieval, natural language processing dan

information extraction. Selain itu juga penerapan metode data mining dan statistik

juga diterapkan untuk menangani masalah ini (Hotho, Nurnberger, & Paaß, 2005).

21


Information Retrieval (IR) adalah menemukan bahan (biasanya dokumen)

dari suatu keadaan yang tidak terstruktur (biasanya teks) yang memenuhi kebutuhan

informasi dari dalam kumpulan data yang besar (biasanya disimpan di dalam

komputer) (Manning, dkk. 2009). Natural Language Processing (NLP) bertujuan

untuk mencapai hasil yang lebih baik dalam pemahaman bahasa alami dengan

menggunakan komputer. Sedangkan Ekstraksi Informasi (IE) bertujuan untuk

menemukan informasi tertentu dari dokumen teks yang kemudian Ini disimpan

dalam basis data seperti pola sehingga dapat digunakan dan dimanfaatkan (Hotho

et al., 2005).

(Hotho et al., 2005) juga mengatakan bahwa pada penelitian text mining

diperlukan tahapan text preprocessing pada koleksi dokumen dan menyimpan

informasi tersebut dalam struktur data. Pendekatan text mining didasarkan pada

pemikiran bahwa dokumen teks dapat diwakili oleh satu set kata-kata, yaitu

dokumen teks digambarkan berdasarkan pada set kata-kata yang terkandung di

dalamnya.

2.7 Pre-proccessing

Pre-processing dalam proses klasifikasi dokumen digunakan untuk

membangun sebuah indeks dari koleksi dokumen. Indeks adalah himpunan term

yang menunjukkan isi atau topik yang dikandung oleh dokumen (Indriani, 2014)

Pembuatan inverted index harus melibatkan konsep linguistic processing

yang bertujuan meng-ekstra term-term penting dari dokumen yang dipresentasikan

sebagai bag-of-words. Ekstraksi term biasanya melibatkan tiga operasi utama,

antara lain:

a. Pemisahan rangkaian term (tokenization). Tokenization adalah tugas

memisahkan deretan kata di dalam kalimat, paragraf atau halaman menjadi token

atau potongan kata tunggal atau termed words. Tahapan ini juga menghilangkan

karakter-karakter tertentu seperti tanda baca dan mengubah semua token ke

bentuk huruf kecil (lower case).

b. Penghapusan stop-words. Stopwords didefinisikan sebagai term yang tidak

berhubungan (irrelevant) dengan subyek utama dari database meskipun kata

22


tersebut sering kali hadir di dalam dokumen. Contoh stopwords adalah adanya,

adapun, agak, dll.

c. Stemming. Kata-kata yang muncul di dalam dokumen sering mempunyai banyak

varian morfologik. Karena itu, setiap kata yang bukan stop-words direduksi ke

stemmed words (term) yang cocok yaitu kata tersebut distem untuk mendapatkan

bentuk akarnya dengan menghilangkan awalan atau akhiran. Dengan cara ini,

diperoleh kelompok kata yang cocok dimana kata-kata di dalam kelompok

tersebut merupakan varian sintaktis dari satu sama lain dan dapat menghimpun

hanya satu kata per kelompok. Sebagai contoh kata terdaftar, pendaftaran

berbagi-pakai term, stem, umum, daftar, dan dapat diperlakukan sebagai bentuk

lain dari kata ini (Indriani, 2014).

2.8 Klasifikasi

Klasifikasi merupakan suatu metode untuk mengelompokkan sebuah objek

ke dalam kelompok atau kelas tertentu (Syafitri, 2010). Algoritma klasifikasi yang

banyak digunakan secara luas, yaitu Decision atau Classification Trees, Bayesian

Classifiers atau Naïve Bayes Classifiers, Neural Networks, Analisa Statistik,

Algoritma Genetika, Rough Sets, K-Nearest Neighbor , Metode Rule Based,

Memory Based Reasoning, dan Support Vector Machines (SVM) (Leidiyana,

2013). Proses ini dilakukan agar data atau citra dapat dikategorikan dalam suatu

kelas tertentu yang telah ditentukan.

Sebuah sistem klasifikasi juga harus diukur kinerjanya guna melihat tingkat

akurasi dan kesalahan dari sistem tersebut. Umumnya, pengukuran kinerja

klasifikasi dilakukan dengan matriks konfusi (confussion matrix). Matriks konfusi

merupakan tabel pencatat hasil kerja klasifikasi. Tabel 2.2 merupakan contoh

matriks konfusi yang melakukan klasifikasi masalah biner pada dua kelas yaitu

kelas 0 dan 1. Setiap set dalam matriks menyatakan jumlah record / data dari

kelas i yang hasil prediksinya masuk ke kelas j. Misalnya, set adalah jumlah

data dalam kelas 1 yang secara benar dipetakan ke kelas 1, dan adalah data

dalam kelas 1 yang dipetakan secara salah kelas 0 (Prasetyo, 2012).

Tabel 2. 3 Klasifikasi (Sumber: Prasetyo, 2012)

23


Kelas hasil prediksi (j)

Kelas = 1 Kelas = 0

Kelas Asli (i) Kelas = 1 (True Positive) (False Negatif)

Kelas = 0 (False Positive) (True Negatif)

Berdasarkan isi matriks konfusi, dapat diketahui jumlah data dari masing-

masing kelas yang diklasifikasikan secara benar, yaitu (𝑓10+ 𝑓01) kuantitas matriks

konfusi dapat diringkas menjadi dua nilai, yaitu akurasi dan laju error.

Beradasarkan jumlah data yang diklasifikasi secara benar, maka dapat diketahui

akurasi hasil prediksi, dan dengan mengetahui jumlah data yang diklasifikasikan

secara salah, dapat diketahui laju error dari prediksi yang dilakukan. Dua kuantitas

ini digunakan sebagai matrik kinerja klasifikasi (Prasetyo, 2012).

Untuk menghitung akurasi digunakan formula sebagai berikut:

Untuk menghitung laju error (kesalahan prediksi) digunakan formula

2.9 Metode Lexicon

Lexicon based merupakan metode yang sederhana, layak dan praktis untuk

analisis sentimen dari data media sosial. Data yang cocok dengan metode Lexicon

Based yaitu data kuesioner, data Twitter, data facebook, atau media sosial lainnya

yang berupa opini pelanggan tentang suatu produk atau pelayanan jasa (Matulatuwa

et al., 2017).

Lexicon based didasarkan pada asumsi bahwa orientasi sentimen kontekstual

adalah jumlah dari orientasi sentimen setiap kata atau frase. Metode lexicon dapat

digunakan untuk mengekstrak sentimen dari blog dengan mengkombinasi lexical

knowledge dan klasifikasi teks. Metode lexicon dapat dibuat secara manual atau

diperluas secara otomatis dari seed of words (Matulatuwa et al., 2017).

Kamus adalah komponen penting dalam sistem yang menggunakan lexicon

based. Kamus digunakan dalam proses normalisasi kalimat dan ekstraksi kata

kunci. Berikut adalah contoh kamus dan isinya (Matulatuwa et al., 2017).

24


1. Positive keywords: baik, bagus, bisa, ok, cepat, akurat, aman, senang.

2. Negative keywords: acuh, ambigu, bodoh, gagal, abnormal, susah, lambat.

3. Negation keywords: seharusnya, bukan, tidak

Hu, dkk. 2004 dikutip Liu, 2012 mengusulkan algoritma berbasis lexicon

untuk aspek menentukan orientasi sentimen. Orientasi sentimen kalimat itu

ditentukan dengan menjumlahkan nilai orientasi semua kata sentimen di kalimat.

Sebuah kata positif diberi nilai sentimen dari +1 dan kata negatif diberi nilai

sentimen dari -1. Kata negasi dan kata-kata yang bertentangan (misalnya, tetapi dan

namun) juga dipertimbangkan. Ada empat langkah dalam menentukan orientasi

sentimen berdasarkan pendekatan lexicon yaitu :

1. Tandai kata yang mengandung sentimen : untuk setiap kalimat yang berisi satu

atau lebih kata sentimen, langkah ini menandai semua kata dan frasa dalam

sentimen kalimat. Setiap kata positif diberikan skor sentimen +1 dan setiap kata

negatif diberikan skor sentimen -1. Contoh “Kualitas lampu penerangan ini tidak

baik [ +1 ], tapi daya nya tahan lama [ +1 ]". Dari contoh tersebut kata baik

bernilai +1 dan tahan lama bernilai +1 karna termasuk kata positif.

2. Terapkan sentimen shifter adalah kata-kata dan frase yang dapat mengubah

orientasi sentimen. Ada beberapa jenis shifter kata negasi seperti tidak, tidak

pernah, dan tidak ada adalah jenis yang paling umum. Berdasarkan hal tersebut

kalimat menjadi “Kualitas lampu penerangan ini tidak baik [ -1 ], tapi daya nya

tahan lama [ +1 ]" karena kata negasi "tidak".

3. Agregat : Pada langkah ini berlaku fungsi agregasi pendapat dengan skor

sentimen yang dihasilkan untuk menentukan orientasi akhir dari sentimen.

𝑠𝑐𝑜𝑟𝑒(𝑓) = ∑𝑤𝑖𝑆𝑂

𝑑𝑖𝑠(𝑤𝑖, 𝑓) (𝑃𝑒𝑟𝑠𝑎𝑚𝑎𝑎𝑛 2.3)

Keterangan :

w i SO = Jumlah (score) fitur ke i setiap sentimen (Positif dan Negatif)

dis (wi,f) = Jumlah fitur yang berhasil ditemukan.

2.9.1 Kamus Lexicon

Dalam pendekatan analisis sentimen dengan menggunakan lexicon, kamus

merupakan komponen penting dalam ekstraksi kata sentimen. Menggunakan

25


pendekatan kamus untuk mengumpulkan kata-kata sentimen adalah pendekatan

yang jelas karena sebagian besar kamus misalnya, WordsNet mengandung sinonim

dan antonim untuk setiap kata. Jadi secara sederhana, teknik atau pendekatan ini

adalah dengan menggunakan beberapa kata sentimen benih untuk dijadikan acuan

dan kemudian dicocokan berdasarkan sinonimnya dan struktur antonim dari kamus.

Secara khusus, metode ini berfungsi sebagai berikut: satu set kecil kata

sentimen dengan orientasi positif atau negatif yang diketahui kemudian

dikumpulkan secara manual. Algoritma ini kemudian menghitung banyaknya kata

dengan mencari di WordsNet atau kamus lain sesuai dengan sinonim dan

antonimnya. Kata-kata yang ditemukan akan dimasukkan ke dalam daftar positif

atau negatif. Proses berakhir ketika tidak ada kata-kata baru yang dapat ditemukan.

Setelah proses selesai, langkah pemeriksaan digunakan untuk menghitung agregat

positif atau negatif. (Bhonde, 2015)

Kamus yang digunakan dalam pendekatan lexicon diantaranya kamus

lexicon positif, kamus lexicon negatif, kamus lexicon negasi, KBBI, kamus kata

dasar, dan kamus stopwords.

a. Kamus positif

Kamus positif digunakan untuk meyeleksi kata-kata yang termasuk kedalam

sentimen positif dari suatu kalimat atau query yang akan ditentukan

sentimennya. Kamus positif pada penelitian ini sebanyak 1.185 kata. Sumber

data didapatkan dari GITHUB, https://github.com/masdevid/ID-OpinionWords.

b. Kamus negatif

Kamus negatif digunakan untuk meyeleksi kata-kata yang termasuk kedalam

sentimen negatif dari suatu kalimat atau query yang akan ditentukan

sentimennya. Kamus negatif pada penelitian ini sebanyak 2.403 kata. Sumber

data didapatkan dari GITHUB, https://github.com/masdevid/ID-OpinionWords.

c. Kamus negasi

Kamus negasi digunakan untuk mendeteksi suatu kalimat atau query yang telah

ditentukan sentimennya baik positif maupun negatif, apakah sentimen tersebut

diikuti kata negasi. Sentimen yang diikuti kata negasi akan memiliki perubahan

nilai sentimen dari yang sebelumnya. Kamus negasi yang digunakan pada

https://github.com/masdevid/ID-OpinionWords

https://github.com/masdevid/ID-OpinionWords

26


penelitian ini sebanyak 10 kata. Sumber data didapatkan dari GITHUB,

https://github.com/jakaprata/Analisis-Sentimen-Twitter-Dengan-Klasifikasi-

Naive-Bayes-menggunakan-PHP/blob/master/negation.txt

d. Kamus kata dasar dan KBBI

Kamus kata dasar dan KBBI digunakan untuk melakukan proses stemming

dalam tahapan natural language processing. Stemming merupakan pengubahan

kata berimbuhan menjadi kata dasar. Dalam proses ini dibutuhkan kamus kata

dasar dan KBBI sebagai penyeleksian kata yang sesuai. Kamus kata dasar dan

KBBI yang digunakan dalam penelitian ini sebanyak 29.932 kata dan 61.640

kata. Sumber data didapatkan dari GITHUB :

https://github.com/nolimitid/nolimit-kamus/blob/master/kata-dasar/kata-dasar-

all.txt

https://github.com/geovedi/indonesian-wordslist/blob/master/00-indonesian-

wordslist.lst

e. Kamus stopwords

Kamus stopwords digunakan untuk penyeleksian kata-kata yang dianggap tidak

penting. Proses ini dilakukan untuk mempercepat proses klasifikasi data. Kamus

stopwords yang digunakan dalam penelitian ini sebanyak 1.023 kata. Sumber

data didapatkan dari GITHUB,

https://github.com/masdevid/IDStopwords/blob/master/id.Stopwords.02.01.201

6.txt

2.10 Metode K-Nearest Neighbour (K-NN)

K-NN adalah algoritma untuk mengklasifikasi objek baru berdasarkan atribut

dan training samples (data latih). Dimana hasil dari sampel uji yang baru

diklasifikasikan berdasarkan mayoritas dari kategori pada K-NN. Algoritma K-NN

menggunakan klasifikasi ketetanggaan sebagai nilai prediksi dari sampel uji yang

baru (Krisandi, Prihandono, & Bayes, 2013). Data latih akan dibangun dengan

memperhatikan keseimbangan dokumen satu sama lain. Adapun algortima K-NN

dapat dijelaskan (Kurniawan, 2012) dengan keterangan berikut:

https://github.com/jakaprata/Analisis-Sentimen-Twitter-Dengan-Klasifikasi-Naive-Bayes-menggunakan-PHP/blob/master/negation.txt

https://github.com/jakaprata/Analisis-Sentimen-Twitter-Dengan-Klasifikasi-Naive-Bayes-menggunakan-PHP/blob/master/negation.txt

https://github.com/nolimitid/nolimit-kamus/blob/master/kata-dasar/kata-dasar-all.txt

https://github.com/nolimitid/nolimit-kamus/blob/master/kata-dasar/kata-dasar-all.txt

https://github.com/geovedi/indonesian-wordlist/blob/master/00-indonesian-wordlist.lst

https://github.com/geovedi/indonesian-wordlist/blob/master/00-indonesian-wordlist.lst

https://github.com/masdevid/IDStopwords/blob/master/id.stopwords.02.01.2016.txt

https://github.com/masdevid/IDStopwords/blob/master/id.stopwords.02.01.2016.txt

27


a. Hitung jarak antara data sampel (data uji) dengan data latih yang telah dibangun.

Salah satu persamaan dalam menghitung jarak kedekatan dapat menggunakan

persamaan cosine similirity.

b. Menentukan parameter nilai k = jumlah tetanggaan terdekat.

c. Mengurutkan jarak terkecil dari data sample

d. Pasangkan kategori sesuai dengan kesesuaian

e. Cari jumlah terbanyak dari tetanggaan terdekat. Kemudian tetapkan kategori.

Jarak yang digunakan dalam penelitian ini adalah cosine similarity.

𝐶𝑜𝑠(𝑖, 𝑘) =∑ 𝑘 (𝑑1 𝑑𝑘)

√∑ 𝑘 𝑑𝑖𝑘2 √∑ 𝑘 𝑑𝑗𝑘

2

Keterangan :

∑ 𝑘 (𝑑1 𝑑𝑘) = vektor dot produk dari i dan k

√∑ 𝑘 𝑑𝑖𝑘2 = panjang vektor i

√∑ 𝑘 𝑑𝑗𝑘2 = panjang vektor k

Algoritma K-NN (Krisandi et al., 2013) adalah algoritma yang menentukan

nilai jarak pada pengujian data testing dengan data training berdasarkan nilai

terkecil dari nilai ketetanggaan terdekat didefinisikan sebagai berikut:

𝐷𝑛𝑛(𝑐1 𝑐2) = 𝑚𝑖𝑛1≤𝑖≤𝑟,1≤𝑗≤𝑠𝑑(𝑦𝑖, 𝑧𝑖)

Perbandingan algoritma K-NN, Naïve Bayes dan SVM:

Tabel 2. 4 Perbandingan K-NN, Naive Bayes dan SVM

K-Nearest Neighbor Naïve Bayes Support Vector Machine

Tangguh terhadap data

noise, apabila

menggunakan data latih

yang cukup banyak.

Menghasilkan akurasi

yang lebih maksimal

kalau digunakan

menggunakan data latih

yang secara real time.

Tingkat akurasi yang

baik tapi memiliki waktu

proses yang cukup lama

dibandingkan dengan K-

NN menggunakan data

latih yang cukup banyak.

28


Mampu memberikan

performa yang baik

untuk data yang bersifat

independent (tidak

memiliki ketergantungan

kata)

Menghasilkan akurasi

yang lebih baik jika

menggunakan data uji

yang sedikit.

Tingkat akurasi baik dan

tidak dipengaruhi besar

kecilnya data uji.

Mencari jarak terdekat

yang akan dievaluasi

dengan k tetangga

Dalam perhitungan hanya

membutuhkan parameter

mean dan varians dari

variabel yang dibutuhkan

untuk klasifikasi.

Merupakan linear

classifier dan

dikembangkan juga non-

linear dengan

memasukkan konsep

kernel pada ruang kerja

dimensi tinggi

Melakukan pembobotan

kata untuk setiap kata

pada dokumen latih,

kemudian menghitung

kemiripan vektor

dokumen uji dengan

dokumen latih

menggunakan cosine

similarity dan urutkan

jarak lalu tentukan nilai k

dan tentukan kategori

dokumen berdasarkan

nilai ecludian terdekat.

Hanya mencari

probabilitas pada setiap

kata pada data latih,

kemudian mencari kata

pada data uji yang sesuai

dengan data latih,

kemudian hitung nilai

probailitas dokumen lalu

mengkalikannya dan

membandingkan

kemudian mencari nilai

probabilitas terbesar.

Membuat sequential

training, dengan

menginialisasi kemudian

menghitung matrix

hessian dan mulai dari

data pertama sampai

terakhir dihitung secara

terus menerus sampai

menemukan iterasi

maksimum tercapai.

2.11 Confussion Matrix

Dalam mengukur tingkat akurasi sistem orientasi sentimen, maka digunakan

tabel confussion matrix. Confussion matrix adalah sebuah tabel yang menyatakan

jumlah data uji yang benar diklasifikasikan dan jumlah data uji yang salah

29


diklasifikasikan (Prasetyo, 2012). Contoh confussion matrix untuk klasifikasi biner

ditunjukkan pada tabel berikut:

Tabel 2. 5 Confussion Matrix (Sumber : Prasetyo, 2012)

Kelas Sebenarya Kelas hasil prediksi

Positif = 1 Negatif = 0

Positif = 1 TP FN

Negatif = 0 FP TN

Keterangan untuk tabel diatas dinyatakan sebagai berikut :

1. True Positif (TP), yaitu jumlah dokumen dari kelas 1 yang benar dan

diklasifikan sebagai kelas 1.

2. True Negatif (TN), yaitu jumlah dokumen dari kelas 0 yang benar

diklasifikasikan sebagai kelas 0.

3. False Positif (FP), yaitu jumlah dokumen dari kelas 0 yang salah


4. False Negatif (FN) yaitu jumlah dokumen dari kelas 1 yang salah


akurasi = TP + TN

TP + FN + FP + TN

2.12 Metode Simulasi

Simulasi adalah suatu metodologi untuk melaksanakan percobaan dengan

menggunakan model dari suatu sistem nyata (Siagian, 1987). Menurut Hasan

(2002), simulasi merupakan suatu metode pengambilan keputusan dengan

mencontoh atau mempergunakan gambaran sebenarnya dari suatu sistem

kehidupan dunia nyata tanpa harus mengalaminya pada keadaaan yang

sesungguhnya.

Simulasi adalah suatu teknik yang dapat digunakan untuk memecahkan

model-model dari golongan yang luas. Golongan atau kelas ini sangat luasnya

sehingga dapat dikatakan “Jika semua cara yang lain gagal, cobalah simulasi”

(Schroeder, 1997).

Ada berbagai jenis lifecycle menurut (Madani et al., 2014) yang dapat

digunakan untuk studi pada pemodelan dan simulasi. Terdapat langkah-langkah

30


dasar yang harus dipertimbangkan dalam melakukan studi simulasi. Lifecycle tidak

harus diartikan sebagai sebuah sekuensial yang strict, bersifat iteratif, dan kadang

juga bertransisi dalam arah yang berlawanan. Demikian juga, beberapa langkah

terkadang dapat dilewati atau di-skip sesuai dengan kompleksitas aplikasi. Hal ini

sangat dianjurkan untuk menggunakan siklus spiral dengan pengembangan

incremental yaitu pada langkah 2-8, yang dapat menyebabkan revisi untuk fase

sebelumnya. Setiap fase dalam siklus spiral harus berakhir sebuah prototype yang

sudah dapat bekerja yang sudah lebih fungsionalitas dari siklus sebelumnya.

(Madani et al., 2014) memberikan suatu tahapan dalam melakukan studi

simulasi. Adapun tahapan-tahapan tersebut adalah sebagai berikut.

2.12.1 Problem Formulation

Setiap studi seharusnya dimulai dengan statemen terhadap masalah.

Proses simulasi dimulai dengan masalah yang memerlukan pemecahan atau

pemahaman. Sebagai contoh seperti kasus sebuah perusahaan kargo mencoba

untuk mengembangkan strategi baru untuk truk pengiriman atau astronom

mencoba untuk memahami bagaimana nebula terbentuk. Pada tahap ini, harus

dipahami perilaku dari sebuah sistem, organize operasi sistem sebagai obyek

dalam rangka percobaan. Kemudian perlu dianalisis berbagai alternatif solusi

dengan menyelidiki hasil sebelumnya untuk masalah yang sama. Solusi yang

paling diterima harus dipilih (menghilangkan tahap ini dapat menyebabkan

pemilihan solusi yang salah). Jika masalah melibatkan analisis kinerja, ini adalah

titik di mana bisa didefinisikan matrik kinerja (berdasarkan variabel output) dan

fungsi tujuan (yaitu, kombinasi dari beberapa matrik) (Madani et al., 2014).

2.12.2 Conceptual Model

Langkah ini terdiri dari pengembangan deskripsi tingkat tinggi dari

struktur dan perilaku atau behavior sebuah sistem dan mengidentifikasi semua

benda dengan atribut dan interface mereka. Pada tahap ini harus ditentukan apa

saja variabel statenya, bagaimana mereka berhubungan, dan mana yang penting

untuk penelitian. Pada langkah ini, aspek-aspek kunci dari requierements

dinyatakan. Selama definisi model konseptual, perlu diungkapkan fitur yang

penting. Kemudian mendokumentasikan informasi-untuk non-fungsional

31


misalnya, perubahan masa depan, perilaku unintuitive, dan hubungan sistem

dengan lingkungan (Madani et al., 2014).

2.12.3 Collection of Input/Output Data

Pada tahap ini, kita harus mempelajari sistem untuk memperoleh data

input / output. Untuk melakukannya, harus diamati dan mengumpulkan atribut

yang dipilih pada tahap sebelumnya. Isu penting lainnya selama fase ini adalah

pemilihan ukuran sampel yang valid secara statistik dan format data yang dapat

diproses dengan komputer. Akhirnya, kita harus memutuskan mana attribut yang

stokastik dan yang deterministik. Dalam beberapa kasus, tidak ada sumber data

yang bisa dikumpulkan (misalnya, untuk sistem yang belum ada). Dalam kasus

tersebut, kita perlu mencoba untuk mendapatkan set data dari sistem yang sama

(jika tersedia). Pilihan lain adalah dengan menggunakan pendekatan stokastik

untuk menyediakan data yang diperlukan melalui generasi nomor acak (Madani

et al., 2014).

2.12.4 Modelling Phase

Pada tahap pemodelan, kita harus membangun representasi rinci dari

sistem berdasarkan model konseptual dan koleksi data yang dikumpulkan.

Model ini dibangun dengan mendefinisikan objek, atribut, dan metode

menggunakan paradigma yang dipilih. Pada titik ini, spesifikasi model dibuat,

termasuk set persamaan yang mendefinisikan perilaku dan struktur. Setelah

menyelesaikan definisi ini, kita harus berusaha untuk membangun struktur awal

model (mungkin berkaitan variabel sistem dan matrik kinerja). Harus berhati-

hati dalam menjelaskan setiap asumsi dan penyederhanaan dan juga dalam

mengumpulkan atribut ke EF (Entity Framework) model (Madani et al., 2014).

2.12.5 Simulation Phase

Selama tahap simulasi, kita harus memilih mekanisme untuk

menerapkan model (dalam banyak kasus menggunakan komputer dan bahasa

pemrograman yang memadai serta tools yang tepat), dan model simulasi yang

dibangun. Selama langkah ini, mungkin diperlukan untuk menentukan algoritma

dan menerjemahkannya ke dalam program komputer. Pada tahap ini, kita juga

harus membangun model EF untuk proses simulasi (Madani et al., 2014).

32


2.12.6 Verification, Validation and Experimentation

Pada tahap-tahap sebelumnya, tiga model yang berbeda dibangun:

model konseptual (spesifikasi), model sistem (desain), dan model simulasi

(executable program). Kita perlu untuk memverifikasi dan memvalidasi model

ini. Verifikasi terkait dengan konsistensi internal antara tiga model. Validasi

difokuskan pada korespondensi antara model dan realitas: adalah hasil simulasi

yang konsisten dengan sistem yang dianalisis. Sementara itu pada fase

experimentation, kita harus mengevaluasi hasil dari simulator, menggunakan

korelasi statistik untuk menentukan tingkat presisi untuk matrik kinerja. Fase ini

dimulai dengan desain eksperimen, dengan menggunakan teknik yang berbeda.

Beberapa teknik ini meliputi analisis sensitivitas, optimasi,dan seleksi

(dibandingkan dengan sistem alternatif) (Madani et al., 2014).

2.12.7 Output Analysis Phase

Pada tahap analisis output, output simulasi dianalisis untuk memahami

perilaku sistem. Output ini digunakan untuk memperoleh tanggapan tentang

perilaku sistem yang asli. Pada tahap ini, alat visualisasi dapat digunakan untuk

membantu proses tersebut. Tujuan dari visualisasi adalah untuk memberikan

pemahaman yang lebih dalam tentang sistem yang sedang diselidiki dan

membantu dalam mengeksplorasi set besar data numerik yang dihasilkan oleh

simulasi (Madani et al., 2014).

2.13 Studi Literatur

Pada penelitian ini studi literatur sejenis digunakan oleh penulis sebagai

bahan untuk mengevaluasi dan sekaligus referensi penelitian yang akan dilakukan.

Hal ini dimaksudkan agar ada perbedaan pada penelitian ini dibandingkan dengan

penelitian-penelitian sebelumnya dan menjadi penelitian yang bermanfaat. Berikut

adalah literatur sejenis yang digunakan dan perbedaannya dengan penelitian ini :

1. Analisis Kinerja Algoritma Naïve Bayes dan K-Nearest Neighbor Pada Sentimen

Analisis Dengan Pendekatan Lexicon (Azhar, 2018).

Topik yang diambil adalah analisis kinerja algoritma Naïve Bayes dan K-

Nearest Neighbor pada sentimen analisis dengan pendekatan lexicon. Sosial

media yang diambil sentimennya adalah Twitter API. Proses NLP yang

33


digunakan adalah case folding, filtering, tokenizing, normalisasi, stopwords, dan

stemming. Dengan mempunyai kelebihan yaitu nilai K-NN pada tingkat akurasi

k=5 dengan tingkat akurasi mencapai 77% menggunakan dataset hasil crawling

data dengan kata kunci pilpres 2019 dan Jokowi. Lalu perbandingan antara

algoritma Naïve Bayes dengan K-NN selisih tingkat akurasi mencapai 4%.

Terdapat kekurangan sistem hanya bisa mengunakan data teks dan berbahasa

Indonesia, tidak tedapat metode orientasi teknis bigram, dan kurangnya koleksi

kamus sentimen.

2. Penerapan Metode K-Nearest Neighbor untuk analisis sentimen review game

pada Android oleh Sucitra Sahara, 2016

Topik yang diambil adalah penerapan metode K-Nearest Neighbor untuk

analisis review game pada android dengan menggunakan media sosial yang

diambil sentimennya adalah Twitter API. Lalu mengunakan algoritma K-NN

dengan proses metode Natural Languange Processing, yaitu; tokenizing,

stopwards dan stemming. Dengan mempunyai kelebihan K-NN berhasil

mendapatkan tingkat akurasi sebesar 74,50% menggunakan feature weighting

(pembobotan kata). Dan terdapat kekurangan yaitu pelabelan data latih

dilakukan secara manual.

3. Analisis sentimen terhadap tayangan televisi berdasarkan opini masyarakat pada

media sosial Twitter mengggunakan K-NN (Nurjanah, Perdana &Fauzi, 2017).

Topik yang diambil adalah analisis sentimen terhadap tayangan televisi

berdasarkan opini masyarakat pada media sosial twitter mengggunakan K-NN.

Sosial media yang diambil sentimennya adalah Twitter API. Proses NLP yang

digunakan adalah tokenizing, case folding, cleansing, filterisasi, dan stemming.

Dengan mempunyai kelebihan yaitu Tingkat akurasi pembobotan tekstual

mencapai 82,50% dan non-tekstual 60% sedangkan gabungan keduanya

mencapai 83,33%. Nilai k yang digunakan yaitu k = 3 yang merupakan k

optimal, dan konstanta α=0,8 dan β=0,2 %. Terdapat kekurangan Jika nilai

konstanta α =0, maka proses klasifikasi hanya menggunakan pembobotan

jumlah retweet saja. Sedangkan jika nilai β = 0, maka klasififkasi hanya

menggunakan pembobotan teks saja.

34


4. Analisis Sentimen pada Acara Televisi Mengunnakan Improved K-Nearest

Neighbor oleh Willa Oktinas, 2017.

Topik yang diambil adalah analisis sentimen pada acara televisi

menggunakan Improved K-Nearest Neighbor dengan menggunakan sosial

media yang diambil sentimen analisis adalah Twitter. Lalu tahapan yang

digunakan adalah Pre-Processing, yaitu cleansing, filtering, tokenizing,

stopward removal, dan stemming. Kemudian Fitur seleksi TF-IDF dengan

klasifikasi K-NN. Dengan kelebihan adalah hasil akurasi terbesar yang didapat

pada saat k=`10 sebesar 90% menggunakan cosine similarity. Dan terdapat

kekurangan, yaitu membutuhkan waktu yang lama pada saat pengujian.

5. Komparasi metode K-Nearest Neighbor dan Support Vector Machine pada

sentimen review kamera oleh Rustiana & Rahayu, 2017

Topik yang diambil adalah Komparasi metode K-Nearest Neighbor dan

Support Vector Machine pada sentimen review kamera dengan media sosial

yang diambil sentimen analisisnya adalah Twitter. Dengan Natural Languange

Processing menggunakan tokenizing, stopwords, stemming. Dengan kelebihan

yaitu Akurasi pada K-NN sebesar 79% dan Akurasi pada SVM sebesar 72%.

Akan tetapi memiliki kekurangan Pelabelan data latih dilakukan secara manual,

kurangnya tahapan proses NLP menyebabkan seleksi fitur ada yang tidak sesuai

dengan klasifikainya

35


Tabel 2. 6 Studi Literatur Sejenis

Nama

Penulis

Azhar, 2018 Sucitra Sahara,

2016

Nurjanah, Perdana,

& Fauzi, 2017

Willa Oktinas, 2017 Rustiana &

Rahayu, 2017

Peneliti

Sekarang

Topik Analisis Kinerja

Algoritma Naïve

Bayes dan K-

Nearest Neighbor

Pada Sentimen

Analisis Dengan

Pendekatan

Lexicon

Penerapan

Metode K-Nearest

Neighbor untuk

analisis sentimen

review game pada

android

Analisis Sentimen

Terhadap Tayangan

Televisi Berdasarkan

Opini Masyarakat

pada Media Sosial

Twitter

menggunakan

Metode k-NN

Analisis Sentimen

pada Acara Televisi

Mengunnakan

Improved K-Nearest

Neighbor.

Komparasi

metode K-Nearest

Neighbor dan

Support Vector

Machine pada

sentimen review

kamera

Analisis

Sentimen

Pemindahan Ibu

Kota Indonesia

Pada Media

Sosial Twitter

Menggunakan

Metode

Algoritma K-NN

Media Sosial Twitter Twitter Twitter Twitter Twitter Twitter

Algoritma

Yang

Digunakan

Naïve Bayes dan

K-NN

K-NN K-NN K-NN K-NN dan SVM K-NN

36


Metode

Natural

Languange

Processing

Yang

Digunakan

Case Folding,

Filtering,

Tokenizing,

Normalization,

Stopwords, dan

Stemming

Tokenizing,

Stopwords,dan

Stemming

Tokenizing , Case

folding, Cleansing,

Filterisasi, dan

Stemming

Cleansing, Filtering,

Tokenizing,

Stopward Removal,

dan Stemming

Tokenizing,

Stopwords, dan

Stemming

Case Folding,

Filtering,

Tokenizing,

Normalization,

Stopwords, dan

Stemming

Kelebihan nilai K-NN pada

tingkat akurasi

k=5 dengan

tingkat akurasi

mencapai 77%.

Algoritma Naïve

Bayes dengan K-

NN selisih tingkat

akurasi mencapai

4%

K-NN berhasil

mendapatkan

tingkat akurasi

sebesar 74,50%,

menggunakan

feature weighting

(pembobotan

kata)

Tingkat akurasi

pembobotan tekstual

mencapai 82,50%

dan non-tekstual

60% sedangkan

gabungan keduanya

mencapai 83,33%.

Nilai k yang

digunakan yaitu k = 3

yang merupakan k

optimal, dan

konstanta α=0,8 dan

β=0,2.

Dengan kelebihan

adalah hasil akurasi

terbesar yang didapat

pada saat k=`10

sebesar 90%

menggunakan

Cosine Similarity

Dengan kelebihan

yaitu Akurasi

pada K-NN

sebesar 79% dan

Akurasi pada

SVM sebesar

72%

Nilai K-NN pada

k=9 akurasi

mencapai 62%.

Lalu percobaan

kedua mendapat

akurasi sebesar

64% untuk K-

NN.

37


Kekurangan sistem hanya bisa

mengunakan data

teks dan

berbahasa

Indonesia, tidak

tedapat metode

orientasi teknis

bigram, dan

kurangnya koleksi

kamus sentimen.

Pelabelan data

latih dilakukan

secara manual

Jika nilai konstanta α

=0, maka proses

klasifikasi hanya

menggunakan

pembobotan jumlah

retweet saja.

Sedangkan jika nilai

β = 0, maka

klasififkasi hanya

menggunakan

pembobotan teks

saja.

Dan terdapat

kekurangan, yaitu

membutuhkan waktu

yang lama pada saat

pengujian

Akan tetapi

memiliki

kekurangan

Pelabelan data

latih dilakukan

secara manual,

kurangnya

tahapan proses

NLP

menyebabkan

seleksi fitur ada

yang tidak sesuai

dengan

klasifikainya

Sistem ini hanya

dapat

mengklasifikasi

data teks

berbahasa

Indonesia dan

diharapkan

dapat berjalan di

semua platfrom.

Kurangnya

koleksi kampus

sehingga dapat

lebih maksimal.

Tabel 2. 7 Keunikan Peneliti Dengan Peneliti Sebelumnya

Nama

Penulis

Azhar, 2018 Sucitra Sahara,

2016

Nurjanah,

Perdana, & Fauzi,

2017

Willa Oktinas,

2017

Rustiana &

Rahayu, 2017

Peneliti Sekarang

38


Seleksi Fitur

Untuk

Klasifikasi

Menggunakan

pembobotan TF-

IDF

menggunakan

feature weighting

(pembobotan kata)

Menggunakan

pembobotan

Tekstual dan Non

Tekstual

Menggunakan

pembobotan TF-

IDF

Menggunakan

pembobotan TF-

IDF

Menggunakan

pembobotan TF-

IDF.

Labelling

Data Latih

Labelling data

lmenggunakan

Lexicon Based.

Data latih terdiri

dari 900 tweet

dengan 300

sentimen positif,

300 sentimen

negatif dan 300

sentimen netral

Pelabelan data

dilakukan masih

secara manual

Data latih terdiri

dari 280 data dan

data uji terdiri dari

120 data. Terdapat

2 kategori

sentimen, yaitu

positif dan

negatif.

Pelabelan data

dilakukan masih

secara manual.

Terdapat 3

kategori sentimen,

yaitu sentimen

positif, negatif,

dan netral.

Pelabelan data

dilakukan masih

secara manual

Data latih terdiri

dari 900 tweet

dengan

menggunakan

metode

pendekatan

lexicon. Data uji

terdiri dari 100

tweet.

Tahapan

Data

Pengujian

Pengujian dua kali,

pertama dilakukan

kombinasi

algoritma Naïve

Pengujian

dilakukan dengan

10 skenario, yang

mana nilai k dari 1-

Pengujian

dilakukan 3 kali,

menggunakan

pembobotan

Pengujian

dilakukan

sebanyak 10 kali

dengan nilai k=1-

Pengujian

dilakukan dua

kali, yaitu

pengujian K-NN

Pengujian

dilakukan dua kali

dimana.

Pengujian

39


Bayes dan K-NN

dengan labelling

lexicon dan

pengujian kedua

dibandingkan

dengan algoritma

Naïve Bayes dan K-

NN tanpa lexicon.

10 yang kemudian

didapatkan nilai k

10 mendapatkan

akurasi yang paling

tinggi.

tekstual, non-

tekstual dan

penggabungan.

Nilai k yang

digunakan k=3

dan konstanta

α=0,8 dan β=0,2

10. Didapatkan

hasil akurasi

tertinggi dengan

nilai k=10 sebesar

90%.

dan SVM yang

kemudian

dibandingkan

sehingga

didapatkan bahwa

K-NN lebih baik

dari SVM dengan

nilai 79% dan

72%.

pertama dilakukan

dengan algoritma

K-NN 62%. Lalu

percobaan kedua

mendapat akurasi

sebesar 64%

untuk K-NN

2.14 Studi Pustaka

Fokus utama suatu tinjauan atau literature review dalam suatu penelitian adalah mengetahui apakah para peneliti lain telah

menemukan jawaban untuk pertanyaan-pertanyaan penelitian yang kita rumuskan. Jika dapat menemukan jawaban pertanyaan

penelitian tersebut dalam berbagai pustaka atau laporan hasil penelitian yang paling aktual, maka kita tidak perlu melakukan penelitian

yang sama. Kita harus memilih topik lain atau menyempurnakan hasil penelitian yang telah ada sehingga topik tersebut menjadi lebih

spesifik.


BAB III

METODE PENELITIAN 3.1 Metode Pengumpulan Data

Pada penelitian ini penulis mengumpulkan data dan informasi yang dapat

menunjang proses dalam penelitian dimana proses pengumpulan data sebagai

berikut

3.1.1 Studi Pustaka

Studi pustaka dilakukan dengan pengumpulan teori-teori yang berkaitan

dengan penulisan skripsi sebagai bahan untuk melengkapi penelitian ini. Sumber

teori berasal dari buku referensi, hasil penelitian (jurnal dan skripsi) dan artikel-

artikel terkait. Selain itu peneliti juga mengunjungi situs-situs yang terkait

aplikasi natural language processing, text mining, pendekatan lexicon, dan

Algoritma K-Nearest Neighbor (K-NN). Pustaka-pustaka yang dijadikan acuan

dapat dilihat di daftar pustaka. Pustaka-pustaka yang dijadikan acuan dapat

dilihat di daftar pustaka sebanyak 16 studi pustaka yang terdiri dari 1 buku, 1 e-

book, 10 jurnal, 4 sumber literatur elektronik.

3.1.2 Studi Literatur

Merupakan sumber data sekunder dalam penelitian. Studi literatur

dilakukan dengan pengumpulan teori-teori yang berkaitan dengan penulisan riset

sebagai bahan untuk melengkapi penelitian. Sumber teori berasal dari buku

referensi, hasil penelitian (jurnal dan skripsi), dan artikel terkait. Dapat dilihat di

(Tabel 2.6 dan Tabel 2.7)

3.1.3 Observasi

Peneliti melakukan observasi data dari Twitter API tentang pendapat atau

komentar netizen terhadap berita pemindahan ibu kota Indonesia pada tahun

2019 ini. Dimana mulai berita isu-isu lokasi tempat yang akan dijadikan ibu kota

baru Indonesia, politik, ekonomi keuangan yang ada di dalam berita pemindahan

ibu kota Indonesia tersebut. Crawling data dimulai dari tanggal10 Oktober 2019

hingga 23 Oktober 2019 untuk pengambilan data pertama dan 23 Januari 2020

hingga 03 Februari 2020 untuk pengambilan data kedua. Untuk developer yang

terdapat pada website https://developers.twitter.com/. Setelah data didapatkan

https://developers.twitter.com/

https://developers.facebook.com/

41


dari Twitter API dalam bentuk XML, kemudian data tersebut disimpan langsung

menuju ke database MySQL. Pengambilan data dilakukan sebanyak 1.000 tweet

dengan 900 tweet dijadikan data latih dan 100 tweet dijadikan data uji.

Gambar 3. 1 Tahapan Pengambilan Data Twitter

3.2 Metode Simulasi

Metode yang digunakan pada penelitian ini yakni metode simulasi, berikut

langkah-langkah metode simulasi.

3.2.1 Problem Formulasi (Formulasi Masalah)

Pada tahap formulasi masalah, penulis melakukan identifikasi masalah

berdasarkan hasil penelitian sebelumnya (pada tabel 2.6 dan 2.7). Penelitian

sebelumnya berkaitan dengan Algortima K-NN. Penelitian yang dilakukan

42


Azhar nilai K-NN pada tingkat akurasi k=5 mencapai 77% dan selisisih tingkat

akurasi mencapai 4% pada algoritma Naïve Bayes kemudian tidak adanya

metode orientasi teknis bigram dan kurang koleksi kamus sentimen. Sedangkan

pada peneliti yang dilakukan oleh Sucitra Sahara, 2016, dilakukan penelitian

analisis sentimen terhadap game android. Akurasi yang dihasilkan adalah

sebesar 74,5%. Pengujian yang dilakukan memberikan kesimpulan bahwa

algoritma K-NN merupakan metode yang sesuai dengan klasifikasi text dan

memiliki performa yang tinggi.

Pada penelitian ini, data yang digunakan adalah tweet berbahasa Indonesia

yang terdapat pada Twitter. Terdapat batasan penulisan yaitu sebanyak 140

karakter didalam tweet. Terbatasnya penulisan membuat pengguna Twitter

seringkali menuliskan pesan berupa singkatan. Selain itu juga pengguna Twitter

dapat mengungkapkan ekspresi mereka dengan penggunaan huruf berlebihan

pada pesan Twitter. Hal ini menjadi suatu permasalahan dalam menentukan

orientasi sentimen analisis pada Twitter. Untuk itu diperlukan suatu algoritma

yang mampu mengatasi pesan Twitter yang mengandung sentimen sekaligus

dapat menyeleksi kata singkatan dan kata berlebih kemudian merubahnya

dengan kata yang dapat dijadikan fitur.

3.2.2 Conceptual Model (Pemodelan Konsep)

Dalam penelitian ini pemodelan konsep membahas keseluruhan penelitian

ini berkaitan dengan input, proses dan output. Pertama dengan

mengidentifikasikan input pada penelitian ini, yaitu tweet yang berisikan opini

warganet terkait pemindahan ibu kota Indonesia. Kedua, tweet yang telah

dikumpulkan kemudian diolah dan diproses dengan pendekatan lexicon sebagai

pelabelan terhadap data latih. Menggunakan metode algoritma K-NN klasifikasi

data uji. Hasilnya akan menghitung confussion matrix yang mempunyai keluaran

diantaranya tingkat akurasi, error rate, presisi, f-measure dan recall.

3.2.3 Collection of Input/Output Data (Pengumpulan Masukan atau

Keluaran Data)

Data komentar yang didapat dari Twitter API dijadikan input pada

penelitian ini dalam aplikasi berbasis PHP. Pengambilan data dilakukan

43


sebanyak 1.000 tweet dengan 900 tweet dijadikan data latih, dan 100 tweet

dijadikan data uji. Periode pengambilan data dibagi menjadi 2, yaitu data

pertama dari 10 Oktober 2019 hingga 23 Oktober 2019 dan 23 Januari 2020

hingga 03 Februari 2020. Data latih akan diolah menggunakan pendekatan

lexicon, sementara data uji akan diolah menggunakan metode algoritma K-

Nearest Neighbor.

3.2.4 Modelling Phase (Tahap Permodelan)

Pada tahap pemodelan, penulis membuat rancangan model sistem yang

akan dibuat. Pemodelan yang dibuat yaitu pemodelan pedekatan lexicon sebagai

metode pemberian label otomatis pada data latih dan pemodelan dengan

algoritma K-NN untuk klasifikasi data uji.

3.2.5 Simulation Phase (Tahap Simulasi)

Penulis melakukan simulasi pada aplikasi sentimen analisis ini. Simulasi

yang akan dilakukan adalah dengan melakukan input data set latih dan uji,

melakukan pelabelan terhadap data latih secara otomatis dengan lexicon based

untuk dikelompokkan sentimennya, melakukan pelatihan terhadap data latih dan

melakukan klasifikasi data uji dengan algoritma K-NN serta menghasilkan

tingkat akurasi, error rate, presisi dan recall dari algoritma yang dijadikan

penelitian.

3.2.6 Conclusion (Verification, Validation, and Experimentation)

Untuk membuat kesimpulan, penulis terlebih dahulu melakukan uji

verifikasi, validasi dan ekperimen. Verifikasi dan validasi bertujuan untuk

menyakinkan hasil dari aplikasi orientasi sentimen dengan menggunakan

algoritma K-NN. Sedangkan eksperimen bertujuan untuk mengevaluasi hasil

simulasi aplikasi.

3.2.7 Output Analysis Phase (Fase Analisa Hasil)

Penulis melakukan analisa terhadap output-output berdasarkan skenario

yang akan dilakukan yaitu melakukan perbandingan dengan hasil klasifikasi

algoritma K-NN dengan data latih dan data uji yang sama, serta menghitung

tingkat akurasi, error rate, presisi, f-measure dan recall dari algoritma yang

dijadikan penelitian.

44


3.3 Skenario Pengujian

Setelah aplikasi sudah menjadi suatu perangkat lunak yang siap untuk

dipakai, maka perlu dilakukan pengujian terhadap aplikasi tersebut. Skenario

pengujian yang dilakukan adalah sebagai berikut:

1. Pengujian pertama pada pengambilan data tanggal 10 Oktober 2019- 23 Oktober

2019 menggunakan algoritma K-Nearest Neighbor.

Pengujian ini dilakukan untuk mengklasifikasikan data uji ke dalam kelas

sentimen positif, netral atau negatif menggunakan algoritma K-Nearest

Neighbor. Pengujian dilakukan berdasarkan penentuan nilai k pada algoritma K-

NN yaitu k=1, k=3, k=5, k=9, k=10. Perhitungan tingkat akurasi, error rate,

presisi, dan recall akan ditentukan dengan menggunakan model confussion

matrix dari kombinasi algoritma tersebut.

2. Pengujian kedua pada pengambilan data tanggal 23 Januari 2020- 02 Februari

2020 menggunakan algoritma K-Nearest Neighbor.

Pengujian ini dilakukan untuk mengklasifikasikan data uji ke dalam kelas

sentimen positif, netral atau negatif menggunakan algoritma K-Nearest

Neighbor. Pengujian dilakukan berdasarkan penentuan nilai k pada algoritma K-

NN yaitu k=1, k=3, k=5, k=9, k=10. Perhitungan tingkat akurasi, error rate,

presisi, dan recall akan ditentukan dengan menggunakan model confussion

matrix dari kombinasi algoritma tersebut.

3.4 Alur Penelitian

Alur Penelitian merupakan suatu alur diagram yang menjelaskan proses

berjalannya sebuah penelitian. Dalam penelitian ini, penulis mengacu pada alur

penelitian sebagai berikut:

45


Gambar 3. 2 Alur Penelitian


BAB IV

IMPLEMENTASI

4.1 Problem Formulation

Pada penelitian ini, penulis memformulasikan masalah penelitian pada

algoritma K-Nearest Neighbor sebagai klasifikasi hasil orientasi sentimen dengan

klasifikasi sentimen data latih menggunakan metode lexicon based. Kemudian

didapatkan pendapat warganet terhadap pemindahan ibu kota Indonesia pada media

sosial Twitter dan juga tingkat akurasi metode K-Nearest Neighbor (K-NN) dalam

memprediksi pendapat warganet terhadap pemindahan ibu kota Indonesia pada

media sosial Twitter.

4.2 Conceptual Model

Berdasarkan Conceptual Model pada Subbab 3.2.2, berikut ini penjelasan

sebagai berikut :

4.2.1 Conceptual Model Text Mining

Dalam penelitian ini text mining berkaitan dengan tahapan pre-

proccessing dokumen Dari data pre-proccessing akan di dapat dataset dengan

variasi fitur. Tahapan yang dilakukan dari dokumen pre-processing dijelaskan

dibawah ini.

1. Case Folding

Tahapan case folding, adalah proses penyeragaman bentuk huruf. Teks

dilakukan proses perubahan dari huruf besar menjadi huruf kecil.

Gambar 4. 1 Contoh Case Folding

2. Filtering

Tahapan filtering, adalah proses untuk membersihkan dokumen kegiatan yang

dilakukan adalah proses penghapusan karakter selain utf-8, url link, hashtag dan

mention.

47


Gambar 4. 2 Contoh Filtering

3. Tokenizing

Tahapan tokenizing, teks dilakukan proses penghapusan semua tanda baca dan

memecah kata

Gambar 4. 3 Contoh Tokenizing

4. Normalisasi

Tahapan Normalisasi, teks dilakukan proses pernormalisasian terhadap kata

berlebihan dan kata singkatan dengan mengganti sesuai kaidah dalam kamus

Kamus Besar Bahasa Indonesia (KBBI). Pada tahapan ini setiap dijumpai kata

yang memiliki penggunaan huruf berlebih dan kata singkatan akan diubah

menjadi kata baku.

Gambar 4. 4 Contoh Normalisasi

5. Stopwards

Tahapan stopwords dan stemming, teks dilakukan proses menghapus kata kata

yang dianggap tidak penting (stopwords) dan pengubahan kata berimbuhan

menjadi kata dasar (stemming). Adapun variasi imbuhan dalam hal ini antara lain

adalah prefik (awalan), suffik (akhiran), infik (sisipan), dan confik (kombinasi

awalan dan akhiran). Proses stemming dilakukan dengan menggunakan bantuan

KBBI. Pada tahap ini kata-kata yang bersifat stopwords akan dibuang hal ini

48


dikarenakan stopwords dianggap sebagai kata tidak penting atau tidak berguna

dan tahapan ini juga dapat menekan penggunaan waktu dalam menentukan hasil.

Gambar 4. 5 Contoh Stopword

6. Stemming Nazief dan Andriani

Selanjutnya dilakukan proses stemming dimana kata berimbuhan akan diubah

dalam bentuk kata dasar dengan menggunakan algoritma nazief dan adriani.

Gambar 4. 6 Contoh Stemming

4.2.2 Conceptual Model Klasifikasi Sentimen dengan Pendekatan Lexicon

Berikut ini merupakan alur klasifikasi sentimen dengan pendekatan

lexicon.

a. Membangun kamus sentimen yang terbagi menjadi kamus sentimen positif

dan kamus sentimen negatif.

Dalam penelitian ini dibangun kamus positif dan negatif secara sistem.

Kamus sentimen positif dalam penelitian ini berjumlah 1.185 kata dan kamus

negatif berjumlah 2.403 kata (sumber github).

b. Membangun kamus negasi

Kamus negasi yang digunakan dalam penelitian ini sebanyak 10 kata (sumber

github).

c. Pre-proccessing query yang terdiri dari 4 proses yaitu case folding, filtering,

tokenizing dan normalisasi.

d. Identifikasi setiap kata sentimen pada query.

e. Identifikasi kata negasi pada query yang ditemukan sentimennya

f. Menentukan orientasi sentimen pada query, dengan cara melakukan hitung

score.

49


Keterangan :

w i SO = Jumlah (score) fitur ke i setiap sentimen (positif dan negatif)

dis (wi,f) = Jumlah fitur yang berhasil ditemukan

Untuk contoh penggunaan rumus diatas akan diterangkan pada sub bab 4.4.1 yaitu

konstruksi pendekatan lexicon.

4.2.3 Conceptual Model Klasifikasi Sentimen dengan Algoritma K-NN

Berikut ini merupakan alur Tahap Pelatihan Algoritma K-Nearest

Neighbor :

1. Membangun kamus sentimen yang terbagi menjadi sentimen positif dan

negatif dalam penelitian ini dibangun kamus positif dan negatif secara sistem.

Kamus sentimen positif dalam penelitian ini berjumlah 1.185 kata dan kamus

negatif berjumlah 2.403 kata.

2. Kamus negasi yang digunakan dalam penelitian ini sebanyak 10 kata.

3. Melakukan crawling data, yaitu dengan 1000 tweet dimana 900 tweet untuk

data latih dan 100 tweet untuk data uji. Dengan kata kunci pemindahan ibu

kota, ibu kota pindah, dan ibu kota baru

4. Pelatihan data latih. Pelatihan data latih dilakukan dengan cara membangun

inverted index (indexing) dan pembobotan kata menggunakan teknik TF-IDF.

Pelatihan dilakukan sebagai data pembelajaran oleh mesin k-NN. Tahapan

yang dilakukan adalah mengumpulkan dokumen yang didapat dari kumpulan

tweets berisi sentimen sebagai data latih, kemudian dilakukan proses pre-

proccessing query dalam enam tahapan dan terakhir melakukan indexing dan

pembobotan kata per kata data latih.

Case Folding

Gambar 4. 7 Proses Case Folding

Filtering

50


Gambar 4. 8 Proses Filtering

Tokenizing

Gambar 4. 9 Proses Tokenizing

Normalisasi

Gambar 4. 10 Proses Normalisasi

Stopwords

Gambar 4. 11 Proses Stopwords

Stemming

Gambar 4. 12 Proses Stemming

5. Indexing (Pembuatan inverted index)

Pada tahap ini, dilakukan proses pengindeksan pada setiap token. Pada

inverted index akan tersimpan informasi berupa kata, yang mengandung kata

tersebut dan frekuensi kemunculan kata tersebut pada suatu dokumen.

6. Pembobotan Kata

Hasil dari indexing pada proses selanjutnya akan dihitung nilai bobotnya.

Pada penelitian ini digunakan jenis perhitungan pembobotan lokal dengan

menggunakan TF (term frekuency) dan pembobotan global dengan

menggunakan IDF (inverse dokument frekuency).

51


a. Klasifikasi query uji sementara (sentimen sementara) dengan algoritma k-

Nearest Neighbor.

1. Melakukan pre-proccessing query data uji. Proses yang terlibat adalah

casefolding, filtering, tokenizing, normalisasi, stopwords dan stemming..

2. Menghitung kedekatan kemiripan query dengan persamaan consine

similarity

𝐶𝑜𝑠(𝑖, 𝑘) =∑ 𝑘(𝑑1 𝑑𝑘)

√∑ 𝑘 𝑑𝑖𝑘2 √∑ 𝑘𝑑𝑗𝑘

2 .....................................................................(4.2)

Keterangan :

∑ 𝑘 (𝑑1 𝑑𝑘) = vektor dot produk dari i dan k

√∑ 𝑘 𝑑𝑖𝑘2 = panjang vektor i

√∑ 𝑘 𝑑𝑗𝑘2 = panjang vektor k

3. Menentukan nilai k pada algoritma k-NN.

4. Menyimpulkan orientsi sentimen sementara dengan persamaan

𝐷𝑛𝑛(𝑐1 𝑐2) = 𝑚𝑖𝑛1≤𝑖≤𝑟,1≤𝑗≤𝑠𝑑(𝑦𝑖, 𝑧𝑖)..................................................(4.3)

5. Tahapan klasifikasi query uji sementara dengan algortima k-NN dapat

dilihat pada Sub Bab 4.4.2 Konstruksi algoritma K-NN secara manual.

4.3 Collection Input/Output Data

Crawling data merupakan tahap awal berupa pengumpulan data untuk

diproses menuju tahap text mining. Dalam proses crawling data penggunaan twitter

API sebagai sarana dan pintu untuk mengambil data berupa tweet dari media sosial

twitter. Selain itu pengumpulan data berkaitan dengan kamus-kamus yang akan

digunakan, yang terdiri dari kamus positif dan kamus negatif, kamus kata dasar,

kamus KBBI, dan kamus stopwords.

Dalam proses crawling data yang dibutuhkan adalah berupa pendapat

warganet dalam tweet di media sosial Twitter yang berisi sentimen positif (berisi

emosi senang, mendukung, suka, dan menyambut gembira), sentimen negatif

(berisi emosi kecewa, sedih, dan marah) dan sentimen netral.

52


Untuk mengambil crawling data tersebut membutukan kata kunci dalam

menentukannya. Kata kunci atau filter untuk mengambilnya adalah pemindahan ibu

kota, ibu kota baru dan ibu kota pindah. Kemudian semua pendapat warganet baik

berupa warga negara Indonesia, warga negara Indonesia yang berada di luar negeri,

maupun warga negara asing yang sudah mendapatkan kebangsaan Indonesia kita

ambil akan tetapi tentu saja dengan kata kunci filter diatas. Untuk pengambilan data

dilakukan dua kali, untuk pengambilan data pertama dilakukan pada periode 10

Oktober 2019 – 23 Oktober 2019 dan pengambilan data kedua dilakukan pada

periode 23 Januari 2020 – 02 Februari 2020. Untuk jumlah data dibutuhkan

sebanyak 1000 tweet dengan 900 tweet dijadikan data latih, dan 100 tweet dijadikan

data uji.

Gambar 4. 13 Hasil Crawling Data

4.4 Modelling Phase

4.4.1 Konstruksi Pendekatan Lexicon

Pada proses ini akan menentukan sentimen twitter menggnakan

pendekatan lexicon. Penggunaan pendekatan lexicon bertujuan menciptakan data

latih dan kemudian menentukan orientasi sentimen dari unit teks melalui data

latih dan kemudian menentukan orientasi sentimen dari unit teks melalui

beberapa fungsi berdasarkan kamus positif dan negatif. Proses ini sangat

bergantung dan memperhatikan pada kamus sentimen yang akan dibangun guna

mendapatkan akurasi sentimen yang baik. Secara keseluruhan konstruksi

analisis orientasi sentimen dengan pendekatan lexicon dapat dijelaskan secara

berikut :

1. Membangun kamus sentimen yang terbagi menjadi sentimen positif dan negatif

53


Dalam penelitian ini dibangun kamus positif dan negatif secara sistem. Kamus

sentimen positif dalam penelitian ini berjumlah 1.185 kata dan kamus negatif

berjumlah 2.403 kata.

2. Kamus negasi yang digunakan dalam penelitian ini sebanyak 10 kata.

3. Pre-processing query

Contoh data latih yang ditentukan sentimennya dengan menggunakan metode

lexicon

Tweet : “@onoo04 Pejabat yang terhormat lebih baik kita menabung untuk

membuat ibu kota baru jangan berhutang karena hutang kita udah gede. Kasian

pemerintah masa depan akan menanggung pembayarannya #IbuKotaBaru

#puisimalam #bacotsantuy”

Case Folding (mengubah huruf kapital menjadi huruf kecil)

@onoo04 pejabat yang terhormat lebih baik kita menabung untuk membuat ibu

kota baru jangan berhutang karena hutang kita udah gede. kasian pemerintah

masa depan akan menanggung pembayarannya. #ibukotabaru #puisimalam

#bacotsantuy

Filtering (menghilangkan karakter khusus, tanda baca dan angka)

pejabat yang terhormat lebih baik kita menabung untuk membuat ibu kota baru

jangan berhutang karena hutang kita udah gede. kasian pemerintah masa depan

akan menanggung pembayarannya

Tokenizing (menghapus semua tanda baca dan memecah kata)

Tabel 4. 1 Tokenizing

pejabat yang terhormat lebih

baik kita menabung untuk

membuat ibu kota baru

jangan berhutang karena hutang

kita sudah besar kasian

pemerintah masa depan akan

menanggung pembayarannya

Normalisasi kata.

Pada penelitian ini normalisasi dilakukan dua kali. Pertama normalisasi kata

yang memiliki kata berlebih dan tidak sesuai dengan standar ejaan KBBI. Kedua

54


normalisasi kata tidak baku yang diubah menjadi kata baku sesuai ejaan KBBI.

Selanjutnya, kata-kata pada data latih dibandingkan dengan kata yang terdapat

pada kamus KBBI. Jika kata pada data latih tidak sesuai dengan kata pada KBBI

maka akan dilakukan normalisasi. Berikut ini merupakan hasil dari normalisasi

kata:

Tabel 4. 2 Normalisasi

pejabat yang terhormat lebih

baik kita menabung untuk

membuat ibu kota baru

jangan berhutang karena hutang

kita sudah besar kasian

pemerintah masa depan akan

menanggung pembayarannya

Identifikasi setiap kata sentimen pada query

Tahap selanjutnya adalah mengekstrasi kata-kata yang memiliki sentimen positif

dan negatif. Caranya adalah dengan membandingkan kata pada data latih dengan

kata pada kamus lexicon sentimen positif, negatif dan negasi.

Tabel 4. 3 Identifikasi Setiap Kata Pada Query

Positif Negatif

terhormat

berhutang

hutang

Baik

membuat

2 kata 3 kata

Pada proses ini tidak ada kata yang teridentifikasi sebagai kata negasi. Sehingga

kata sebelumnya tidak berubah

Menentukan Sentimen

Setelah keyword berhasil diekstrak, selanjutnya masing-masing keyword

dihitung kemunculannya. Jumlah keyword terbanyak, maka akan diambil

sentimennya.

Berikut perhitungan score:

55


Keterangan :

w i SO = Jumlah (score) fitur ke i setiap sentimen (positif dan negatif)

dis (wi,f) = Jumlah fitur yang berhasil ditemukan

𝑠𝑐𝑜𝑟𝑒(𝑓) =2 + (−3)

1= −1

Hasil perhitungan score adalah -1, sehingga dapat disimpulkan dokumen

memiliki sentimen negatif.

4.4.2 Konstruksi Algoritma K-Nearest Neighbor Manual

Proses analisis sentimen pemindahan ibu kota pada media sosial Twitter

menggunakan metode algoritma K-NN akan dijelaskan di bawah ini :

a. Membangun kamus sentimen yang terbagi menjadi sentimen positif dan

negatif

Dalam penelitian ini dibangun kamus positif dan negatif secara sistem. Kamus

sentimen positif dalam penelitian ini berjumlah 1.185 kata dan kamus negatif

berjumlah 2.403 kata.

b. Membangun kamus negasi

Kamus negasi yang digunakan dalam penelitian ini sebanyak 10 kata.

c. Pelatihan data latih (inverted index dan pembobotan kata)

Untuk lebih jelas nya, berikut adalah contoh pembuatan inverted index dan

pembobotan kata pada data latih secara keseluruhan.

1. Mengumpulkan dokumen yang didapat dari kumpulan tweet berisi sentimen

sebagai data latih. Sebagai contoh digunakan 9 dokumen sebagai data latih.

Tabel 4. 4 Dokumen data latih

Dok(n) Isi Tweet Sentimen

Tweet

1. #Prabowo Dukung Pemerintah Pindahkan Ibu

Kota https://t.co/tpocXQdSwP #nasional

#ibukotabaru #jokowi

Positif

2. Setelah temui Jokowi, Prabowo tegaskan

dukung pemindahan Ibukota. #verta

#vertanews #JokowiPrabowo #ibukotabaruâ€¦

https://t.co/9VrF7izaRq

Positif

3. Dampak Negatif Kebijakan Presiden Joko

Widodo Pindahkan Ibu Kota ke Kaltim, 38 Kg

Narkoba Masuk¦ https://t.co/85jUima1p1

Negatif

56


4. Pemkab Penajam Paser Utara ingin secepatnya

ada penyesuaian rencana tata ruang wilayah

alias RTRW seiring dengan realisasi¦

https://t.co/hYHwIbI34h

Positif

5. Isu #BPJS #RUPP #KebakaranHutan

#IbukotaPindah mana yg lg viral

Negatif

6. Waktunya mengawal mandat dari rakyat

Indonesia. #WeLoveYou

#BersamaBangunNegeri

#03PersatuanIndonesia #JokowiLagiâ€¦

https://t.co/jXaqeFU0Hh

Netral

7. 9.#Kota baru yg semata untuk menciptakan

peluang investasi, untuk hedge funds.

Penciptaan #kota yang tidak ada hubungannya¦

https://t.co/xfPI574nIh

Netral

8. 4.ambil contoh #urbanisasi di negara Timur

Tengah, seperti Dubai, Doha, dengan bangunan

yg tampak absurd. Untuk siapa¦

https://t.co/PobH0xqXsq

Negatif

9. 6.Sumberdaya yang begitu besar dimobilisasi

bagi memproduksi #kota baru, yg ironisnya pd

akhirnya tidak ada penghuninya¦

https://t.co/sEWGAnwq4m

Netral

2. Case Folding

Tabel 4. 5 Hasil case folding pada data latih


Tweet

1. #prabowo dukung pemerintah pindahkan ibu

kota https://t.co/tpocxqdswp #nasional

#ibukotabaru #jokowi

Positif

2. setelah temui jokowi, prabowo tegaskan

dukung pemindahan ibukota. #verta

#vertanews #jokowiprabowo #ibukotabaru????

https://t.co/9vrf7izarq

Positif

3. dampak negatif kebijakan presiden joko

widodo pindahkan ibu kota ke kaltim, 38 kg

narkoba masuk¦ https://t.co/85juima1p1

Negatif

4. pemkab penajam paser utara ingin secepatnya


alias rtrw seiring dengan reâ€¦

https://t.co/hyhwibi34h

Positif

5. isu #bpjs #rupp #kebakaranhutan

#ibukotapindah mana yg lg viral

Negatif

57


6. waktunya mengawal mandat dari rakyat

indonesia. #weloveyou #bersamabangunnegeri

#03persatuanindonesia #jokowilagi????

https://t.co/h2k6pxvhbv

Netral

7. 9.#kota baru yg semata untuk menciptakan

peluang investasi, untuk hedge funds.

penciptaan #kota yang tidak ada hubungan¦

https://t.co/xfpi574nih

Netral

8. 4.ambil contoh #urbanisasi di negara timur

tengah, seperti dubai, doha, dengan bangunan

yg tampak absurd. untuk siaâ€¦

https://t.co/pobh0xqxsq

Negatif

9. 6.sumberdaya yang begitu besar dimobilisasi

bagi memproduksi #kota baru, yg ironisnya pd


https://t.co/sewganwq4m

Netral

3. Filtering

Tabel 4. 6 Filtering


Tweet

1. dukung pemerintah pindahkan ibu kota Positif

2. setelah temui jokowi, prabowo tegaskan

dukung pemindahan ibukota.

Positif

3. dampak negatif kebijakan presiden joko

widodo pindahkan ibu kota ke kaltim, 38 kg

narkoba masukâ€¦

Negatif

4. pemkab penajam paser utara ingin secepatnya


alias rtrw seiring dengan realisasi¦

Positif

5. isu mana yg lg viral Negatif

6. waktunya mengawal mandat dari rakyat

indonesia.

Netral

7. 9. baru yg semata untuk menciptakan peluang

investasi, untuk hedge funds. penciptaan yang

tidak ada hubungannya¦

Netral

8. 4.ambil contoh di negara timur tengah, seperti

dubai, doha, dengan bangunan yg tampak

absurd. untuk siapa¦

Negatif

9. 6.sumberdaya yang begitu besar dimobilisasi

bagi memproduksi baru, yg ironisnya pd


Netral

4. Tokenizing

Tabel 4. 7 Hasil Tokenizing pada data latih

58


Dok(1) Dok(2) Dok(3) Dok(4) Dok(5)

dukung setelah dampak pemkab isu

pemerintah temui negatif penajam mana

pindahkan jokowi kebijakan paser yg

ibu prabowo presiden utara lg

kota tegaskan joko ingin viral

dukung widodo secepatnya

pemindahan pindahkan ada

ibukota ibu penyesuaian

kota rencana

ke tata

kaltim ruang

kg wilayah

narkoba alias

masuk rtrw

seiring

dengan

realisasi

Dok(6) Dok(7) Dok(8) Dok(9)

waktunya baru ambil sumberdaya

mengawal yg contoh yang

mandat semata di begitu

dari untuk negara besar

rakyat menciptakan timur dimobilisasi

indonesia peluang tengah bagi

investasi seperti memproduksi

untuk dubai baru

hedge doha yg

funds dengan ironisnya

penciptaan bangunan pd

yang yg akhirnya

tidak tampak tidak

ada absurd ada

hubungannya untuk penghuninya

siapa

5. Normalisasi

Tabel 4. 8 Hasil normalisasi pada data latih


dukung setelah dampak pemkab isu

pemerintah temui negatif penajam mana

pindahkan jokowi kebijakan paser yg

kota prabowo presiden utara lg

tegaskan joko ingin viral

59


dukung widodo secepatnya

pemindahan pindahkan ada

ibukota ibu penyesuaian

kota rencana

ke tata

kaltim ruang

kg wilayah

narkoba alias

masuk rtrw

seiring

dengan

realisasi


waktunya baru ambil sumberdaya

mengawal yg contoh yang

mandat semata di begitu

dari untuk negara besar

rakyat menciptakan timur dimobilisasi

indonesia peluang tengah bagi

investasi seperti memproduksi

untuk dubai baru

hedge doha yg

funds dengan ironisnya

penciptaan bangunan pada

yang yg akhirnya

tidak tampak tidak

ada absurd ada

hubungannya untuk penghuninya

siapa

6. Stopwords

Tabel 4. 9 Hasil stopwords data latih


dukung temui dampak pemkab isu

pemerintah jokowi negatif penajam viral

pindahkan prabowo kebijakan paser

ibu tegaskan presiden utara dukung joko secepatnya

pemindahan widodo penyesuaian

ibukota pindahkan rencana

kaltim tata

kg ruang

narkoba wilayah

masuk alias

60


rtrw

seiring

realiasi


mengawal menciptakan ambil sumberdaya

mandat peluang contoh dimobilisasi

rakyat investasi negara memproduksi

indonesia hedge timur ironisnya

funds dubai penghuninya

penciptaan doha

hubungannya bangunan

absurd

7. Stemming

Tabel 4. 10 Hasil Stemming Pada Data Latih


dukung temu dampak pemkab isu

perintah jokowi negatif najam viral

pindah prabowo bijak paser tegas presiden utara

dukung joko cepat

pindah widodo sesuai

ibukota pindah rencana

kaltim tata

kg ruang

narkoba wilayah

masuk alias

rtrw

iring

realisasi


awal cipta ambil sumberdaya

mandat peluang contoh mobilisasi

rakyat investasi negara memproduksi

indonesia hedge timur huni

funds dubai

cipta doha

hubung bangun

absurd

8. Indexing (pembuatan inverted index). Berikut ini hasil dari indexing pada data

latih.

Tabel 4. 11 Hasil proses indexing

Kosa Kata (Dokumen : Frekuensi)

61


dukung 1:1, 2:1

perintah 1:1

pindah 1:1, 2:1, 3:1

temu 2:1

jokowi 2:1

prabowo 2:1

tegas 2:1

ibukota 2:1

dampak 3:1

negatif 3:1

bijak 3:1

presiden 3:1

joko 3:1

widodo 3:1

kaltim 3:1

Kg 3:1

narkoba 3:1

masuk 3:1

pemkab 4:1

najam 4:1

paser 4:1

utara 4:1

cepat 4:1

sesuai 4:1

rencana 4:1

tata 4:1

ruang 4:1

wilayah 4:1

alias 4:1

rtrw 4:1

iring 4:1

realisasi 4:1

isu 5:1

viral 5:1

awal 6:1

mandat 6:1

rakyat 6:1

indonesia 6:1

cipta 7:2

peluang 7:1

investasi 7:1

hedge 7:1

funds 7:1

hubung 7:1

62


ambil 8:1

contoh 8:1

negara 8:1

timur 8:1

dubai 8:1

doha 8:1

bangun 8:1

absurd 8:1

sumberdaya 9:1

mobilisasi 9:1

memproduksi 9:1

Huni 9:1

Keterangan :

Kosa kata : kata tunggal yang terdapat dalam dokumen

Dokumen frekuensi : frekuensi kata dalam dokumen

1. Pembobotan kata. Berikut ini hasil dari pembobotan kata terhadap kata hasil

indexing

Tabel 4. 12 Hasil pembobotan kata tf

Kosa Kata Tf(D1) Tf(D2) Tf(D3) Tf(D4) Tf(D5) Tf(D6) Tf(D7) Tf(D8) Tf(D9) Df

dukung 1 1 0 0 0 0 0 0 0 2

perintah 1 0 0 0 0 0 0 0 0 1

pindah 1 1 1 0 0 0 0 0 0 3

temu 0 1 0 0 0 0 0 0 0 1

jokowi 0 1 0 0 0 0 0 0 0 1

prabowo 0 1 0 0 0 0 0 0 0 1

tegas 0 1 0 0 0 0 0 0 0 1

ibukota 0 1 0 0 0 0 0 0 0 1

dampak 0 0 1 0 0 0 0 0 0 1

negatif 0 0 1 0 0 0 0 0 0 1

bijak 0 0 1 0 0 0 0 0 0 1

presiden 0 0 1 0 0 0 0 0 0 1

joko 0 0 1 0 0 0 0 0 0 1

widodo 0 0 1 0 0 0 0 0 0 1

kaltim 0 0 1 0 0 0 0 0 0 1

kg 0 0 1 0 0 0 0 0 0 1

narkoba 0 0 1 0 0 0 0 0 0 1

masuk 0 0 1 0 0 0 0 0 0 1

pemkab 0 0 0 1 0 0 0 0 0 1

najam 0 0 0 1 0 0 0 0 0 1

paser 0 0 0 1 0 0 0 0 0 1

utara 0 0 0 1 0 0 0 0 0 1

63


cepat 0 0 0 1 0 0 0 0 0 1

sesuai 0 0 0 1 0 0 0 0 0 1

rencana 0 0 0 1 0 0 0 0 0 1

tata 0 0 0 1 0 0 0 0 0 1

ruang 0 0 0 1 0 0 0 0 0 1

wilayah 0 0 0 1 0 0 0 0 0 1

alias 0 0 0 1 0 0 0 0 0 1

rtrw 0 0 0 1 0 0 0 0 0 1

iring 0 0 0 1 0 0 0 0 0 1

realisasi 0 0 0 1 0 0 0 0 0 1

isu 0 0 0 0 1 0 0 0 0 1

viral 0 0 0 0 1 0 0 0 0 1

awal 0 0 0 0 0 1 0 0 0 1

mandat 0 0 0 0 0 1 0 0 0 1

rakyat 0 0 0 0 0 1 0 0 0 1

indonesia 0 0 0 0 0 1 0 0 0 1

cipta 0 0 0 0 0 0 2 0 0 1

peluang 0 0 0 0 0 0 1 0 0 1

investasi 0 0 0 0 0 0 1 0 0 1

hedge 0 0 0 0 0 0 1 0 0 1

funds 0 0 0 0 0 0 1 0 0 1

hubung 0 0 0 0 0 0 1 0 0 1

ambil 0 0 0 0 0 0 0 1 0 1

contoh 0 0 0 0 0 0 0 1 0 1

negara 0 0 0 0 0 0 0 1 0 1

timur 0 0 0 0 0 0 0 1 0 1

dubai 0 0 0 0 0 0 0 1 0 1

doha 0 0 0 0 0 0 0 1 0 1

bangun 0 0 0 0 0 0 0 1 0 1

absurd 0 0 0 0 0 0 0 1 0 1

sumberdaya 0 0 0 0 0 0 0 0 1 1

mobilisasi 0 0 0 0 0 0 0 0 1 1

memproduk

si

0 0 0 0 0 0 0 0 1 1

huni 0 0 0 0 0 0 0 0 1 1

Perhitungan Idf

𝑖𝑑𝑓(𝑡) = log (𝑛

𝑑𝑓(𝑡))

Keterangan :

n = jumlah dokumen dalam corpus

df(t) = document frequency / jumlah dokumen dalam corpus yang mengandung

term t

64


Tabel 4. 13 Perhitungan IDF(Inverse Dokumen Frekuensi)

Kosa

Kata

df Idf w(D1) w(D2) w(D3) w(D4) w(D5) w(D6) w(D7) w(D8) w(D9)

dukung 2 0.6532125

1

0.6532125

1

0.65321251

4 0 0 0 0 0 0 0

perintah 1 0.9542425

1

0.9542425

1 0 0 0 0 0 0 0 0

pindah 3 0.4771212

5

0.4771212

5

0.47712125

5 0 0 0 0 0 0 0

temu 1 0.9542425

1 0 0.95424251 0 0 0 0 0 0 0

jokowi 1 0.9542425

1 0 0.95424251 0 0 0 0 0 0 0

prabowo 1 0.9542425

1 0 0.95424251 0 0 0 0 0 0 0

tegas 1 0.9542425

1 0 0.95424251 0 0 0 0 0 0 0

ibukota 1 0.9542425

1 0 0.95424251 0 0 0 0 0 0 0

dampak 1 0.9542425

1 0 0 0.95424251 0 0 0 0 0 0

negatif 1 0.9542425

1 0 0 0.95424251 0 0 0 0 0 0

65


bijak 1 0.9542425

1 0 0 0.95424251 0 0 0 0 0 0

presiden 1 0.9542425

1 0 0 0.95424251 0 0 0 0 0 0

joko 1 0.9542425

1 0 0 0.95424251 0 0 0 0 0 0

widodo 1 0.9542425

1 0 0 0.95424251 0 0 0 0 0 0

kaltim 1 0.9542425

1 0 0 0.95424251 0 0 0 0 0 0

kg 1 0.9542425

1 0 0 0.95424251 0 0 0 0 0 0

narkoba 1 0.9542425

1 0 0 0.95424251 0 0 0 0 0 0

masuk 1 0.9542425

1 0 0 0.95424251 0 0 0 0 0 0

pemkab 1 0.9542425

1 0 0 0

0.9542425

1 0 0 0 0 0

najam 1 0.9542425

1 0 0 0

0.9542425

1 0 0 0 0 0

paser 1 0.9542425

1 0 0 0

0.9542425

1 0 0 0 0 0

utara 1 0.9542425

1 0 0 0

0.9542425

1 0 0 0 0 0

66


cepat 1 0.9542425

1 0 0 0

0.9542425

1 0 0 0 0 0

sesuai 1 0.9542425

1 0 0 0

0.9542425

1 0 0 0 0 0

rencana 1 0.9542425

1 0 0 0

0.9542425

1 0 0 0 0 0

tata 1 0.9542425

1 0 0 0

0.9542425

1 0 0 0 0 0

ruang 1 0.9542425

1 0 0 0

0.9542425

1 0 0 0 0 0

wilayah 1 0.9542425

1 0 0 0

0.9542425

1 0 0 0 0 0

alias 1 0.9542425

1 0 0 0

0.9542425

1 0 0 0 0 0

rtrw 1 0.9542425

1 0 0 0

0.9542425

1 0 0 0 0 0

iring 1 0.9542425

1 0 0 0

0.9542425

1 0 0 0 0 0

realisasi 1 0.9542425

1 0 0 0

0.9542425

1 0 0 0 0 0

isu 1 0.9542425

1 0 0 0 0

0.954242

51 0 0 0 0

viral 1 0.9542425

1 0 0 0 0

0.954242

51 0 0 0 0

67


awal 1 0.9542425

1 0 0 0 0 0

0.9542425

1 0 0 0

mandat 1 0.9542425

1 0 0 0 0 0

0.9542425

1 0 0 0

rakyat 1 0.9542425

1 0 0 0 0 0

0.9542425

1 0 0 0

indonesi

a

1 0.9542425

1 0 0 0 0 0

0.9542425

1 0 0 0

cipta 1 0.9542425

1 0 0 0 0 0 0

1.9084850

19 0 0

peluang 1 0.9542425

1 0 0 0 0 0 0

0.9542425

1 0 0

investasi 1 0.9542425

1 0 0 0 0 0 0

0.9542425

1 0 0

hedge 1 0.9542425

1 0 0 0 0 0 0

0.9542425

1 0 0

funds 1 0.9542425

1 0 0 0 0 0 0

0.9542425

1 0 0

hubung 1 0.9542425

1 0 0 0 0 0 0

0.9542425

1 0 0

ambil 1 0.9542425

1 0 0 0 0 0 0 0

0.954

24251 0

contoh 1 0.9542425

1 0 0 0 0 0 0 0

0.954

24251 0

68


Keterangan :

idf : inverse dokumen frequency

tf(n) : term frequency (frekuensi kata) pada dokumen ke-n

negara 1 0.9542425

1 0 0 0 0 0 0 0

0.954

24251 0

timur 1 0.9542425

1 0 0 0 0 0 0 0

0.954

24251 0

dubai 1 0.9542425

1 0 0 0 0 0 0 0

0.954

24251 0

doha 1 0.9542425

1 0 0 0 0 0 0 0

0.954

24251 0

bangun 1 0.9542425

1 0 0 0 0 0 0 0

0.954

24251 0

absurd 1 0.9542425

1 0 0 0 0 0 0 0

0.954

24251 0

sumberd

aya

1 0.9542425

1 0 0 0 0 0 0 0 0

0.954

24251

mobilisa

si

1 0.9542425

1 0 0 0 0 0 0 0 0

0.954

24251

mempro

duksi

1 0.9542425

1 0 0 0 0 0 0 0 0

0.954

24251

huni 1 0.9542425

1 0 0 0 0 0 0 0 0

0.954

24251

69


a. Klasifikasi query uji dengan algoritma K-NN

1. Pre-proccessing query uji

Pada tahapan ini dilakukan seleksi kalimat netral dengan menggunakan kamus

sentimen yang ada.

a. Case Folding

kita dukung perintah presiden jokowi pindahkan ibu kota indonesia

#ibukotabaru #ibukotapindah #jokowi

b. Filtering


c. Tokenizing

Tabel 4. 15 Tokenizing Data Uji


d. Normalisasi

Tabel 4. 16 Normalisasi Data Uji

kita Dukung presiden jokowi pindahkan ibu kota indonesia

e. Stopwords

Tabel 4. 17 Stopwords Data Uji

dukung perintah presiden jokowi pindahkan indonesia

f. Stemming

Tabel 4. 18 Stemming Data Uji

dukung perintah presiden Jokowi pindah indonesia

g. Pembobotan kata

Hasil pembobotan kata setelah pre-processing diatas adalah kata kinerja dan

bagus berjumlah satu.

Hasil dari pre-proccessing adalah “dukung presiden jokowi pindah indonesia”.

Query Uji : kita dukung perintah Presiden Jokowi pindahkan ibu kota

Indonesia :#IbuKotaBaru #IbuKotaPindah #Jokowi

Tabel 4. 14 Query Uji

70


2. Menghitung kedekatan kemiripan query uji dengan data latih menggunakan rumus consine similarity

Untuk lebih jelasnya, tahapan ini akan dijelaskan sebagai lanjutan contoh dari proses pre-proccessing query diatas. Sebagai contoh

query yang sudah dilakukan pre-proccessing sebagai berikut.

Sebelum menghitung consine similarity terlebih dahulu dilakukan tahapan-tahapan berikut :

Menghitung bobot setiap kata dalam dokumen query uji terhadap bobot data latih.

Tabel 4. 20 Hasil Pembobotan Query Uji dengan data latih

Kosa

Kata

df Idf w(Q) w(D1) w(D2) w(D3) w(D4) w(D5) w(D6) w(D7) w(D8) w(D9)

dukung 2 0.653212

51

0.653212

51

0.653212

51

0.653212

51 0 0 0 0 0 0 0

perintah 1 0.954242

51

0.954242

51

0.954242

51 0 0 0 0 0 0 0 0

pindah 3 0.477121

25

0.477121

25

0.477121

25

0.477121

25

0.477121

25 0 0 0 0 0 0

temu 1 0.954242

51 0 0

0.954242

51 0 0 0 0 0 0 0

jokowi 1 0.954242

51

0.954242

51 0

0.954242

51 0 0 0 0 0 0 0

Query : dukung perintah presiden jokowi pindah indonesia

Tabel 4. 19 Query Uji

71


prabowo 1 0.954242

51 0 0

0.954242

51 0 0 0 0 0 0 0

tegas 1 0.954242

51 0 0

0.954242

51 0 0 0 0 0 0 0

ibukota 1 0.954242

51 0 0

0.954242

51 0 0 0 0 0 0 0

dampak 1 0.954242

51 0 0 0

0.954242

51 0 0 0 0 0 0

negatif 1 0.954242

51 0 0 0

0.954242

51 0 0 0 0 0 0

bijak 1 0.954242

51 0 0 0

0.954242

51 0 0 0 0 0 0

presiden 1 0.954242

51

0.954242

51 0 0

0.954242

51 0 0 0 0 0 0

joko 1 0.954242

51 0 0 0

0.954242

51 0 0 0 0 0 0

widodo 1 0.954242

51 0 0 0

0.954242

51 0 0 0 0 0 0

kaltim 1 0.954242

51 0 0 0

0.954242

51 0 0 0 0 0 0

kg 1 0.954242

51 0 0 0

0.954242

51 0 0 0 0 0 0

narkoba 1 0.954242

51 0 0 0

0.954242

51 0 0 0 0 0 0

72


masuk 1 0.954242

51 0 0 0

0.954242

51 0 0 0 0 0 0

pemkab 1 0.954242

51 0 0 0 0

0.954242

51 0 0 0 0 0

najam 1 0.954242

51 0 0 0 0

0.954242

51 0 0 0 0 0

paser 1 0.954242

51 0 0 0 0

0.954242

51 0 0 0 0 0

utara 1 0.954242

51 0 0 0 0

0.954242

51 0 0 0 0 0

cepat 1 0.954242

51 0 0 0 0

0.954242

51 0 0 0 0 0

sesuai 1 0.954242

51 0 0 0 0

0.954242

51 0 0 0 0 0

rencana 1 0.954242

51 0 0 0 0

0.954242

51 0 0 0 0 0

tata 1 0.954242

51 0 0 0 0

0.954242

51 0 0 0 0 0

ruang 1 0.954242

51 0 0 0 0

0.954242

51 0 0 0 0 0

wilayah 1 0.954242

51 0 0 0 0

0.954242

51 0 0 0 0 0

alias 1 0.954242

51 0 0 0 0

0.954242

51 0 0 0 0 0

73


rtrw 1 0.954242

51 0 0 0 0

0.954242

51 0 0 0 0 0

iring 1 0.954242

51 0 0 0 0

0.954242

51 0 0 0 0 0

realisasi 1 0.954242

51 0 0 0 0

0.954242

51 0 0 0 0 0

isu 1 0.954242

51 0 0 0 0 0

0.954242

51 0 0 0 0

viral 1 0.954242

51 0 0 0 0 0

0.954242

51 0 0 0 0

awal 1 0.954242

51 0 0 0 0 0 0

0.954242

51 0 0 0

mandat 1 0.954242

51 0 0 0 0 0 0

0.954242

51 0 0 0

rakyat 1 0.954242

51 0 0 0 0 0 0

0.954242

51 0 0 0

indonesi

a

1 0.954242

51

0.954242

51 0 0 0 0 0

0.954242

51 0 0 0

cipta 1 0.954242

51 0 0 0 0 0 0 0

1.9084

8502 0 0

peluang 1 0.954242

51 0 0 0 0 0 0 0

0.9542

4251 0 0

investasi 1 0.954242

51 0 0 0 0 0 0 0

0.9542

4251 0 0

74


hedge 1 0.954242

51 0 0 0 0 0 0 0

0.9542

4251 0 0

funds 1 0.954242

51 0 0 0 0 0 0 0

0.9542

4251 0 0

hubung 1 0.954242

51 0 0 0 0 0 0 0

0.9542

4251 0 0

ambil 1 0.954242

51 0 0 0 0 0 0 0 0

0.95424

251 0

contoh 1 0.954242

51 0 0 0 0 0 0 0 0

0.95424

251 0

negara 1 0.954242

51 0 0 0 0 0 0 0 0

0.95424

251 0

timur 1 0.954242

51 0 0 0 0 0 0 0 0

0.95424

251 0

dubai 1 0.954242

51 0 0 0 0 0 0 0 0

0.95424

251 0

doha 1 0.954242

51 0 0 0 0 0 0 0 0

0.95424

251 0

bangun 1 0.954242

51 0 0 0 0 0 0 0 0

0.95424

251 0

absurd 1 0.954242

51 0 0 0 0 0 0 0 0

0.95424

251 0

sumberd

aya

1 0.954242

51 0 0 0 0 0 0 0 0 0

0.9542

4251

75


Selanjutnya berdasarkan perhitungan bobot tersebut, hitung panjang vektor setiap dokumen. Tahapan yang dilakukan adalah sebagai

berikut :

1. Hitung hasil perkalian skalar antara query uji dan 9 dokumen lainnya (data latih).

Tabel 4. 21 Hasil perkalian skalar antara query dan data latih

Asal_dokumen_perkalian_skalar (WQ*WDi)

w(D1) w(D2) w(D3) w(D4) w(D5) w(D6) w(D7) w(D8) w(D9)

0.42668659 0.42668659 0 0 0 0 0 0 0

0.91057877 0 0 0 0 0 0 0 0

0.22764469 0.22764469 0.22764469 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0.91057877 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

mobilisa

si

1 0.954242

51 0 0 0 0 0 0 0 0 0

0.9542

4251

mempro

duksi

1 0.954242

51 0 0 0 0 0 0 0 0 0

0.9542

4251

huni 1 0.954242

51 0 0 0 0 0 0 0 0 0

0.9542

4251

76


0 0 0.91057877 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

77


0 0 0 0 0 0 0 0 0

0 0 0 0 0 0.91057877 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0

1.564910 1.564910 1.138223 0 0 0.910579 0 0 0

78


2. Hitung panjang setiap dokumen, termasuk query uji. Caranya dengan mengkuadratkan bobot setiap kata dalam setiap dokumen,

jumlahkan nilai kuadrat dan terakhir akarkan.

Tabel 4. 22 Hasil panjang setiap dokumen

w(Q) w(D1) w(D2) w(D3) w(D4) w(D5) w(D6) w(D7) w(D8) w(D9)

0.42668659 0.42668659 0.42668659 0 0 0 0 0 0 0

0.91057877 0.91057877 0 0 0 0 0 0 0 0

0.22764469 0.22764469 0.22764469 0.22764469 0 0 0 0 0 0

0 0 0.91057877 0 0 0 0 0 0 0

0.91057877 0 0.91057877 0 0 0 0 0 0 0

0 0 0.91057877 0 0 0 0 0 0 0

0 0 0.91057877 0 0 0 0 0 0 0

0 0 0.91057877 0 0 0 0 0 0 0

0 0 0 0.91057877 0 0 0 0 0 0

0 0 0 0.91057877 0 0 0 0 0 0

0 0 0 0.91057877 0 0 0 0 0 0

0.91057877 0 0 0.91057877 0 0 0 0 0 0

0 0 0 0.91057877 0 0 0 0 0 0

0 0 0 0.91057877 0 0 0 0 0 0

0 0 0 0.91057877 0 0 0 0 0 0

0 0 0 0.91057877 0 0 0 0 0 0

0 0 0 0.91057877 0 0 0 0 0 0

0 0 0 0.91057877 0 0 0 0 0 0

0 0 0 0 0.91057877 0 0 0 0 0

0 0 0 0 0.91057877 0 0 0 0 0

79


0 0 0 0 0.91057877 0 0 0 0 0

0 0 0 0 0.91057877 0 0 0 0 0

0 0 0 0 0.91057877 0 0 0 0 0

0 0 0 0 0.91057877 0 0 0 0 0

0 0 0 0 0.91057877 0 0 0 0 0

0 0 0 0 0.91057877 0 0 0 0 0

0 0 0 0 0.91057877 0 0 0 0 0

0 0 0 0 0.91057877 0 0 0 0 0

0 0 0 0 0.91057877 0 0 0 0 0

0 0 0 0 0.91057877 0 0 0 0 0

0 0 0 0 0.91057877 0 0 0 0 0

0 0 0 0 0.91057877 0 0 0 0 0

0 0 0 0 0 0.91058 0 0 0 0

0 0 0 0 0 0.91058 0 0 0 0

0 0 0 0 0 0 0.91057877 0 0 0

0 0 0 0 0 0 0.91057877 0 0 0

0 0 0 0 0 0 0.91057877 0 0 0

0.91057877 0 0 0 0 0 0.91057877 0 0 0

0 0 0 0 0 0 0 3.64232 0 0

0 0 0 0 0 0 0 0.91058 0 0

0 0 0 0 0 0 0 0.91058 0 0

0 0 0 0 0 0 0 0.91058 0 0

0 0 0 0 0 0 0 0.91058 0 0

0 0 0 0 0 0 0 0.91058 0 0

0 0 0 0 0 0 0 0 0.91058 0

80


0 0 0 0 0 0 0 0 0.91058 0

0 0 0 0 0 0 0 0 0.91058 0

0 0 0 0 0 0 0 0 0.91058 0

0 0 0 0 0 0 0 0 0.91058 0

0 0 0 0 0 0 0 0 0.91058 0

0 0 0 0 0 0 0 0 0.91058 0

0 0 0 0 0 0 0 0 0.91058 0

0 0 0 0 0 0 0 0 0 0.91058

0 0 0 0 0 0 0 0 0 0.91058

0 0 0 0 0 0 0 0 0 0.91058

0 0 0 0 0 0 0 0 0 0.91058

4.29665 1.564910047 5.207225114 9.33343236 12.74810274 1.821158 3.642315067 8.195209 7.28463 3.642315

2.07283534 1.250963647 2.281934511 3.05506667 3.570448534 1.349503 1.908485019 2.862728 2.699005 1.908485

Terapkan rumus consine similarity. Hitung kemiripan query dengan 9 dokumen lainnya (data latih).

Tabel 4. 23 Cosine Similarity

Cos(Q,D1) = 1.564910/ (2.07283534* 1.250963647) =1.564910/ 2.593041657= 0.603503628

Cos(Q,D2) = 1.564910/ (2.07283534* 2.281934511) = 1.564910/ 4.730074499= 0.330842579

Cos(Q,D3) = 1.138223/ (2.07283534*3.05506667) = 1.138223/ 6.332650161= 0.179738882

Cos(Q,D4) = 0 / (2.07283534*3.570448534) = 0 / 7.400951902= 0

Cos(Q,D5) = 0 / (2.07283534*1.349503) = 0 / 2.797297= 0

Cos(Q,D6) = 0.910579/ (2.07283534*1.908485019) = 0.910579/ 3.955975193= 0.230178078

Cos(Q,D7) = 0 / (2.07283534*2.862728) = 0/ 5.933963= 0

Cos(Q,D8) = 0 / (2.07283534*2.699005) = 0/ 5.594594= 0

Cos(Q,D9) = 0 / (2.07283534*1.908485) = 0 / 3.955975= 0

81


Hasil perhitungan dalam tabel :

Tabel 4. 24 Hasil Perhitungan Tabel

3. Menentukan besar nilai k pada algoritma K-NN

Menentukan nilai k pada algoritma K-NN. Nilai k merupakan parameter yang

akan membatasi ketetanggaan terdekat yang akan diproses pada tahap selanjutnya.

Ditentukan nilai k pada algoritma K-NN adalah 1. Sehingga berdasarkan nilai

tersebut ketetanggaan terdekat dengan query adalah sebagai berikut :

Setelah diurutkan (dari yang memiliki nilai terbesar)

4. Menyimpulkan orientasi sentimen sementara dengan persamaan 4.3

D1 = 0.603503628

D1 = Positif (Dokumen ke satu memiliki sentimen positif)

Dnn(c1,c2) = Positif

Dapat disimpulkan bahwa query uji memiliki sentimen Positif

4.5 Simulation Phase

Dalam tahap dimulai ini akan dilakukan simulasi aplikasi yang dimulai dari

input data mentah yang telah diambil dari Twitter API, tahap pelatihan, tahap

pengujian dan penilaian tingkat akurasi, presisi, f-measure dan recall algoritma K-

NN.

Adapun faktor-faktor dalam proses simulasi dapat dilihat

Tabel 4. 25 Faktor-faktor dalam proses simulasi

Variabel / Parameter

Simulasi Tahap Simulasi

Faktor 1 Tahap klasifikasi sentimen data latih

dengan metode lexicon based

Faktor 2 Tahap pelatihan data pada data latih

berdasarkan sentimen dan

(D1) (D2) (D3) (D4) (D5) (D6) (D7) (D8) (D9)

0.603503628 0.330842579 0.179738882 0 0 0.230178078 0 0 0

1 2 3 4 5 6 7 8 9

D1 D2 D6 D3 D4 D5 D7 D8 D9

82


penghitungan bobot menggunakan

TF-IDF

Faktor 3

Tahap pengujian data dengan

Algoritma K-NN berdasarkan nilai k

pada algoritma K-NN adalah 1,3,5,9

dan 10

Faktor 4

Tahap pengujian akurasi Algoritma K-

NN tahap menggunakan model

Confussion matrix

Variabel atau parameter simulasi yang digunakan dalam melakukan

skenario-skenario pengujian yaitu dengan menggunakan metode lexicon based dan

Algoritma K-Nearest Neighbor. Metode lexicon based digunakan untuk

memudahkan penulis dalam klasifikasi sentimen 900 data latih dan 100 data uji,

sementara Algoritma K-Nearest Neighbor digunakan untuk ekstraksi keyword pada

data latih (hasil ekstrasi data latih akan digunakan sebagai variabel input pada tahap

pengujian) dan klasifikasi sentimen 100 data uji dengan mengambil probabilitas

tertinggi. Pada penelitian ini Algoritma K-NN tersebut akan dibandingkan tingkat

akurasinya dan diambil tingkat akurasi tertinggi.

4.5.1 Tahap Pengujian Data Uji

Pengujian yang dilakukan adalah untuk mengklasifikasikan data uji kedalam

kelas positif, negatif atau netral dengan menggunakan algoritma K-NN. Proses

pengklasifikasian data uji akan dilakukan kedalam 5 skenario yaitu berdasarkan

penentuan nilai k pada algoritma K-NN dengan nilai k=1, k=3, k=5, k=9 dan k=10.

Pada tahapan ini terdapat informasi sejauh mana tingkat keberhasilan

kombinasi algoritma tersebut dalam mengklasifikasikan data uji kedalam kelasnya

yang dihitung berdasarkan tingkat akurasi, error rate, presisi, recall dan f-measure.

Berdasarkan pengujian dibagi menjadi dua, yaitu tahapan pengujian K-NN

dengan pengambilan data pertama pada tanggal 10 Oktober 2019 – 21 Oktober 2019

dan pengambilan data kedua pada tanggal 23 Januari 2020 – 02 Februari 2020.

1. Pengujian Data Pertama (10 Oktober 2019 – 21 Oktober 2019)

Tabel 4. 26 Pengujian I

83


Tingkat

(%)

k

1 3 5 9 10

Akurasi 59% 56% 61% 62% 58%

Error Rate 41% 44% 39% 38% 42%

Recall 54% 48% 64% 62% 67%

Presisi 69% 56% 57% 59% 58%

F-Measure 61% 52% 61% 61% 63%

2. Pengujian Data Kedua (23 Januari 2020 – 02 Februari 2020)

Tabel 4. 27 Pengujian II

Tingkat

(%)

k

1 3 5 9 10

Akurasi 59% 59% 64% 60% 62%

Error Rate 41% 41% 36% 40% 38%

Recall 80% 80% 73% 80% 80%

Presisi 74% 74% 81% 82% 82%

F-Measure 77% 77% 77% 81% 81%

4.6 Verification, Validation and Experimentation

Pembahasan pada sub bab ini akan dibahas pada BAB 5

4.7 Output Analysis Phase

Pembahasan pada sub bab ini akan dibahas pada BAB 5


BAB V

HASIL DAN PEMBAHASAN

5.1 Verification, Validation and Experimentation

Verifikasi dilakukan untuk memastikan bahwa setiap tahapan pada bab-bab

sebelumnya saling memiliki hubungan, dalam hal ini setiap tahapan bab akan diulas

kembali untuk memastikan tiap tahap tersebut saling terkait.

Dari tahapan problem formulation (formulasi masalah) dilakukan

pembahasan mengenai cara identifikasi masalah untuk dirumuskan dalam penulisan

skripsi, sehingga dari permasalahan tersebut dapat dikembangkan menjadi

pemodelan konsep sebagai solusi. Selanjutnya pada tahapan conceptual model

(pemodelan konsep), dilakukan pembahasan konsep secara keseluruhan pada

aplikasi analisis orientasi meliputi input, proses, eksperimen dan output yang

diharapkan. Pada tahapan collection input / output data, membahas input dan output

data. Berlanjut ke tahapan modelling phase (pemodelan) yang mana fase ini

berkaitan dengan mengolah data input dan output yang telah dibuat pada tahapan

sebelumnya. Pada dilakukan perhitungan sampel dan konstruksi klasifikasi

sentimen data latih menggunakan pendekatan lexicon, perhitungan sampel dan

konstruksi klasifikasi data uji menggunakan metode algoritma K-NN secara manual

untuk dapat dijadikan acuan dalam pembuatan aplikasi pada skripsi ini. Berikutnya

pada tahapan terakhir adalah simulation (simulasi), yaitu dengan melakukan

simulasi pada aplikasi analisis orientasi sentimen yang fungsinya

mengimplementasikan pemodelan-pemodelan manual yang sebelumnya. Oleh

karena itu pada setiap tahapan dapat dipastikan memiliki keterkaitan, karena setiap

tahapan yang dibuat akan berpengaruh untuk membuat tahapan selanjutnya. Maka

pada tahapan-tahapan yang dibahas pada bab sebelumnya harus sudah terverifikasi

sesuai dengan ketentuan verifikasi yang ada.

85


Dalam proses validasi dilakukan pengujian kebenaran sistem dengan

melakukan perbandingan antara kinerja algoritma K-NN dengan yang dihitung

secara manual dengan hasil aplikasi analisis orientasi sentimen sehingga

menghasilkan keakuratan sistem. Kemudian dilakukan eksperimen dengan

membandingkan hasil skenario yaitu hasil klasifikasi sentimen data uji

menggunakan algoritma K-NN dengan membandingkan hasil skenario-skenario

yang ada. Dari eksperimen tersebut dilakukan analisis outputnya yang akan dibahas

pada tahap selanjutnya yaitu output analysis phase.

5.2 Output Analysis Phase

Dalam melakukan analisis output, dilakukan terhadap hasil klasifikasi

sentimen publik terhadap pemindahan ibu kota Indonesia dengan menggunakan

algoritma K-NN. Output ini didapatkan dari aplikasi berbasis web menggunakan

bahasa pemrogaman PHP dan database MySQL yang dibangun sendiri oleh penulis

untuk membantu penelitian. Semua analisis dijelaskan sebagai berikut :

5.2.1 Analisis Sentimen Komentar Mengenai Pemindahan Ibu Kota

Indonesia Menggunakan Metode Algoritma K-NN

Pada Sub bab ini dijelaskan output hasil klasifikasi sentimen 100 data uji

yang diambil dari komentar masyarakat terhadap pemindahan ibu kota Indonesia

dari Twitter, karena klasifikasi menggunakan algoritma K-NN serta

menggunakan metode pendekatan lexicon pada data latih untuk mengetahui

sebenarnya dari 100 data uji tersebut, maka pada penelitian ini terdapat lima

output hasil klasifikasi sentimen dimasukkan ke dalam BAB LAMPIRAN.

Pendapat warganet mengenai pemindahan ibu kota Indonesia, pada data

pertama terdapat 44 data bersentimen netral dan pada data kedua terdapat 41 data

bersentimen positif. Jadi banyak masyarakat yang mendukung mengenai

pemindahan ibu kota Indonesia dan ada juga yang bersifat netral atau tidak

peduli terhadap pemindahan ibu kota Indonesia.

5.2.2 Analisis Implementasi Dan Kinerja Dari Metode Algoritma K-NN

Sub-bab ini akan menjelaskan mengenai hasil tingkat akurasi terhadap

kombinasi algoritma K-NN. Pada algoritma K-NN akan dilakukan pengujian

terhadap nilai k=1, 3, 5, 9 dan 10. Data latih yang digunakan adalah berjumlah 900

86


dokumen. Dan 100 dokumen data uji baru. Nilai kombinasi antara kedua algoritma

dengan akurasi tertinggi akan digunakan pada sistem analisis orientasi sentimen ini.

Hasil akurasi data pertama (10 Oktober 2019 – 23 Oktober 2019)

a. Hasil tingkat akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN sama

dengan 1.

Tabel 5. 1 Hasil akurasi K-NN dengan k = 1

Sentimen Kelas hasil prediksi

Positif Negatif Netral

Kelas

Sebenarnya

Positif a=20 b=4 c=13

Negatif d=3 e=14 f=9

Netral g=6 h=6 i=25

Berdasarkan hasil pengujian dari tabel diatas dapat diambil nilai akurasi

sebagai berikut :

𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 20 + 14 + 25

20 + 4 + 13 + 3 + 14 + 9 + 6 + +25× 100

𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 59

100× 100 = 59%

b. Hasil tingkat akurasi algoritma K-NN dengan nilai k pada algoritma K-NN sama

dengan 3.




Kelas

Sebenarnya



Netral g=19 h=3 i=25


sebagai berikut :

𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 18 + 13 + 25

18 + 4 + 15 + 5 + 13 + 8 + 19 + 3 + 25× 100


100× 100 = 56%

87


c. Hasil tingkat akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN sama

dengan 5.




Kelas

Sebenarnya





sebagai berikut :

𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 24 + 14 + 23

24 + 7 + 11 + 3 + 14 + 3 + 10 + 5 + 23× 100


100× 100 = 61%

d. Hasil tingkat akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN sama

dengan 9.

Tabel 5. 4 Hasil Akurasi K-NN dengan k = 9



Kelas

Sebenarnya





sebagai berikut :

𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 23 + 13 + 26

23 + 6 + 10 + 3 + 13 + 1 + 11 + 7 + 26× 100


100× 100 = 62%

e. Hasil tingkat akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN sama

dengan 10

Tabel 5. 5 Hasil akurasi K-NN dengan k =10

88




Kelas

Sebenarnya


Negatif d=4 f=11 f=11



sebagai berikut :

𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 25 + 11 + 22

25 + 4 + 14 + 3 + 11 + 1 + 9 + 11 + 22× 100


100× 100 = 58%

Hasil akurasi data kedua (23 Januari 2020 – 10 Februari 2020)

a Hasil tingkat akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN sama

dengan 1.




Kelas

Sebenarnya



Netral g=8 h=3 i=11


sebagai berikut :

𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 36 + 12 + 11

36 + 5 + 8 + 4 + 12 + 3 + 5 + 16 + 11× 100


100× 100 = 59%

b Hasil tingkat akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN sama

dengan 3.




89


Kelas

Sebenarnya



Netral g=8 h=3 i=11


sebagai berikut :

𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 36 + 12 + 11

36 + 5 + 8 + 4 + 12 + 3 + 5 + 16 + 11× 100


100× 100 = 59%

c Hasil Tingkat Akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN

sama dengan 5.




Kelas

Sebenarnya



Netral g=4 h=3 i=15


sebagai berikut :

𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 33 + 16 + 15

33 + 4 + 4 + 4 + 16 + 3 + 8 + 13 + 15× 100


100× 100 = 64%

d Hasil tingkat akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN sama

dengan 9.




Kelas

Sebenarnya




90



sebagai berikut :

𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 36 + 13 + 11

36 + 7 + 1 + 0 + 13 + 10 + 9 + 13 + 11× 100


100× 100 = 60%

e Hasil Tingkat Akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN

sama dengan 10

Tabel 5. 10 Hasil akurasi K-NN dengan k =10



Kelas

Sebenarnya





sebagai berikut :

𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 36 + 15 + 11

36 + 7 + 1 + 0 + 15 + 10 + 9 + 11 + 11× 100


100× 100 = 62%

Keterangan :

a jumlah record positif yang diklasifikasikan sebagai positif

b jumlah record positif yang diklasifikasikan sebagai negatif

c jumlah record positif yang diklasifikasikan sebagai netral

d jumlah record negatif yang diklasifikasikan sebagai positif

e jumlah record negatif yang diklasifikasikan sebagai negatif

f jumlah record negatif yang diklasifikasikan sebagai netral

g jumlah record netral yang diklasifikasikan sebagai positif

h jumlah record netral yang diklasifikasikan sebagai negatif

i jumlah record netral yang diklasifikasikan sebagai netral

Secara keseluruhan hasil eksperimen ke 10 skenario pada penelitian ini

dirangkum berdasarkan gambar sebagai berikut :

91


Hasil pengujian data pertama

Gambar 5. 1 Grafik K-NN Data I

Berdasarkan grafik pada gambar diatas maka didapatkan hasil analisis

sebagai berikut :

1. Pada eksperimen pertama, K-NN dengan parameter k=1 menghasilkan tingkat

akurasi sebesar 59% dengan error rate sebesar 41%, f-measure sebesar 0,606,

presisi sebesar 0,689 dan recall sebesar 54%.

2. Pada eksperimen kedua, K-NN dengan parameter k=3 menghasilkan tingkat


presisi sebesar 0,562 dan recall sebesar 48%. Pada eksperimen kedua tingkat

akurasi mengalami penurunan 3% pada paramater k=3.

3. Pada eksperimen ketiga, K-NN dengan parameter k=5 menghasilkan tingkat


presisi sebesar 0,571 dan recall sebesar 64%. Eksperimen ketiga mengalami

peningkatan akurasi 5% dibandingkan sebelumnya.

4. Pada eksperimen keempat, K-NN dengan parameter k=9 menghasilkan

tingkat akurasi sebesar 62% dengan error rate sebesar 38%, f-measure

sebesar 0,605, presisi sebesar 0,589 dan recall sebesar 62%. Eksperimen

keempat peningkatan akurasi 1 % dari eksperimen ketiga.

5. Pada eksperimen kelima, K-NN dengan parameter k=10 menghasilkan tingkat


5956

61 6258

68

56 57 59 5860

52

60 60 62

5448

64 6267

0

10

20

30

40

50

60

70

80

Unigram k=1 Unigram k=3 Unigram k=5 Unigram k=9 Unigram k=10

K-NN Data I

Akurasi Presisi F-Measure Recall

92


presisi sebesar 0,581 dan recall sebesar 67%. Eksperimen kelima mengalami

penurunan akurasi sebesar 4% dari eksperimen sebelumnya dalam algoritma

K-NN.

6. Dari kelima eksperimen/skenario K-NN yang dilakukan peneliti, tingkat

tertinggi akurasi ada pada eksperimen keempat algoritma K-NN dengan

tingkat akurasi sebesar 62% pada parameter k = 9. Sementara tingkat terendah

akurasi jatuh pada eksperimen kedua algoritma K-NN parameter k = 3 dengan

tingkat akurasi sebesar 56%.

7. Perhitungan recall tertinggi pada K-NN jatuh pada eksperimen kelima sebesar

67%, Semakin tinggi nilai recall yang dihasilkan maka sistem dapat

memprediksi kelas yang diidentifikasi dengan benar.

8. Perhitungan f-measure terhadap algoritma K-NN kelima eksperimen yang

tertinggi ada pada eksperimen kelima sebesar 0,625. Sementara nilai f-

measure terkecil ada pada eksperimen kedua sebesar 0,562 diikuti dengan

tingkat akurasi yang paling rendah. Artinya nilai f-measure menunjukan

semakin tinggi nilai f-measure (mendekati nilai 1) yang dihasilkan semakin

bagus kerja klasifikasi dalam memprediksi.

Hasil pengujian data kedua

Gambar 5. 2 Grafik K-NN Data II

59 5964

60 62

73 73

80 81 8176 76 76

80 8080 80

73

80

67

0

10

20

30

40

50

60

70

80

90

Unigram k=1 Unigram k=3 Unigram k=5 Unigram k=9 Unigram k=10

K-NN Data II

Akurasi Presisi F-Measure Recall

93


Berdasarkan grafik pada gambar diatas maka didapatkan hasil analisis

sebagai berikut :

1. Pada eksperimen pertama, K-NN dengan parameter k=1 menghasilkan tingkat

akurasi yang dihasilkan pada skenario pertama sebesar 59%, error rate

sebesar 41%, recall sebesar 80%, presisi sebesar 0,735 dan f-measure sebesar

0,766.

2. Pada eksperimen kedua, K-NN dengan parameter k=3 menghasilkan tingkat

akurasi yang dihasilkan pada skenario kedua sebesar 59%, error rate sebesar

41%, recall sebesar 80%, presisi sebesar 0,735 dan f-measure sebesar 0,766.

Pada eksperimen kedua akurasi stabil atau sama dengan pertama.

3. Pada eksperimen ketiga, K-NN dengan parameter k=5 menghasilkan tingkat

akurasi yang dihasilkan pada skenario ketiga sebesar 64%, error rate sebesar


Eksperimen ketiga mengalami peningkatan akurasi 5% dibandingkan

sebelumnya.

4. Pada eksperimen keempat, K-NN dengan parameter k=9 menghasilkan

tingkat akurasi yang dihasilkan pada skenario keempat sebesar 60%, error

rate sebesar 40%, recall sebesar 80%, presisi sebesar 0,818 dan f-measure

sebesar 0,809. Eksperimen keempat penurunan akurasi 4 % dari eksperimen

ketiga.

5. Pada eksperimen kelima, K-NN dengan parameter k=10 menghasilkan tingkat

akurasi yang dihasilkan pada skenario kelima sebesar 62%, error rate sebesar


Eksperimen kelima mengalami peningkatan akurasi sebesar 2% dari

eksperimen sebelumnya dalam algoritma K-NN.

6. Dari kelima eksperimen/skenario K-NN yang dilakukan peneliti, tingkat

tertinggi akurasi ada pada eksperimen keempat algoritma K-NN dengan

tingkat akurasi sebesar 64% pada parameter k = 5. Sementara tingkat terendah

akurasi jatuh pada eksperimen kedua algoritma K-NN parameter k = 1 dan 3

dengan tingkat akurasi sebesar 59%.

94


7. Perhitungan recall tertinggi pada K-NN jatuh pada eksperimen kesatu, ketiga

dan kesembilan sebesar 80%. Semakin tinggi nilai recall yang dihasilkan

maka sistem dapat memprediksi kelas yang diidentifikasi dengan benar.

8. Perhitungan f-measure terhadap algoritma K-NN kelima eksperimen yang

tertinggi ada pada eksperimen keempat dan kelima sebesar 0,809. Sementara

nilai f-measure terkecil ada pada eksperimen kesatu dan kedua sebesar 0,766

diikuti dengan tingkat akurasi yang paling rendah. Artinya nilai f-measure

menunjukan semakin tinggi nilai f-measure (mendekati nilai 1) yang

dihasilkan semakin bagus kerja klasifikasi dalam memprediksi..


BAB VI

KESIMPULAN DAN SARAN

6.1 Kesimpulan

Berdasarkan rumusan masalah dan penejelasan yang telah peneliti

deskripsikan pada bab sebelumnya, maka peneliti dapat menarik kesimpulan

sebagai berikut:

1. Pendapat warganet mengenai pemindahan ibu kota Indonesia, pada data pertama

terdapat 44 data bersentimen netral dan pada data kedua terdapat 41 data

bersentimen positif. Jadi banyak masyarakat yang mendukung mengenai

pemindahan ibu kota Indonesia dan ada juga yang bersifat netral atau tidak

peduli terhadap pemindahan ibu kota Indonesia.

2. Nilai k optimal dalam melakukan proses klasifikasi algoritma K-NN mencapai

tingkat akurasi pada k=9 dengan tingkat akurasi mencapai 62% dan error rate

sebesar 38%, recall sebesar 62%, presisi sebesar 0,589 dan f-measure sebesar

0,605. Sedangkan pada pengumpulan data kedua K-NN memiliki tingkat akurasi

yang dihasilkan pada skenario ketiga sebesar 64%, error rate sebesar 36%,

recall sebesar 73%, presisi sebesar 0,805 dan f-measure sebesar 0,767

6.1 Saran

Ada beberapa hal yang perlu dipertimbangkan untuk mengembangkan

aplikasi ini agar lebih baik, yaitu:

1. Sistem ini hanya dapat mengklasifikasi data teks berbahasa Indonesia saja dan

tidak mengklasifikasi gambar. Diharapkan dapat dikembangkan dalam berbagai

bahasa dan mengklasifikasi yang mengandung gambar. Diharapkan dalam

pengembangan sistem selanjutnya, sistem ini dapat diaplikasikan pada semua

platfrom.

2. Diharapakan dalam pengembangan sistem selanjutnya, sistem ini dapat

ditambah fitur ekstraksi bigram, trigram, quadgram dan seterusnya. Adanya

peningkatan koleksi kamus sentimen khususnya dalam bahasa Inggris dan fitur

hitung akurasi dengan metode lain sehingga diharapkan dapat meningkatkan

akurasi.


DAFTAR PUSTAKA

Al-Bahra. 2010. Analisis dan Desain Sistem Informasi. Graha Ilmu.

Anonim. 2018. http://socs.binus.ac.id/2013/06/22/natural-language-processing

Asosiasi Penyelenggara Jasa Internet Indonesia (APJII). 2018. apjii.or.id/survei2017

Azhar (2018). Analisis Kinerja Algoritma Naïve Bayes dan K-Nearest Neighbor

pada Sentimen Analisis Dengan Pendekatan Lexicon pada Twitter

Bagir Muhammad, Indah Ayu Yuliani. 2012. Database Introduction. Depok: CCIT-

FTUI.

Bhonde, Rhesma et al.(2015). Sentimen Analysis Based on Dictionary Approach.

Feldman, R., & Sanger, J. (2007). Advanced Approaches in Analyzing Unstructured

Data, The Text Mining Handbook. New York: Cambirdge.

Kadir, A. (2012). Algoritma dan Pemrograman Menggunakan C & C++. (B. R. W,

Ed.) (1st ed.). Yogyakarta: Andi

Krisandi, Nobertus.,dkk (2013). Algoritma K-Nearest Neighbor Dalam Klasifikasi

Data Hasil Produksi Kelapa Sawit Pada PT.Minamas Kecamatan Parindu.

Buletin Ilmiah Math.Stat. dan Terapannya (Bimaster) Volume 02, No.01

2013: hal. 33-38

Liu, B. (2012). Sentimen Analysis and Opinion Mining. (H. Graeme, Ed.) (1st ed.).

Chicago : Morgan & Claypool Publisher. Retrieved from

https://www.cs.uic.edu/~liub/FBS/SentimenAnalysis-and-

OpinionMining.pdf

Liu, B. (2015). Sentimen Analysis: Opinion Mining, Sentimen, and Emotions. (H.

Graeme, Ed.) (1st ed.). Chicago : Morgan & Claypool Publisher. Retrieved

from https://www.cs.uic.edu/~liub/FBS/chapter-1-and-chapter-2.pdf

Matulatuwa, F. M., Studi, P., Sistem, M., Informasi, F. T., Kristen, U., & Wacana,

S. (2017). Text Mining dengan Metode Lexicon Based untuk Sentimen

Analysis Pelayanan PT. POS Indonesia Melalui Media Sosial Twitter

Jurnal, (September).

Madani, S. A., Kazmi, J., & Mahlknecht, S. (2014). Wireless sensor networks:

modeling and simulation. InTech.

http://socs.binus.ac.id/2013/06/22/natural-language-processing

https://apjii.or.id/survei2017

https://www.cs.uic.edu/~liub%20/FBS/SentimentAnalysis-and-OpinionMining.pdf

https://www.cs.uic.edu/~liub%20/FBS/SentimentAnalysis-and-OpinionMining.pdf

https://www.cs.uic.edu/~liub/FBS/chapter-1-and-chapter-2.pdf

97


Munir, R. (2011). Algoritma dan pemrograman : Dalam bahasa pascal dan C.

Bandung: Informatika.

Nurjanah, W. E., Perdana, R. S., & Fauzi, M. A. (2017). Analisis Sentimen

Terhadap Tayangan Televisi Berdasarkan Opini Masyarakat pada Media

Sosial Twitter menggunakan Metode K-Nearest Neighbor dan

Pembobotan Jumlah Retweet, 1(12), 1750–1757.

Oktinas, Willa (2017). Analisis Sentimen Pada Acara Televisi Menggunakan

Improved K-Neasrest Neighbor Tugas Akhir Teknik Informatika. Medan:

Universitas Sumatra Utara

Prasetyo, E. (2012). Data Mining Konsep dan Aplikasi Menggunakan Matlab (1st

ed.).

Pustejovsky, James. 2012. Natural Language Annotation For Machine Learning.

Oreilly Media.

Raharjo, B., Heryanto, I., & Rk, E. (2012). Modul Pemrograman Web HTML, PHP

& MYSQL. Bandung: Modula.

Sucitra Sahara (2016). Penerapan Metode K-Nearest Neighbors untuk analisis

sentimen review game pada Android

Rustina, Rahayu 2017. Komparasi metode K-Nearest Neighbor dan Support Vector

Machine pada sentimen review kamera

Twitter. (2013). Pengertian Twitter.

www.socs.binus.ac.id. (2013). Natural Language Processing. Retrieved March 15,

2019, from http://socs.binus.ac.id/2013/06/22/NATURAL-LANGUAGE-

PROCESSING


LAMPIRAN

Hasil Pengambilan Data Pertama :

Tabel Lampiran 1 Hasil Data Pertama

Data

ke-n

Klasifikasi algoritma K-NN dengan 5 parameter Kelas

Sebenarnya k=1 k=3 k=5 k=9 k=10

1 NETRAL POSITIF POSITIF POSITIF POSITIF NETRAL

2 POSITIF POSITIF POSITIF POSITIF POSITIF NEGATIF

3 NETRAL NETRAL POSITIF POSITIF POSITIF NETRAL

4 POSITIF POSITIF POSITIF POSITIF POSITIF NETRAL

5 NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF

6 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF

7 POSITIF POSITIF POSITIF POSITIF NETRAL NEGATIF


9 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL

10 NETRAL NETRAL NEGATIF NETRAL NETRAL NEGATIF





15 POSITIF POSITIF POSITIF NETRAL POSITIF NETRAL


17 NEGATIF NETRAL NETRAL NETRAL NETRAL POSITIF

18 NEGATIF NEGATIF NETRAL NETRAL NETRAL NETRAL

19 NEGATIF NETRAL POSITIF POSITIF POSITIF POSITIF


21 NEGATIF NEGATIF POSITIF POSITIF POSITIF POSITIF


23 NETRAL POSITIF NETRAL POSITIF POSITIF NETRAL

99






28 NETRAL NETRAL NETRAL NEGATIF NEGATIF NEGATIF

29 NETRAL POSITIF POSITIF NETRAL POSITIF POSITIF


31 NETRAL NETRAL NETRAL NETRAL NETRAL NEGATIF

32 NEGATIF NETRAL NEGATIF NETRAL NETRAL NETRAL






38 NEGATIF NETRAL NETRAL NETRAL NETRAL NEGATIF



41 NEGATIF POSITIF POSITIF POSITIF POSITIF POSITIF

42 NETRAL POSITIF POSITIF NETRAL NETRAL NEGATIF

43 POSITIF POSITIF NETRAL POSITIF POSITIF NETRAL



46 POSITIF POSITIF POSITIF NETRAL POSITIF NETRAL


48 NETRAL NETRAL NETRAL NETRAL NETRAL POSITIF

49 NEGATIF NEGATIF NEGATIF NETRAL POSITIF NETRAL

50 NETRAL NETRAL NETRAL NETRAL POSITIF NETRAL



53 NETRAL POSITIF POSITIF POSITIF POSITIF NEGATIF

100


54 NETRAL NETRAL POSITIF NEGATIF NEGATIF POSITIF




58 NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF NETRAL





63 POSITIF NEGATIF POSITIF POSITIF POSITIF POSITIF




67 NETRAL NETRAL POSITIF NETRAL NETRAL POSITIF

68 NEGATIF NEGATIF NEGATIF NEGATIF NETRAL NEGATIF


70 NETRAL NEGATIF NEGATIF NEGATIF NEGATIF POSITIF

71 NEGATIF NETRAL POSITIF NETRAL NETRAL NETRAL

72 NEGATIF POSITIF POSITIF POSITIF POSITIF NETRAL


74 NETRAL NEGATIF NEGATIF NEGATIF NEGATIF POSITIF






80 POSITIF NETRAL NEGATIF NETRAL POSITIF POSITIF




101



85 NETRAL NETRAL POSITIF POSITIF POSITIF POSITIF

86 NETRAL NETRAL POSITIF POSITIF POSITIF NEGATIF

87 NETRAL NETRAL NETRAL POSITIF POSITIF POSITIF



90 NEGATIF NEGATIF POSITIF POSITIF POSITIF NEGATIF



93 NEGATIF NEGATIF NEGATIF NEGATIF NETRAL NEGATIF

94 POSITIF POSITIF POSITIF POSITIF NETRAL NEGATIF

95 POSITIF NETRAL NETRAL NETRAL NETRAL POSITIF

96 POSITIF NETRAL NETRAL NETRAL NETRAL POSITIF





Hasil Pengambilan Data Kedua :

Tabel Lampiran 2 Hasil Data Kedua

Data

ke-n

Klasifikasi algoritma K-NN dengan 5 parameter Kelas

Sebenarnya k=1 k=3 k=5 k=9 k=10











102















24 POSITIF POSITIF NETRAL NETRAL NETRAL POSITIF




28 NEGATIF NEGATIF NEGATIF POSITIF POSITIF NEGATIF

29 NETRAL NETRAL NEGATIF NETRAL NETRAL POSITIF

30 POSITIF POSITIF NETRAL NEGATIF NEGATIF NETRAL








38 POSITIF POSITIF POSITIF NEGATIF NEGATIF NETRAL


40 NETRAL NETRAL NETRAL NEGATIF NEGATIF NEGATIF

103



42 NEGATIF NEGATIF NEGATIF NETRAL NETRAL NETRAL




46 NEGATIF NEGATIF NEGATIF NETRAL POSITIF POSITIF

47 POSITIF POSITIF POSITIF NEGATIF NEGATIF NEGATIF

48 POSITIF POSITIF NEGATIF NEGATIF NEGATIF NEGATIF

49 NEGATIF NEGATIF NEGATIF NETRAL NETRAL POSITIF





54 NETRAL NETRAL NETRAL POSITIF POSITIF NEGATIF
















70 POSITIF POSITIF POSITIF NETRAL NETRAL NEGATIF

104



72 NEGATIF NEGATIF NEGATIF NETRAL NEGATIF NEGATIF



75 NETRAL NETRAL NETRAL NEGATIF NEGATIF NETRAL


77 NEGATIF NEGATIF NEGATIF NETRAL NETRAL NEGATIF


79 NEGATIF NEGATIF NETRAL NETRAL NETRAL POSITIF





84 NEGATIF NEGATIF NEGATIF POSITIF NETRAL POSITIF




88 NETRAL NETRAL NEGATIF NETRAL NEGATIF NEGATIF




92 NETRAL NETRAL NEGATIF NEGATIF NEGATIF NEGATIF