ANALISIS SENTIMEN TERHADAP PEMINDAHAN
IBU KOTA INDONESIA PADA MEDIA SOSIAL
TWITTER MENGGUNAKAN METODE ALGORITMA
K-NEAREST NEIGHBOR (K-NN)
SKRIPSI
Oleh
Muhammad Ilham Ramadhon
11140910000103
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS ISLAM NEGERI SYARIF
HIDAYATULLAH JAKARTA
2020 M / 1441 H
ANALISIS SENTIMEN TERHADAP PEMINDAHAN
IBU KOTA INDONESIA PADA MEDIA SOSIAL
TWITTER MENGGUNAKAN METODE ALGORITMA
K-NEAREST NEIGHBOR (K-NN)
SKRIPSI
Untuk Memenuhi Persyaratan Memperoleh Gelar Sarjana Komputer
Fakultas Sains dan Teknologi
Disusun Oleh :
Muhammad Ilham Ramadhon
11140910000103
PROGRAM STUDI TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS ISLAM NEGERI SYARIF
HIDAYATULLAH JAKARTA
2020 M/1441 H
i UIN SYARIF HIDAYATULLAH JAKARTA
PERNYATAAN ORISINALITAS
ii UIN SYARIF HIDAYATULLAH JAKARTA
LEMBAR PERSETUJUAN PEMBIMBING
“ANALISIS SENTIMEN TERHADAP PEMINDAHAN IBU
KOTA INDONESIA PADA MEDIA SOSIAL TWITTER
MENGGUNAKAN METODE ALGORITMA K-NEAREST
NEIGHBOR (K-NN)”
SKRIPSI
Sebagai Salah Satu Syarat Untuk
Memperoleh Gelar Sarjana Komputer (S.Kom)
Oleh :
Muhammad Ilham Ramadhon
11140910000103
Menyetujui,
Dosen Pembimbing I, Dosen Pembimbing II,
Arini, MT Fitri Mintarsih, M.Kom
NIP. 19760131 200901 2 001 NIP. 197212233 200710 2 004
Mengetahui,
Ketua Program Studi Teknik Informatika
Dr. Imam Marzuki Shofi, M.T.
NIP. 19720205 200801 1 010
iii UIN SYARIF HIDAYATULLAH JAKARTA
LEMBAR PENGESAHAN
Skripsi berjudul “Analisis Sentimen Terhadap Pemindahan Ibu Kota Indonesia
Pada Media Sosial Twitter Menggunakan Metode Algoritma K-Nearest
Neighbor (K-NN)” yang ditulis oleh Muhammad Ilham Ramadhon, NIM
11140910000103 telah diujikan dalam sidang munaqasyah Fakultas Sains dan
Teknologi UIN Syarif Hidayatullah Jakarta pada 10 Februari 2020. Skripsi ini telah
diterima sebagai salah satu syarat memperoleh gelar Sarjana Komputer (S.Kom)
pada Program Studi Teknik Informatika.
Jakarta, 10 Februari 2020
Tim Penguji,
Penguji I, Penguji II,
Dewi Khairani, M.Sc Fenty Eka Muzayyana A, M.Kom
NIP. 19820522 201101 2 009 NIP. 19760805 200912 2 003
Tim Pembimbing,
Dosen Pembimbing I, Dosen Pembimbing II,
Arini, MT Fitri Mintarsih, M.Kom
NIP. 19760131 200901 2 001 NIP. 19721223 200710 2 004
Mengetahui
Dekan Ketua Program
Fakultas Sains dan Teknologi Studi Teknik Informatika,
Prof. Dr. Lily Surraya Eka Putri, M.Env.Stud Dr. Imam Marzuki Shofi, M.T.
NIP. 19690404 200501 2 005 NIP. 19720205 200801 1 010
iv UIN SYARIF HIDAYATULLAH JAKARTA
PERNYATAAN PERSETUJUAN PUBLIKASI SKRIPSI
v UIN SYARIF HIDAYATULLAH JAKARTA
KATA PENGANTAR
Puji syukur penulis panjatkan kepada Allah SWT, karena atas nikmat dan
rahmat-Nya sehingga penulis dapat menyeselaikan skripsi ini. Penulisan skripsi ini
dilakukan dalam rangka memenuhi salah satu syarat untuk mencapai salah satu
syarat untuk mencapai gelar Sarjana Komputer Program Studi Teknik Informatika
Fakultas Sains dan Teknologi Universitas Islam Negeri Syarif Hidayatullah Jakarta.
Proses penyeselaian skripsi ini tidak lepas dari berbagai bantuan, dukungan, saran,
dan kritik yang telah penulis dapatkan, oleh karena itu dalam kesempatan ini
peneliti ingin mengucapkan terima kasih kepada:
1. Kedua orang tua penulis, yaitu Bapak Senen dan Ibu Siti Wachidah serta
keluarga besar yang telah mencurahkan kasih saying dan selalu memberikan
dukungan penuh serta iringan do’a kepada penulis dalam menyeselaikan
skripsi ini.
2. Ibu Prof. Dr. Lily Surraya Eka Putri. M.Env.Stud, selaku Dekan Fakultas
Sains dan Teknologi
3. Bapak Imam Marzuki Shofi, M.T., selaku ketua Program Studi Teknik
Informatika, serta Bapak Andrew Fiade M.Kom., selaku sekretaris Program
Studi Teknik Informatika
4. Ibu Arini, MT selaku dosen pembimbing satu.
5. Ibu Fitri Mintarsih, M.Kom selaku dosen pembimbing kedua.
6. Seluruh Dosen, Staff Karyawan Fakultas Sains dan Teknologi, khususnya
Program Studi Teknik Informatika yang telah memberikan bantuan dan
kerjasama dari awal perkuliahan.
7. Teman-teman seperjuangan Teknik Informatika CCIT angkatan 2014
khusunya TI-A, dan TI-B. Terima kasih buat semua kenangan dan
kebersamaan selama ini.
8. Sahabat baik, teman berbagi cerita, canda tawa bersama semasa kuliah, yaitu:
Azhar, Amir, M. Taufik, Desy, Adi, dan Mahdi.
9. Teman-teman yang memberikan support dan semangat selalu, yaitu warsep
family.
vi UIN SYARIF HIDAYATULLAH JAKARTA
10. Seluruh pihak yang secara langsung maupun tidak langsung membantu
penulis dalam menyelesaikan skripsi ini.
Akhir kata, penulis menyadari bahwa dalam penyajian skripsi ini masih jauh
dari sempurna. Apabila ada kebenaran dari makalah ini maka kebenaran tersebut
datangnya dari Allah SWT, tetapi apabila ada kesalahan dalam makalah ini maka
kesalahan ini berasal dari penulis. Semoga Allah SWT meridhoi segala usaha kita.
Wassalamualaikum Wr. Wb
Jakarta, 10 Februari 2020
Muhammad Ilham Ramadhon
11140910000103
vii UIN SYARIF HIDAYATULLAH JAKARTA
Nama : Muhammad Ilham Ramadhon
Program Studi : Teknik Informasi
Judul : Analisis Sentimen Komentar Terhadap Pmindahan
Ibu Kota Indonesia Pada Media Sosial Twitter
Menggunakan Metode Algoritma K-Nearest
Neighbor (K-NN)
ABSTRAK
Analisis sentimen merupakan jenis natural language yaitu pengolahan kata untuk
mengetahui opini, sikap atau mood masyarakat tentang suatu hal tertentu.
Pengolahan kata dalam penelitian ini berkaita dengan proses klasifikasi dokumen
tekstual ke dalam sentimen positif dan sentimen negatif. Data diperoleh dari media
sosial twitter berkaitan dengan komentar masyarakat terhadap pemindahan ibu kota
Indonesia dari Jakarta ke Kalimantar Timur dengan keyword ibu kota baru,
pemindahan ibu kota, dan ibu kota pindah sebanyak 1.000 komentar menggunakan
teknik crawling data. Pada penelitian ini penulis menggunakan algoritma K-Nearest
Neighbor (K-NN) dalam melakukan pengklasifikasian terhadap data uji dan data
latih menggunakan pendekatan lexicon dalam klasifikasi data uji. Penelitian ini
bertujuan untuk mengetahui tingkat akurasi, error rate, presisi, f-measure, dan
recall dengan menggunakan algoritma K-Nearest Neighbor (K-NN). Pengujian juga
dilakukan terhadap penentuan nilai k pada algoritma K-Nearest Neighbor (K-NN)
untuk mencari parameter terbaik. Kesimpulan dari pada pengambilan data pertama
pengujian algoritma K-Nearest Neighbor (K-NN) dengan tingkat akurasi terbaik
yaitu sebesar 62% dengan nilai k adalah k=9. Pada pengambilan data kedua
pengujian algoritma K-Nearest Neighbor (K-NN) dengan tingkat akurasi terbaik
yaitu sebesar 64% dengan nilai k adalah k=5. Saran untuk peneliti selanjutnya dapat
mengembangkan teks selain bahasa Indonesia dan dapat mengklasifikasi yang
mengandung gambar. Lalu peningkatan koleksi kamus, ekstraksi fitur bigram,
trigram, quadgram dan seterusnya. Kemudian dalam fitur hitung akurasi dapat
menggunakan metode algoritma lain.
Kata kunci : Analisis Sentimen, Perbandingan, Twitter, klasifikasi, K-
Nearest Neighbor (K-NN), Lexicon.
Daftar Pustaka : 24 (2003 - 2018)
Jumlah Halaman : VI BAB + xv Halaman + 106 Halaman + 19 Gambar + 45
Tabel
viii UIN SYARIF HIDAYATULLAH JAKARTA
Name : Muhammad Ilham Ramadhon
Study Program : Informatics Engineering
Title : Analysis Sentimen Comment of Indonesian Capital
Movements on Twitter Sosial Media Using the K-
Nearest Neighbor (K-NN)
ABSTRACT
Sentimen Analysis is a type of natural language that is word processing to find out
people's opinions, attitudes or moods about a particular thing. Word processing in
this study is related to the process of classifying textual documents into positive and
negatif sentimens. Data obtained from sosial media Twitter related to netizens'
comments on moving the Indonesian capital from Jakarta to East Kalimantan with
the keyword new capital, moving capital, and moving the capital of 1.000 comments
using data crawling techniques. In this study the authors to classification the
performance of the K-Nearest Neighbor (K-NN) and training data using the lexicon
approach in the classification of test data. This study aims to determine the level of
accuracy, precision, recall by using the K-Nearest Neighbor (K-NN). Testing is also
carried out on determining the value of k on the K-Nearest Neighbor (K-NN)
algorithm to find the best parameters. The conclusion of the first data collection
testing the K-Nearest Neighbor (K-NN) algorithm with the best level of accuracy
that is equal to 62% with the value of k is k = 9. In taking the second data testing
K-Nearest Neighbor (K-NN) algorithm with the best level of accuracy that is equal
to 64% with the value of k is k = 5. Suggestions for future researchers can develop
texts other than Indonesian and can classify those containing images. Then an
increase in dictionary collections, feature extraction of bigram, quadgram,
trigrams and so on. Then the accuracy calculation feature can use other algorithm
methods.
Keywords : Sentimen analysis, Comparison, Twitter, Classification, K-
Nearest Neighbor (K-NN), Lexicon.
Bibliography : 24 (2003-2018)
Page Number : VI Chapters + xv Pages + 106 Pages + 19 Pictures + 45
Tables
ix UIN SYARIF HIDAYATULLAH JAKARTA
DAFTAR ISI
LEMBAR PERSETUJUAN PEMBIMBING ...................................................... i
LEMBAR PENGESAHAN ................................................................................. iii
PERNYATAAN PERSETUJUAN PUBLIKASI SKRIPSI .............................. iv
KATA PENGANTAR ............................................................................................ v
ABSTRAK ........................................................................................................... vii
ABSTRACT ......................................................................................................... viii
DAFTAR ISI ......................................................................................................... ix
DAFTAR GAMBAR .......................................................................................... xiii
DAFTAR TABEL .............................................................................................. xiv
BAB I PENDAHULUAN ....................................................................................... 1
1.1 Latar Belakang ......................................................................................... 1
1.2 Rumusan Masalah .................................................................................... 6
1.3 Batasan Masalah ....................................................................................... 6
1.3.1 Proses ................................................................................................ 6
1.3.2 Metode............................................................................................... 7
1.3.3 Tools .................................................................................................. 7
1.4 Tujuan Penelitian ...................................................................................... 7
1.5 Manfaat Penelitian .................................................................................... 7
1.6 Metodologi Penelitian .............................................................................. 8
1.6.1 Pengumpulan Data ............................................................................ 8
1.6.2 Analisis Pengembangan Sistem ........................................................ 8
1.7 Sistematika Penulisan ............................................................................... 9
x UIN SYARIF HIDAYATULLAH JAKARTA
BAB II LANDASAN TEORI .............................................................................. 10
2.1 Analisis Sentimen ................................................................................... 10
2.1.1 Level Analisis Sentimen ................................................................. 10
2.2 Pemindahan Ibu Kota ............................................................................. 11
2.3 Twitter .................................................................................................... 12
2.3.1 Twitter API ..................................................................................... 14
2.3.2 Sentimen Analisis pada Twitter ...................................................... 15
2.3.3 Struktur Data Twitter ...................................................................... 15
2.4 Natural Language Proccessing (NLP) ................................................... 16
2.5 Emosi ...................................................................................................... 17
2.6 Text Mining ............................................................................................. 19
2.7 Pre-proccessing ...................................................................................... 21
2.8 Klasifikasi ............................................................................................... 22
2.9 Metode Lexicon ...................................................................................... 23
2.9.1 Kamus Lexicon ................................................................................ 24
2.10 Metode K-Nearest Neighbour (K-NN) ................................................... 26
2.11 Confussion Matrix .................................................................................. 28
2.12 Metode Simulasi ..................................................................................... 29
2.12.1 Problem Formulation ...................................................................... 30
2.12.2 Conceptual Model ........................................................................... 30
2.12.3 Collection of Input/Output Data ...................................................... 31
2.12.4 Modelling Phase.............................................................................. 31
2.12.5 Simulation Phase ............................................................................. 31
2.12.6 Verification, Validation and Experimentation ................................ 32
xi UIN SYARIF HIDAYATULLAH JAKARTA
2.12.7 Output Analysis Phase .................................................................... 32
2.13 Studi Literatur ......................................................................................... 32
2.14 Studi Pustaka .......................................................................................... 39
BAB III METODE PENELITIAN ..................................................................... 40
3.1 Metode Pengumpulan Data .................................................................... 40
3.1.1 Studi Pustaka ................................................................................... 40
3.1.2 Studi Literatur ................................................................................. 40
3.1.3 Observasi ......................................................................................... 40
3.2 Metode Simulasi ..................................................................................... 41
3.2.1 Problem Formulasi (Formulasi Masalah) ....................................... 41
3.2.2 Conceptual Model (Pemodelan Konsep) ........................................ 42
3.2.3 Collection of Input/Output Data (Pengumpulan Masukan atau
Keluaran Data) .............................................................................................. 42
3.2.4 Modelling Phase (Tahap Permodelan) ........................................... 43
3.2.5 Simulation Phase (Tahap Simulasi) ................................................ 43
3.2.6 Conclusion (Verification, Validation, and Experimentation) ......... 43
3.2.7 Output Analysis Phase (Fase Analisa Hasil) .................................. 43
3.3 Skenario Pengujian ................................................................................. 44
3.4 Alur Penelitian ........................................................................................ 44
BAB IV IMPLEMENTASI ................................................................................ 46
4.1 Problem Formulation ............................................................................. 46
4.2 Conceptual Model .................................................................................. 46
4.2.1 Conceptual Model Text Mining ....................................................... 46
xii UIN SYARIF HIDAYATULLAH JAKARTA
4.2.2 Conceptual Model Klasifikasi Sentimen dengan Pendekatan Lexicon
......................................................................................................... 48
4.2.3 Conceptual Model Klasifikasi Sentimen dengan Algoritma K-NN 49
4.3 Collection Input/Output Data ................................................................. 51
4.4 Modelling Phase ..................................................................................... 52
4.4.1 Konstruksi Pendekatan Lexicon ...................................................... 52
4.4.2 Konstruksi Algoritma K-Nearest Neighbor Manual ....................... 55
4.5 Simulation Phase .................................................................................... 81
4.5.1 Tahap Pengujian Data Uji ............................................................... 82
4.6 Verification, Validation and Experimentation ....................................... 83
4.7 Output Analysis Phase ............................................................................ 83
BAB V HASIL DAN PEMBAHASAN ............................................................... 84
5.1 Verification, Validation and Experimentation ....................................... 84
5.2 Output Analysis Phase ............................................................................ 85
5.2.1 Analisis Sentimen Komentar Mengenai Pemindahan Ibu Kota
Indonesia Menggunakan Metode Algoritma K-NN ....................................... 85
5.2.2 Analisis Implementasi Dan Kinerja Dari Metode Algoritma K-NN 85
BAB VI KESIMPULAN DAN SARAN.............................................................. 95
6.1 Kesimpulan ............................................................................................. 95
6.1 Saran ....................................................................................................... 95
DAFTAR PUSTAKA ........................................................................................... 96
LAMPIRAN .......................................................................................................... 98
xiii UIN SYARIF HIDAYATULLAH JAKARTA
DAFTAR GAMBAR
Gambar 2. 1 Rencana Pemindahan Ibu Kota Indonesia (Sumber : Wikipedia
Indonesia) .............................................................................................................. 12
Gambar 2. 2 Sistem Arsitektur Text Mining (Sumber :Feldman, R., & Sanger,
2007) ..................................................................................................................... 20
Gambar 3. 1 Tahapan Pengambilan Data Twitter ................................................. 41
Gambar 3. 2 Alur Penelitian.................................................................................. 45
Gambar 4. 1 Contoh Case Folding ....................................................................... 46
Gambar 4. 2 Contoh Filtering ............................................................................... 47
Gambar 4. 3 Contoh Tokenizing ........................................................................... 47
Gambar 4. 4 Contoh Normalisasi .......................................................................... 47
Gambar 4. 5 Contoh Stopword .............................................................................. 48
Gambar 4. 6 Contoh Stemming ............................................................................. 48
Gambar 4. 7 Proses Case Folding ......................................................................... 49
Gambar 4. 8 Proses Filtering ................................................................................ 50
Gambar 4. 9 Proses Tokenizing ............................................................................. 50
Gambar 4. 10 Proses Normalisasi ......................................................................... 50
Gambar 4. 11 Proses Stopwords ........................................................................... 50
Gambar 4. 12 Proses Stemming ............................................................................. 50
Gambar 4. 13 Hasil Crawling Data ....................................................................... 52
Gambar 5. 1 Grafik K-NN Data I .......................................................................... 91
Gambar 5. 2 Grafik K-NN Data II ........................................................................ 92
xiv UIN SYARIF HIDAYATULLAH JAKARTA
DAFTAR TABEL
Tabel 1. 1 Sejarah Lokasi Ibu Kota Indonesia (Sumber : Wikipedia Indonsia) ..... 2
Tabel 2. 1 Perbandingan Twitter Dengan Facebook (Kompasiana, 2015) ........... 12
Tabel 2. 2 Kosakata Emosi (Sumber : Shaver, Murdaya, dan Fraley, 2001) ........ 18
Tabel 2. 3 Klasifikasi (Sumber: Prasetyo, 2012) .................................................. 22
Tabel 2. 4 Perbandingan K-NN, Naive Bayes dan SVM ...................................... 27
Tabel 2. 5 Confussion Matrix (Sumber : Prasetyo, 2012) ..................................... 29
Tabel 2. 6 Studi Literatur Sejenis .......................................................................... 35
Tabel 2. 7 Keunikan Peneliti Dengan Peneliti Sebelumnya ................................. 37
Tabel 4. 1 Tokenizing ............................................................................................ 53
Tabel 4. 2 Normalisasi .......................................................................................... 54
Tabel 4. 3 Identifikasi Setiap Kata Pada Query .................................................... 54
Tabel 4. 4 Dokumen data latih .............................................................................. 55
Tabel 4. 5 Hasil case folding pada data latih ........................................................ 56
Tabel 4. 6 Filtering ............................................................................................... 57
Tabel 4. 7 Hasil Tokenizing pada data latih .......................................................... 57
Tabel 4. 8 Hasil normalisasi pada data latih ......................................................... 58
Tabel 4. 9 Hasil stopwords data latih .................................................................... 59
Tabel 4. 10 Hasil Stemming Pada Data Latih ....................................................... 60
Tabel 4. 11 Hasil proses indexing ......................................................................... 60
Tabel 4. 12 Hasil pembobotan kata tf.................................................................... 62
Tabel 4. 13 Perhitungan IDF(Inverse Dokumen Frekuensi) ................................. 64
Tabel 4. 14 Query Uji............................................................................................ 69
Tabel 4. 15 Tokenizing Data Uji ........................................................................... 69
Tabel 4. 16 Normalisasi Data Uji .......................................................................... 69
Tabel 4. 17 Stopwords Data Uji ............................................................................ 69
Tabel 4. 18 Stemming Data Uji ............................................................................. 69
Tabel 4. 19 Query Uji............................................................................................ 70
Tabel 4. 20 Hasil Pembobotan Query Uji dengan data latih ................................. 70
Tabel 4. 21 Hasil perkalian skalar antara query dan data latih ............................. 75
Tabel 4. 22 Hasil panjang setiap dokumen ........................................................... 78
xv UIN SYARIF HIDAYATULLAH JAKARTA
Tabel 4. 23 Cosine Similarity ................................................................................ 80
Tabel 4. 24 Hasil Perhitungan Tabel ..................................................................... 81
Tabel 4. 25 Faktor-faktor dalam proses simulasi .................................................. 81
Tabel 4. 26 Pengujian I ......................................................................................... 82
Tabel 4. 27 Pengujian II ........................................................................................ 83
Tabel 5. 1 Hasil akurasi K-NN dengan k = 1 ........................................................ 86
Tabel 5. 2 Hasil akurasi K-NN dengan k = 3 ........................................................ 86
Tabel 5. 3 Hasil akurasi K-NN dengan k = 5 ........................................................ 87
Tabel 5. 4 Hasil Akurasi K-NN dengan k = 9 ....................................................... 87
Tabel 5. 5 Hasil akurasi K-NN dengan k =10 ....................................................... 87
Tabel 5. 6 Hasil akurasi K-NN dengan k = 1 ........................................................ 88
Tabel 5. 7 Hasil akurasi K-NN dengan k = 3 ........................................................ 88
Tabel 5. 8 Hasil akurasi K-NN dengan k = 5 ........................................................ 89
Tabel 5. 9 Hasil akurasi K-NN dengan k = 9 ........................................................ 89
Tabel 5. 10 Hasil akurasi K-NN dengan k =10 ..................................................... 90
Tabel Lampiran 1 Hasil Data Pertama .................................................................. 98
Tabel Lampiran 2 Hasil Data Kedua .................................................................. 101
1 UIN SYARIF HIDAYATULLAH JAKARTA
BAB I
PENDAHULUAN
1.1 Latar Belakang
Ibu kota dalam Kamus Besar Bahasa Indonesia (KBBI) adalah kota tempat
kedudukan pusat pemerintahan suatu negara, tempat dihimpun unsur administratif,
yaitu eksekutif, legislatif dan yudikatif. Dalam praktik pemerintahan, hampir setiap
tingkatan administrasi pemerintahan memiliki ibu kota dan pada kenyataannya di
beberapa negara, pusat pemerintahan tidak berkedudukan di ibu kota. Sehingga, ibu
kota adalah kota atau munisipalitas penting atau utama di sebuah negara, negara
bagian, provinsi, atau wilayah administratif lainnya, yang menjadi pusat
administrasi pemerintahan.
Secara konstitusional, Jakarta ditetapkan sebagai ibu kota Indonesia melalui
undang-undang Nomor 10 Tahun 1964. Jakarta telah menjadi pusat pemerintahan
sejak masih benama Batavia pada masa Hindia Belanda Pada awal abad ke-20 ada
upaya lebih pemerintah Hindia Belanda untuk mengubah lokasi ibu kota Batavia ke
Bandung, walaupun gagal karena depresi besar dan perang dunia II. Kemudian
setelah menjadi wacana selama puluhan tahun, Presiden Joko Widodo
mengumumkan pemindahan ibu kota negara ke Kalimantan Timur pada tahun
2019.
Usulan pemindahan ibu kota Indonesia dari Jakarta ke lokasi lainnya telah
didiskusikan sejak kepresidenan Soekarno hingga Susilo Bambang Yudhoyono
untuk membuat ide pusat politik dan administrasi baru, karena masalah lingkungan
dan overpopulasi Jakarta. Ada tiga pedapat utama proposal ini :
Pindahkan ibu kota resmi, seperti Brasil memindahkan ibu kotanya dari Rio de
Janerio ke Brasilia.
Pisahkan pusat administratif dan Jakarta masih menjadi ibu kota resmi, seperti
Malaysia memindahkan pusat administrasinya ke Putrajaya.
Jakarta masih tetap sebagai ibu kota dan pusat administatif.
Akan tetapi lokasi ibu kota sudah beberapa kali berpindah tempat saat pada
zaman dahulu saat Belanda melakukan agresi militer sehingga ibu kota beberapa
2
UIN SYARIF HIDAYATULLAH JAKARTA
kali sempat dipindahkan ke kota yang lebih aman.Ini beberapa urutan tabel sejarah
ibu kota Indonesia, yaitu :
Tabel 1. 1 Sejarah Lokasi Ibu Kota Indonesia (Sumber : Wikipedia Indonsia)
Tanggal Ibu kota Catatan
17 Agustus 1945 Jakarta Proklamasi kemerdekaan Indonesia dilaksanakan
oleh Soekarno dan Mohammad Hatta di Jalan
Pengangsaan Timur No. 56, Jakarta. Sejak saat itu,
Jakarta menjadi ibu kota Republik Indonesia secara
de facto.
4 Januari 1946 Yogyakarta Jakarta diduduki oleh Netherlands Indies Civil
Administration (NICA) sehingga ibu kota negara
harus dipindahkan ke Yogyakarta. Pemerintah
Republik Indonesia melakukan pemindahan secara
diam-diam pada tengah malam dengan
menggunakan kereta api
19 Desember 1948 Bukit
Tinggi
Yogyakarta diserang oleh pasukan militer Belanda
dalam Agresi Militer Belanda II, sehingga Presiden
Soekarno dan Wakil Presiden Mohammad Hatta
ditangkap dan diasingkan di Pulau Bangka.
Sjafruddin Prawiranegara mendapat amanat untuk
membentuk pemerintahan darurat di Bukit Tinggi
yang dikenal dengan Pemerintahan Darurat Republik
Indonesia (PDRI).
6 Juli 1949 Yogyakarta Soekarno dan Hatta kembali dari pengasingan ke
Yogyakarta. Sjafruddin Prawiranegara
mengembalikan amanat pemerintahan negara dan
membubarkan PDRI secara resmi pada 13 Juli 1949.
Yogyakarta kemudian menjadi ibu kota Republik
Indonesia, yang merupakan negara bagian dari
3
UIN SYARIF HIDAYATULLAH JAKARTA
Republik Indonesia Serikat (RIS) yang dibentuk
pada 27 Desember 1949.
17 Agustus 1949 Jakarta RIS dibubarkan dan Jakarta kembali menjadi ibu
kota Republik Indonesia secara de facto.
28 Agustus 1961 Jakarta Jakarta secara de jure menjadi ibu kota Indonesia
dengan keluarnya Peraturan Presiden Nomor 2
Tahun 1961. Status sebagai ibu kota negara tersebut
diperkuat melalui Undang-Undang Nomor 10 Tahun
1964.
26 Agustus 2019 Jakarta Presiden Joko Widodo mengumumkan pemindahan
ibu kota Indonesia ke Kalimantan Timur. Ibu kota
baru tersebut akan dibangun di antara Kabupaten
Kutai Kartanegara dan Kabupaten Penajam Paser
Utara, dan ditargetkan mulai dapat digunakan pada
tahun 2024.
Melalui rapat terbatas pemerintah pada tanggal 29 April 2019, Presiden Joko
Widodo memutuskan untuk memindahkan ibu kota negara ke pulau Kalimantan.
Pemindahan ibu kota ini tertuang dalam rencana pembangungan jangka menengah
nasional 2020-2024. Pada 26 Agustus 2019, Presiden Joko Widodo mengumumkan
ibu kota baru akan dibangun di wilayah administratif Kabupaten Penajam Paser
Utara dan Kabupaten Kutai Kartanegara, Kalimantan Timur.
Menurut Presiden Joko Widodo dipilihnnya Kabupaten Penajam Paser Utara
dan Kabupaten Kutai Kartanegara, Kalimantan Timur, yaitu:
Resiko bencana kecil terjadi, seperti : bencana banjir, gempa bumi, tsunami,
kebakaran hutan, dan gunung berapi.
Lokasi geografi berada di tengah kepulauan Indonesia,
Yang mana dekat dengan wilayah kota yang berkembang, yaitu Balikpapan dan
Samarinda.
Lahan sudah dikuasai pemerintah 180 ribu hektar.
4
UIN SYARIF HIDAYATULLAH JAKARTA
Dengan fenomena pemindahan ibu kota Indonesia tersebut, para masyarakat
banyak yang memberi tanggapan setuju maupun tanggapan bersifat tidak setuju
yang dipublikasikan di berbagai media sosial, salah satunya adalah Twitter.
Twitter adalah tempat yang tepat berbagi ide, bank gagasan, tempat
mengumpulkan informasi, untuk microblogging mengalami banyak perkembangan,
terhitung pada 2018 Twitter menyebutkan ada 126 juta pengguna aktif setiap
harinya selama kuartal empat (Q4). Rata-rata jumlah pengguna harian di Q4 adalah
126 juta, naik sembilan persen dari tahun ke tahun. Banyak pengguna yang
melakukan posting ekspresi dan pendapat mereka terhadap sebuah produk layanan,
isu-isu politik atau hal-hal yang sedang viral.
Data yang dirilis oleh Asosiasi Penyelenggara Jasa Internet Indonesia (APJII)
menyatakan bahwa pengguna aktif Twitter di Indonesia di 2018 mencapai 1,7 %
(2.9 juta). Berdasarkan data tersebut Twitter berada pada posisi kelima. Terdapat
beberapa media sosial lainnya yang paling sering digunakan di Indonesia antara lain
Facebook sebanyak 50,7% (86,7 juta), Instagram sebanyak 17,8% (30,4 juta),
Youtube sebanyak 15,1% (25,5 juta), dan Linked sebanyak 0,4% (684 Ribu).
Twitter memungkinkan pengguna untuk berbagi pesan menggunkan teks pendek
yang disebut dengan tweet.
Twitter seringkali digunakan untuk mengungkapkan emosi mengenai sesuatu
hal, baik memuji ataupun mencela. Emosi dapat dikelompokkan menjadi emosi
positif dan emosi negatif. Emosi manusia dapat dikategorikan menjadi lima emosi
dasar yaitu cinta, senang, sedih, marah dan takut. Emosi cinta dan senang termasuk
kedalam emosi positif. Emosi sedih, marah, dan takut merupakan emosi negatif
(Shaver & Fraley, 2001).
Dengan Twitter salah satu media sosial yang sering kali digunakan banyak
orang dalam memberikan pendapatnya tentang berbagai hal tidak terkecuali
masyarakat yang memberikan pendapatnya akan fenomena pemindahan ibu kota
Indonesia. Masyarakat memberikan pendapat setuju maupun tidak setuju dengan
berbagai alasan yang diungkapkan melalui cuitan di dalam Twitter.
Twitter berfokus pada pengembangan pendekatan analisis sentimen yang
dirancang khusus untuk tweet. Analisis sentimen pada Twitter dilakukan untuk
5
UIN SYARIF HIDAYATULLAH JAKARTA
melihat pendapat atau kecenderungan opini terhadap nilai akurasi. Akurasi dihitung
dengan menghitung persentasi jumlah data latih dan data uji.
Solusi algoritma klasifikasi yang peneliti gunakan adalah K-Nearest
Neighbor. Peneliti memilih K-Nearest Neighbor karena penelitian sudah
melakukan tinjauan pustaka dari beberapa metode sejenis sebelumnya, diantaranya
adalah sebagai berikut : Penelitian yang dilakukan oleh Azhar, 2018, analisis
kinerja algoritma Naïve Bayes dan K-Nearest Neighbor pada sentimen analisis
dengan pendekatan lexicon. Sosial media yang diambil sentimennya adalah Twitter
API. Proses NLP yang digunakan adalah case folding, filtering, tokenizing,
normalisasi, stopwords, dan stemming. Dengan mempunyai kelebihan yaitu nilai K-
NN pada tingkat akurasi k=5 dengan tingkat akurasi mencapai 77%
Penelitian yang dilakukan oleh Sucitra Sahara, 2016, dilakukan penelitian
analisis sentimen terhadap game android. Akurasi yang dihasilkan adalah sebesar
74,5%. Pengujian yang dilakukan memberikan kesimpulan bahwa algoritma K-NN
merupakan metode yang sesuai dengan klasifikasi text dan memiliki performa yang
tinggi.
Penelitian yang dilakukan oleh Nurjanah, Perdana &Fauzi, 2017, analisis
sentimen terhadap tayangan televisi berdasarkan opini masyarakat pada media
sosial twitter mengggunakan K-NN. Sosial media yang diambil sentimennya adalah
Twitter API. Proses NLP yang digunakan adalah tokenizing, case folding,
cleansing, filterisasi, dan stemming. Dengan mempunyai kelebihan yaitu Tingkat
akurasi pembobotan tekstual mencapai 82,50% dan non-tekstual 60% sedangkan
gabungan keduanya mencapai 83,33%. Nilai k yang digunakan yaitu k = 3 yang
merupakan k optimal, dan konstanta α=0,8 dan β=0,2 %..
Adapun beberapa hal yang menjadikan keunikan tersendiri dari penelitian
lainnya adalah
Pada penelitian ini akan dilakukan klasifikasi orientasi sentimen dengan
menggunakan algoritma K-Nearest Neighbor (K-NN), sehingga untuk
mengetahui seberapa besar peningkatan akurasi. Algoritma K-NN pada
penelitian ini akan bertindak sebagai algoritma yang akan melakukan klasifikasi
hasil orientasi sentimen.
6
UIN SYARIF HIDAYATULLAH JAKARTA
Data latih pada penelitian penulis diklasifikasikan sentimennya menggunakan
metode lexicon based.
Proses pengklasifikasian teks menggunakan pemecahan satu kata (tokenisasi).
Pengambilan data tweet yaitu 1.000 tweet, dimana 900 tweet digunakan sebagai
data latih dan 100 tweet digunakan sebagai data uji.
Peneliti juga akan mengukur tingkat akurasi, error rate, f-measure, recall dan
presisi menggunakan algoritma K-Nearest Neighbor (K-NN).
Berdasarkan latar belakang permasalahan diatas, maka penulis bermaksud
untuk menyusun skripsi berjudul “Analisis Sentimen Komentar Terhadap
Pemindahan Ibu Kota Indonesia Pada Media Sosial Twitter Menggunakan
Metode Algoritma K-Nearest Neighbor (K-NN)” dari judul tersebut diharapkan
penulis akan mendapatkan tingkat akurasi dari algoritma tersebut dalam
menentukan orientasi sentimen.
1.2 Rumusan Masalah
Berdasarkan latar belakang, maka rumusan masalah adalah sebagai berikut :
1. Apa pendapat warganet terhadap pemindahan ibukota dari media sosial
Twitter?
2. Berapa tingkat akurasi metode K-Nearest Neighbor (K-NN) dalam
memprediksi pendapat warganet terhadap pemindahan ibu kota Indonesia
pada media sosial Twitter?
1.3 Batasan Masalah
Batasan-batasan masalah pada penelitian ini mencakup tiga aspek, yaitu
proses, metode, dan tools antara lain sebagai berikut:
1.3.1 Proses
Proses yang digunakan dalam penelitian ini yaitu:
1. Klasifikasi sentimen dibagi menjadi tiga, yaitu sentimen positif, negatif
dan netral.
2. Tweet yang dianalisis tidak mengandung gambar.
3. Menggunakan fitur pembobotan kata TF-IDF pada algoritma K-NN.
4. Nilai k yang digunakan pada algoritma K-NN adalah k=1, k=3, k=5,
k=9 dan k=10
7
UIN SYARIF HIDAYATULLAH JAKARTA
5. Pengambilan data dilakukan pada periode 10 Oktober 2019 – 23
Oktober 2019 dan 23 Januari 2020 – 02 Februari 2020 dengan kata
kunci ibu kota pindah, ibu kota baru dan pemindahan ibu kota.
6. Proses pengklasifikasikan teks pada data latih yang digunakan
menggunakan proses pemecah satu kata (tokenisasi).
1.3.2 Metode
Adapun metode yang digunakan dalam penelitian ini yaitu:
1. Metode yang digunakan dalam klasifikasi sentimen terhadap data latih
adalah menggunakan pendekatan lexicon.
2. Metode pengembangan sistem yang digunakan adalah metode
prototyping.
1.3.3 Tools
Berikut ini merupakan tools yang digunakan untuk merancang dan
membangun aplikasi ini:
1. Menggunakan bahasa pemrograman PHP.
2. Menggunakan MySQL untuk menyimpan data.
1.4 Tujuan Penelitian
Adapun tujuan penelitian ini adalah sebagai berikut
1. Untuk mengetahui pendapat warganet mengenai pemindahan ibu kota
Indonesia dari media sosial Twitter.
2. Untuk mengetahui tingkat akurasi dari metode K-Nearest Neighbor (K-
NN) dalam memprediksi pendapat warganet terhadap pemindahan ibu kota
Indonesia pada media sosial Twitter
1.5 Manfaat Penelitian
Manfaat penulisan adalah sebagai berikut :
Bagi Penulis
1. Untuk memenuhi salah satu syarat kelulusan strata satu (S1) Program
Studi Teknik Informatika Fakultas Sains dan Teknologi
2. Menerapkan ilmu-ilmu yang diperoleh selama perkuliahan.
Bagi Universitas
8
UIN SYARIF HIDAYATULLAH JAKARTA
1. Mengetahui kemampuan mahasiswa dalam menguasai materi yang
telah diperoleh selama masa kuliah.
2. Mengetahui kemampuan mahasiswa dalam menerapkan ilmunya dan
sebagai bahan evaluasi.
Bagi Pembaca
1. Menambah wawasan pembaca mengenai metode algoritma K-Nearest
Neighbor (K-NN) dalam melakukan analisis orientasi sentimen
terhadap data Twitter.
2. Membantu pembaca dalam menerapkan metode algoritma K-Nearest
Neighbor (K-NN) dalam aplikasi berbasis PHP.
1.6 Metodologi Penelitian
Metodologi penelitian adalah suatu cara atau teknik yang sistematis untuk
mengerjakan atau menyeselaikan suatu penelitian. Adapun metodologi yang
digunakan dalam penulisan untuk menyeselaikan berbagai permasalahan yang
ditemukan adalah sebagai berikut:
1.6.1 Pengumpulan Data
Penulis memperoleh data dilakukan dengan studi kepustakaan dan studi
literatur, yaitu dengan mencari buku-buku yang berkaitan serta jurnal-jurnal
sebagai referensi dan melakukan observasi dengan cara crawling data dari
Twitter.
1.6.2 Analisis Pengembangan Sistem
Pada penelitian ini penulis melakukan simulasi terhadap sistem yang
dibuat. Adapun langkah-langkah yang dilakukan yaitu (Madani, Kazmi, &
Mahlknecht, 2010):
1. Problem formulation
2. Conceptual model
3. Input output data
4. Modelling
5. Simulation
6. Verification, validation, experimentation and output analysis
9
UIN SYARIF HIDAYATULLAH JAKARTA
1.7 Sistematika Penulisan
Penyusunan laporan terdiri dari lima bab sebagai berikut :
BAB I PENDAHULUAN
Bab ini membahas tentang gambaran umum isi tugas akhir yang meliputi latar
belakang masalah, rumusan masalah, batasan masalah, tujuan, manfaat
penelitian, metodologi penelitian dan sistematika penulisan.
BAB II TINJAUAN PUSTAKA
Bab ini menyajikan tentang teori-teori yang bersumber dari buku, jurnal dan
e-book berhubungan dengan fakta atau kasus yang sedang dibahas.
BAB III METODOLOGI PENELITIAN
Bab ini membahas langkah-langkah yang dilaksanakan dalam proses
penelitian berkaitan dengan pengumpulan data dan metode yang digunakan
dalam melakukan simulasi.
BAB IV PERANCANGAN DAN PENGUJIAN SISTEM
Bab ini berisi tentang simulasi sistem dari perancangan sampai pengujian
sistem sesuai dengan metode yang digunakan pada sistem.
BAB V HASIL DAN PEMBAHASAN
Bab ini membahas tentang output yang dihasilkan berdasarkan analisis
perancangan dan implementasi yang dilakukan pada sistem.
BAB VI PENUTUP
Bab ini berisi mengenai beberapa kesimpulan dan saran berdasarkan
pembahasan pada bab-bab sebelumnya.
10 UIN SYARIF HIDAYATULLAH JAKARTA
BAB II
LANDASAN TEORI
2.1 Analisis Sentimen
Analisis sentimen adalah bidang studi yang menganalisis pendapat, sentimen,
evaluasi, penilaian, sikap dan emosi seseorang terhadap sebuah produk, organisasi,
individu, masalah, peristiwa atau topik (Liu, 2012). Analisis sentimen dilakukan
untuk melihat pendapat terhadap sebuah masalah, atau dapat juga digunakan untuk
melihat pendapat terhadap sebuah masalah, atau dapat juga untuk identifikasi
kecendurungan hal yang menjadi topik pembicaraan. Analisis sentimen dalam
penelitian ini adalah proses pengelompokkan tweet ke dalam lima emosi yaitu
emosi senang, emosi cinta, emosi sedih, emosi marah dan emosi takut.
Pengaruh dan manfaat dari analisis sentimen menyebabkan penelitian
mengenai analisis sentimen berkembang pesat. Di Amerika kurang lebih 20-30
perusahaan yang memfokuskan pada layanan analisis sentimen (Liu, 2012).
Manfaat sentimen analisis dalam dunia usaha antara lain untuk melakukan
pemantauan terhadap suatu produk. Secara cepat dapat digunakan sebagai alat
bantu untuk melihat respon masyarakat terhadap suatu produk, sehingga dapat
diambil langkah strategis berikutnya.
Pada umumnya sentimen analisis merupakan klasifikasi tetapi kenyataannya
tidak semudah proses kualifikasi biasa karena terkait penggunaan bahasa, dimana
terdapat ambigu dalam penggunaan kata serta perkembangan bahasa itu sendiri.
2.1.1 Level Analisis Sentimen
Analisis sentimen terdiri dari tiga level analisis yaitu :
1. Level dokumen
Level dokumen menganalisis satu dokumen penuh dan mengklasifikasikan
dokumen tersebut memiliki sentimen positif atau negatif. Level analisis ini
berasumsi bahwa keseluruhan dokumen hanya berisi opini tentang satu
entitas saja. Level analisis ini tidak cocok diterapkan pada dokumen yang
membandingkan lebih dari satu entitas (Liu, 2012).
2. Level kalimat
11
UIN SYARIF HIDAYATULLAH JAKARTA
Level kalimat menganalisis satu kalimat dan menentukan tiap kalimat
sentimen bernilai positif, netral, atau negatif. Sentimen netral berarti
kalimat tersebut bukan opini (Liu, 2012).
3. Level Entitas dan Aspek
Level aspek tidak melakukan analisis pada konstruksi bahasa (dokumen,
paragraf, kalimat, klausa, atau frase) melakukan langsung pada opini itu
sendiri. Hal ini didasari bahwa opini terdiri dari sentimen (positif dan
negatif) dan target dari opini tersebut. Tujuan level analisis ini adalah
untuk menemukan sentimen entitas pada tiap aspek yang dibahas (Liu,
2012).
2.2 Pemindahan Ibu Kota
Menurut Kepala Bapennas upaya pemindahan ibu kota Indonesia dimulai
pada tahun 2019 pada masa kepresidenan Joko Widodo. Melalui rapat terbatas
pemerintah pada tanggal 29 April 2019, Joko Widodo memutuskan untuk
memindahkan ibu kota negara ke luar pulau Jawa. Pemindahan ibu kota ini tertuang
dalam rencana pembangunan jangka menengah nasional 2020-2024. Pada 26
Agustus 2019, Presiden Joko Widodo mengumumkan bahwa ibu kota baru akan
dibangun di wilayah administratif Kabupaten Penajam Paser Utara dan Kabupaten
Kutai Kartanegara, Kalimantan Timur.
Latar belakang pemindahan ibu kota Indonesia sebenarnya sudah
didiskusikan pada era kepresidenan Soekarno hingga era Susilo Bambang
Yudhoyono. Dimana membuat pusat politik dan administrasi yang baru, karena
masalah lingkungan dan overpopulasi Jakarta. Menurut Presiden Jokowi, alasan
memilihh di Penajam Pasir Utara dan Kutai Kertanegara dijadikan lokasi ibu kota
baru adalah kecilnya resiko bencana alam di wilayah itu, lokasi yang ada di tengah-
tengah Indonesia, lokasi di dekat kota Balikpapan dan Samarinda yang sudah
berkembang, infrastruktur yang relatif lengkap, dan adanya 180 hektar tanah yang
telah dikuasai pemerintah. Rencana pemerintah dalam pengumuman 26 Agustus
2019, Joko Widodo menyebutkan pemerintah akan segera merancang undang-
undang untuk pemindahan ibu kota untuk disetujui Dewan Perwakilan Rakyat
(DPR). Pembangunan akan dimulai pada 2020, dan pemindahan akan dilakukan
12
UIN SYARIF HIDAYATULLAH JAKARTA
bertahap dimulai dari 2024. Dan terdapat polemik masyarakat akan pro dan kontra
pemindahan ibu kota Indonesia ini.
Gambar 2. 1 Rencana Pemindahan Ibu Kota Indonesia (Sumber : Wikipedia Indonesia)
2.3 Twitter
Twitter adalah sebuah situs web yang dimiliki dan dioperasikan oleh Twitter
Inc., yang menawarkan jaringan sosial berupa microblog sehingga memungkinkan
penggunanya untuk mengirim dan membaca pesan tweet (Twitter, 2013).
Microblog adalah adalah satu jenis alat komunikasi online berupa pengguna dapat
memperbarui status tentang mereka yang sedang memikirkan dan melakukan
sesuatu, apa pendapat mereka tentang suatu objek atau fenomena tertentu. Tweet
adalah teks tulisan hingga 140 karakter yang ditampilkan pada halaman profil
pengguna. Tweet bisa dilihat secara publik, namun pengirim dapat membatasi
pengiriman pesan ke daftar teman-teman mereka saja. Pengguna dapat melihat
tweet pengguna lain yang dikenal dengan sebutan pengikut (follower).
Tabel 2. 1 Perbandingan Twitter Dengan Facebook (Kompasiana, 2015)
No Sosial Media Kelebihan Kekurangan
1. Twitter 1. Mudah dalam
menemukan akun
figure.
2. Interkasi yang
dihasilkan cepat dan
deras karena
1. Penulisan teks
terbatas, maksimal 4
foto dalam satu tweet,
video dan audio di
tempat lain
2. Umur keterbacaan
konten lebih sedikit
13
UIN SYARIF HIDAYATULLAH JAKARTA
maksimal waktu
respon balik 30 menit
3. Mesin pencari
terbanyak kedua
setelah Google
4. Performa aplikasi
Twitter lebih cepat
dibuka karena hanya
sinkronisasi teks
dalam ukuran kecil
dan foto dalam jumlah
terbatas.
5. Konektivitas internet
lebih cepat
6. Tracking dan
monitoring secara
real time
7. Media sosial pertama
yang mempopulerkan
hastag dan sampai
sekarang adalah satu-
satunya yang
memiliki fitur
trending yang paling
akurat berdasarkan
hastag dan keyword.
daripada Facebook
yaitu hanya 3 jam
sedangkan Facebook
5 jam.
2. Facebook 1. Mempunyai banyak
fitur seperti chat,
inbox, game.
2. Jumlah teks tidak
terbatas, upload foto
1. Dari kecepatan
interaksi Facebook
lebih lambat dari
14
UIN SYARIF HIDAYATULLAH JAKARTA
tidak terbatas dan
dapat melakukan
tagging video dan
foto.
3. Umur konten lebih
lama dari Twitter
2. Tidak mudah dalam
menemukan akun
figur
3. Aplikasi yang
membutuhkan
memory yang besar.
4. Segi kecepatan
konektivitas lambat
karena banyaknya
sinkronisasi konten.
2.3.1 Twitter API
Application Programming Interface (API) merupakan fungsi-fungsi /
perintah-perintah untuk menggantikan bahasa yang digunakan dalam system
calls dengan bahasa yang lebih terstruktur dan mudah dimengerti oleh
programmer. Fungsi yang dibuat dengan menggunakan API tersebut kemudian
akan memanggil system calls sesuai dengan sistem operasinya. Tidak tertutup
kemungkinan nama dari system calls sama dengan nama di API. Twitter
menyediakan API yang diperuntukkan untuk developer yang ada pada website
https://developer.Twitter.com. Twitter API terdiri dari 3 bagian yaitu :
a. Search API
Search API dirancang untuk memudahkan user dalam mengelola query
Search di konten Twitter. User dapat menggunakannya untuk mencari tweet
berdasarkan keywords khusus atau mencari tweet lebih spesifik berdasarkan
username Twitter. Search API juga menyediakan akses pada data trending
topic.
b. REST API
REST API memperbolehkan developer untuk mengakses inti dari Twitter
seperti timeline, status update dan informasi user. REST API digunakan
dalam membangun sebuah aplikasi Twitter yang kompleks yang memerlukan
inti dari Twitter
c. Streaming API
15
UIN SYARIF HIDAYATULLAH JAKARTA
Streaming API digunakan developer untuk kebutuhan yang lebih intensif
seperti melakukan penelitian dan analisis data. Streaming API dapat
menghasilkan aplikasi yang dapat mengetahui statistik status update, follower
dan lain sebagainya.
2.3.2 Sentimen Analisis pada Twitter
Definisi analisis sentimen Twitter pada dasarnya merujuk pada pendapat
komentar yang ada pada media Twitter. Pesan Twitter lebih mudah untuk
dilakukan analisis karena penulisan yang dibatasi. Kalimat seringkali memuat
pendapat tunggal, meskipun tidak bersifat mutlak bahwa setiap kalimat berisi
pendapat tunggal. Dalam kasus lain terdapat kalimat dengan pendapat lebih dari
satu pada suatu kalimat namun ini hanya sebagian kecil (Liu, 2016).
Pada dasarnya sentimen analisis merupakan tahapan klasifikasi. Namun
tahapan klasifikasi sentimen pada Twitter yang tidak terstruktur menyebabkan
sedikit lebih sulit dibanding dengan klasifikasi dokumen terstruktur. Langkah
pertama adalah untuk mengklasifikasikan apakah kalimat mengungkapkan
pendapat atau tidak. Langkah kedua adalah mengklasifikasikan kalimat-kalimat
pendapat menjadi positif dan kelas negatif.
2.3.3 Struktur Data Twitter
Untuk mendalami permasalahan analisis sentimen Twitter diperlukan
pemahaman terhadap struktur data Twitter itu sendiri. Twitter menjadi sumber
yang hampir tak terbatas yang digunakan pada text classification. Menurut Go
(2009), terdapat banyak karakteristik pada tweet Twitter. Pesan pada Twitter
memiliki banyak attribute yang unik, yang membedakan dari media sosial
lainnya:
1. Twitter memiliki maksimal panjang karakter yaitu 140 karakter.
2. Twitter menyediakan data yang bisa diakses secara bebas dengan
menggunakan Twitter API, mempermudah saat proses pengumpulan tweet
dalam jumlah yang sangat banyak.
3. Pengguna Twitter mem-posting pesan melalui banyak media berbeda untuk
mengungkapkan pendapat tentang suatu topik atau kejadian tertentu,
16
UIN SYARIF HIDAYATULLAH JAKARTA
sehingga merupakan sumber yang bagus dalam menemukan pendapat orang
lain.
4. Terdapat ragam topik didalamnya. Setiap pengguna dapat menuliskan topik
apapun pada pesan Twitter.
2.4 Natural Language Proccessing (NLP)
Natural Language Processing (NLP) adalah salah satu bidang ilmu komputer
yang merupakan cabang dari kecerdasan buatan, dan bahasa (linguistik) yang
berkaitan dengan interaksi antara komputer dan bahasa alami manusia, seperti
bahasa Indonesia atau bahasa Inggris. Tujuan utama dari studi NLP adalah
membuat mesin yang mampu mengerti dan memahami makna bahasa manusia lalu
memberikan respon yang sesuai (Rio, 2016).
Natural Language Processing (NLP) merupakan salah satu cabang ilmu AI
yang berfokus pada pengolahan bahasa natural. Bahasa natural adalah bahasa yang
secara umum digunakan oleh manusia dalam berkomunikasi satu sama lain. Bahasa
yang diterima oleh komputer butuh untuk diproses dan dipahami terlebih dahulu
supaya maksud dari user bisa dipahami dengan baik oleh komputer. Ada berbagai
terapan aplikasi dari NLP. Diantaranya adalah chatbot (aplikasi yang membuat user
bisa seolah-olah melakukan komunikasi dengan komputer), stemming atau
lemmatization (pemotongan kata dalam bahasa tertentu menjadi bentuk dasar
pengenalan fungsi setiap kata dalam kalimat), summarization (ringkasan dari
bacaan), translation tools (menterjemahkan bahasa) dan aplikasi-aplikasi lain yang
memungkinkan komputer mampu memahami instruksi bahasa yang diinputkan
oleh user (www.socs.binus.ac.id, 2013).
Berdasarkan (Putstejovsky & Stubbs, 2012) dalam penerapannya, tujuan NLP
untuk memahami bahasa manusia ini memiliki bahasa tantangan, yang antara lain
adalah sebagai berikut:
1. Penandaan kelas kata (part of speech tagging). Sulit untuk menandai kelas kata
(kata benda, kata kerja, kata sifat) suatu kata dalam teks karena pengelasan kata
sangat bergantung kepada konteks penggunaanya.
17
UIN SYARIF HIDAYATULLAH JAKARTA
2. Segmentasi teks. Penentuan segmentasi sulit dilakukan pada bahasa tulis yang
tidak memiliki pembatas kata spesifik seperti (Mandarin, Thailand dan Jepang)
serta bahasa lisan yang terkadang membaurkan bunyi antar kata.
3. Disambiguasi makna kata. Banyak kata yang memiliki lebih dari satu makna
baik dalam bentuk homonim maupun polisemi. Pembedaan makna hanya dapat
dilakukan dengan melihat konteks penggunaan.
4. Ambiguitas sintak. Suatu bahasa memiliki berbagai kemungkinan struktur
kalimat. Pemilihan struktur yang paling tepat biasanya membutuhkan gabungan
informasi semantik dan kontekstual.
Diluar dari kesulitan-kesulitan tersebut, NLP telah berhasil diterapkan untuk
berbagai tugas yang semula hanya dapat dilakukan oleh manusia. Beberapa bidang
populer dalam penerapan NLP adalah sebagai berikut:
1. Pemerolehan Informasi. Pencarian dokumen yang relevan, pencarian informasi
yang spesifik di dalam dokumen, serta pembuatan metadata.
2. Penjawaban pertanyaan. Secara otomatis menjawab pertanyaan yang diajukan
dengan bahasa alami dengan jawaban bahasa alami pula.
3. Perangkuman otomatis. Pembuatan versi singkat berisi butir-butir penting dari
suatu dokumen dengan menggunakan program komputer.
4. Penerjemahan mesin. Penerjemahan otomatis dari suatu bahasa alami ke bahasa
lain.
5. Pengenalan wicara. Pengubahan bahasa lisan menjadi masukan yang dikenali
oleh mesin, misalnya pada pendiktean bahasa lisan kepada komputer untuk
menghasilkan bahasa tulis atau pelaksanaan suatu perintah oleh komputer
berdasarkan bahasa lisan dari manusia.
6. Pengenalan karakter optis. Pengubahan penulisan tangan atau teks tercetak
menjadi dokumen yang dapat dikenali oleh mesin.
2.5 Emosi
Emosi adalah suatu pikiran dan perasaan khas yang disertai perubahan
fisiologis dan biologis serta menimbulkan kecenderungan untuk melakukan
tindakan. Twitter seringkali digunakan dalam mengungkapkan emosi mengenai
sesuatu hal, baik memuji ataupun mencela. Pengenalan emosi pada tweet dapat
18
UIN SYARIF HIDAYATULLAH JAKARTA
dilakukan menggunakan analisis sentimen. Analisis sentimen dapat juga
dimanfaatkan untuk menggali opini public tentang suatu topik
1. Emosi Dasar
Emosi yang dimiliki manusia dikategorikan menjadi lima emosi dasar yaitu
cinta, senang, marah, takut, dan sedih. Emosi cinta dan senang merupakan emosi
positif. Emosi marah, takut, dan sedih merupakan emosi negatif (Shaver,
Murdaya, dan Fraley, 2001).
2. Kosakata Emosi
Peneliitian terhadap 124 kosa kata emosi di Indonesia menghasilkan dua
kelompok besar yaitu kosa kata emosi positif dan negatif. Pengelompokkan kosa
kata emosi positif terdiri dari dua emosi dasar yaitu cinta dan senang.
Kelompokkan kosa kata emosi negatif terdiri dari tiga emosi dasar, yaitu marah,
takut dan sedih (Shaver, Murdaya, dan Fraley, 2001).
Tabel 2. 2 Kosakata Emosi (Sumber : Shaver, Murdaya, dan Fraley, 2001)
Superordinat Emosi Dasar Subordinat
Positif Cinta Ingin, kepingin, hasrat,
birahi, terangsang, gairah,
demen, suka, terpesona,
setia, kangen, rindum,
kasih, sayang, hati, mesra,
kemesraan, asmara,
mesra, cinta
Positif Senang Kepuasan, puas, berani,
yakin, ikhlas, tulus, besar
hati, sabar, tabah, rendah
hati, bangga, kagum, asik,
suka cita, bahagia,
senang, gembira, ceria,
riang, damai, aman,
tentram, lega
19
UIN SYARIF HIDAYATULLAH JAKARTA
Negatif Marah Bosan, jenuh, cemberut,
curiga, kesel, sebel,
emosi, benci, dengki,
gemas, gregetan,
ngambek, tersinggungm
naik pitam, marah,
berang, geram
Negatif Takut Gentar, takut, berdebar,
kalut, gusar, cemas,
gundahh, khawatir,
waswas, galau, gelisah,
risau
Negatif Sedih Patah hati, kecil hati,
simpati, malu, iba,
kasihan, sendu, sedih,
duka, sakit hati, sesal,
menyesal, frustasi,
penyesalan, remuk hati,
patah hati, haru, prihatin
2.6 Text Mining
Menurut (Mooney, 2006), Text Mining memiliki definisi menambang data
yang berupa teks sumber data biasanya didapatkan dari dokumen, dan tujuannya
adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat
dilakukan analisa keterhubungan antar dokumen. Berikut ini merupakan tahapan
dari text mining :
1. Tahap tokenizing
Tahap tokenizing adalah tahap pemotongan string input berdasarkan tiap kata
yang menyusunnya. Contoh dari tahap ini adalah sebagai berikut:
a. Manajemen pengetahuan (teks input)
b. Manajemen pengetahuan (hasil tokenizing)
2. Tahap filtering
20
UIN SYARIF HIDAYATULLAH JAKARTA
Tahap filtering adalah tahap mengambil kata-kata penting dari hasil tokenizing.
Bisa menggunakan stoplist (membuang kata yang kurang penting) dan wordslist
(menyimpan kata yang penting). Contoh dari tahap ini adalah sebagai berikut:
a. Manajemen pengetahuan adalah sebuah konsep baru (hasil token).
b. Manajemen pengetahuan konsep baru (hasil filtering)
3. Tahap stemming
Tahap stemming adalah adalah tahap mencari root kata dari teks yang
dimasukan. Contoh dari tahap ini adalah sebagai berikut:
a. Memasukan (teks input)
b. Masuk (hasil stemming)
4. Tahap analisis
Tahap analisis adalah tahap penentuan seberapa jauh keterhubungan antara kata-
kata dengan dokumen yang ada.
Berikut gambaran sistem arsitektur text mining yang dicantumkan pada buku
(Feldman, R., & Sanger, 2007)
Gambar 2. 2 Sistem Arsitektur Text Mining (Sumber :Feldman, R., & Sanger, 2007)
Penelitian di bidang text mining menangani masalah yang berkaitan dengan
representasi teks, klasifikasi, clustering, ekstraksi informasi atau pencarian dan
pemodelan pola. Dalam hal ini pemilihan karakteristik, juga domain penelitan dan
prosedur penelitian menjadi peran penting. Oleh karena itu, adaptasi dari algoritma
data mining dari teks yang diketahui sangat diperlukan. Maka dari itu untuk
mencapai hal ini seringkali berdasarkan penelitian sebelumnya text mining
bergantung pada information retrieval, natural language processing dan
information extraction. Selain itu juga penerapan metode data mining dan statistik
juga diterapkan untuk menangani masalah ini (Hotho, Nurnberger, & Paaß, 2005).
21
UIN SYARIF HIDAYATULLAH JAKARTA
Information Retrieval (IR) adalah menemukan bahan (biasanya dokumen)
dari suatu keadaan yang tidak terstruktur (biasanya teks) yang memenuhi kebutuhan
informasi dari dalam kumpulan data yang besar (biasanya disimpan di dalam
komputer) (Manning, dkk. 2009). Natural Language Processing (NLP) bertujuan
untuk mencapai hasil yang lebih baik dalam pemahaman bahasa alami dengan
menggunakan komputer. Sedangkan Ekstraksi Informasi (IE) bertujuan untuk
menemukan informasi tertentu dari dokumen teks yang kemudian Ini disimpan
dalam basis data seperti pola sehingga dapat digunakan dan dimanfaatkan (Hotho
et al., 2005).
(Hotho et al., 2005) juga mengatakan bahwa pada penelitian text mining
diperlukan tahapan text preprocessing pada koleksi dokumen dan menyimpan
informasi tersebut dalam struktur data. Pendekatan text mining didasarkan pada
pemikiran bahwa dokumen teks dapat diwakili oleh satu set kata-kata, yaitu
dokumen teks digambarkan berdasarkan pada set kata-kata yang terkandung di
dalamnya.
2.7 Pre-proccessing
Pre-processing dalam proses klasifikasi dokumen digunakan untuk
membangun sebuah indeks dari koleksi dokumen. Indeks adalah himpunan term
yang menunjukkan isi atau topik yang dikandung oleh dokumen (Indriani, 2014)
Pembuatan inverted index harus melibatkan konsep linguistic processing
yang bertujuan meng-ekstra term-term penting dari dokumen yang dipresentasikan
sebagai bag-of-words. Ekstraksi term biasanya melibatkan tiga operasi utama,
antara lain:
a. Pemisahan rangkaian term (tokenization). Tokenization adalah tugas
memisahkan deretan kata di dalam kalimat, paragraf atau halaman menjadi token
atau potongan kata tunggal atau termed words. Tahapan ini juga menghilangkan
karakter-karakter tertentu seperti tanda baca dan mengubah semua token ke
bentuk huruf kecil (lower case).
b. Penghapusan stop-words. Stopwords didefinisikan sebagai term yang tidak
berhubungan (irrelevant) dengan subyek utama dari database meskipun kata
22
UIN SYARIF HIDAYATULLAH JAKARTA
tersebut sering kali hadir di dalam dokumen. Contoh stopwords adalah adanya,
adapun, agak, dll.
c. Stemming. Kata-kata yang muncul di dalam dokumen sering mempunyai banyak
varian morfologik. Karena itu, setiap kata yang bukan stop-words direduksi ke
stemmed words (term) yang cocok yaitu kata tersebut distem untuk mendapatkan
bentuk akarnya dengan menghilangkan awalan atau akhiran. Dengan cara ini,
diperoleh kelompok kata yang cocok dimana kata-kata di dalam kelompok
tersebut merupakan varian sintaktis dari satu sama lain dan dapat menghimpun
hanya satu kata per kelompok. Sebagai contoh kata terdaftar, pendaftaran
berbagi-pakai term, stem, umum, daftar, dan dapat diperlakukan sebagai bentuk
lain dari kata ini (Indriani, 2014).
2.8 Klasifikasi
Klasifikasi merupakan suatu metode untuk mengelompokkan sebuah objek
ke dalam kelompok atau kelas tertentu (Syafitri, 2010). Algoritma klasifikasi yang
banyak digunakan secara luas, yaitu Decision atau Classification Trees, Bayesian
Classifiers atau Naïve Bayes Classifiers, Neural Networks, Analisa Statistik,
Algoritma Genetika, Rough Sets, K-Nearest Neighbor , Metode Rule Based,
Memory Based Reasoning, dan Support Vector Machines (SVM) (Leidiyana,
2013). Proses ini dilakukan agar data atau citra dapat dikategorikan dalam suatu
kelas tertentu yang telah ditentukan.
Sebuah sistem klasifikasi juga harus diukur kinerjanya guna melihat tingkat
akurasi dan kesalahan dari sistem tersebut. Umumnya, pengukuran kinerja
klasifikasi dilakukan dengan matriks konfusi (confussion matrix). Matriks konfusi
merupakan tabel pencatat hasil kerja klasifikasi. Tabel 2.2 merupakan contoh
matriks konfusi yang melakukan klasifikasi masalah biner pada dua kelas yaitu
kelas 0 dan 1. Setiap set dalam matriks menyatakan jumlah record / data dari
kelas i yang hasil prediksinya masuk ke kelas j. Misalnya, set adalah jumlah
data dalam kelas 1 yang secara benar dipetakan ke kelas 1, dan adalah data
dalam kelas 1 yang dipetakan secara salah kelas 0 (Prasetyo, 2012).
Tabel 2. 3 Klasifikasi (Sumber: Prasetyo, 2012)
23
UIN SYARIF HIDAYATULLAH JAKARTA
Kelas hasil prediksi (j)
Kelas = 1 Kelas = 0
Kelas Asli (i) Kelas = 1 (True Positive) (False Negatif)
Kelas = 0 (False Positive) (True Negatif)
Berdasarkan isi matriks konfusi, dapat diketahui jumlah data dari masing-
masing kelas yang diklasifikasikan secara benar, yaitu (𝑓10+ 𝑓01) kuantitas matriks
konfusi dapat diringkas menjadi dua nilai, yaitu akurasi dan laju error.
Beradasarkan jumlah data yang diklasifikasi secara benar, maka dapat diketahui
akurasi hasil prediksi, dan dengan mengetahui jumlah data yang diklasifikasikan
secara salah, dapat diketahui laju error dari prediksi yang dilakukan. Dua kuantitas
ini digunakan sebagai matrik kinerja klasifikasi (Prasetyo, 2012).
Untuk menghitung akurasi digunakan formula sebagai berikut:
Untuk menghitung laju error (kesalahan prediksi) digunakan formula
2.9 Metode Lexicon
Lexicon based merupakan metode yang sederhana, layak dan praktis untuk
analisis sentimen dari data media sosial. Data yang cocok dengan metode Lexicon
Based yaitu data kuesioner, data Twitter, data facebook, atau media sosial lainnya
yang berupa opini pelanggan tentang suatu produk atau pelayanan jasa (Matulatuwa
et al., 2017).
Lexicon based didasarkan pada asumsi bahwa orientasi sentimen kontekstual
adalah jumlah dari orientasi sentimen setiap kata atau frase. Metode lexicon dapat
digunakan untuk mengekstrak sentimen dari blog dengan mengkombinasi lexical
knowledge dan klasifikasi teks. Metode lexicon dapat dibuat secara manual atau
diperluas secara otomatis dari seed of words (Matulatuwa et al., 2017).
Kamus adalah komponen penting dalam sistem yang menggunakan lexicon
based. Kamus digunakan dalam proses normalisasi kalimat dan ekstraksi kata
kunci. Berikut adalah contoh kamus dan isinya (Matulatuwa et al., 2017).
24
UIN SYARIF HIDAYATULLAH JAKARTA
1. Positive keywords: baik, bagus, bisa, ok, cepat, akurat, aman, senang.
2. Negative keywords: acuh, ambigu, bodoh, gagal, abnormal, susah, lambat.
3. Negation keywords: seharusnya, bukan, tidak
Hu, dkk. 2004 dikutip Liu, 2012 mengusulkan algoritma berbasis lexicon
untuk aspek menentukan orientasi sentimen. Orientasi sentimen kalimat itu
ditentukan dengan menjumlahkan nilai orientasi semua kata sentimen di kalimat.
Sebuah kata positif diberi nilai sentimen dari +1 dan kata negatif diberi nilai
sentimen dari -1. Kata negasi dan kata-kata yang bertentangan (misalnya, tetapi dan
namun) juga dipertimbangkan. Ada empat langkah dalam menentukan orientasi
sentimen berdasarkan pendekatan lexicon yaitu :
1. Tandai kata yang mengandung sentimen : untuk setiap kalimat yang berisi satu
atau lebih kata sentimen, langkah ini menandai semua kata dan frasa dalam
sentimen kalimat. Setiap kata positif diberikan skor sentimen +1 dan setiap kata
negatif diberikan skor sentimen -1. Contoh “Kualitas lampu penerangan ini tidak
baik [ +1 ], tapi daya nya tahan lama [ +1 ]". Dari contoh tersebut kata baik
bernilai +1 dan tahan lama bernilai +1 karna termasuk kata positif.
2. Terapkan sentimen shifter adalah kata-kata dan frase yang dapat mengubah
orientasi sentimen. Ada beberapa jenis shifter kata negasi seperti tidak, tidak
pernah, dan tidak ada adalah jenis yang paling umum. Berdasarkan hal tersebut
kalimat menjadi “Kualitas lampu penerangan ini tidak baik [ -1 ], tapi daya nya
tahan lama [ +1 ]" karena kata negasi "tidak".
3. Agregat : Pada langkah ini berlaku fungsi agregasi pendapat dengan skor
sentimen yang dihasilkan untuk menentukan orientasi akhir dari sentimen.
𝑠𝑐𝑜𝑟𝑒(𝑓) = ∑𝑤𝑖𝑆𝑂
𝑑𝑖𝑠(𝑤𝑖, 𝑓) (𝑃𝑒𝑟𝑠𝑎𝑚𝑎𝑎𝑛 2.3)
Keterangan :
w i SO = Jumlah (score) fitur ke i setiap sentimen (Positif dan Negatif)
dis (wi,f) = Jumlah fitur yang berhasil ditemukan.
2.9.1 Kamus Lexicon
Dalam pendekatan analisis sentimen dengan menggunakan lexicon, kamus
merupakan komponen penting dalam ekstraksi kata sentimen. Menggunakan
25
UIN SYARIF HIDAYATULLAH JAKARTA
pendekatan kamus untuk mengumpulkan kata-kata sentimen adalah pendekatan
yang jelas karena sebagian besar kamus misalnya, WordsNet mengandung sinonim
dan antonim untuk setiap kata. Jadi secara sederhana, teknik atau pendekatan ini
adalah dengan menggunakan beberapa kata sentimen benih untuk dijadikan acuan
dan kemudian dicocokan berdasarkan sinonimnya dan struktur antonim dari kamus.
Secara khusus, metode ini berfungsi sebagai berikut: satu set kecil kata
sentimen dengan orientasi positif atau negatif yang diketahui kemudian
dikumpulkan secara manual. Algoritma ini kemudian menghitung banyaknya kata
dengan mencari di WordsNet atau kamus lain sesuai dengan sinonim dan
antonimnya. Kata-kata yang ditemukan akan dimasukkan ke dalam daftar positif
atau negatif. Proses berakhir ketika tidak ada kata-kata baru yang dapat ditemukan.
Setelah proses selesai, langkah pemeriksaan digunakan untuk menghitung agregat
positif atau negatif. (Bhonde, 2015)
Kamus yang digunakan dalam pendekatan lexicon diantaranya kamus
lexicon positif, kamus lexicon negatif, kamus lexicon negasi, KBBI, kamus kata
dasar, dan kamus stopwords.
a. Kamus positif
Kamus positif digunakan untuk meyeleksi kata-kata yang termasuk kedalam
sentimen positif dari suatu kalimat atau query yang akan ditentukan
sentimennya. Kamus positif pada penelitian ini sebanyak 1.185 kata. Sumber
data didapatkan dari GITHUB, https://github.com/masdevid/ID-OpinionWords.
b. Kamus negatif
Kamus negatif digunakan untuk meyeleksi kata-kata yang termasuk kedalam
sentimen negatif dari suatu kalimat atau query yang akan ditentukan
sentimennya. Kamus negatif pada penelitian ini sebanyak 2.403 kata. Sumber
data didapatkan dari GITHUB, https://github.com/masdevid/ID-OpinionWords.
c. Kamus negasi
Kamus negasi digunakan untuk mendeteksi suatu kalimat atau query yang telah
ditentukan sentimennya baik positif maupun negatif, apakah sentimen tersebut
diikuti kata negasi. Sentimen yang diikuti kata negasi akan memiliki perubahan
nilai sentimen dari yang sebelumnya. Kamus negasi yang digunakan pada
26
UIN SYARIF HIDAYATULLAH JAKARTA
penelitian ini sebanyak 10 kata. Sumber data didapatkan dari GITHUB,
https://github.com/jakaprata/Analisis-Sentimen-Twitter-Dengan-Klasifikasi-
Naive-Bayes-menggunakan-PHP/blob/master/negation.txt
d. Kamus kata dasar dan KBBI
Kamus kata dasar dan KBBI digunakan untuk melakukan proses stemming
dalam tahapan natural language processing. Stemming merupakan pengubahan
kata berimbuhan menjadi kata dasar. Dalam proses ini dibutuhkan kamus kata
dasar dan KBBI sebagai penyeleksian kata yang sesuai. Kamus kata dasar dan
KBBI yang digunakan dalam penelitian ini sebanyak 29.932 kata dan 61.640
kata. Sumber data didapatkan dari GITHUB :
https://github.com/nolimitid/nolimit-kamus/blob/master/kata-dasar/kata-dasar-
all.txt
https://github.com/geovedi/indonesian-wordslist/blob/master/00-indonesian-
wordslist.lst
e. Kamus stopwords
Kamus stopwords digunakan untuk penyeleksian kata-kata yang dianggap tidak
penting. Proses ini dilakukan untuk mempercepat proses klasifikasi data. Kamus
stopwords yang digunakan dalam penelitian ini sebanyak 1.023 kata. Sumber
data didapatkan dari GITHUB,
https://github.com/masdevid/IDStopwords/blob/master/id.Stopwords.02.01.201
6.txt
2.10 Metode K-Nearest Neighbour (K-NN)
K-NN adalah algoritma untuk mengklasifikasi objek baru berdasarkan atribut
dan training samples (data latih). Dimana hasil dari sampel uji yang baru
diklasifikasikan berdasarkan mayoritas dari kategori pada K-NN. Algoritma K-NN
menggunakan klasifikasi ketetanggaan sebagai nilai prediksi dari sampel uji yang
baru (Krisandi, Prihandono, & Bayes, 2013). Data latih akan dibangun dengan
memperhatikan keseimbangan dokumen satu sama lain. Adapun algortima K-NN
dapat dijelaskan (Kurniawan, 2012) dengan keterangan berikut:
27
UIN SYARIF HIDAYATULLAH JAKARTA
a. Hitung jarak antara data sampel (data uji) dengan data latih yang telah dibangun.
Salah satu persamaan dalam menghitung jarak kedekatan dapat menggunakan
persamaan cosine similirity.
b. Menentukan parameter nilai k = jumlah tetanggaan terdekat.
c. Mengurutkan jarak terkecil dari data sample
d. Pasangkan kategori sesuai dengan kesesuaian
e. Cari jumlah terbanyak dari tetanggaan terdekat. Kemudian tetapkan kategori.
Jarak yang digunakan dalam penelitian ini adalah cosine similarity.
𝐶𝑜𝑠(𝑖, 𝑘) =∑ 𝑘 (𝑑1 𝑑𝑘)
√∑ 𝑘 𝑑𝑖𝑘2 √∑ 𝑘 𝑑𝑗𝑘
2
Keterangan :
∑ 𝑘 (𝑑1 𝑑𝑘) = vektor dot produk dari i dan k
√∑ 𝑘 𝑑𝑖𝑘2 = panjang vektor i
√∑ 𝑘 𝑑𝑗𝑘2 = panjang vektor k
Algoritma K-NN (Krisandi et al., 2013) adalah algoritma yang menentukan
nilai jarak pada pengujian data testing dengan data training berdasarkan nilai
terkecil dari nilai ketetanggaan terdekat didefinisikan sebagai berikut:
𝐷𝑛𝑛(𝑐1 𝑐2) = 𝑚𝑖𝑛1≤𝑖≤𝑟,1≤𝑗≤𝑠𝑑(𝑦𝑖, 𝑧𝑖)
Perbandingan algoritma K-NN, Naïve Bayes dan SVM:
Tabel 2. 4 Perbandingan K-NN, Naive Bayes dan SVM
K-Nearest Neighbor Naïve Bayes Support Vector Machine
Tangguh terhadap data
noise, apabila
menggunakan data latih
yang cukup banyak.
Menghasilkan akurasi
yang lebih maksimal
kalau digunakan
menggunakan data latih
yang secara real time.
Tingkat akurasi yang
baik tapi memiliki waktu
proses yang cukup lama
dibandingkan dengan K-
NN menggunakan data
latih yang cukup banyak.
28
UIN SYARIF HIDAYATULLAH JAKARTA
Mampu memberikan
performa yang baik
untuk data yang bersifat
independent (tidak
memiliki ketergantungan
kata)
Menghasilkan akurasi
yang lebih baik jika
menggunakan data uji
yang sedikit.
Tingkat akurasi baik dan
tidak dipengaruhi besar
kecilnya data uji.
Mencari jarak terdekat
yang akan dievaluasi
dengan k tetangga
Dalam perhitungan hanya
membutuhkan parameter
mean dan varians dari
variabel yang dibutuhkan
untuk klasifikasi.
Merupakan linear
classifier dan
dikembangkan juga non-
linear dengan
memasukkan konsep
kernel pada ruang kerja
dimensi tinggi
Melakukan pembobotan
kata untuk setiap kata
pada dokumen latih,
kemudian menghitung
kemiripan vektor
dokumen uji dengan
dokumen latih
menggunakan cosine
similarity dan urutkan
jarak lalu tentukan nilai k
dan tentukan kategori
dokumen berdasarkan
nilai ecludian terdekat.
Hanya mencari
probabilitas pada setiap
kata pada data latih,
kemudian mencari kata
pada data uji yang sesuai
dengan data latih,
kemudian hitung nilai
probailitas dokumen lalu
mengkalikannya dan
membandingkan
kemudian mencari nilai
probabilitas terbesar.
Membuat sequential
training, dengan
menginialisasi kemudian
menghitung matrix
hessian dan mulai dari
data pertama sampai
terakhir dihitung secara
terus menerus sampai
menemukan iterasi
maksimum tercapai.
2.11 Confussion Matrix
Dalam mengukur tingkat akurasi sistem orientasi sentimen, maka digunakan
tabel confussion matrix. Confussion matrix adalah sebuah tabel yang menyatakan
jumlah data uji yang benar diklasifikasikan dan jumlah data uji yang salah
29
UIN SYARIF HIDAYATULLAH JAKARTA
diklasifikasikan (Prasetyo, 2012). Contoh confussion matrix untuk klasifikasi biner
ditunjukkan pada tabel berikut:
Tabel 2. 5 Confussion Matrix (Sumber : Prasetyo, 2012)
Kelas Sebenarya Kelas hasil prediksi
Positif = 1 Negatif = 0
Positif = 1 TP FN
Negatif = 0 FP TN
Keterangan untuk tabel diatas dinyatakan sebagai berikut :
1. True Positif (TP), yaitu jumlah dokumen dari kelas 1 yang benar dan
diklasifikan sebagai kelas 1.
2. True Negatif (TN), yaitu jumlah dokumen dari kelas 0 yang benar
diklasifikasikan sebagai kelas 0.
3. False Positif (FP), yaitu jumlah dokumen dari kelas 0 yang salah
diklasifikasikan sebagai kelas 1.
4. False Negatif (FN) yaitu jumlah dokumen dari kelas 1 yang salah
diklasifikasikan sebagai kelas 0.
akurasi = TP + TN
TP + FN + FP + TN
2.12 Metode Simulasi
Simulasi adalah suatu metodologi untuk melaksanakan percobaan dengan
menggunakan model dari suatu sistem nyata (Siagian, 1987). Menurut Hasan
(2002), simulasi merupakan suatu metode pengambilan keputusan dengan
mencontoh atau mempergunakan gambaran sebenarnya dari suatu sistem
kehidupan dunia nyata tanpa harus mengalaminya pada keadaaan yang
sesungguhnya.
Simulasi adalah suatu teknik yang dapat digunakan untuk memecahkan
model-model dari golongan yang luas. Golongan atau kelas ini sangat luasnya
sehingga dapat dikatakan “Jika semua cara yang lain gagal, cobalah simulasi”
(Schroeder, 1997).
Ada berbagai jenis lifecycle menurut (Madani et al., 2014) yang dapat
digunakan untuk studi pada pemodelan dan simulasi. Terdapat langkah-langkah
30
UIN SYARIF HIDAYATULLAH JAKARTA
dasar yang harus dipertimbangkan dalam melakukan studi simulasi. Lifecycle tidak
harus diartikan sebagai sebuah sekuensial yang strict, bersifat iteratif, dan kadang
juga bertransisi dalam arah yang berlawanan. Demikian juga, beberapa langkah
terkadang dapat dilewati atau di-skip sesuai dengan kompleksitas aplikasi. Hal ini
sangat dianjurkan untuk menggunakan siklus spiral dengan pengembangan
incremental yaitu pada langkah 2-8, yang dapat menyebabkan revisi untuk fase
sebelumnya. Setiap fase dalam siklus spiral harus berakhir sebuah prototype yang
sudah dapat bekerja yang sudah lebih fungsionalitas dari siklus sebelumnya.
(Madani et al., 2014) memberikan suatu tahapan dalam melakukan studi
simulasi. Adapun tahapan-tahapan tersebut adalah sebagai berikut.
2.12.1 Problem Formulation
Setiap studi seharusnya dimulai dengan statemen terhadap masalah.
Proses simulasi dimulai dengan masalah yang memerlukan pemecahan atau
pemahaman. Sebagai contoh seperti kasus sebuah perusahaan kargo mencoba
untuk mengembangkan strategi baru untuk truk pengiriman atau astronom
mencoba untuk memahami bagaimana nebula terbentuk. Pada tahap ini, harus
dipahami perilaku dari sebuah sistem, organize operasi sistem sebagai obyek
dalam rangka percobaan. Kemudian perlu dianalisis berbagai alternatif solusi
dengan menyelidiki hasil sebelumnya untuk masalah yang sama. Solusi yang
paling diterima harus dipilih (menghilangkan tahap ini dapat menyebabkan
pemilihan solusi yang salah). Jika masalah melibatkan analisis kinerja, ini adalah
titik di mana bisa didefinisikan matrik kinerja (berdasarkan variabel output) dan
fungsi tujuan (yaitu, kombinasi dari beberapa matrik) (Madani et al., 2014).
2.12.2 Conceptual Model
Langkah ini terdiri dari pengembangan deskripsi tingkat tinggi dari
struktur dan perilaku atau behavior sebuah sistem dan mengidentifikasi semua
benda dengan atribut dan interface mereka. Pada tahap ini harus ditentukan apa
saja variabel statenya, bagaimana mereka berhubungan, dan mana yang penting
untuk penelitian. Pada langkah ini, aspek-aspek kunci dari requierements
dinyatakan. Selama definisi model konseptual, perlu diungkapkan fitur yang
penting. Kemudian mendokumentasikan informasi-untuk non-fungsional
31
UIN SYARIF HIDAYATULLAH JAKARTA
misalnya, perubahan masa depan, perilaku unintuitive, dan hubungan sistem
dengan lingkungan (Madani et al., 2014).
2.12.3 Collection of Input/Output Data
Pada tahap ini, kita harus mempelajari sistem untuk memperoleh data
input / output. Untuk melakukannya, harus diamati dan mengumpulkan atribut
yang dipilih pada tahap sebelumnya. Isu penting lainnya selama fase ini adalah
pemilihan ukuran sampel yang valid secara statistik dan format data yang dapat
diproses dengan komputer. Akhirnya, kita harus memutuskan mana attribut yang
stokastik dan yang deterministik. Dalam beberapa kasus, tidak ada sumber data
yang bisa dikumpulkan (misalnya, untuk sistem yang belum ada). Dalam kasus
tersebut, kita perlu mencoba untuk mendapatkan set data dari sistem yang sama
(jika tersedia). Pilihan lain adalah dengan menggunakan pendekatan stokastik
untuk menyediakan data yang diperlukan melalui generasi nomor acak (Madani
et al., 2014).
2.12.4 Modelling Phase
Pada tahap pemodelan, kita harus membangun representasi rinci dari
sistem berdasarkan model konseptual dan koleksi data yang dikumpulkan.
Model ini dibangun dengan mendefinisikan objek, atribut, dan metode
menggunakan paradigma yang dipilih. Pada titik ini, spesifikasi model dibuat,
termasuk set persamaan yang mendefinisikan perilaku dan struktur. Setelah
menyelesaikan definisi ini, kita harus berusaha untuk membangun struktur awal
model (mungkin berkaitan variabel sistem dan matrik kinerja). Harus berhati-
hati dalam menjelaskan setiap asumsi dan penyederhanaan dan juga dalam
mengumpulkan atribut ke EF (Entity Framework) model (Madani et al., 2014).
2.12.5 Simulation Phase
Selama tahap simulasi, kita harus memilih mekanisme untuk
menerapkan model (dalam banyak kasus menggunakan komputer dan bahasa
pemrograman yang memadai serta tools yang tepat), dan model simulasi yang
dibangun. Selama langkah ini, mungkin diperlukan untuk menentukan algoritma
dan menerjemahkannya ke dalam program komputer. Pada tahap ini, kita juga
harus membangun model EF untuk proses simulasi (Madani et al., 2014).
32
UIN SYARIF HIDAYATULLAH JAKARTA
2.12.6 Verification, Validation and Experimentation
Pada tahap-tahap sebelumnya, tiga model yang berbeda dibangun:
model konseptual (spesifikasi), model sistem (desain), dan model simulasi
(executable program). Kita perlu untuk memverifikasi dan memvalidasi model
ini. Verifikasi terkait dengan konsistensi internal antara tiga model. Validasi
difokuskan pada korespondensi antara model dan realitas: adalah hasil simulasi
yang konsisten dengan sistem yang dianalisis. Sementara itu pada fase
experimentation, kita harus mengevaluasi hasil dari simulator, menggunakan
korelasi statistik untuk menentukan tingkat presisi untuk matrik kinerja. Fase ini
dimulai dengan desain eksperimen, dengan menggunakan teknik yang berbeda.
Beberapa teknik ini meliputi analisis sensitivitas, optimasi,dan seleksi
(dibandingkan dengan sistem alternatif) (Madani et al., 2014).
2.12.7 Output Analysis Phase
Pada tahap analisis output, output simulasi dianalisis untuk memahami
perilaku sistem. Output ini digunakan untuk memperoleh tanggapan tentang
perilaku sistem yang asli. Pada tahap ini, alat visualisasi dapat digunakan untuk
membantu proses tersebut. Tujuan dari visualisasi adalah untuk memberikan
pemahaman yang lebih dalam tentang sistem yang sedang diselidiki dan
membantu dalam mengeksplorasi set besar data numerik yang dihasilkan oleh
simulasi (Madani et al., 2014).
2.13 Studi Literatur
Pada penelitian ini studi literatur sejenis digunakan oleh penulis sebagai
bahan untuk mengevaluasi dan sekaligus referensi penelitian yang akan dilakukan.
Hal ini dimaksudkan agar ada perbedaan pada penelitian ini dibandingkan dengan
penelitian-penelitian sebelumnya dan menjadi penelitian yang bermanfaat. Berikut
adalah literatur sejenis yang digunakan dan perbedaannya dengan penelitian ini :
1. Analisis Kinerja Algoritma Naïve Bayes dan K-Nearest Neighbor Pada Sentimen
Analisis Dengan Pendekatan Lexicon (Azhar, 2018).
Topik yang diambil adalah analisis kinerja algoritma Naïve Bayes dan K-
Nearest Neighbor pada sentimen analisis dengan pendekatan lexicon. Sosial
media yang diambil sentimennya adalah Twitter API. Proses NLP yang
33
UIN SYARIF HIDAYATULLAH JAKARTA
digunakan adalah case folding, filtering, tokenizing, normalisasi, stopwords, dan
stemming. Dengan mempunyai kelebihan yaitu nilai K-NN pada tingkat akurasi
k=5 dengan tingkat akurasi mencapai 77% menggunakan dataset hasil crawling
data dengan kata kunci pilpres 2019 dan Jokowi. Lalu perbandingan antara
algoritma Naïve Bayes dengan K-NN selisih tingkat akurasi mencapai 4%.
Terdapat kekurangan sistem hanya bisa mengunakan data teks dan berbahasa
Indonesia, tidak tedapat metode orientasi teknis bigram, dan kurangnya koleksi
kamus sentimen.
2. Penerapan Metode K-Nearest Neighbor untuk analisis sentimen review game
pada Android oleh Sucitra Sahara, 2016
Topik yang diambil adalah penerapan metode K-Nearest Neighbor untuk
analisis review game pada android dengan menggunakan media sosial yang
diambil sentimennya adalah Twitter API. Lalu mengunakan algoritma K-NN
dengan proses metode Natural Languange Processing, yaitu; tokenizing,
stopwards dan stemming. Dengan mempunyai kelebihan K-NN berhasil
mendapatkan tingkat akurasi sebesar 74,50% menggunakan feature weighting
(pembobotan kata). Dan terdapat kekurangan yaitu pelabelan data latih
dilakukan secara manual.
3. Analisis sentimen terhadap tayangan televisi berdasarkan opini masyarakat pada
media sosial Twitter mengggunakan K-NN (Nurjanah, Perdana &Fauzi, 2017).
Topik yang diambil adalah analisis sentimen terhadap tayangan televisi
berdasarkan opini masyarakat pada media sosial twitter mengggunakan K-NN.
Sosial media yang diambil sentimennya adalah Twitter API. Proses NLP yang
digunakan adalah tokenizing, case folding, cleansing, filterisasi, dan stemming.
Dengan mempunyai kelebihan yaitu Tingkat akurasi pembobotan tekstual
mencapai 82,50% dan non-tekstual 60% sedangkan gabungan keduanya
mencapai 83,33%. Nilai k yang digunakan yaitu k = 3 yang merupakan k
optimal, dan konstanta α=0,8 dan β=0,2 %. Terdapat kekurangan Jika nilai
konstanta α =0, maka proses klasifikasi hanya menggunakan pembobotan
jumlah retweet saja. Sedangkan jika nilai β = 0, maka klasififkasi hanya
menggunakan pembobotan teks saja.
34
UIN SYARIF HIDAYATULLAH JAKARTA
4. Analisis Sentimen pada Acara Televisi Mengunnakan Improved K-Nearest
Neighbor oleh Willa Oktinas, 2017.
Topik yang diambil adalah analisis sentimen pada acara televisi
menggunakan Improved K-Nearest Neighbor dengan menggunakan sosial
media yang diambil sentimen analisis adalah Twitter. Lalu tahapan yang
digunakan adalah Pre-Processing, yaitu cleansing, filtering, tokenizing,
stopward removal, dan stemming. Kemudian Fitur seleksi TF-IDF dengan
klasifikasi K-NN. Dengan kelebihan adalah hasil akurasi terbesar yang didapat
pada saat k=`10 sebesar 90% menggunakan cosine similarity. Dan terdapat
kekurangan, yaitu membutuhkan waktu yang lama pada saat pengujian.
5. Komparasi metode K-Nearest Neighbor dan Support Vector Machine pada
sentimen review kamera oleh Rustiana & Rahayu, 2017
Topik yang diambil adalah Komparasi metode K-Nearest Neighbor dan
Support Vector Machine pada sentimen review kamera dengan media sosial
yang diambil sentimen analisisnya adalah Twitter. Dengan Natural Languange
Processing menggunakan tokenizing, stopwords, stemming. Dengan kelebihan
yaitu Akurasi pada K-NN sebesar 79% dan Akurasi pada SVM sebesar 72%.
Akan tetapi memiliki kekurangan Pelabelan data latih dilakukan secara manual,
kurangnya tahapan proses NLP menyebabkan seleksi fitur ada yang tidak sesuai
dengan klasifikainya
35
UIN SYARIF HIDAYATULLAH JAKARTA
Tabel 2. 6 Studi Literatur Sejenis
Nama
Penulis
Azhar, 2018 Sucitra Sahara,
2016
Nurjanah, Perdana,
& Fauzi, 2017
Willa Oktinas, 2017 Rustiana &
Rahayu, 2017
Peneliti
Sekarang
Topik Analisis Kinerja
Algoritma Naïve
Bayes dan K-
Nearest Neighbor
Pada Sentimen
Analisis Dengan
Pendekatan
Lexicon
Penerapan
Metode K-Nearest
Neighbor untuk
analisis sentimen
review game pada
android
Analisis Sentimen
Terhadap Tayangan
Televisi Berdasarkan
Opini Masyarakat
pada Media Sosial
menggunakan
Metode k-NN
Analisis Sentimen
pada Acara Televisi
Mengunnakan
Improved K-Nearest
Neighbor.
Komparasi
metode K-Nearest
Neighbor dan
Support Vector
Machine pada
sentimen review
kamera
Analisis
Sentimen
Pemindahan Ibu
Kota Indonesia
Pada Media
Sosial Twitter
Menggunakan
Metode
Algoritma K-NN
Media Sosial Twitter Twitter Twitter Twitter Twitter Twitter
Algoritma
Yang
Digunakan
Naïve Bayes dan
K-NN
K-NN K-NN K-NN K-NN dan SVM K-NN
36
UIN SYARIF HIDAYATULLAH JAKARTA
Metode
Natural
Languange
Processing
Yang
Digunakan
Case Folding,
Filtering,
Tokenizing,
Normalization,
Stopwords, dan
Stemming
Tokenizing,
Stopwords,dan
Stemming
Tokenizing , Case
folding, Cleansing,
Filterisasi, dan
Stemming
Cleansing, Filtering,
Tokenizing,
Stopward Removal,
dan Stemming
Tokenizing,
Stopwords, dan
Stemming
Case Folding,
Filtering,
Tokenizing,
Normalization,
Stopwords, dan
Stemming
Kelebihan nilai K-NN pada
tingkat akurasi
k=5 dengan
tingkat akurasi
mencapai 77%.
Algoritma Naïve
Bayes dengan K-
NN selisih tingkat
akurasi mencapai
4%
K-NN berhasil
mendapatkan
tingkat akurasi
sebesar 74,50%,
menggunakan
feature weighting
(pembobotan
kata)
Tingkat akurasi
pembobotan tekstual
mencapai 82,50%
dan non-tekstual
60% sedangkan
gabungan keduanya
mencapai 83,33%.
Nilai k yang
digunakan yaitu k = 3
yang merupakan k
optimal, dan
konstanta α=0,8 dan
β=0,2.
Dengan kelebihan
adalah hasil akurasi
terbesar yang didapat
pada saat k=`10
sebesar 90%
menggunakan
Cosine Similarity
Dengan kelebihan
yaitu Akurasi
pada K-NN
sebesar 79% dan
Akurasi pada
SVM sebesar
72%
Nilai K-NN pada
k=9 akurasi
mencapai 62%.
Lalu percobaan
kedua mendapat
akurasi sebesar
64% untuk K-
NN.
37
UIN SYARIF HIDAYATULLAH JAKARTA
Kekurangan sistem hanya bisa
mengunakan data
teks dan
berbahasa
Indonesia, tidak
tedapat metode
orientasi teknis
bigram, dan
kurangnya koleksi
kamus sentimen.
Pelabelan data
latih dilakukan
secara manual
Jika nilai konstanta α
=0, maka proses
klasifikasi hanya
menggunakan
pembobotan jumlah
retweet saja.
Sedangkan jika nilai
β = 0, maka
klasififkasi hanya
menggunakan
pembobotan teks
saja.
Dan terdapat
kekurangan, yaitu
membutuhkan waktu
yang lama pada saat
pengujian
Akan tetapi
memiliki
kekurangan
Pelabelan data
latih dilakukan
secara manual,
kurangnya
tahapan proses
NLP
menyebabkan
seleksi fitur ada
yang tidak sesuai
dengan
klasifikainya
Sistem ini hanya
dapat
mengklasifikasi
data teks
berbahasa
Indonesia dan
diharapkan
dapat berjalan di
semua platfrom.
Kurangnya
koleksi kampus
sehingga dapat
lebih maksimal.
Tabel 2. 7 Keunikan Peneliti Dengan Peneliti Sebelumnya
Nama
Penulis
Azhar, 2018 Sucitra Sahara,
2016
Nurjanah,
Perdana, & Fauzi,
2017
Willa Oktinas,
2017
Rustiana &
Rahayu, 2017
Peneliti Sekarang
38
UIN SYARIF HIDAYATULLAH JAKARTA
Seleksi Fitur
Untuk
Klasifikasi
Menggunakan
pembobotan TF-
IDF
menggunakan
feature weighting
(pembobotan kata)
Menggunakan
pembobotan
Tekstual dan Non
Tekstual
Menggunakan
pembobotan TF-
IDF
Menggunakan
pembobotan TF-
IDF
Menggunakan
pembobotan TF-
IDF.
Labelling
Data Latih
Labelling data
lmenggunakan
Lexicon Based.
Data latih terdiri
dari 900 tweet
dengan 300
sentimen positif,
300 sentimen
negatif dan 300
sentimen netral
Pelabelan data
dilakukan masih
secara manual
Data latih terdiri
dari 280 data dan
data uji terdiri dari
120 data. Terdapat
2 kategori
sentimen, yaitu
positif dan
negatif.
Pelabelan data
dilakukan masih
secara manual.
Terdapat 3
kategori sentimen,
yaitu sentimen
positif, negatif,
dan netral.
Pelabelan data
dilakukan masih
secara manual
Data latih terdiri
dari 900 tweet
dengan
menggunakan
metode
pendekatan
lexicon. Data uji
terdiri dari 100
tweet.
Tahapan
Data
Pengujian
Pengujian dua kali,
pertama dilakukan
kombinasi
algoritma Naïve
Pengujian
dilakukan dengan
10 skenario, yang
mana nilai k dari 1-
Pengujian
dilakukan 3 kali,
menggunakan
pembobotan
Pengujian
dilakukan
sebanyak 10 kali
dengan nilai k=1-
Pengujian
dilakukan dua
kali, yaitu
pengujian K-NN
Pengujian
dilakukan dua kali
dimana.
Pengujian
39
UIN SYARIF HIDAYATULLAH JAKARTA
Bayes dan K-NN
dengan labelling
lexicon dan
pengujian kedua
dibandingkan
dengan algoritma
Naïve Bayes dan K-
NN tanpa lexicon.
10 yang kemudian
didapatkan nilai k
10 mendapatkan
akurasi yang paling
tinggi.
tekstual, non-
tekstual dan
penggabungan.
Nilai k yang
digunakan k=3
dan konstanta
α=0,8 dan β=0,2
10. Didapatkan
hasil akurasi
tertinggi dengan
nilai k=10 sebesar
90%.
dan SVM yang
kemudian
dibandingkan
sehingga
didapatkan bahwa
K-NN lebih baik
dari SVM dengan
nilai 79% dan
72%.
pertama dilakukan
dengan algoritma
K-NN 62%. Lalu
percobaan kedua
mendapat akurasi
sebesar 64%
untuk K-NN
2.14 Studi Pustaka
Fokus utama suatu tinjauan atau literature review dalam suatu penelitian adalah mengetahui apakah para peneliti lain telah
menemukan jawaban untuk pertanyaan-pertanyaan penelitian yang kita rumuskan. Jika dapat menemukan jawaban pertanyaan
penelitian tersebut dalam berbagai pustaka atau laporan hasil penelitian yang paling aktual, maka kita tidak perlu melakukan penelitian
yang sama. Kita harus memilih topik lain atau menyempurnakan hasil penelitian yang telah ada sehingga topik tersebut menjadi lebih
spesifik.
40 UIN SYARIF HIDAYATULLAH JAKARTA
BAB III
METODE PENELITIAN 3.1 Metode Pengumpulan Data
Pada penelitian ini penulis mengumpulkan data dan informasi yang dapat
menunjang proses dalam penelitian dimana proses pengumpulan data sebagai
berikut
3.1.1 Studi Pustaka
Studi pustaka dilakukan dengan pengumpulan teori-teori yang berkaitan
dengan penulisan skripsi sebagai bahan untuk melengkapi penelitian ini. Sumber
teori berasal dari buku referensi, hasil penelitian (jurnal dan skripsi) dan artikel-
artikel terkait. Selain itu peneliti juga mengunjungi situs-situs yang terkait
aplikasi natural language processing, text mining, pendekatan lexicon, dan
Algoritma K-Nearest Neighbor (K-NN). Pustaka-pustaka yang dijadikan acuan
dapat dilihat di daftar pustaka. Pustaka-pustaka yang dijadikan acuan dapat
dilihat di daftar pustaka sebanyak 16 studi pustaka yang terdiri dari 1 buku, 1 e-
book, 10 jurnal, 4 sumber literatur elektronik.
3.1.2 Studi Literatur
Merupakan sumber data sekunder dalam penelitian. Studi literatur
dilakukan dengan pengumpulan teori-teori yang berkaitan dengan penulisan riset
sebagai bahan untuk melengkapi penelitian. Sumber teori berasal dari buku
referensi, hasil penelitian (jurnal dan skripsi), dan artikel terkait. Dapat dilihat di
(Tabel 2.6 dan Tabel 2.7)
3.1.3 Observasi
Peneliti melakukan observasi data dari Twitter API tentang pendapat atau
komentar netizen terhadap berita pemindahan ibu kota Indonesia pada tahun
2019 ini. Dimana mulai berita isu-isu lokasi tempat yang akan dijadikan ibu kota
baru Indonesia, politik, ekonomi keuangan yang ada di dalam berita pemindahan
ibu kota Indonesia tersebut. Crawling data dimulai dari tanggal10 Oktober 2019
hingga 23 Oktober 2019 untuk pengambilan data pertama dan 23 Januari 2020
hingga 03 Februari 2020 untuk pengambilan data kedua. Untuk developer yang
terdapat pada website https://developers.twitter.com/. Setelah data didapatkan
41
UIN SYARIF HIDAYATULLAH JAKARTA
dari Twitter API dalam bentuk XML, kemudian data tersebut disimpan langsung
menuju ke database MySQL. Pengambilan data dilakukan sebanyak 1.000 tweet
dengan 900 tweet dijadikan data latih dan 100 tweet dijadikan data uji.
Gambar 3. 1 Tahapan Pengambilan Data Twitter
3.2 Metode Simulasi
Metode yang digunakan pada penelitian ini yakni metode simulasi, berikut
langkah-langkah metode simulasi.
3.2.1 Problem Formulasi (Formulasi Masalah)
Pada tahap formulasi masalah, penulis melakukan identifikasi masalah
berdasarkan hasil penelitian sebelumnya (pada tabel 2.6 dan 2.7). Penelitian
sebelumnya berkaitan dengan Algortima K-NN. Penelitian yang dilakukan
42
UIN SYARIF HIDAYATULLAH JAKARTA
Azhar nilai K-NN pada tingkat akurasi k=5 mencapai 77% dan selisisih tingkat
akurasi mencapai 4% pada algoritma Naïve Bayes kemudian tidak adanya
metode orientasi teknis bigram dan kurang koleksi kamus sentimen. Sedangkan
pada peneliti yang dilakukan oleh Sucitra Sahara, 2016, dilakukan penelitian
analisis sentimen terhadap game android. Akurasi yang dihasilkan adalah
sebesar 74,5%. Pengujian yang dilakukan memberikan kesimpulan bahwa
algoritma K-NN merupakan metode yang sesuai dengan klasifikasi text dan
memiliki performa yang tinggi.
Pada penelitian ini, data yang digunakan adalah tweet berbahasa Indonesia
yang terdapat pada Twitter. Terdapat batasan penulisan yaitu sebanyak 140
karakter didalam tweet. Terbatasnya penulisan membuat pengguna Twitter
seringkali menuliskan pesan berupa singkatan. Selain itu juga pengguna Twitter
dapat mengungkapkan ekspresi mereka dengan penggunaan huruf berlebihan
pada pesan Twitter. Hal ini menjadi suatu permasalahan dalam menentukan
orientasi sentimen analisis pada Twitter. Untuk itu diperlukan suatu algoritma
yang mampu mengatasi pesan Twitter yang mengandung sentimen sekaligus
dapat menyeleksi kata singkatan dan kata berlebih kemudian merubahnya
dengan kata yang dapat dijadikan fitur.
3.2.2 Conceptual Model (Pemodelan Konsep)
Dalam penelitian ini pemodelan konsep membahas keseluruhan penelitian
ini berkaitan dengan input, proses dan output. Pertama dengan
mengidentifikasikan input pada penelitian ini, yaitu tweet yang berisikan opini
warganet terkait pemindahan ibu kota Indonesia. Kedua, tweet yang telah
dikumpulkan kemudian diolah dan diproses dengan pendekatan lexicon sebagai
pelabelan terhadap data latih. Menggunakan metode algoritma K-NN klasifikasi
data uji. Hasilnya akan menghitung confussion matrix yang mempunyai keluaran
diantaranya tingkat akurasi, error rate, presisi, f-measure dan recall.
3.2.3 Collection of Input/Output Data (Pengumpulan Masukan atau
Keluaran Data)
Data komentar yang didapat dari Twitter API dijadikan input pada
penelitian ini dalam aplikasi berbasis PHP. Pengambilan data dilakukan
43
UIN SYARIF HIDAYATULLAH JAKARTA
sebanyak 1.000 tweet dengan 900 tweet dijadikan data latih, dan 100 tweet
dijadikan data uji. Periode pengambilan data dibagi menjadi 2, yaitu data
pertama dari 10 Oktober 2019 hingga 23 Oktober 2019 dan 23 Januari 2020
hingga 03 Februari 2020. Data latih akan diolah menggunakan pendekatan
lexicon, sementara data uji akan diolah menggunakan metode algoritma K-
Nearest Neighbor.
3.2.4 Modelling Phase (Tahap Permodelan)
Pada tahap pemodelan, penulis membuat rancangan model sistem yang
akan dibuat. Pemodelan yang dibuat yaitu pemodelan pedekatan lexicon sebagai
metode pemberian label otomatis pada data latih dan pemodelan dengan
algoritma K-NN untuk klasifikasi data uji.
3.2.5 Simulation Phase (Tahap Simulasi)
Penulis melakukan simulasi pada aplikasi sentimen analisis ini. Simulasi
yang akan dilakukan adalah dengan melakukan input data set latih dan uji,
melakukan pelabelan terhadap data latih secara otomatis dengan lexicon based
untuk dikelompokkan sentimennya, melakukan pelatihan terhadap data latih dan
melakukan klasifikasi data uji dengan algoritma K-NN serta menghasilkan
tingkat akurasi, error rate, presisi dan recall dari algoritma yang dijadikan
penelitian.
3.2.6 Conclusion (Verification, Validation, and Experimentation)
Untuk membuat kesimpulan, penulis terlebih dahulu melakukan uji
verifikasi, validasi dan ekperimen. Verifikasi dan validasi bertujuan untuk
menyakinkan hasil dari aplikasi orientasi sentimen dengan menggunakan
algoritma K-NN. Sedangkan eksperimen bertujuan untuk mengevaluasi hasil
simulasi aplikasi.
3.2.7 Output Analysis Phase (Fase Analisa Hasil)
Penulis melakukan analisa terhadap output-output berdasarkan skenario
yang akan dilakukan yaitu melakukan perbandingan dengan hasil klasifikasi
algoritma K-NN dengan data latih dan data uji yang sama, serta menghitung
tingkat akurasi, error rate, presisi, f-measure dan recall dari algoritma yang
dijadikan penelitian.
44
UIN SYARIF HIDAYATULLAH JAKARTA
3.3 Skenario Pengujian
Setelah aplikasi sudah menjadi suatu perangkat lunak yang siap untuk
dipakai, maka perlu dilakukan pengujian terhadap aplikasi tersebut. Skenario
pengujian yang dilakukan adalah sebagai berikut:
1. Pengujian pertama pada pengambilan data tanggal 10 Oktober 2019- 23 Oktober
2019 menggunakan algoritma K-Nearest Neighbor.
Pengujian ini dilakukan untuk mengklasifikasikan data uji ke dalam kelas
sentimen positif, netral atau negatif menggunakan algoritma K-Nearest
Neighbor. Pengujian dilakukan berdasarkan penentuan nilai k pada algoritma K-
NN yaitu k=1, k=3, k=5, k=9, k=10. Perhitungan tingkat akurasi, error rate,
presisi, dan recall akan ditentukan dengan menggunakan model confussion
matrix dari kombinasi algoritma tersebut.
2. Pengujian kedua pada pengambilan data tanggal 23 Januari 2020- 02 Februari
2020 menggunakan algoritma K-Nearest Neighbor.
Pengujian ini dilakukan untuk mengklasifikasikan data uji ke dalam kelas
sentimen positif, netral atau negatif menggunakan algoritma K-Nearest
Neighbor. Pengujian dilakukan berdasarkan penentuan nilai k pada algoritma K-
NN yaitu k=1, k=3, k=5, k=9, k=10. Perhitungan tingkat akurasi, error rate,
presisi, dan recall akan ditentukan dengan menggunakan model confussion
matrix dari kombinasi algoritma tersebut.
3.4 Alur Penelitian
Alur Penelitian merupakan suatu alur diagram yang menjelaskan proses
berjalannya sebuah penelitian. Dalam penelitian ini, penulis mengacu pada alur
penelitian sebagai berikut:
45
UIN SYARIF HIDAYATULLAH JAKARTA
Gambar 3. 2 Alur Penelitian
46 UIN SYARIF HIDAYATULLAH JAKARTA
BAB IV
IMPLEMENTASI
4.1 Problem Formulation
Pada penelitian ini, penulis memformulasikan masalah penelitian pada
algoritma K-Nearest Neighbor sebagai klasifikasi hasil orientasi sentimen dengan
klasifikasi sentimen data latih menggunakan metode lexicon based. Kemudian
didapatkan pendapat warganet terhadap pemindahan ibu kota Indonesia pada media
sosial Twitter dan juga tingkat akurasi metode K-Nearest Neighbor (K-NN) dalam
memprediksi pendapat warganet terhadap pemindahan ibu kota Indonesia pada
media sosial Twitter.
4.2 Conceptual Model
Berdasarkan Conceptual Model pada Subbab 3.2.2, berikut ini penjelasan
sebagai berikut :
4.2.1 Conceptual Model Text Mining
Dalam penelitian ini text mining berkaitan dengan tahapan pre-
proccessing dokumen Dari data pre-proccessing akan di dapat dataset dengan
variasi fitur. Tahapan yang dilakukan dari dokumen pre-processing dijelaskan
dibawah ini.
1. Case Folding
Tahapan case folding, adalah proses penyeragaman bentuk huruf. Teks
dilakukan proses perubahan dari huruf besar menjadi huruf kecil.
Gambar 4. 1 Contoh Case Folding
2. Filtering
Tahapan filtering, adalah proses untuk membersihkan dokumen kegiatan yang
dilakukan adalah proses penghapusan karakter selain utf-8, url link, hashtag dan
mention.
47
UIN SYARIF HIDAYATULLAH JAKARTA
Gambar 4. 2 Contoh Filtering
3. Tokenizing
Tahapan tokenizing, teks dilakukan proses penghapusan semua tanda baca dan
memecah kata
Gambar 4. 3 Contoh Tokenizing
4. Normalisasi
Tahapan Normalisasi, teks dilakukan proses pernormalisasian terhadap kata
berlebihan dan kata singkatan dengan mengganti sesuai kaidah dalam kamus
Kamus Besar Bahasa Indonesia (KBBI). Pada tahapan ini setiap dijumpai kata
yang memiliki penggunaan huruf berlebih dan kata singkatan akan diubah
menjadi kata baku.
Gambar 4. 4 Contoh Normalisasi
5. Stopwards
Tahapan stopwords dan stemming, teks dilakukan proses menghapus kata kata
yang dianggap tidak penting (stopwords) dan pengubahan kata berimbuhan
menjadi kata dasar (stemming). Adapun variasi imbuhan dalam hal ini antara lain
adalah prefik (awalan), suffik (akhiran), infik (sisipan), dan confik (kombinasi
awalan dan akhiran). Proses stemming dilakukan dengan menggunakan bantuan
KBBI. Pada tahap ini kata-kata yang bersifat stopwords akan dibuang hal ini
48
UIN SYARIF HIDAYATULLAH JAKARTA
dikarenakan stopwords dianggap sebagai kata tidak penting atau tidak berguna
dan tahapan ini juga dapat menekan penggunaan waktu dalam menentukan hasil.
Gambar 4. 5 Contoh Stopword
6. Stemming Nazief dan Andriani
Selanjutnya dilakukan proses stemming dimana kata berimbuhan akan diubah
dalam bentuk kata dasar dengan menggunakan algoritma nazief dan adriani.
Gambar 4. 6 Contoh Stemming
4.2.2 Conceptual Model Klasifikasi Sentimen dengan Pendekatan Lexicon
Berikut ini merupakan alur klasifikasi sentimen dengan pendekatan
lexicon.
a. Membangun kamus sentimen yang terbagi menjadi kamus sentimen positif
dan kamus sentimen negatif.
Dalam penelitian ini dibangun kamus positif dan negatif secara sistem.
Kamus sentimen positif dalam penelitian ini berjumlah 1.185 kata dan kamus
negatif berjumlah 2.403 kata (sumber github).
b. Membangun kamus negasi
Kamus negasi yang digunakan dalam penelitian ini sebanyak 10 kata (sumber
github).
c. Pre-proccessing query yang terdiri dari 4 proses yaitu case folding, filtering,
tokenizing dan normalisasi.
d. Identifikasi setiap kata sentimen pada query.
e. Identifikasi kata negasi pada query yang ditemukan sentimennya
f. Menentukan orientasi sentimen pada query, dengan cara melakukan hitung
score.
49
UIN SYARIF HIDAYATULLAH JAKARTA
Keterangan :
w i SO = Jumlah (score) fitur ke i setiap sentimen (positif dan negatif)
dis (wi,f) = Jumlah fitur yang berhasil ditemukan
Untuk contoh penggunaan rumus diatas akan diterangkan pada sub bab 4.4.1 yaitu
konstruksi pendekatan lexicon.
4.2.3 Conceptual Model Klasifikasi Sentimen dengan Algoritma K-NN
Berikut ini merupakan alur Tahap Pelatihan Algoritma K-Nearest
Neighbor :
1. Membangun kamus sentimen yang terbagi menjadi sentimen positif dan
negatif dalam penelitian ini dibangun kamus positif dan negatif secara sistem.
Kamus sentimen positif dalam penelitian ini berjumlah 1.185 kata dan kamus
negatif berjumlah 2.403 kata.
2. Kamus negasi yang digunakan dalam penelitian ini sebanyak 10 kata.
3. Melakukan crawling data, yaitu dengan 1000 tweet dimana 900 tweet untuk
data latih dan 100 tweet untuk data uji. Dengan kata kunci pemindahan ibu
kota, ibu kota pindah, dan ibu kota baru
4. Pelatihan data latih. Pelatihan data latih dilakukan dengan cara membangun
inverted index (indexing) dan pembobotan kata menggunakan teknik TF-IDF.
Pelatihan dilakukan sebagai data pembelajaran oleh mesin k-NN. Tahapan
yang dilakukan adalah mengumpulkan dokumen yang didapat dari kumpulan
tweets berisi sentimen sebagai data latih, kemudian dilakukan proses pre-
proccessing query dalam enam tahapan dan terakhir melakukan indexing dan
pembobotan kata per kata data latih.
Case Folding
Gambar 4. 7 Proses Case Folding
Filtering
50
UIN SYARIF HIDAYATULLAH JAKARTA
Gambar 4. 8 Proses Filtering
Tokenizing
Gambar 4. 9 Proses Tokenizing
Normalisasi
Gambar 4. 10 Proses Normalisasi
Stopwords
Gambar 4. 11 Proses Stopwords
Stemming
Gambar 4. 12 Proses Stemming
5. Indexing (Pembuatan inverted index)
Pada tahap ini, dilakukan proses pengindeksan pada setiap token. Pada
inverted index akan tersimpan informasi berupa kata, yang mengandung kata
tersebut dan frekuensi kemunculan kata tersebut pada suatu dokumen.
6. Pembobotan Kata
Hasil dari indexing pada proses selanjutnya akan dihitung nilai bobotnya.
Pada penelitian ini digunakan jenis perhitungan pembobotan lokal dengan
menggunakan TF (term frekuency) dan pembobotan global dengan
menggunakan IDF (inverse dokument frekuency).
51
UIN SYARIF HIDAYATULLAH JAKARTA
a. Klasifikasi query uji sementara (sentimen sementara) dengan algoritma k-
Nearest Neighbor.
1. Melakukan pre-proccessing query data uji. Proses yang terlibat adalah
casefolding, filtering, tokenizing, normalisasi, stopwords dan stemming..
2. Menghitung kedekatan kemiripan query dengan persamaan consine
similarity
𝐶𝑜𝑠(𝑖, 𝑘) =∑ 𝑘(𝑑1 𝑑𝑘)
√∑ 𝑘 𝑑𝑖𝑘2 √∑ 𝑘𝑑𝑗𝑘
2 .....................................................................(4.2)
Keterangan :
∑ 𝑘 (𝑑1 𝑑𝑘) = vektor dot produk dari i dan k
√∑ 𝑘 𝑑𝑖𝑘2 = panjang vektor i
√∑ 𝑘 𝑑𝑗𝑘2 = panjang vektor k
3. Menentukan nilai k pada algoritma k-NN.
4. Menyimpulkan orientsi sentimen sementara dengan persamaan
𝐷𝑛𝑛(𝑐1 𝑐2) = 𝑚𝑖𝑛1≤𝑖≤𝑟,1≤𝑗≤𝑠𝑑(𝑦𝑖, 𝑧𝑖)..................................................(4.3)
5. Tahapan klasifikasi query uji sementara dengan algortima k-NN dapat
dilihat pada Sub Bab 4.4.2 Konstruksi algoritma K-NN secara manual.
4.3 Collection Input/Output Data
Crawling data merupakan tahap awal berupa pengumpulan data untuk
diproses menuju tahap text mining. Dalam proses crawling data penggunaan twitter
API sebagai sarana dan pintu untuk mengambil data berupa tweet dari media sosial
twitter. Selain itu pengumpulan data berkaitan dengan kamus-kamus yang akan
digunakan, yang terdiri dari kamus positif dan kamus negatif, kamus kata dasar,
kamus KBBI, dan kamus stopwords.
Dalam proses crawling data yang dibutuhkan adalah berupa pendapat
warganet dalam tweet di media sosial Twitter yang berisi sentimen positif (berisi
emosi senang, mendukung, suka, dan menyambut gembira), sentimen negatif
(berisi emosi kecewa, sedih, dan marah) dan sentimen netral.
52
UIN SYARIF HIDAYATULLAH JAKARTA
Untuk mengambil crawling data tersebut membutukan kata kunci dalam
menentukannya. Kata kunci atau filter untuk mengambilnya adalah pemindahan ibu
kota, ibu kota baru dan ibu kota pindah. Kemudian semua pendapat warganet baik
berupa warga negara Indonesia, warga negara Indonesia yang berada di luar negeri,
maupun warga negara asing yang sudah mendapatkan kebangsaan Indonesia kita
ambil akan tetapi tentu saja dengan kata kunci filter diatas. Untuk pengambilan data
dilakukan dua kali, untuk pengambilan data pertama dilakukan pada periode 10
Oktober 2019 – 23 Oktober 2019 dan pengambilan data kedua dilakukan pada
periode 23 Januari 2020 – 02 Februari 2020. Untuk jumlah data dibutuhkan
sebanyak 1000 tweet dengan 900 tweet dijadikan data latih, dan 100 tweet dijadikan
data uji.
Gambar 4. 13 Hasil Crawling Data
4.4 Modelling Phase
4.4.1 Konstruksi Pendekatan Lexicon
Pada proses ini akan menentukan sentimen twitter menggnakan
pendekatan lexicon. Penggunaan pendekatan lexicon bertujuan menciptakan data
latih dan kemudian menentukan orientasi sentimen dari unit teks melalui data
latih dan kemudian menentukan orientasi sentimen dari unit teks melalui
beberapa fungsi berdasarkan kamus positif dan negatif. Proses ini sangat
bergantung dan memperhatikan pada kamus sentimen yang akan dibangun guna
mendapatkan akurasi sentimen yang baik. Secara keseluruhan konstruksi
analisis orientasi sentimen dengan pendekatan lexicon dapat dijelaskan secara
berikut :
1. Membangun kamus sentimen yang terbagi menjadi sentimen positif dan negatif
53
UIN SYARIF HIDAYATULLAH JAKARTA
Dalam penelitian ini dibangun kamus positif dan negatif secara sistem. Kamus
sentimen positif dalam penelitian ini berjumlah 1.185 kata dan kamus negatif
berjumlah 2.403 kata.
2. Kamus negasi yang digunakan dalam penelitian ini sebanyak 10 kata.
3. Pre-processing query
Contoh data latih yang ditentukan sentimennya dengan menggunakan metode
lexicon
Tweet : “@onoo04 Pejabat yang terhormat lebih baik kita menabung untuk
membuat ibu kota baru jangan berhutang karena hutang kita udah gede. Kasian
pemerintah masa depan akan menanggung pembayarannya #IbuKotaBaru
#puisimalam #bacotsantuy”
Case Folding (mengubah huruf kapital menjadi huruf kecil)
@onoo04 pejabat yang terhormat lebih baik kita menabung untuk membuat ibu
kota baru jangan berhutang karena hutang kita udah gede. kasian pemerintah
masa depan akan menanggung pembayarannya. #ibukotabaru #puisimalam
#bacotsantuy
Filtering (menghilangkan karakter khusus, tanda baca dan angka)
pejabat yang terhormat lebih baik kita menabung untuk membuat ibu kota baru
jangan berhutang karena hutang kita udah gede. kasian pemerintah masa depan
akan menanggung pembayarannya
Tokenizing (menghapus semua tanda baca dan memecah kata)
Tabel 4. 1 Tokenizing
pejabat yang terhormat lebih
baik kita menabung untuk
membuat ibu kota baru
jangan berhutang karena hutang
kita sudah besar kasian
pemerintah masa depan akan
menanggung pembayarannya
Normalisasi kata.
Pada penelitian ini normalisasi dilakukan dua kali. Pertama normalisasi kata
yang memiliki kata berlebih dan tidak sesuai dengan standar ejaan KBBI. Kedua
54
UIN SYARIF HIDAYATULLAH JAKARTA
normalisasi kata tidak baku yang diubah menjadi kata baku sesuai ejaan KBBI.
Selanjutnya, kata-kata pada data latih dibandingkan dengan kata yang terdapat
pada kamus KBBI. Jika kata pada data latih tidak sesuai dengan kata pada KBBI
maka akan dilakukan normalisasi. Berikut ini merupakan hasil dari normalisasi
kata:
Tabel 4. 2 Normalisasi
pejabat yang terhormat lebih
baik kita menabung untuk
membuat ibu kota baru
jangan berhutang karena hutang
kita sudah besar kasian
pemerintah masa depan akan
menanggung pembayarannya
Identifikasi setiap kata sentimen pada query
Tahap selanjutnya adalah mengekstrasi kata-kata yang memiliki sentimen positif
dan negatif. Caranya adalah dengan membandingkan kata pada data latih dengan
kata pada kamus lexicon sentimen positif, negatif dan negasi.
Tabel 4. 3 Identifikasi Setiap Kata Pada Query
Positif Negatif
terhormat
berhutang
hutang
Baik
membuat
2 kata 3 kata
Pada proses ini tidak ada kata yang teridentifikasi sebagai kata negasi. Sehingga
kata sebelumnya tidak berubah
Menentukan Sentimen
Setelah keyword berhasil diekstrak, selanjutnya masing-masing keyword
dihitung kemunculannya. Jumlah keyword terbanyak, maka akan diambil
sentimennya.
Berikut perhitungan score:
55
UIN SYARIF HIDAYATULLAH JAKARTA
Keterangan :
w i SO = Jumlah (score) fitur ke i setiap sentimen (positif dan negatif)
dis (wi,f) = Jumlah fitur yang berhasil ditemukan
𝑠𝑐𝑜𝑟𝑒(𝑓) =2 + (−3)
1= −1
Hasil perhitungan score adalah -1, sehingga dapat disimpulkan dokumen
memiliki sentimen negatif.
4.4.2 Konstruksi Algoritma K-Nearest Neighbor Manual
Proses analisis sentimen pemindahan ibu kota pada media sosial Twitter
menggunakan metode algoritma K-NN akan dijelaskan di bawah ini :
a. Membangun kamus sentimen yang terbagi menjadi sentimen positif dan
negatif
Dalam penelitian ini dibangun kamus positif dan negatif secara sistem. Kamus
sentimen positif dalam penelitian ini berjumlah 1.185 kata dan kamus negatif
berjumlah 2.403 kata.
b. Membangun kamus negasi
Kamus negasi yang digunakan dalam penelitian ini sebanyak 10 kata.
c. Pelatihan data latih (inverted index dan pembobotan kata)
Untuk lebih jelas nya, berikut adalah contoh pembuatan inverted index dan
pembobotan kata pada data latih secara keseluruhan.
1. Mengumpulkan dokumen yang didapat dari kumpulan tweet berisi sentimen
sebagai data latih. Sebagai contoh digunakan 9 dokumen sebagai data latih.
Tabel 4. 4 Dokumen data latih
Dok(n) Isi Tweet Sentimen
Tweet
1. #Prabowo Dukung Pemerintah Pindahkan Ibu
Kota https://t.co/tpocXQdSwP #nasional
#ibukotabaru #jokowi
Positif
2. Setelah temui Jokowi, Prabowo tegaskan
dukung pemindahan Ibukota. #verta
#vertanews #JokowiPrabowo #ibukotabaru…
https://t.co/9VrF7izaRq
Positif
3. Dampak Negatif Kebijakan Presiden Joko
Widodo Pindahkan Ibu Kota ke Kaltim, 38 Kg
Narkoba Masuk¦ https://t.co/85jUima1p1
Negatif
56
UIN SYARIF HIDAYATULLAH JAKARTA
4. Pemkab Penajam Paser Utara ingin secepatnya
ada penyesuaian rencana tata ruang wilayah
alias RTRW seiring dengan realisasi¦
https://t.co/hYHwIbI34h
Positif
5. Isu #BPJS #RUPP #KebakaranHutan
#IbukotaPindah mana yg lg viral
Negatif
6. Waktunya mengawal mandat dari rakyat
Indonesia. #WeLoveYou
#BersamaBangunNegeri
#03PersatuanIndonesia #JokowiLagi…
https://t.co/jXaqeFU0Hh
Netral
7. 9.#Kota baru yg semata untuk menciptakan
peluang investasi, untuk hedge funds.
Penciptaan #kota yang tidak ada hubungannya¦
https://t.co/xfPI574nIh
Netral
8. 4.ambil contoh #urbanisasi di negara Timur
Tengah, seperti Dubai, Doha, dengan bangunan
yg tampak absurd. Untuk siapa¦
https://t.co/PobH0xqXsq
Negatif
9. 6.Sumberdaya yang begitu besar dimobilisasi
bagi memproduksi #kota baru, yg ironisnya pd
akhirnya tidak ada penghuninya¦
https://t.co/sEWGAnwq4m
Netral
2. Case Folding
Tabel 4. 5 Hasil case folding pada data latih
Dok(n) Isi Tweet Sentimen
Tweet
1. #prabowo dukung pemerintah pindahkan ibu
kota https://t.co/tpocxqdswp #nasional
#ibukotabaru #jokowi
Positif
2. setelah temui jokowi, prabowo tegaskan
dukung pemindahan ibukota. #verta
#vertanews #jokowiprabowo #ibukotabaru????
https://t.co/9vrf7izarq
Positif
3. dampak negatif kebijakan presiden joko
widodo pindahkan ibu kota ke kaltim, 38 kg
narkoba masuk¦ https://t.co/85juima1p1
Negatif
4. pemkab penajam paser utara ingin secepatnya
ada penyesuaian rencana tata ruang wilayah
alias rtrw seiring dengan re…
https://t.co/hyhwibi34h
Positif
5. isu #bpjs #rupp #kebakaranhutan
#ibukotapindah mana yg lg viral
Negatif
57
UIN SYARIF HIDAYATULLAH JAKARTA
6. waktunya mengawal mandat dari rakyat
indonesia. #weloveyou #bersamabangunnegeri
#03persatuanindonesia #jokowilagi????
https://t.co/h2k6pxvhbv
Netral
7. 9.#kota baru yg semata untuk menciptakan
peluang investasi, untuk hedge funds.
penciptaan #kota yang tidak ada hubungan¦
https://t.co/xfpi574nih
Netral
8. 4.ambil contoh #urbanisasi di negara timur
tengah, seperti dubai, doha, dengan bangunan
yg tampak absurd. untuk sia…
https://t.co/pobh0xqxsq
Negatif
9. 6.sumberdaya yang begitu besar dimobilisasi
bagi memproduksi #kota baru, yg ironisnya pd
akhirnya tidak ada penghuninya¦
https://t.co/sewganwq4m
Netral
3. Filtering
Tabel 4. 6 Filtering
Dok(n) Isi Tweet Sentimen
Tweet
1. dukung pemerintah pindahkan ibu kota Positif
2. setelah temui jokowi, prabowo tegaskan
dukung pemindahan ibukota.
Positif
3. dampak negatif kebijakan presiden joko
widodo pindahkan ibu kota ke kaltim, 38 kg
narkoba masuk…
Negatif
4. pemkab penajam paser utara ingin secepatnya
ada penyesuaian rencana tata ruang wilayah
alias rtrw seiring dengan realisasi¦
Positif
5. isu mana yg lg viral Negatif
6. waktunya mengawal mandat dari rakyat
indonesia.
Netral
7. 9. baru yg semata untuk menciptakan peluang
investasi, untuk hedge funds. penciptaan yang
tidak ada hubungannya¦
Netral
8. 4.ambil contoh di negara timur tengah, seperti
dubai, doha, dengan bangunan yg tampak
absurd. untuk siapa¦
Negatif
9. 6.sumberdaya yang begitu besar dimobilisasi
bagi memproduksi baru, yg ironisnya pd
akhirnya tidak ada penghuninya¦
Netral
4. Tokenizing
Tabel 4. 7 Hasil Tokenizing pada data latih
58
UIN SYARIF HIDAYATULLAH JAKARTA
Dok(1) Dok(2) Dok(3) Dok(4) Dok(5)
dukung setelah dampak pemkab isu
pemerintah temui negatif penajam mana
pindahkan jokowi kebijakan paser yg
ibu prabowo presiden utara lg
kota tegaskan joko ingin viral
dukung widodo secepatnya
pemindahan pindahkan ada
ibukota ibu penyesuaian
kota rencana
ke tata
kaltim ruang
kg wilayah
narkoba alias
masuk rtrw
seiring
dengan
realisasi
Dok(6) Dok(7) Dok(8) Dok(9)
waktunya baru ambil sumberdaya
mengawal yg contoh yang
mandat semata di begitu
dari untuk negara besar
rakyat menciptakan timur dimobilisasi
indonesia peluang tengah bagi
investasi seperti memproduksi
untuk dubai baru
hedge doha yg
funds dengan ironisnya
penciptaan bangunan pd
yang yg akhirnya
tidak tampak tidak
ada absurd ada
hubungannya untuk penghuninya
siapa
5. Normalisasi
Tabel 4. 8 Hasil normalisasi pada data latih
Dok(1) Dok(2) Dok(3) Dok(4) Dok(5)
dukung setelah dampak pemkab isu
pemerintah temui negatif penajam mana
pindahkan jokowi kebijakan paser yg
kota prabowo presiden utara lg
tegaskan joko ingin viral
59
UIN SYARIF HIDAYATULLAH JAKARTA
dukung widodo secepatnya
pemindahan pindahkan ada
ibukota ibu penyesuaian
kota rencana
ke tata
kaltim ruang
kg wilayah
narkoba alias
masuk rtrw
seiring
dengan
realisasi
Dok(6) Dok(7) Dok(8) Dok(9)
waktunya baru ambil sumberdaya
mengawal yg contoh yang
mandat semata di begitu
dari untuk negara besar
rakyat menciptakan timur dimobilisasi
indonesia peluang tengah bagi
investasi seperti memproduksi
untuk dubai baru
hedge doha yg
funds dengan ironisnya
penciptaan bangunan pada
yang yg akhirnya
tidak tampak tidak
ada absurd ada
hubungannya untuk penghuninya
siapa
6. Stopwords
Tabel 4. 9 Hasil stopwords data latih
Dok(1) Dok(2) Dok(3) Dok(4) Dok(5)
dukung temui dampak pemkab isu
pemerintah jokowi negatif penajam viral
pindahkan prabowo kebijakan paser
ibu tegaskan presiden utara dukung joko secepatnya
pemindahan widodo penyesuaian
ibukota pindahkan rencana
kaltim tata
kg ruang
narkoba wilayah
masuk alias
60
UIN SYARIF HIDAYATULLAH JAKARTA
rtrw
seiring
realiasi
Dok(6) Dok(7) Dok(8) Dok(9)
mengawal menciptakan ambil sumberdaya
mandat peluang contoh dimobilisasi
rakyat investasi negara memproduksi
indonesia hedge timur ironisnya
funds dubai penghuninya
penciptaan doha
hubungannya bangunan
absurd
7. Stemming
Tabel 4. 10 Hasil Stemming Pada Data Latih
Dok(1) Dok(2) Dok(3) Dok(4) Dok(5)
dukung temu dampak pemkab isu
perintah jokowi negatif najam viral
pindah prabowo bijak paser tegas presiden utara
dukung joko cepat
pindah widodo sesuai
ibukota pindah rencana
kaltim tata
kg ruang
narkoba wilayah
masuk alias
rtrw
iring
realisasi
Dok(6) Dok(7) Dok(8) Dok(9)
awal cipta ambil sumberdaya
mandat peluang contoh mobilisasi
rakyat investasi negara memproduksi
indonesia hedge timur huni
funds dubai
cipta doha
hubung bangun
absurd
8. Indexing (pembuatan inverted index). Berikut ini hasil dari indexing pada data
latih.
Tabel 4. 11 Hasil proses indexing
Kosa Kata (Dokumen : Frekuensi)
61
UIN SYARIF HIDAYATULLAH JAKARTA
dukung 1:1, 2:1
perintah 1:1
pindah 1:1, 2:1, 3:1
temu 2:1
jokowi 2:1
prabowo 2:1
tegas 2:1
ibukota 2:1
dampak 3:1
negatif 3:1
bijak 3:1
presiden 3:1
joko 3:1
widodo 3:1
kaltim 3:1
Kg 3:1
narkoba 3:1
masuk 3:1
pemkab 4:1
najam 4:1
paser 4:1
utara 4:1
cepat 4:1
sesuai 4:1
rencana 4:1
tata 4:1
ruang 4:1
wilayah 4:1
alias 4:1
rtrw 4:1
iring 4:1
realisasi 4:1
isu 5:1
viral 5:1
awal 6:1
mandat 6:1
rakyat 6:1
indonesia 6:1
cipta 7:2
peluang 7:1
investasi 7:1
hedge 7:1
funds 7:1
hubung 7:1
62
UIN SYARIF HIDAYATULLAH JAKARTA
ambil 8:1
contoh 8:1
negara 8:1
timur 8:1
dubai 8:1
doha 8:1
bangun 8:1
absurd 8:1
sumberdaya 9:1
mobilisasi 9:1
memproduksi 9:1
Huni 9:1
Keterangan :
Kosa kata : kata tunggal yang terdapat dalam dokumen
Dokumen frekuensi : frekuensi kata dalam dokumen
1. Pembobotan kata. Berikut ini hasil dari pembobotan kata terhadap kata hasil
indexing
Tabel 4. 12 Hasil pembobotan kata tf
Kosa Kata Tf(D1) Tf(D2) Tf(D3) Tf(D4) Tf(D5) Tf(D6) Tf(D7) Tf(D8) Tf(D9) Df
dukung 1 1 0 0 0 0 0 0 0 2
perintah 1 0 0 0 0 0 0 0 0 1
pindah 1 1 1 0 0 0 0 0 0 3
temu 0 1 0 0 0 0 0 0 0 1
jokowi 0 1 0 0 0 0 0 0 0 1
prabowo 0 1 0 0 0 0 0 0 0 1
tegas 0 1 0 0 0 0 0 0 0 1
ibukota 0 1 0 0 0 0 0 0 0 1
dampak 0 0 1 0 0 0 0 0 0 1
negatif 0 0 1 0 0 0 0 0 0 1
bijak 0 0 1 0 0 0 0 0 0 1
presiden 0 0 1 0 0 0 0 0 0 1
joko 0 0 1 0 0 0 0 0 0 1
widodo 0 0 1 0 0 0 0 0 0 1
kaltim 0 0 1 0 0 0 0 0 0 1
kg 0 0 1 0 0 0 0 0 0 1
narkoba 0 0 1 0 0 0 0 0 0 1
masuk 0 0 1 0 0 0 0 0 0 1
pemkab 0 0 0 1 0 0 0 0 0 1
najam 0 0 0 1 0 0 0 0 0 1
paser 0 0 0 1 0 0 0 0 0 1
utara 0 0 0 1 0 0 0 0 0 1
63
UIN SYARIF HIDAYATULLAH JAKARTA
cepat 0 0 0 1 0 0 0 0 0 1
sesuai 0 0 0 1 0 0 0 0 0 1
rencana 0 0 0 1 0 0 0 0 0 1
tata 0 0 0 1 0 0 0 0 0 1
ruang 0 0 0 1 0 0 0 0 0 1
wilayah 0 0 0 1 0 0 0 0 0 1
alias 0 0 0 1 0 0 0 0 0 1
rtrw 0 0 0 1 0 0 0 0 0 1
iring 0 0 0 1 0 0 0 0 0 1
realisasi 0 0 0 1 0 0 0 0 0 1
isu 0 0 0 0 1 0 0 0 0 1
viral 0 0 0 0 1 0 0 0 0 1
awal 0 0 0 0 0 1 0 0 0 1
mandat 0 0 0 0 0 1 0 0 0 1
rakyat 0 0 0 0 0 1 0 0 0 1
indonesia 0 0 0 0 0 1 0 0 0 1
cipta 0 0 0 0 0 0 2 0 0 1
peluang 0 0 0 0 0 0 1 0 0 1
investasi 0 0 0 0 0 0 1 0 0 1
hedge 0 0 0 0 0 0 1 0 0 1
funds 0 0 0 0 0 0 1 0 0 1
hubung 0 0 0 0 0 0 1 0 0 1
ambil 0 0 0 0 0 0 0 1 0 1
contoh 0 0 0 0 0 0 0 1 0 1
negara 0 0 0 0 0 0 0 1 0 1
timur 0 0 0 0 0 0 0 1 0 1
dubai 0 0 0 0 0 0 0 1 0 1
doha 0 0 0 0 0 0 0 1 0 1
bangun 0 0 0 0 0 0 0 1 0 1
absurd 0 0 0 0 0 0 0 1 0 1
sumberdaya 0 0 0 0 0 0 0 0 1 1
mobilisasi 0 0 0 0 0 0 0 0 1 1
memproduk
si
0 0 0 0 0 0 0 0 1 1
huni 0 0 0 0 0 0 0 0 1 1
Perhitungan Idf
𝑖𝑑𝑓(𝑡) = log (𝑛
𝑑𝑓(𝑡))
Keterangan :
n = jumlah dokumen dalam corpus
df(t) = document frequency / jumlah dokumen dalam corpus yang mengandung
term t
64
UIN SYARIF HIDAYATULLAH JAKARTA
Tabel 4. 13 Perhitungan IDF(Inverse Dokumen Frekuensi)
Kosa
Kata
df Idf w(D1) w(D2) w(D3) w(D4) w(D5) w(D6) w(D7) w(D8) w(D9)
dukung 2 0.6532125
1
0.6532125
1
0.65321251
4 0 0 0 0 0 0 0
perintah 1 0.9542425
1
0.9542425
1 0 0 0 0 0 0 0 0
pindah 3 0.4771212
5
0.4771212
5
0.47712125
5 0 0 0 0 0 0 0
temu 1 0.9542425
1 0 0.95424251 0 0 0 0 0 0 0
jokowi 1 0.9542425
1 0 0.95424251 0 0 0 0 0 0 0
prabowo 1 0.9542425
1 0 0.95424251 0 0 0 0 0 0 0
tegas 1 0.9542425
1 0 0.95424251 0 0 0 0 0 0 0
ibukota 1 0.9542425
1 0 0.95424251 0 0 0 0 0 0 0
dampak 1 0.9542425
1 0 0 0.95424251 0 0 0 0 0 0
negatif 1 0.9542425
1 0 0 0.95424251 0 0 0 0 0 0
65
UIN SYARIF HIDAYATULLAH JAKARTA
bijak 1 0.9542425
1 0 0 0.95424251 0 0 0 0 0 0
presiden 1 0.9542425
1 0 0 0.95424251 0 0 0 0 0 0
joko 1 0.9542425
1 0 0 0.95424251 0 0 0 0 0 0
widodo 1 0.9542425
1 0 0 0.95424251 0 0 0 0 0 0
kaltim 1 0.9542425
1 0 0 0.95424251 0 0 0 0 0 0
kg 1 0.9542425
1 0 0 0.95424251 0 0 0 0 0 0
narkoba 1 0.9542425
1 0 0 0.95424251 0 0 0 0 0 0
masuk 1 0.9542425
1 0 0 0.95424251 0 0 0 0 0 0
pemkab 1 0.9542425
1 0 0 0
0.9542425
1 0 0 0 0 0
najam 1 0.9542425
1 0 0 0
0.9542425
1 0 0 0 0 0
paser 1 0.9542425
1 0 0 0
0.9542425
1 0 0 0 0 0
utara 1 0.9542425
1 0 0 0
0.9542425
1 0 0 0 0 0
66
UIN SYARIF HIDAYATULLAH JAKARTA
cepat 1 0.9542425
1 0 0 0
0.9542425
1 0 0 0 0 0
sesuai 1 0.9542425
1 0 0 0
0.9542425
1 0 0 0 0 0
rencana 1 0.9542425
1 0 0 0
0.9542425
1 0 0 0 0 0
tata 1 0.9542425
1 0 0 0
0.9542425
1 0 0 0 0 0
ruang 1 0.9542425
1 0 0 0
0.9542425
1 0 0 0 0 0
wilayah 1 0.9542425
1 0 0 0
0.9542425
1 0 0 0 0 0
alias 1 0.9542425
1 0 0 0
0.9542425
1 0 0 0 0 0
rtrw 1 0.9542425
1 0 0 0
0.9542425
1 0 0 0 0 0
iring 1 0.9542425
1 0 0 0
0.9542425
1 0 0 0 0 0
realisasi 1 0.9542425
1 0 0 0
0.9542425
1 0 0 0 0 0
isu 1 0.9542425
1 0 0 0 0
0.954242
51 0 0 0 0
viral 1 0.9542425
1 0 0 0 0
0.954242
51 0 0 0 0
67
UIN SYARIF HIDAYATULLAH JAKARTA
awal 1 0.9542425
1 0 0 0 0 0
0.9542425
1 0 0 0
mandat 1 0.9542425
1 0 0 0 0 0
0.9542425
1 0 0 0
rakyat 1 0.9542425
1 0 0 0 0 0
0.9542425
1 0 0 0
indonesi
a
1 0.9542425
1 0 0 0 0 0
0.9542425
1 0 0 0
cipta 1 0.9542425
1 0 0 0 0 0 0
1.9084850
19 0 0
peluang 1 0.9542425
1 0 0 0 0 0 0
0.9542425
1 0 0
investasi 1 0.9542425
1 0 0 0 0 0 0
0.9542425
1 0 0
hedge 1 0.9542425
1 0 0 0 0 0 0
0.9542425
1 0 0
funds 1 0.9542425
1 0 0 0 0 0 0
0.9542425
1 0 0
hubung 1 0.9542425
1 0 0 0 0 0 0
0.9542425
1 0 0
ambil 1 0.9542425
1 0 0 0 0 0 0 0
0.954
24251 0
contoh 1 0.9542425
1 0 0 0 0 0 0 0
0.954
24251 0
68
UIN SYARIF HIDAYATULLAH JAKARTA
Keterangan :
idf : inverse dokumen frequency
tf(n) : term frequency (frekuensi kata) pada dokumen ke-n
negara 1 0.9542425
1 0 0 0 0 0 0 0
0.954
24251 0
timur 1 0.9542425
1 0 0 0 0 0 0 0
0.954
24251 0
dubai 1 0.9542425
1 0 0 0 0 0 0 0
0.954
24251 0
doha 1 0.9542425
1 0 0 0 0 0 0 0
0.954
24251 0
bangun 1 0.9542425
1 0 0 0 0 0 0 0
0.954
24251 0
absurd 1 0.9542425
1 0 0 0 0 0 0 0
0.954
24251 0
sumberd
aya
1 0.9542425
1 0 0 0 0 0 0 0 0
0.954
24251
mobilisa
si
1 0.9542425
1 0 0 0 0 0 0 0 0
0.954
24251
mempro
duksi
1 0.9542425
1 0 0 0 0 0 0 0 0
0.954
24251
huni 1 0.9542425
1 0 0 0 0 0 0 0 0
0.954
24251
69
UIN SYARIF HIDAYATULLAH JAKARTA
a. Klasifikasi query uji dengan algoritma K-NN
1. Pre-proccessing query uji
Pada tahapan ini dilakukan seleksi kalimat netral dengan menggunakan kamus
sentimen yang ada.
a. Case Folding
kita dukung perintah presiden jokowi pindahkan ibu kota indonesia
#ibukotabaru #ibukotapindah #jokowi
b. Filtering
kita dukung perintah presiden jokowi pindahkan ibu kota indonesia
c. Tokenizing
Tabel 4. 15 Tokenizing Data Uji
kita dukung perintah presiden jokowi pindahkan ibu kota indonesia
d. Normalisasi
Tabel 4. 16 Normalisasi Data Uji
kita Dukung presiden jokowi pindahkan ibu kota indonesia
e. Stopwords
Tabel 4. 17 Stopwords Data Uji
dukung perintah presiden jokowi pindahkan indonesia
f. Stemming
Tabel 4. 18 Stemming Data Uji
dukung perintah presiden Jokowi pindah indonesia
g. Pembobotan kata
Hasil pembobotan kata setelah pre-processing diatas adalah kata kinerja dan
bagus berjumlah satu.
Hasil dari pre-proccessing adalah “dukung presiden jokowi pindah indonesia”.
Query Uji : kita dukung perintah Presiden Jokowi pindahkan ibu kota
Indonesia :#IbuKotaBaru #IbuKotaPindah #Jokowi
Tabel 4. 14 Query Uji
70
UIN SYARIF HIDAYATULLAH JAKARTA
2. Menghitung kedekatan kemiripan query uji dengan data latih menggunakan rumus consine similarity
Untuk lebih jelasnya, tahapan ini akan dijelaskan sebagai lanjutan contoh dari proses pre-proccessing query diatas. Sebagai contoh
query yang sudah dilakukan pre-proccessing sebagai berikut.
Sebelum menghitung consine similarity terlebih dahulu dilakukan tahapan-tahapan berikut :
Menghitung bobot setiap kata dalam dokumen query uji terhadap bobot data latih.
Tabel 4. 20 Hasil Pembobotan Query Uji dengan data latih
Kosa
Kata
df Idf w(Q) w(D1) w(D2) w(D3) w(D4) w(D5) w(D6) w(D7) w(D8) w(D9)
dukung 2 0.653212
51
0.653212
51
0.653212
51
0.653212
51 0 0 0 0 0 0 0
perintah 1 0.954242
51
0.954242
51
0.954242
51 0 0 0 0 0 0 0 0
pindah 3 0.477121
25
0.477121
25
0.477121
25
0.477121
25
0.477121
25 0 0 0 0 0 0
temu 1 0.954242
51 0 0
0.954242
51 0 0 0 0 0 0 0
jokowi 1 0.954242
51
0.954242
51 0
0.954242
51 0 0 0 0 0 0 0
Query : dukung perintah presiden jokowi pindah indonesia
Tabel 4. 19 Query Uji
71
UIN SYARIF HIDAYATULLAH JAKARTA
prabowo 1 0.954242
51 0 0
0.954242
51 0 0 0 0 0 0 0
tegas 1 0.954242
51 0 0
0.954242
51 0 0 0 0 0 0 0
ibukota 1 0.954242
51 0 0
0.954242
51 0 0 0 0 0 0 0
dampak 1 0.954242
51 0 0 0
0.954242
51 0 0 0 0 0 0
negatif 1 0.954242
51 0 0 0
0.954242
51 0 0 0 0 0 0
bijak 1 0.954242
51 0 0 0
0.954242
51 0 0 0 0 0 0
presiden 1 0.954242
51
0.954242
51 0 0
0.954242
51 0 0 0 0 0 0
joko 1 0.954242
51 0 0 0
0.954242
51 0 0 0 0 0 0
widodo 1 0.954242
51 0 0 0
0.954242
51 0 0 0 0 0 0
kaltim 1 0.954242
51 0 0 0
0.954242
51 0 0 0 0 0 0
kg 1 0.954242
51 0 0 0
0.954242
51 0 0 0 0 0 0
narkoba 1 0.954242
51 0 0 0
0.954242
51 0 0 0 0 0 0
72
UIN SYARIF HIDAYATULLAH JAKARTA
masuk 1 0.954242
51 0 0 0
0.954242
51 0 0 0 0 0 0
pemkab 1 0.954242
51 0 0 0 0
0.954242
51 0 0 0 0 0
najam 1 0.954242
51 0 0 0 0
0.954242
51 0 0 0 0 0
paser 1 0.954242
51 0 0 0 0
0.954242
51 0 0 0 0 0
utara 1 0.954242
51 0 0 0 0
0.954242
51 0 0 0 0 0
cepat 1 0.954242
51 0 0 0 0
0.954242
51 0 0 0 0 0
sesuai 1 0.954242
51 0 0 0 0
0.954242
51 0 0 0 0 0
rencana 1 0.954242
51 0 0 0 0
0.954242
51 0 0 0 0 0
tata 1 0.954242
51 0 0 0 0
0.954242
51 0 0 0 0 0
ruang 1 0.954242
51 0 0 0 0
0.954242
51 0 0 0 0 0
wilayah 1 0.954242
51 0 0 0 0
0.954242
51 0 0 0 0 0
alias 1 0.954242
51 0 0 0 0
0.954242
51 0 0 0 0 0
73
UIN SYARIF HIDAYATULLAH JAKARTA
rtrw 1 0.954242
51 0 0 0 0
0.954242
51 0 0 0 0 0
iring 1 0.954242
51 0 0 0 0
0.954242
51 0 0 0 0 0
realisasi 1 0.954242
51 0 0 0 0
0.954242
51 0 0 0 0 0
isu 1 0.954242
51 0 0 0 0 0
0.954242
51 0 0 0 0
viral 1 0.954242
51 0 0 0 0 0
0.954242
51 0 0 0 0
awal 1 0.954242
51 0 0 0 0 0 0
0.954242
51 0 0 0
mandat 1 0.954242
51 0 0 0 0 0 0
0.954242
51 0 0 0
rakyat 1 0.954242
51 0 0 0 0 0 0
0.954242
51 0 0 0
indonesi
a
1 0.954242
51
0.954242
51 0 0 0 0 0
0.954242
51 0 0 0
cipta 1 0.954242
51 0 0 0 0 0 0 0
1.9084
8502 0 0
peluang 1 0.954242
51 0 0 0 0 0 0 0
0.9542
4251 0 0
investasi 1 0.954242
51 0 0 0 0 0 0 0
0.9542
4251 0 0
74
UIN SYARIF HIDAYATULLAH JAKARTA
hedge 1 0.954242
51 0 0 0 0 0 0 0
0.9542
4251 0 0
funds 1 0.954242
51 0 0 0 0 0 0 0
0.9542
4251 0 0
hubung 1 0.954242
51 0 0 0 0 0 0 0
0.9542
4251 0 0
ambil 1 0.954242
51 0 0 0 0 0 0 0 0
0.95424
251 0
contoh 1 0.954242
51 0 0 0 0 0 0 0 0
0.95424
251 0
negara 1 0.954242
51 0 0 0 0 0 0 0 0
0.95424
251 0
timur 1 0.954242
51 0 0 0 0 0 0 0 0
0.95424
251 0
dubai 1 0.954242
51 0 0 0 0 0 0 0 0
0.95424
251 0
doha 1 0.954242
51 0 0 0 0 0 0 0 0
0.95424
251 0
bangun 1 0.954242
51 0 0 0 0 0 0 0 0
0.95424
251 0
absurd 1 0.954242
51 0 0 0 0 0 0 0 0
0.95424
251 0
sumberd
aya
1 0.954242
51 0 0 0 0 0 0 0 0 0
0.9542
4251
75
UIN SYARIF HIDAYATULLAH JAKARTA
Selanjutnya berdasarkan perhitungan bobot tersebut, hitung panjang vektor setiap dokumen. Tahapan yang dilakukan adalah sebagai
berikut :
1. Hitung hasil perkalian skalar antara query uji dan 9 dokumen lainnya (data latih).
Tabel 4. 21 Hasil perkalian skalar antara query dan data latih
Asal_dokumen_perkalian_skalar (WQ*WDi)
w(D1) w(D2) w(D3) w(D4) w(D5) w(D6) w(D7) w(D8) w(D9)
0.42668659 0.42668659 0 0 0 0 0 0 0
0.91057877 0 0 0 0 0 0 0 0
0.22764469 0.22764469 0.22764469 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0.91057877 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
mobilisa
si
1 0.954242
51 0 0 0 0 0 0 0 0 0
0.9542
4251
mempro
duksi
1 0.954242
51 0 0 0 0 0 0 0 0 0
0.9542
4251
huni 1 0.954242
51 0 0 0 0 0 0 0 0 0
0.9542
4251
76
UIN SYARIF HIDAYATULLAH JAKARTA
0 0 0.91057877 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
77
UIN SYARIF HIDAYATULLAH JAKARTA
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0.91057877 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
1.564910 1.564910 1.138223 0 0 0.910579 0 0 0
78
UIN SYARIF HIDAYATULLAH JAKARTA
2. Hitung panjang setiap dokumen, termasuk query uji. Caranya dengan mengkuadratkan bobot setiap kata dalam setiap dokumen,
jumlahkan nilai kuadrat dan terakhir akarkan.
Tabel 4. 22 Hasil panjang setiap dokumen
w(Q) w(D1) w(D2) w(D3) w(D4) w(D5) w(D6) w(D7) w(D8) w(D9)
0.42668659 0.42668659 0.42668659 0 0 0 0 0 0 0
0.91057877 0.91057877 0 0 0 0 0 0 0 0
0.22764469 0.22764469 0.22764469 0.22764469 0 0 0 0 0 0
0 0 0.91057877 0 0 0 0 0 0 0
0.91057877 0 0.91057877 0 0 0 0 0 0 0
0 0 0.91057877 0 0 0 0 0 0 0
0 0 0.91057877 0 0 0 0 0 0 0
0 0 0.91057877 0 0 0 0 0 0 0
0 0 0 0.91057877 0 0 0 0 0 0
0 0 0 0.91057877 0 0 0 0 0 0
0 0 0 0.91057877 0 0 0 0 0 0
0.91057877 0 0 0.91057877 0 0 0 0 0 0
0 0 0 0.91057877 0 0 0 0 0 0
0 0 0 0.91057877 0 0 0 0 0 0
0 0 0 0.91057877 0 0 0 0 0 0
0 0 0 0.91057877 0 0 0 0 0 0
0 0 0 0.91057877 0 0 0 0 0 0
0 0 0 0.91057877 0 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
79
UIN SYARIF HIDAYATULLAH JAKARTA
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0 0.91058 0 0 0 0
0 0 0 0 0 0.91058 0 0 0 0
0 0 0 0 0 0 0.91057877 0 0 0
0 0 0 0 0 0 0.91057877 0 0 0
0 0 0 0 0 0 0.91057877 0 0 0
0.91057877 0 0 0 0 0 0.91057877 0 0 0
0 0 0 0 0 0 0 3.64232 0 0
0 0 0 0 0 0 0 0.91058 0 0
0 0 0 0 0 0 0 0.91058 0 0
0 0 0 0 0 0 0 0.91058 0 0
0 0 0 0 0 0 0 0.91058 0 0
0 0 0 0 0 0 0 0.91058 0 0
0 0 0 0 0 0 0 0 0.91058 0
80
UIN SYARIF HIDAYATULLAH JAKARTA
0 0 0 0 0 0 0 0 0.91058 0
0 0 0 0 0 0 0 0 0.91058 0
0 0 0 0 0 0 0 0 0.91058 0
0 0 0 0 0 0 0 0 0.91058 0
0 0 0 0 0 0 0 0 0.91058 0
0 0 0 0 0 0 0 0 0.91058 0
0 0 0 0 0 0 0 0 0.91058 0
0 0 0 0 0 0 0 0 0 0.91058
0 0 0 0 0 0 0 0 0 0.91058
0 0 0 0 0 0 0 0 0 0.91058
0 0 0 0 0 0 0 0 0 0.91058
4.29665 1.564910047 5.207225114 9.33343236 12.74810274 1.821158 3.642315067 8.195209 7.28463 3.642315
2.07283534 1.250963647 2.281934511 3.05506667 3.570448534 1.349503 1.908485019 2.862728 2.699005 1.908485
Terapkan rumus consine similarity. Hitung kemiripan query dengan 9 dokumen lainnya (data latih).
Tabel 4. 23 Cosine Similarity
Cos(Q,D1) = 1.564910/ (2.07283534* 1.250963647) =1.564910/ 2.593041657= 0.603503628
Cos(Q,D2) = 1.564910/ (2.07283534* 2.281934511) = 1.564910/ 4.730074499= 0.330842579
Cos(Q,D3) = 1.138223/ (2.07283534*3.05506667) = 1.138223/ 6.332650161= 0.179738882
Cos(Q,D4) = 0 / (2.07283534*3.570448534) = 0 / 7.400951902= 0
Cos(Q,D5) = 0 / (2.07283534*1.349503) = 0 / 2.797297= 0
Cos(Q,D6) = 0.910579/ (2.07283534*1.908485019) = 0.910579/ 3.955975193= 0.230178078
Cos(Q,D7) = 0 / (2.07283534*2.862728) = 0/ 5.933963= 0
Cos(Q,D8) = 0 / (2.07283534*2.699005) = 0/ 5.594594= 0
Cos(Q,D9) = 0 / (2.07283534*1.908485) = 0 / 3.955975= 0
81
UIN SYARIF HIDAYATULLAH JAKARTA
Hasil perhitungan dalam tabel :
Tabel 4. 24 Hasil Perhitungan Tabel
3. Menentukan besar nilai k pada algoritma K-NN
Menentukan nilai k pada algoritma K-NN. Nilai k merupakan parameter yang
akan membatasi ketetanggaan terdekat yang akan diproses pada tahap selanjutnya.
Ditentukan nilai k pada algoritma K-NN adalah 1. Sehingga berdasarkan nilai
tersebut ketetanggaan terdekat dengan query adalah sebagai berikut :
Setelah diurutkan (dari yang memiliki nilai terbesar)
4. Menyimpulkan orientasi sentimen sementara dengan persamaan 4.3
D1 = 0.603503628
D1 = Positif (Dokumen ke satu memiliki sentimen positif)
Dnn(c1,c2) = Positif
Dapat disimpulkan bahwa query uji memiliki sentimen Positif
4.5 Simulation Phase
Dalam tahap dimulai ini akan dilakukan simulasi aplikasi yang dimulai dari
input data mentah yang telah diambil dari Twitter API, tahap pelatihan, tahap
pengujian dan penilaian tingkat akurasi, presisi, f-measure dan recall algoritma K-
NN.
Adapun faktor-faktor dalam proses simulasi dapat dilihat
Tabel 4. 25 Faktor-faktor dalam proses simulasi
Variabel / Parameter
Simulasi Tahap Simulasi
Faktor 1 Tahap klasifikasi sentimen data latih
dengan metode lexicon based
Faktor 2 Tahap pelatihan data pada data latih
berdasarkan sentimen dan
(D1) (D2) (D3) (D4) (D5) (D6) (D7) (D8) (D9)
0.603503628 0.330842579 0.179738882 0 0 0.230178078 0 0 0
1 2 3 4 5 6 7 8 9
D1 D2 D6 D3 D4 D5 D7 D8 D9
82
UIN SYARIF HIDAYATULLAH JAKARTA
penghitungan bobot menggunakan
TF-IDF
Faktor 3
Tahap pengujian data dengan
Algoritma K-NN berdasarkan nilai k
pada algoritma K-NN adalah 1,3,5,9
dan 10
Faktor 4
Tahap pengujian akurasi Algoritma K-
NN tahap menggunakan model
Confussion matrix
Variabel atau parameter simulasi yang digunakan dalam melakukan
skenario-skenario pengujian yaitu dengan menggunakan metode lexicon based dan
Algoritma K-Nearest Neighbor. Metode lexicon based digunakan untuk
memudahkan penulis dalam klasifikasi sentimen 900 data latih dan 100 data uji,
sementara Algoritma K-Nearest Neighbor digunakan untuk ekstraksi keyword pada
data latih (hasil ekstrasi data latih akan digunakan sebagai variabel input pada tahap
pengujian) dan klasifikasi sentimen 100 data uji dengan mengambil probabilitas
tertinggi. Pada penelitian ini Algoritma K-NN tersebut akan dibandingkan tingkat
akurasinya dan diambil tingkat akurasi tertinggi.
4.5.1 Tahap Pengujian Data Uji
Pengujian yang dilakukan adalah untuk mengklasifikasikan data uji kedalam
kelas positif, negatif atau netral dengan menggunakan algoritma K-NN. Proses
pengklasifikasian data uji akan dilakukan kedalam 5 skenario yaitu berdasarkan
penentuan nilai k pada algoritma K-NN dengan nilai k=1, k=3, k=5, k=9 dan k=10.
Pada tahapan ini terdapat informasi sejauh mana tingkat keberhasilan
kombinasi algoritma tersebut dalam mengklasifikasikan data uji kedalam kelasnya
yang dihitung berdasarkan tingkat akurasi, error rate, presisi, recall dan f-measure.
Berdasarkan pengujian dibagi menjadi dua, yaitu tahapan pengujian K-NN
dengan pengambilan data pertama pada tanggal 10 Oktober 2019 – 21 Oktober 2019
dan pengambilan data kedua pada tanggal 23 Januari 2020 – 02 Februari 2020.
1. Pengujian Data Pertama (10 Oktober 2019 – 21 Oktober 2019)
Tabel 4. 26 Pengujian I
83
UIN SYARIF HIDAYATULLAH JAKARTA
Tingkat
(%)
k
1 3 5 9 10
Akurasi 59% 56% 61% 62% 58%
Error Rate 41% 44% 39% 38% 42%
Recall 54% 48% 64% 62% 67%
Presisi 69% 56% 57% 59% 58%
F-Measure 61% 52% 61% 61% 63%
2. Pengujian Data Kedua (23 Januari 2020 – 02 Februari 2020)
Tabel 4. 27 Pengujian II
Tingkat
(%)
k
1 3 5 9 10
Akurasi 59% 59% 64% 60% 62%
Error Rate 41% 41% 36% 40% 38%
Recall 80% 80% 73% 80% 80%
Presisi 74% 74% 81% 82% 82%
F-Measure 77% 77% 77% 81% 81%
4.6 Verification, Validation and Experimentation
Pembahasan pada sub bab ini akan dibahas pada BAB 5
4.7 Output Analysis Phase
Pembahasan pada sub bab ini akan dibahas pada BAB 5
84 UIN SYARIF HIDAYATULLAH JAKARTA
BAB V
HASIL DAN PEMBAHASAN
5.1 Verification, Validation and Experimentation
Verifikasi dilakukan untuk memastikan bahwa setiap tahapan pada bab-bab
sebelumnya saling memiliki hubungan, dalam hal ini setiap tahapan bab akan diulas
kembali untuk memastikan tiap tahap tersebut saling terkait.
Dari tahapan problem formulation (formulasi masalah) dilakukan
pembahasan mengenai cara identifikasi masalah untuk dirumuskan dalam penulisan
skripsi, sehingga dari permasalahan tersebut dapat dikembangkan menjadi
pemodelan konsep sebagai solusi. Selanjutnya pada tahapan conceptual model
(pemodelan konsep), dilakukan pembahasan konsep secara keseluruhan pada
aplikasi analisis orientasi meliputi input, proses, eksperimen dan output yang
diharapkan. Pada tahapan collection input / output data, membahas input dan output
data. Berlanjut ke tahapan modelling phase (pemodelan) yang mana fase ini
berkaitan dengan mengolah data input dan output yang telah dibuat pada tahapan
sebelumnya. Pada dilakukan perhitungan sampel dan konstruksi klasifikasi
sentimen data latih menggunakan pendekatan lexicon, perhitungan sampel dan
konstruksi klasifikasi data uji menggunakan metode algoritma K-NN secara manual
untuk dapat dijadikan acuan dalam pembuatan aplikasi pada skripsi ini. Berikutnya
pada tahapan terakhir adalah simulation (simulasi), yaitu dengan melakukan
simulasi pada aplikasi analisis orientasi sentimen yang fungsinya
mengimplementasikan pemodelan-pemodelan manual yang sebelumnya. Oleh
karena itu pada setiap tahapan dapat dipastikan memiliki keterkaitan, karena setiap
tahapan yang dibuat akan berpengaruh untuk membuat tahapan selanjutnya. Maka
pada tahapan-tahapan yang dibahas pada bab sebelumnya harus sudah terverifikasi
sesuai dengan ketentuan verifikasi yang ada.
85
UIN SYARIF HIDAYATULLAH JAKARTA
Dalam proses validasi dilakukan pengujian kebenaran sistem dengan
melakukan perbandingan antara kinerja algoritma K-NN dengan yang dihitung
secara manual dengan hasil aplikasi analisis orientasi sentimen sehingga
menghasilkan keakuratan sistem. Kemudian dilakukan eksperimen dengan
membandingkan hasil skenario yaitu hasil klasifikasi sentimen data uji
menggunakan algoritma K-NN dengan membandingkan hasil skenario-skenario
yang ada. Dari eksperimen tersebut dilakukan analisis outputnya yang akan dibahas
pada tahap selanjutnya yaitu output analysis phase.
5.2 Output Analysis Phase
Dalam melakukan analisis output, dilakukan terhadap hasil klasifikasi
sentimen publik terhadap pemindahan ibu kota Indonesia dengan menggunakan
algoritma K-NN. Output ini didapatkan dari aplikasi berbasis web menggunakan
bahasa pemrogaman PHP dan database MySQL yang dibangun sendiri oleh penulis
untuk membantu penelitian. Semua analisis dijelaskan sebagai berikut :
5.2.1 Analisis Sentimen Komentar Mengenai Pemindahan Ibu Kota
Indonesia Menggunakan Metode Algoritma K-NN
Pada Sub bab ini dijelaskan output hasil klasifikasi sentimen 100 data uji
yang diambil dari komentar masyarakat terhadap pemindahan ibu kota Indonesia
dari Twitter, karena klasifikasi menggunakan algoritma K-NN serta
menggunakan metode pendekatan lexicon pada data latih untuk mengetahui
sebenarnya dari 100 data uji tersebut, maka pada penelitian ini terdapat lima
output hasil klasifikasi sentimen dimasukkan ke dalam BAB LAMPIRAN.
Pendapat warganet mengenai pemindahan ibu kota Indonesia, pada data
pertama terdapat 44 data bersentimen netral dan pada data kedua terdapat 41 data
bersentimen positif. Jadi banyak masyarakat yang mendukung mengenai
pemindahan ibu kota Indonesia dan ada juga yang bersifat netral atau tidak
peduli terhadap pemindahan ibu kota Indonesia.
5.2.2 Analisis Implementasi Dan Kinerja Dari Metode Algoritma K-NN
Sub-bab ini akan menjelaskan mengenai hasil tingkat akurasi terhadap
kombinasi algoritma K-NN. Pada algoritma K-NN akan dilakukan pengujian
terhadap nilai k=1, 3, 5, 9 dan 10. Data latih yang digunakan adalah berjumlah 900
86
UIN SYARIF HIDAYATULLAH JAKARTA
dokumen. Dan 100 dokumen data uji baru. Nilai kombinasi antara kedua algoritma
dengan akurasi tertinggi akan digunakan pada sistem analisis orientasi sentimen ini.
Hasil akurasi data pertama (10 Oktober 2019 – 23 Oktober 2019)
a. Hasil tingkat akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN sama
dengan 1.
Tabel 5. 1 Hasil akurasi K-NN dengan k = 1
Sentimen Kelas hasil prediksi
Positif Negatif Netral
Kelas
Sebenarnya
Positif a=20 b=4 c=13
Negatif d=3 e=14 f=9
Netral g=6 h=6 i=25
Berdasarkan hasil pengujian dari tabel diatas dapat diambil nilai akurasi
sebagai berikut :
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 20 + 14 + 25
20 + 4 + 13 + 3 + 14 + 9 + 6 + +25× 100
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 59
100× 100 = 59%
b. Hasil tingkat akurasi algoritma K-NN dengan nilai k pada algoritma K-NN sama
dengan 3.
Tabel 5. 2 Hasil akurasi K-NN dengan k = 3
Sentimen Kelas hasil prediksi
Positif Negatif Netral
Kelas
Sebenarnya
Positif a=18 b=4 c=15
Negatif d=5 e=13 f=8
Netral g=19 h=3 i=25
Berdasarkan hasil pengujian dari tabel diatas dapat diambil nilai akurasi
sebagai berikut :
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 18 + 13 + 25
18 + 4 + 15 + 5 + 13 + 8 + 19 + 3 + 25× 100
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 56
100× 100 = 56%
87
UIN SYARIF HIDAYATULLAH JAKARTA
c. Hasil tingkat akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN sama
dengan 5.
Tabel 5. 3 Hasil akurasi K-NN dengan k = 5
Sentimen Kelas hasil prediksi
Positif Negatif Netral
Kelas
Sebenarnya
Positif a=24 b=3 c=10
Negatif d=7 e=14 f=5
Netral g=11 h=3 i=23
Berdasarkan hasil pengujian dari tabel diatas dapat diambil nilai akurasi
sebagai berikut :
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 24 + 14 + 23
24 + 7 + 11 + 3 + 14 + 3 + 10 + 5 + 23× 100
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 61
100× 100 = 61%
d. Hasil tingkat akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN sama
dengan 9.
Tabel 5. 4 Hasil Akurasi K-NN dengan k = 9
Sentimen Kelas hasil prediksi
Positif Negatif Netral
Kelas
Sebenarnya
Positif a=23 b=3 c=11
Negatif d=6 e=13 f=7
Netral g=10 h=1 i=26
Berdasarkan hasil pengujian dari tabel diatas dapat diambil nilai akurasi
sebagai berikut :
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 23 + 13 + 26
23 + 6 + 10 + 3 + 13 + 1 + 11 + 7 + 26× 100
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 62
100× 100 = 62%
e. Hasil tingkat akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN sama
dengan 10
Tabel 5. 5 Hasil akurasi K-NN dengan k =10
88
UIN SYARIF HIDAYATULLAH JAKARTA
Sentimen Kelas hasil prediksi
Positif Negatif Netral
Kelas
Sebenarnya
Positif a=25 b=3 c=9
Negatif d=4 f=11 f=11
Netral g=14 h=1 i=22
Berdasarkan hasil pengujian dari tabel diatas dapat diambil nilai akurasi
sebagai berikut :
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 25 + 11 + 22
25 + 4 + 14 + 3 + 11 + 1 + 9 + 11 + 22× 100
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 58
100× 100 = 58%
Hasil akurasi data kedua (23 Januari 2020 – 10 Februari 2020)
a Hasil tingkat akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN sama
dengan 1.
Tabel 5. 6 Hasil akurasi K-NN dengan k = 1
Sentimen Kelas hasil prediksi
Positif Negatif Netral
Kelas
Sebenarnya
Positif a=36 b=4 c=5
Negatif d=5 e=12 f=16
Netral g=8 h=3 i=11
Berdasarkan hasil pengujian dari tabel diatas dapat diambil nilai akurasi
sebagai berikut :
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 36 + 12 + 11
36 + 5 + 8 + 4 + 12 + 3 + 5 + 16 + 11× 100
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 59
100× 100 = 59%
b Hasil tingkat akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN sama
dengan 3.
Tabel 5. 7 Hasil akurasi K-NN dengan k = 3
Sentimen Kelas hasil prediksi
Positif Negatif Netral
89
UIN SYARIF HIDAYATULLAH JAKARTA
Kelas
Sebenarnya
Positif a=36 b=4 c=5
Negatif d=5 e=12 f=16
Netral g=8 h=3 i=11
Berdasarkan hasil pengujian dari tabel diatas dapat diambil nilai akurasi
sebagai berikut :
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 36 + 12 + 11
36 + 5 + 8 + 4 + 12 + 3 + 5 + 16 + 11× 100
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 59
100× 100 = 59%
c Hasil Tingkat Akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN
sama dengan 5.
Tabel 5. 8 Hasil akurasi K-NN dengan k = 5
Sentimen Kelas hasil prediksi
Positif Negatif Netral
Kelas
Sebenarnya
Positif a=33 b=4 c=8
Negatif d=4 e=16 f=13
Netral g=4 h=3 i=15
Berdasarkan hasil pengujian dari tabel diatas dapat diambil nilai akurasi
sebagai berikut :
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 33 + 16 + 15
33 + 4 + 4 + 4 + 16 + 3 + 8 + 13 + 15× 100
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 64
100× 100 = 64%
d Hasil tingkat akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN sama
dengan 9.
Tabel 5. 9 Hasil akurasi K-NN dengan k = 9
Sentimen Kelas hasil prediksi
Positif Negatif Netral
Kelas
Sebenarnya
Positif a=36 b=0 c=9
Negatif d=7 e=13 f=13
Netral g=1 h=10 i=11
90
UIN SYARIF HIDAYATULLAH JAKARTA
Berdasarkan hasil pengujian dari tabel diatas dapat diambil nilai akurasi
sebagai berikut :
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 36 + 13 + 11
36 + 7 + 1 + 0 + 13 + 10 + 9 + 13 + 11× 100
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 60
100× 100 = 60%
e Hasil Tingkat Akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN
sama dengan 10
Tabel 5. 10 Hasil akurasi K-NN dengan k =10
Sentimen Kelas hasil prediksi
Positif Negatif Netral
Kelas
Sebenarnya
Positif a=36 b=0 c=9
Negatif d=7 e=15 f=11
Netral g=1 h=10 i=11
Berdasarkan hasil pengujian dari tabel diatas dapat diambil nilai akurasi
sebagai berikut :
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 36 + 15 + 11
36 + 7 + 1 + 0 + 15 + 10 + 9 + 11 + 11× 100
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 62
100× 100 = 62%
Keterangan :
a jumlah record positif yang diklasifikasikan sebagai positif
b jumlah record positif yang diklasifikasikan sebagai negatif
c jumlah record positif yang diklasifikasikan sebagai netral
d jumlah record negatif yang diklasifikasikan sebagai positif
e jumlah record negatif yang diklasifikasikan sebagai negatif
f jumlah record negatif yang diklasifikasikan sebagai netral
g jumlah record netral yang diklasifikasikan sebagai positif
h jumlah record netral yang diklasifikasikan sebagai negatif
i jumlah record netral yang diklasifikasikan sebagai netral
Secara keseluruhan hasil eksperimen ke 10 skenario pada penelitian ini
dirangkum berdasarkan gambar sebagai berikut :
91
UIN SYARIF HIDAYATULLAH JAKARTA
Hasil pengujian data pertama
Gambar 5. 1 Grafik K-NN Data I
Berdasarkan grafik pada gambar diatas maka didapatkan hasil analisis
sebagai berikut :
1. Pada eksperimen pertama, K-NN dengan parameter k=1 menghasilkan tingkat
akurasi sebesar 59% dengan error rate sebesar 41%, f-measure sebesar 0,606,
presisi sebesar 0,689 dan recall sebesar 54%.
2. Pada eksperimen kedua, K-NN dengan parameter k=3 menghasilkan tingkat
akurasi sebesar 56% dengan error rate sebesar 44%, f-measure sebesar 0,521,
presisi sebesar 0,562 dan recall sebesar 48%. Pada eksperimen kedua tingkat
akurasi mengalami penurunan 3% pada paramater k=3.
3. Pada eksperimen ketiga, K-NN dengan parameter k=5 menghasilkan tingkat
akurasi sebesar 61% dengan error rate sebesar 39%, f-measure sebesar 0,607,
presisi sebesar 0,571 dan recall sebesar 64%. Eksperimen ketiga mengalami
peningkatan akurasi 5% dibandingkan sebelumnya.
4. Pada eksperimen keempat, K-NN dengan parameter k=9 menghasilkan
tingkat akurasi sebesar 62% dengan error rate sebesar 38%, f-measure
sebesar 0,605, presisi sebesar 0,589 dan recall sebesar 62%. Eksperimen
keempat peningkatan akurasi 1 % dari eksperimen ketiga.
5. Pada eksperimen kelima, K-NN dengan parameter k=10 menghasilkan tingkat
akurasi sebesar 58% dengan error rate sebesar 42%, f-measure sebesar 0,625,
5956
61 6258
68
56 57 59 5860
52
60 60 62
5448
64 6267
0
10
20
30
40
50
60
70
80
Unigram k=1 Unigram k=3 Unigram k=5 Unigram k=9 Unigram k=10
K-NN Data I
Akurasi Presisi F-Measure Recall
92
UIN SYARIF HIDAYATULLAH JAKARTA
presisi sebesar 0,581 dan recall sebesar 67%. Eksperimen kelima mengalami
penurunan akurasi sebesar 4% dari eksperimen sebelumnya dalam algoritma
K-NN.
6. Dari kelima eksperimen/skenario K-NN yang dilakukan peneliti, tingkat
tertinggi akurasi ada pada eksperimen keempat algoritma K-NN dengan
tingkat akurasi sebesar 62% pada parameter k = 9. Sementara tingkat terendah
akurasi jatuh pada eksperimen kedua algoritma K-NN parameter k = 3 dengan
tingkat akurasi sebesar 56%.
7. Perhitungan recall tertinggi pada K-NN jatuh pada eksperimen kelima sebesar
67%, Semakin tinggi nilai recall yang dihasilkan maka sistem dapat
memprediksi kelas yang diidentifikasi dengan benar.
8. Perhitungan f-measure terhadap algoritma K-NN kelima eksperimen yang
tertinggi ada pada eksperimen kelima sebesar 0,625. Sementara nilai f-
measure terkecil ada pada eksperimen kedua sebesar 0,562 diikuti dengan
tingkat akurasi yang paling rendah. Artinya nilai f-measure menunjukan
semakin tinggi nilai f-measure (mendekati nilai 1) yang dihasilkan semakin
bagus kerja klasifikasi dalam memprediksi.
Hasil pengujian data kedua
Gambar 5. 2 Grafik K-NN Data II
59 5964
60 62
73 73
80 81 8176 76 76
80 8080 80
73
80
67
0
10
20
30
40
50
60
70
80
90
Unigram k=1 Unigram k=3 Unigram k=5 Unigram k=9 Unigram k=10
K-NN Data II
Akurasi Presisi F-Measure Recall
93
UIN SYARIF HIDAYATULLAH JAKARTA
Berdasarkan grafik pada gambar diatas maka didapatkan hasil analisis
sebagai berikut :
1. Pada eksperimen pertama, K-NN dengan parameter k=1 menghasilkan tingkat
akurasi yang dihasilkan pada skenario pertama sebesar 59%, error rate
sebesar 41%, recall sebesar 80%, presisi sebesar 0,735 dan f-measure sebesar
0,766.
2. Pada eksperimen kedua, K-NN dengan parameter k=3 menghasilkan tingkat
akurasi yang dihasilkan pada skenario kedua sebesar 59%, error rate sebesar
41%, recall sebesar 80%, presisi sebesar 0,735 dan f-measure sebesar 0,766.
Pada eksperimen kedua akurasi stabil atau sama dengan pertama.
3. Pada eksperimen ketiga, K-NN dengan parameter k=5 menghasilkan tingkat
akurasi yang dihasilkan pada skenario ketiga sebesar 64%, error rate sebesar
36%, recall sebesar 73%, presisi sebesar 0,805 dan f-measure sebesar 0,767.
Eksperimen ketiga mengalami peningkatan akurasi 5% dibandingkan
sebelumnya.
4. Pada eksperimen keempat, K-NN dengan parameter k=9 menghasilkan
tingkat akurasi yang dihasilkan pada skenario keempat sebesar 60%, error
rate sebesar 40%, recall sebesar 80%, presisi sebesar 0,818 dan f-measure
sebesar 0,809. Eksperimen keempat penurunan akurasi 4 % dari eksperimen
ketiga.
5. Pada eksperimen kelima, K-NN dengan parameter k=10 menghasilkan tingkat
akurasi yang dihasilkan pada skenario kelima sebesar 62%, error rate sebesar
38%, recall sebesar 80%, presisi sebesar 0,818 dan f-measure sebesar 0,809.
Eksperimen kelima mengalami peningkatan akurasi sebesar 2% dari
eksperimen sebelumnya dalam algoritma K-NN.
6. Dari kelima eksperimen/skenario K-NN yang dilakukan peneliti, tingkat
tertinggi akurasi ada pada eksperimen keempat algoritma K-NN dengan
tingkat akurasi sebesar 64% pada parameter k = 5. Sementara tingkat terendah
akurasi jatuh pada eksperimen kedua algoritma K-NN parameter k = 1 dan 3
dengan tingkat akurasi sebesar 59%.
94
UIN SYARIF HIDAYATULLAH JAKARTA
7. Perhitungan recall tertinggi pada K-NN jatuh pada eksperimen kesatu, ketiga
dan kesembilan sebesar 80%. Semakin tinggi nilai recall yang dihasilkan
maka sistem dapat memprediksi kelas yang diidentifikasi dengan benar.
8. Perhitungan f-measure terhadap algoritma K-NN kelima eksperimen yang
tertinggi ada pada eksperimen keempat dan kelima sebesar 0,809. Sementara
nilai f-measure terkecil ada pada eksperimen kesatu dan kedua sebesar 0,766
diikuti dengan tingkat akurasi yang paling rendah. Artinya nilai f-measure
menunjukan semakin tinggi nilai f-measure (mendekati nilai 1) yang
dihasilkan semakin bagus kerja klasifikasi dalam memprediksi..
95 UIN SYARIF HIDAYATULLAH JAKARTA
BAB VI
KESIMPULAN DAN SARAN
6.1 Kesimpulan
Berdasarkan rumusan masalah dan penejelasan yang telah peneliti
deskripsikan pada bab sebelumnya, maka peneliti dapat menarik kesimpulan
sebagai berikut:
1. Pendapat warganet mengenai pemindahan ibu kota Indonesia, pada data pertama
terdapat 44 data bersentimen netral dan pada data kedua terdapat 41 data
bersentimen positif. Jadi banyak masyarakat yang mendukung mengenai
pemindahan ibu kota Indonesia dan ada juga yang bersifat netral atau tidak
peduli terhadap pemindahan ibu kota Indonesia.
2. Nilai k optimal dalam melakukan proses klasifikasi algoritma K-NN mencapai
tingkat akurasi pada k=9 dengan tingkat akurasi mencapai 62% dan error rate
sebesar 38%, recall sebesar 62%, presisi sebesar 0,589 dan f-measure sebesar
0,605. Sedangkan pada pengumpulan data kedua K-NN memiliki tingkat akurasi
yang dihasilkan pada skenario ketiga sebesar 64%, error rate sebesar 36%,
recall sebesar 73%, presisi sebesar 0,805 dan f-measure sebesar 0,767
6.1 Saran
Ada beberapa hal yang perlu dipertimbangkan untuk mengembangkan
aplikasi ini agar lebih baik, yaitu:
1. Sistem ini hanya dapat mengklasifikasi data teks berbahasa Indonesia saja dan
tidak mengklasifikasi gambar. Diharapkan dapat dikembangkan dalam berbagai
bahasa dan mengklasifikasi yang mengandung gambar. Diharapkan dalam
pengembangan sistem selanjutnya, sistem ini dapat diaplikasikan pada semua
platfrom.
2. Diharapakan dalam pengembangan sistem selanjutnya, sistem ini dapat
ditambah fitur ekstraksi bigram, trigram, quadgram dan seterusnya. Adanya
peningkatan koleksi kamus sentimen khususnya dalam bahasa Inggris dan fitur
hitung akurasi dengan metode lain sehingga diharapkan dapat meningkatkan
akurasi.
96 UIN SYARIF HIDAYATULLAH JAKARTA
DAFTAR PUSTAKA
Al-Bahra. 2010. Analisis dan Desain Sistem Informasi. Graha Ilmu.
Anonim. 2018. http://socs.binus.ac.id/2013/06/22/natural-language-processing
Asosiasi Penyelenggara Jasa Internet Indonesia (APJII). 2018. apjii.or.id/survei2017
Azhar (2018). Analisis Kinerja Algoritma Naïve Bayes dan K-Nearest Neighbor
pada Sentimen Analisis Dengan Pendekatan Lexicon pada Twitter
Bagir Muhammad, Indah Ayu Yuliani. 2012. Database Introduction. Depok: CCIT-
FTUI.
Bhonde, Rhesma et al.(2015). Sentimen Analysis Based on Dictionary Approach.
Feldman, R., & Sanger, J. (2007). Advanced Approaches in Analyzing Unstructured
Data, The Text Mining Handbook. New York: Cambirdge.
Kadir, A. (2012). Algoritma dan Pemrograman Menggunakan C & C++. (B. R. W,
Ed.) (1st ed.). Yogyakarta: Andi
Krisandi, Nobertus.,dkk (2013). Algoritma K-Nearest Neighbor Dalam Klasifikasi
Data Hasil Produksi Kelapa Sawit Pada PT.Minamas Kecamatan Parindu.
Buletin Ilmiah Math.Stat. dan Terapannya (Bimaster) Volume 02, No.01
2013: hal. 33-38
Liu, B. (2012). Sentimen Analysis and Opinion Mining. (H. Graeme, Ed.) (1st ed.).
Chicago : Morgan & Claypool Publisher. Retrieved from
https://www.cs.uic.edu/~liub/FBS/SentimenAnalysis-and-
OpinionMining.pdf
Liu, B. (2015). Sentimen Analysis: Opinion Mining, Sentimen, and Emotions. (H.
Graeme, Ed.) (1st ed.). Chicago : Morgan & Claypool Publisher. Retrieved
from https://www.cs.uic.edu/~liub/FBS/chapter-1-and-chapter-2.pdf
Matulatuwa, F. M., Studi, P., Sistem, M., Informasi, F. T., Kristen, U., & Wacana,
S. (2017). Text Mining dengan Metode Lexicon Based untuk Sentimen
Analysis Pelayanan PT. POS Indonesia Melalui Media Sosial Twitter
Jurnal, (September).
Madani, S. A., Kazmi, J., & Mahlknecht, S. (2014). Wireless sensor networks:
modeling and simulation. InTech.
97
UIN SYARIF HIDAYATULLAH JAKARTA
Munir, R. (2011). Algoritma dan pemrograman : Dalam bahasa pascal dan C.
Bandung: Informatika.
Nurjanah, W. E., Perdana, R. S., & Fauzi, M. A. (2017). Analisis Sentimen
Terhadap Tayangan Televisi Berdasarkan Opini Masyarakat pada Media
Sosial Twitter menggunakan Metode K-Nearest Neighbor dan
Pembobotan Jumlah Retweet, 1(12), 1750–1757.
Oktinas, Willa (2017). Analisis Sentimen Pada Acara Televisi Menggunakan
Improved K-Neasrest Neighbor Tugas Akhir Teknik Informatika. Medan:
Universitas Sumatra Utara
Prasetyo, E. (2012). Data Mining Konsep dan Aplikasi Menggunakan Matlab (1st
ed.).
Pustejovsky, James. 2012. Natural Language Annotation For Machine Learning.
Oreilly Media.
Raharjo, B., Heryanto, I., & Rk, E. (2012). Modul Pemrograman Web HTML, PHP
& MYSQL. Bandung: Modula.
Sucitra Sahara (2016). Penerapan Metode K-Nearest Neighbors untuk analisis
sentimen review game pada Android
Rustina, Rahayu 2017. Komparasi metode K-Nearest Neighbor dan Support Vector
Machine pada sentimen review kamera
Twitter. (2013). Pengertian Twitter.
www.socs.binus.ac.id. (2013). Natural Language Processing. Retrieved March 15,
2019, from http://socs.binus.ac.id/2013/06/22/NATURAL-LANGUAGE-
PROCESSING
98 UIN SYARIF HIDAYATULLAH JAKARTA
LAMPIRAN
Hasil Pengambilan Data Pertama :
Tabel Lampiran 1 Hasil Data Pertama
Data
ke-n
Klasifikasi algoritma K-NN dengan 5 parameter Kelas
Sebenarnya k=1 k=3 k=5 k=9 k=10
1 NETRAL POSITIF POSITIF POSITIF POSITIF NETRAL
2 POSITIF POSITIF POSITIF POSITIF POSITIF NEGATIF
3 NETRAL NETRAL POSITIF POSITIF POSITIF NETRAL
4 POSITIF POSITIF POSITIF POSITIF POSITIF NETRAL
5 NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF
6 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
7 POSITIF POSITIF POSITIF POSITIF NETRAL NEGATIF
8 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
9 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
10 NETRAL NETRAL NEGATIF NETRAL NETRAL NEGATIF
11 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
12 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
13 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
14 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
15 POSITIF POSITIF POSITIF NETRAL POSITIF NETRAL
16 NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF
17 NEGATIF NETRAL NETRAL NETRAL NETRAL POSITIF
18 NEGATIF NEGATIF NETRAL NETRAL NETRAL NETRAL
19 NEGATIF NETRAL POSITIF POSITIF POSITIF POSITIF
20 NETRAL NETRAL POSITIF POSITIF POSITIF NETRAL
21 NEGATIF NEGATIF POSITIF POSITIF POSITIF POSITIF
22 POSITIF POSITIF POSITIF POSITIF POSITIF NETRAL
23 NETRAL POSITIF NETRAL POSITIF POSITIF NETRAL
99
UIN SYARIF HIDAYATULLAH JAKARTA
24 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
25 NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF
26 NETRAL NETRAL NEGATIF NETRAL NETRAL NEGATIF
27 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
28 NETRAL NETRAL NETRAL NEGATIF NEGATIF NEGATIF
29 NETRAL POSITIF POSITIF NETRAL POSITIF POSITIF
30 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
31 NETRAL NETRAL NETRAL NETRAL NETRAL NEGATIF
32 NEGATIF NETRAL NEGATIF NETRAL NETRAL NETRAL
33 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
34 NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF
35 NETRAL NETRAL NETRAL NETRAL NETRAL NEGATIF
36 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
37 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
38 NEGATIF NETRAL NETRAL NETRAL NETRAL NEGATIF
39 NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF
40 NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF
41 NEGATIF POSITIF POSITIF POSITIF POSITIF POSITIF
42 NETRAL POSITIF POSITIF NETRAL NETRAL NEGATIF
43 POSITIF POSITIF NETRAL POSITIF POSITIF NETRAL
44 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
45 NETRAL NETRAL POSITIF POSITIF POSITIF NETRAL
46 POSITIF POSITIF POSITIF NETRAL POSITIF NETRAL
47 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
48 NETRAL NETRAL NETRAL NETRAL NETRAL POSITIF
49 NEGATIF NEGATIF NEGATIF NETRAL POSITIF NETRAL
50 NETRAL NETRAL NETRAL NETRAL POSITIF NETRAL
51 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
52 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
53 NETRAL POSITIF POSITIF POSITIF POSITIF NEGATIF
100
UIN SYARIF HIDAYATULLAH JAKARTA
54 NETRAL NETRAL POSITIF NEGATIF NEGATIF POSITIF
55 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
56 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
57 NETRAL NETRAL NETRAL NETRAL NETRAL NEGATIF
58 NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF NETRAL
59 NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF
60 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
61 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
62 NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF
63 POSITIF NEGATIF POSITIF POSITIF POSITIF POSITIF
64 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
65 NETRAL NETRAL NETRAL NETRAL NETRAL POSITIF
66 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
67 NETRAL NETRAL POSITIF NETRAL NETRAL POSITIF
68 NEGATIF NEGATIF NEGATIF NEGATIF NETRAL NEGATIF
69 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
70 NETRAL NEGATIF NEGATIF NEGATIF NEGATIF POSITIF
71 NEGATIF NETRAL POSITIF NETRAL NETRAL NETRAL
72 NEGATIF POSITIF POSITIF POSITIF POSITIF NETRAL
73 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
74 NETRAL NEGATIF NEGATIF NEGATIF NEGATIF POSITIF
75 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
76 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
77 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
78 NETRAL NETRAL NETRAL NETRAL NETRAL POSITIF
79 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
80 POSITIF NETRAL NEGATIF NETRAL POSITIF POSITIF
81 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
82 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
83 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
101
UIN SYARIF HIDAYATULLAH JAKARTA
84 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
85 NETRAL NETRAL POSITIF POSITIF POSITIF POSITIF
86 NETRAL NETRAL POSITIF POSITIF POSITIF NEGATIF
87 NETRAL NETRAL NETRAL POSITIF POSITIF POSITIF
88 NETRAL NETRAL NETRAL NETRAL NETRAL POSITIF
89 POSITIF POSITIF POSITIF POSITIF POSITIF NETRAL
90 NEGATIF NEGATIF POSITIF POSITIF POSITIF NEGATIF
91 NETRAL NETRAL NETRAL NETRAL NETRAL POSITIF
92 NETRAL NETRAL NETRAL POSITIF POSITIF POSITIF
93 NEGATIF NEGATIF NEGATIF NEGATIF NETRAL NEGATIF
94 POSITIF POSITIF POSITIF POSITIF NETRAL NEGATIF
95 POSITIF NETRAL NETRAL NETRAL NETRAL POSITIF
96 POSITIF NETRAL NETRAL NETRAL NETRAL POSITIF
97 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
98 NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF
99 NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF
100 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
Hasil Pengambilan Data Kedua :
Tabel Lampiran 2 Hasil Data Kedua
Data
ke-n
Klasifikasi algoritma K-NN dengan 5 parameter Kelas
Sebenarnya k=1 k=3 k=5 k=9 k=10
1 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
2 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
3 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
4 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
5 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
6 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
7 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
8 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
9 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
10 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
102
UIN SYARIF HIDAYATULLAH JAKARTA
11 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
12 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
13 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
14 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
15 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
16 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
17 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
18 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
19 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
20 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
21 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
22 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
23 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
24 POSITIF POSITIF NETRAL NETRAL NETRAL POSITIF
25 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
26 NETRAL NETRAL NETRAL NETRAL NETRAL NEGATIF
27 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
28 NEGATIF NEGATIF NEGATIF POSITIF POSITIF NEGATIF
29 NETRAL NETRAL NEGATIF NETRAL NETRAL POSITIF
30 POSITIF POSITIF NETRAL NEGATIF NEGATIF NETRAL
31 NETRAL NETRAL NETRAL POSITIF POSITIF POSITIF
32 NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF NETRAL
33 NETRAL NETRAL NETRAL NETRAL NETRAL NEGATIF
34 POSITIF POSITIF NETRAL NEGATIF NEGATIF NETRAL
35 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
36 NETRAL NETRAL NETRAL NETRAL NETRAL NEGATIF
37 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
38 POSITIF POSITIF POSITIF NEGATIF NEGATIF NETRAL
39 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
40 NETRAL NETRAL NETRAL NEGATIF NEGATIF NEGATIF
103
UIN SYARIF HIDAYATULLAH JAKARTA
41 POSITIF POSITIF POSITIF POSITIF POSITIF NETRAL
42 NEGATIF NEGATIF NEGATIF NETRAL NETRAL NETRAL
43 NETRAL NETRAL NETRAL NETRAL NETRAL NEGATIF
44 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
45 POSITIF POSITIF POSITIF NEGATIF NEGATIF NETRAL
46 NEGATIF NEGATIF NEGATIF NETRAL POSITIF POSITIF
47 POSITIF POSITIF POSITIF NEGATIF NEGATIF NEGATIF
48 POSITIF POSITIF NEGATIF NEGATIF NEGATIF NEGATIF
49 NEGATIF NEGATIF NEGATIF NETRAL NETRAL POSITIF
50 NETRAL NETRAL NETRAL NETRAL NETRAL NEGATIF
51 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
52 POSITIF POSITIF POSITIF NEGATIF NEGATIF NETRAL
53 POSITIF POSITIF NETRAL NEGATIF NEGATIF NETRAL
54 NETRAL NETRAL NETRAL POSITIF POSITIF NEGATIF
55 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
56 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
57 POSITIF POSITIF NETRAL NETRAL NETRAL POSITIF
58 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
59 NETRAL NETRAL NETRAL POSITIF POSITIF NEGATIF
60 NETRAL NETRAL NETRAL NETRAL NETRAL NEGATIF
61 POSITIF POSITIF NETRAL NEGATIF NEGATIF NETRAL
62 NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF NETRAL
63 NETRAL NETRAL NETRAL NETRAL NETRAL NEGATIF
64 NETRAL NETRAL NETRAL NETRAL NETRAL POSITIF
65 NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF
66 NETRAL NETRAL NETRAL POSITIF POSITIF NEGATIF
67 NETRAL NETRAL NETRAL POSITIF POSITIF POSITIF
68 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
69 POSITIF POSITIF POSITIF POSITIF POSITIF NEGATIF
70 POSITIF POSITIF POSITIF NETRAL NETRAL NEGATIF
104
UIN SYARIF HIDAYATULLAH JAKARTA
71 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
72 NEGATIF NEGATIF NEGATIF NETRAL NEGATIF NEGATIF
73 NETRAL NETRAL NEGATIF NETRAL NETRAL NEGATIF
74 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
75 NETRAL NETRAL NETRAL NEGATIF NEGATIF NETRAL
76 POSITIF POSITIF NETRAL NETRAL NETRAL POSITIF
77 NEGATIF NEGATIF NEGATIF NETRAL NETRAL NEGATIF
78 NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF
79 NEGATIF NEGATIF NETRAL NETRAL NETRAL POSITIF
80 NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF
81 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
82 POSITIF POSITIF POSITIF POSITIF POSITIF NEGATIF
83 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
84 NEGATIF NEGATIF NEGATIF POSITIF NETRAL POSITIF
85 NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF
86 NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF
87 NETRAL NETRAL NETRAL POSITIF POSITIF NEGATIF
88 NETRAL NETRAL NEGATIF NETRAL NEGATIF NEGATIF
89 NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF
90 NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF
91 NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF
92 NETRAL NETRAL NEGATIF NEGATIF NEGATIF NEGATIF
93 NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF
94 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
95 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
96 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
97 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
98 NETRAL NETRAL NETRAL NETRAL NETRAL NEGATIF
99 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
100 NETRAL NETRAL NETRAL NETRAL NETRAL POSITIF
Top Related