Post on 16-Feb-2022
PERBANDINGAN FEATURE SELECTION CHI-SQUARE DAN
QUERY EXPANSION RANKING (QER) PADA ANALISIS
SENTIMEN TERKAIT REVITALISASI MONAS
MENGGUNAKAN METODE NAÏVE BAYES CLASSIFIER
LAPORAN TUGAS AKHIR
Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Strata 1
Informatika Universitas Muhammadiyah Malang
RONI HADI WIJAYA
201610370311282
Sains Data
PROGRAM STUDI INFORMATIKA
FAKULTAS TEKNIK
UNIVERSITAS MUHAMMADIYAH MALANG
2021
iv
ABSTRAK
Monumen Nasional (Monas) merupakan suatu monumen bersejarah
yang menjadi destinasi pariwisata cukup populer di Kota Jakarta. Monumen
ini dibangun untuk mengenang perjuangan rakyat Indonesia melawan
penjajahan Belanda. Di awal tahun 2020, taman Monumen Nasional
dilakukan revitalisasi. Dengan adanya kebijakan tersebut, mengundang
banyak kalangan untuk memberikan tanggapan yang di ungkapkan secara
langsung maupun tidak langsung yaitu melalui sosial media Twitter.
Dengan demikian, penelitian ini mencoba menganalisis ulasan dari
masyarakat dengan metode naive bayes classifier dan membandingkan
penggunaan seleksi fitur chi – square dan query expansion ranking untuk
mengoptimalkan kinerja klasifikasi pada penelitian. Hasil klasifikasi
dengan menggunakan seleksi fitur chi – square dan query expansioan
ranking dimasukkan kedalam confusion matrix. Berdasarkan hasil dari
confusion matrix tersebut di dapatkan hasil dari perbandingan kedua seleksi
fitur dalam mengklasifikasi opini dari masyarakat mengenai kebijakan
revitalisasi monas.
Kata kunci : analisis sentimen, naïve bayes, chi-square, query expansion
ranking
v
ABSTRACT
The National Monument (Monas) is a historical monument which
has become a popular tourism destination in the city of Jakarta. This
monument was built to commemorate the struggle of the Indonesian people
against Dutch colonialism. In early 2020, the National Monument park was
revitalized. With this policy, inviting many groups to provide responses that
are expressed directly or indirectly, namely through Twitter social media.
Thus, this study tries to analyze reviews from the public using the Naive
Bayes classifier method and compares the use of feature selection chi-
square and query expansion ranking to optimize the classification
performance in the study. The classification results using the chi-square
feature selection and ranking expansion queries are entered into the
confusion matrix. Based on the results of the confusion matrix, the results
obtained from the comparison of the two feature selections in classifying
public opinion regarding the monas revitalization policy.
Keywords : sentiment analysis, naïve bayes, chi-square, query
expansion ranking
vi
LEMBAR PERSEMBAHAN
Puji syukur kepada Allah SWT karena atas rahmat dan karunia – Nya
sehingga penulis dapat menyelesaikan Tugas Akhir ini. Banyak pihak yang terlibat
dalam proses penulisan Tugas Akhir ini, maka dari itu pada kesempatan ini penulis
mengucapkan terima kasih kepada seluruh pihak yang terlibat, khususnya untuk :
1. Keluarga penulis, Bapak Mohamad Saleh, Ibu Mawati, Nenek Asma’ira
serta seluruh keluarga yang terkasih yang telah memberikan do’a ridho,
kasih sayang dan support penuh pada penulis dalam menyelesaikan studi.
2. Bapak Dr. Fauzan, M.Pd., selaku rektor Universitas Muhammadiyah
Malang
3. Bapak Dr. Ahmad Mubin, M.T., selaku Dekan Fakultas Teknik Universitas
Muhammadiyah Malang
4. Ibu Hj. Gita Indah Marthasari, S.T., M.Kom., Selaku Ketua Program Studi
Informatika Universitas Muhammadiyah Malang
5. Ibu Hj. Gita Indah Marthasari, S.T., M.Kom., selaku dosen pembimbing I
yang telah membimbing dan memberikan arahan kepada penulis dan
meluangkan waktunya.
6. Bapak Christian Sri Kusuma Aditya, M.Kom., selaku dosen pembimbing II
yang telah membimbing penulis dalam menyelesaikan tugas akhir.
7. Bapak Yufis Azhar, S.Kom., M.Kom., dan Ibu Vinna Rahmayanti S. N.,
S.Si., M.Si. selaku dosen penguji tugas akhir yang telah memberikan kritik
dan sarannya untuk penulis.
8. Seluruh Dosen beserta Staff Program Studi Informatika Universitas
Muhammadiyah Malang yang telah memberikan ilmu dan wawasan kepada
penulis selama studi.
9. Sahabat – sahabat yang tidak dapat saya sebutkan satu – persatu.
Terimakasih sebanyak – banyaknya atas segala do’a, waktu dan support
yang sangat tulus yang diberikan kepada penulis sehingga penulis dapat
menyelesaikan tugas akhir ini.
10. Semua mahasiswa/i Program Studi Informatika Universitas
Muhammadiyah Malang Angkatan 2016 terimakasih atas kebersamaan
yang telah dilalu selama masa studi.
vii
KATA PENGANTAR
Dengan memanjatkan puji syukur kehadirat Allah SWT atas limpahan rahmat dan
hidayah – Nya sehingga penulis dapat menyelesaikan tugas akhir yang berjudul
“ PERBANDINGAN FEATURE SELECTION CHI-SQUARE
DAN QUERY EXPANSION RANKING (QER) PADA ANALISIS
SENTIMEN TERKAIT REVITALISASI MONAS
MENGGUNAKAN METODE NAÏVE BAYES CLASSIFIER “
Di dalam tulisan ini diajukan pokok – pokok bahasan yang meliputi penentuan
metode naïve bayes, algoritma chi – square, algoritma query expansion ranking,
klasifikasi dengan metode naïve bayes, perhitungan nilai keberhasilan proses
klasifikasi. Tugas akhir ini merupakan salah satu syarat studi yang harus ditempuh
oleh seluruh mahasiswa Universitas Muhammadiyah Malang, guna menyelesaikan
studi pada jenjang program Strata 1.
Penulis menyadari sepenuhnya bahwa dalam penulisan tugas akhir ini masih
banyak kekurangan dan keterbasan. Oleh karena itu peneliti mengharapkan saran
yang membangun agar tulisan ini bermanfaat bagi perkembangan ilmu dan
pengetahuan.
Malang, 15 Januari 2021
Penulis
viii
DAFTAR ISI
LEMBAR PERSETUJUAN ................................................................................. 1
LEMBAR PENGESAHAN .................................................................................. 2
LEMBAR PERNYATAAN .................................................................................. 3
LEMBAR PERSEMBAHAN ............................................................................... 6
KATA PENGANTAR ........................................................................................... 7
DAFTAR ISI .......................................................................................................... 8
DAFTAR GAMBAR ........................................................................................... 10
DAFTAR TABEL ............................................................................................... 12
DAFTAR PUSTAKA .......................................................................................... 13
SERTIFIKASI PLAGIASI ................................................................................. 16
BAB I .................................................................................................................... 17
1.1 Latar Belakang ....................................................................................... 17
1.2 Rumusan Masalah .................................................................................. 20
1.3 Tujuan Penelitian .................................................................................... 20
1.4 Batasan Masalah ..................................................................................... 20
BAB II .................................................................................................................. 21
2.1 Revitalisasi Monas ................................................................................. 21
2.2 Twitter .................................................................................................... 21
2.3 Twitter API ............................................................................................. 22
2.4 Data Mining ............................................................................................ 22
2.5 Analisis Sentimen ................................................................................... 23
2.6 Preprocessing .......................................................................................... 23
2.7 Pembotoan TF-IDF ................................................................................. 24
2.8 Feature Selection .................................................................................... 25
2.9 Naïve Bayes Classifier ........................................................................... 27
2.10 Confusion Matrix ................................................................................... 28
2.11 Sastrawi .................................................................................................. 28
2.12 Pyhton ..................................................................................................... 29
BAB III ................................................................................................................. 30
3.1 Pengumpulan Data ................................................................................. 31
3.2 Preprocessing .......................................................................................... 31
ix
3.3 Pembobotan TF-IDF ............................................................................... 34
4.4 Chi Square .............................................................................................. 34
4.5 Query Expansion Ranking (QER) .......................................................... 36
4.6 Naïve Bayes Classifier ........................................................................... 38
4.7 Evaluasi .................................................................................................. 38
4.8 Skenario Pengujian ................................................................................. 40
BAB IV ................................................................................................................. 41
4.1 Implementasi .......................................................................................... 41
1. Crawling Data ......................................................................................... 41
2. Preprocessing .......................................................................................... 42
3. Term Frequency – Inverse Document Frequency .................................. 44
4. Chi-Square dengan Klasifikasi Naïve Bayes Classifier ......................... 46
5. Query Expansion Ranking dengan Klasifikasi Naïve Bayes Classifier . 49
4.2 Pengujian ................................................................................................ 53
1. Klasifikasi Naïve Bayes Classifier Menggunakan Feature Selection Chi –
Square ............................................................................................................ 54
2. Klasifikasi Naïve Bayes Classifier Menggunakan Feature Selection
Query Expansion Ranking ............................................................................. 61
3. Visualisasi Klasifikasi Naïve Bayes Classifier Menggunakan Feature
Selection Chi – Square dan Query Expansion Ranking ................................ 68
4.3 Pembahasan ............................................................................................ 72
BAB V ................................................................................................................... 73
5.1 Kesimpulan ............................................................................................. 73
5.2 Saran ....................................................................................................... 73
x
DAFTAR GAMBAR
Gambar 1. Alur Penelitian ................................................................................... 30
Gambar 2. Tahap Preprocessing .......................................................................... 32
Gambar 3. Install library twitterscraper ............................................................... 41
Gambar 4. Syntax crawling dan save data .......................................................... 41
Gambar 5. Syntax Case Folding .......................................................................... 42
Gambar 6. Syntax Punctuation Removal ............................................................. 43
Gambar 7. Syntax Stopword Removal ................................................................. 43
Gambar 8. Syntax Stemming ................................................................................ 44
Gambar 9. Syntax Tokenizing .............................................................................. 44
Gambar 10. Install library Sklearn ...................................................................... 45
Gambar 11. Syntax class TfidfVectorizer ............................................................ 45
Gambar 12. Hasil dari proses TF – IDF .............................................................. 46
Gambar 13. Syntax Library Chi-Square .............................................................. 46
Gambar 14. Syntax pembaca data ........................................................................ 47
Gambar 15. Syntax perhitungan TF-IDF ............................................................. 47
Gambar 16. Syntax vector data ........................................................................... 47
Gambar 17. Syntax feature selection ................................................................... 48
Gambar 18. Syntax fungsi klasifikasi Naïve Bayes ............................................. 48
Gambar 19. Syntax Naïve Bayes fungsi Klasifikasi dan Feature Selection ........ 48
Gambar 20. Syntax pembagian data Naïve Bayes ............................................... 49
Gambar 21. Syntax Naïve Bayes fungsi Klasifikasi dan Chi – Square ............... 49
Gambar 22. tahap dan hasil pf ............................................................................. 50
Gambar 23. tahap dan hasil qf ............................................................................. 51
Gambar 24. Hasil score ...................................................................................... 51
Gambar 25. syntax membaca data ....................................................................... 52
Gambar 26. syntax perubahan data...................................................................... 52
Gambar 27. syntax pembagian data naïve bayes ................................................. 52
Gambar 28. syntax proses klasifikasi naïve bayes .............................................. 52
Gambar 29. syntax hasil klasifikasi naïve bayes ................................................. 53
Gambar 30. Confussion Matrix Skenario 1 ......................................................... 54
Gambar 31. Confussion Matrix Skenario 2 ......................................................... 55
xi
Gambar 32. Confussion Matrix Skenario 3 ........................................................ 56
Gambar 33. Confussion Matrix skenario 4 .......................................................... 58
Gambar 34. Confussion Matrix skenario 5 .......................................................... 59
Gambar 35. Confussion Matrix skenario 6 .......................................................... 60
Gambar 36. Confussion Matrix Skenario 1 ......................................................... 61
Gambar 37. Confussion Matrix Skenario 2 ........................................................ 62
Gambar 38. Confussion Matrix Skenario 3 ......................................................... 63
Gambar 39. Confussion Matrix skenario 4 .......................................................... 65
Gambar 40. Confussion Matrix skenario 5 .......................................................... 66
Gambar 41. Confussion Matrix skenario 6 .......................................................... 67
Gambar 42. Visualisasi Perbandingan Chi-Square.............................................. 69
Gambar 43. Visualisasi Perbandingan Query Expansion Ranking ..................... 69
Gambar 44. Visualisasi Perbandingan Chi-Square & Query Expansion Ranking
(Pembagian Data Latih & Data Uji) ..................................................................... 70
Gambar 45. Visualisasi Perbandingan Chi-Square & Query Expansion Ranking
............................................................................................................................... 70
xii
DAFTAR TABEL
Tabel 1. Contoh data set yang telah di Crawling ................................................. 31
Tabel 2. Contoh data set setelah Case Folding ..................................................... 32
Tabel 3. Contoh data set setelah Filtering ............................................................ 33
Tabel 4. Contoh data set setelah Tokenizing ........................................................ 33
Tabel 5 Contoh data set setelah Stemming .......................................................... 33
Tabel 6. Data set contoh perhitungan manual Chi-Square ................................... 35
Tabel 7. Data set contoh perhitungan manual QER ............................................. 37
Tabel 8. Confussion Matrix .................................................................................. 39
xiii
DAFTAR PUSTAKA
[1] R. Haryanti, “Luas Ibu Kota Baru di Kalimantan Timur Hampir 3 Kali DKI
Jakarta,” Kompas.com, Jakarta, 26-Aug-2019.
[2] D. H. Jayani, “Proyeksi Jumlah Penduduk DKI Jakarta 2020,”
databoks.katada.co.id, 2020. [Online]. Available:
https://databoks.katadata.co.id/datapublish/2019/12/07/jumlah-penduduk-
dki-jakarta-2020.
[3] W. Marison, “Revitalisasi Monas: Dari Ditolak Istana Negara, Mangkrak,
hingga Kembali Berjalan,” Kompas.com, Jakarta, 11-Feb-2020.
[4] H. Widowati, “Pemerintah Provinsi DKI Jakarta berjanji pembangunan
lintasan dan fasilitas pendukung Formula E tidak akan merusak kawasan
cagar budaya Monas.,” Katadata.co.id, Jakarta, 21-Feb-2020.
[5] “Indonesia Digital 2019 : Media Sosial,” websindo.com, 07-Mar-2019.
[6] F. N. Hasan and M. Wahyudi, “Analisis Sentimen Artikel Berita Tokoh
Sepak Bola Dunia Menggunakan Algoritma Support Vector Machine Dan
Naive Bayes Berbasis Particle Swarm Optimization,” Director, vol. 15, no.
2, pp. 2017–2019, 2018.
[7] V. A. Fitri, R. Andreswari, M. A. Hasibuan, V. A. Fitri, R. Andreswari, and
M. A. Hasibuan, “Sentiment Analysis of Social Media Twitter with Case of
Anti- LGBT Campaign in Indonesia using Naïve Bayes , Decision Tree ,
and Random Forest Algorithm,” Procedia Comput. Sci., vol. 161, pp. 765–
772, 2019.
[8] F. Ratnawati, “Implementasi Algoritma Naive Bayes Terhadap Analisis
Sentimen Opini Film Pada Twitter,” INOVTEK Polbeng - Seri Inform., vol.
3, no. 1, p. 50, 2018.
[9] Y. Cahyono and S. Saprudin, “Analisis Sentiment Tweets Berbahasa Sunda
Menggunakan Naive Bayes Classifier dengan Seleksi Feature Chi Squared
Statistic,” J. Inform. Univ. Pamulang, vol. 4, no. 3, p. 87, 2019.
[10] M. R. Tsani, A. Prima, G. Rupaka, L. Asmoro, P. Keselamatan, and T.
Jalan, “ANALISIS SENTIMEN REVIEW TRANSPORTASI
MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE
BERBASIS CHI SQUARE,” vol. 9, no. 1, pp. 35–39, 2020.
[11] N. D. Mentari, M. A. Fauzi, and L. Muflikhah, “Analisis Sentimen
Kurikulum 2013 Pada Sosial Media Twitter Menggunakan Metode K-
Nearest Neighbor dan Feature Selection Query Expansion Ranking,” J.
Pengemb. Teknol. Inf. dan Ilmu Komput. Univ. Brawijaya, vol. 2, no. 8, pp.
2739–2743, 2018.
[12] S. Fanissa, M. A. Fauzi, and S. Adinugroho, “Analisis Sentimen Pariwisata
di Kota Malang Menggunakan Metode Naive Bayes dan Seleksi Fitur
Query Expansion Ranking | Jurnal Pengembangan Teknologi Informasi dan
Ilmu Komputer,” J. Pengemb. Teknol. Inf. dan Ilmu Komput., vol. 2, no. 8,
xiv
pp. 2766–2770, 2018.
[13] M. S. Mustafa, M. R. Ramadhan, and A. P. Thenata, “Implementasi Data
Mining untuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan
Algoritma Naive Bayes Classifier,” Creat. Inf. Technol. J., vol. 4, no. 2, p.
151, 2018.
[14] K. R. Prilianti and K. Kunci, “Aplikasi Text Mining untuk Automasi
Penentuan Tren Topik Skripsi dengan Metode K-Means Clustering,” vol. 2,
no. 1, pp. 1–6, 2014.
[15] F. AFSHOH, “Analisis Sentimen Menggunakan Naive Bayes Untuk
Melihat Persepsi Masyarakat Terhadap Kenaikan Harga Jual Rokok Pada
Media Sosial Twitter,” Inform. Progr. Stud. Komunikasi, Fak. Inform. D A
N Surakarta, Univ. Muhammadiyah, pp. 1–17, 2017.
[16] A. Majumdar and I. Bose, “Do tweets create value? A multi-period analysis
of Twitter use and content of tweets for manufacturing firms,” Int. J. Prod.
Econ., vol. 216, no. April, pp. 1–11, 2019.
[17] S. Mujilahwati, “Pre-Processing Text Mining Pada Data Twitter,” Semin.
Nas. Teknol. Inf. dan Komun., vol. 2016, no. Sentika, pp. 2089–9815, 2016.
[18] R. KURNIAWAN and A. APRILIANI, “Analisis Sentimen Masyarakat
Terhadap Virus Corona Berdasarkan Opini Dari Twitter Berbasis Web
Scraper,” Jurnal INSTEK (Informatika Sains dan Teknologi), vol. 5, no. 1.
p. 67, 2020.
[19] D. Wahyudi, T. Susyanto, and D. Nugroho, “Implementasi Dan Analisis
Algoritma Stemming Nazief & Adriani Dan Porter Pada Dokumen
Berbahasa Indonesia,” J. Ilm. SINUS, vol. 15, no. 2, pp. 49–56, 2017.
[20] R. T. Wahyuni, D. Prastiyanto, and E. Supraptono, “Penerapan Algoritma
Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi
Dokumen Skripsi,” J. Tek. Elektro, vol. 9, no. 1, pp. 18–23, 2017.
[21] I. M. A. Agastya, “Pengaruh Stemmer Bahasa Indonesia Terhadap Peforma
Analisis Sentimen Terjemahan Ulasan Film,” J. Tekno Kompak, vol. 12,
no. 1, p. 18, 2018.
[22] I. N. Dedi Ary Prasetya, “Deteksi wajah metode viola jones pada opencv
menggunakan pemrograman python,” Simp. Nas. RAPI XI FT UMS, pp.
18–23, 2012.
[23] R. Melita et al., “( TF-IDF ) DAN COSINE SIMILARITY PADA SISTEM
TEMU KEMBALI INFORMASI UNTUK MENGETAHUI SYARAH
HADITS BERBASIS WEB ( STUDI KASUS : SYARAH UMDATIL
AHKAM ),” vol. 11, no. 2, 2018.
[24] M. I. Maulana and A. A. Soebroto, “Klasifikasi Tingkat Stres Berdasarkan
Tweet pada Akun Twitter menggunakan Metode Improved k-Nearest
Neighbor dan Seleksi Fitur Chi- square,” vol. 3, no. 7, pp. 6662–6669,
2019.