SENTIMENT ANALYSIS PADA REVIEW SITUS WEB TRIPADVISOR ...digilib.unila.ac.id/60245/2/SKRIPSI TANPA...

54
i SENTIMENT ANALYSIS PADA REVIEW SITUS WEB TRIPADVISOR TERHADAP TEMPAT PARIWISATA DI PROVINSI LAMPUNG (Skripsi) Oleh : Arham Awal Abiyan PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN TEKNIK ELEKTRO FAKULTAS TEKNIK UNIVERSITAS LAMPUNG BANDAR LAMPUNG 2019

Transcript of SENTIMENT ANALYSIS PADA REVIEW SITUS WEB TRIPADVISOR ...digilib.unila.ac.id/60245/2/SKRIPSI TANPA...

i

SENTIMENT ANALYSIS PADA REVIEW SITUS WEB TRIPADVISOR

TERHADAP TEMPAT PARIWISATA DI PROVINSI LAMPUNG

(Skripsi)

Oleh :

Arham Awal Abiyan

PROGRAM STUDI TEKNIK INFORMATIKA

JURUSAN TEKNIK ELEKTRO

FAKULTAS TEKNIK

UNIVERSITAS LAMPUNG

BANDAR LAMPUNG

2019

ii

ABSTRAK

SENTIMENT ANALYSIS PADA REVIEW SITUS WEB TRIPADVISOR

TERHADAP TEMPAT PARIWISATA DI PROVINSI LAMPUNG

Oleh

ARHAM AWAL ABIYAN

TripAdvisor merupakan website yang mengumpulkan review tentang suatu tempat

wisata yang diberikan oleh penggunanya. Review merupakan salah satu faktor yang

berpengaruh terhadap keputusan seorang wisatawan untuk pergi ke suatu tempat

wisata, namun terkadang terdapat banyak mixed sentiment yang membuat kalimat

review menjadi sulit untuk ditentukan sentiment-nya secara langsung. Dilihat dari

aspek ini, dibutuhkan model klasifikasi yang mampu mengklasifikasikan kalimat

review. Data mining merupakan suatu kegiatan untuk mengekstrak suatu informasi

atau knowledge penting dari suatu set data berukuran besar. Salah satu Teknik dari

data mining yaitu klasifikasi, menggunakan salah satu algoritma klasifikasi yaitu

Multinomial Naïve Bayes, program yang dibangun akan mampu untuk

mengklasifikasikan kalimat review berdasarkan dataset yang diberikan.

Perancangan model menggunakan metode DSR ( Design Scientific Research ) yang

memiliki 6 fase, yaitu fase 1 : Identifikasi Masalah, fase 2 : Menentukan Objek

Solusi, fase 3 : Perancangan & Pengembangan, fase 4 : Demonstrasi, fase 5 :

Evaluasi, fase 6 : Pelaporan Hasil Penelitian. Kemudian membangun model

klasifikasi berdasarkan dataset yang telah melalui proses preprocessing dan

labeling, selanjutnya yaitu mengevaluasi model klasifikasi yang dibangun

berdasarkan classification report yang didapat. Berdasarkan nilai accuracy score

yang didapat yaitu 75%, model klasifikasi yang dibangun dapat mengklasifikasikan

kalimat review dengan cukup baik.

Kata kunci : review, data mining, klasifikasi

iii

ABSTRACT

SENTIMENT ANALYSIS ON TRIPADVISOR WEBSITE REVIEW OF

TOURISM OBJECTS IN LAMPUNG PROVINCE

By

ARHAM AWAL ABIYAN

TripAdvisor is a website that collects reviews of tourism objects given by its users.

Review is one of the factors that influence a tourist's decision to go to a tourism

objects, but sometimes there are many mixed sentiments that make the review

sentences are difficult to determine its sentiment directly. According from this

aspect, a classification model that is able to classify a review sentence is needed.

Data mining is an activity to extract important information or knowledge from a

large data set. One of the techniques of data mining is classification, using one of

the classification algorithms, Multinomial Naïve Bayes, the model will be able to

classify review sentences based on the given dataset.

The design of the model used the DSR (Design Scientific Research) method which

has 6 phases, namely phase 1: Problem Identification, phase 2: Determining the

Object of Solution, phase 3: Design & Development, phase 4: Demonstration, phase

5: Evaluation, phase 6: Reporting Research result. Then build a classification model

based on a dataset that has gone through a process of preprocessing and labeling,

then evaluating the classification model that is built based on the classification

report obtained. Based on the accuracy score that obtained is 75%, the classification

model can classify review sentences quite well.

keyword : reviews, data mining, classification

iv

SENTIMENT ANALYSIS PADA REVIEW SITUS WEB TRIPADVISOR

TERHADAP TEMPAT PARIWISATA DI PROVINSI LAMPUNG

Oleh

Arham Awal Abiyan

Skripsi

Sebagai Salah Satu Syarat untuk Mencapai Gelar

SARJANA TEKNIK

Pada

Program Studi Teknik Informatika

Jurusan Teknik Elektro

Fakultas Teknik

Universitas Lampung

FAKULTAS TEKNIK

UNIVERSITAS LAMPUNG

BANDAR LAMPUNG

2019

viii

RIWAYAT HIDUP

Penulis dilahirkan di Adi Jaya, pada tanggal 02 September

1996. Putra pertama dari dua bersaudara, dari Bapak

Hidayanto, S.H. dan Ibu Musyarofah. Pendidikan formal yang

pernah ditempuh oleh penulis di saat Sekolah Dasar adalah

Sekolah Dasar Negeri 7 Bandar Jaya yang diselesaikan pada

tahun 2008. Kemudian meneruskan di Sekolah Menengah Pertama Negeri 3

Terbanggi Besar yang diselesaikan pada tahun 2011. Melanjutkan ke Sekolah

Menengah Atas Negeri 1 Kotagajah dan berhasil lulus di tahun 2014. Tahun 2014,

penulis terdaftar sebagai Mahasiswa Jurusan S1 Program Studi Teknik Informatika,

Jurusan Teknik Elektro, Fakultas Teknik, Universitas Lampung. Selama menjadi

mahasiswa penulis aktif dalam Organisasi Himpunan Mahasiswa Teknik Elektro

(HIMATRO) sebagai Anggota Departemen Komunikasi dan Informasi pada tahun

2015 - 2017. Penulis melaksanakan Praktek Kerja Lapangan (PKL) di PT. Digital

Utama Adikarya pada tahun 2017 sebagai Software Engineer Intern dengan judul

“Rancang Bangun dan Impelementasi Aplikasi Android Pelacakan Beacon Wizee

Pada PT. Digital Utama Adikarya”. Pada bulan Januari - Februari 2018 penulis

mengaplikasikan ilmu di bidang akademis dengan melaksanakan Kuliah Kerja

Nyata (KKN) di Desa Keputran, Kecamatan Sukoharjo, Kabupaten Pringsewu,

Provinsi Lampung.

ix

Dengan menyebut nama Allah yang Maha Pengasih lagi Maha Penyayang

SKRIPSI INI KUPERSEMBAHKAN UNTUK

“Bapak Hidayanto dan Ibu Musyarofah, terima kasih atas segala doa,

pengorbanan, kasih sayang, motivasi dan cinta. Sehingga, dapat mengiringi dalam

langkah maupun usaha untuk mencapai keberhasilan.” “Adikku Dharma Adi

Wiguna, yang telah memberikan semangat baik secara motivasi maupun

semangat” “Almamaterku dan Kampus Teknik Universitas Lampung tercinta”

x

Motto

“Karena sesungguhnya sesudah kesulitan ada kemudahan”

(Q.S. AL - INSYIRAH 94:5)

“Kesempatan datang hanya untuk orang yang berusaha”

xi

SANWACANA

Bismillahirahmanirrahim...

Dengan mengucapkan Alhamdullilah penulis ucapkan puji syukur kepada Allah

SWT, berkat rahmat dan karunia-Nya telah memberikan kekuatan dan kemampuan

berpikir kepada penulis dalam penyelesaian tugas akhir ini sehingga laporan ini

dapat selesai tepat waktunya. Shalawat serta salam tak lupa penulis sampaikan

kepada Rasullullah SAW.

Tugas akhir ini dibuat dengan berbagai observasi dan beberapa bantuan dari

berbagai pihak untuk membantu menyelesaikan tantangan dan hambatan selama

mengerjakan tugas akhir ini. Oleh karena itu dalam kesempatan kali ini penulis

ingin mengucapkan terima kasih kepada:

1. Prof. Suharno ,M.Sc, Ph.D. selaku Dekan Fakultas Teknik

2. Dr. Herman Halomoan Sinaga, S.T., M.T. selaku Ketua Jurusan Teknik

Elektro

3. Mona Arif Muda, S.T., M.T. selaku Ketua Program Studi Teknik

Informatika

4. Ing. Heri Dian Septama, S.T. selaku Pembimbing Utama tugas akhir saya

yang telah meluangkan waktunya untuk memberi arahan, bimbingan, saran

serta kritik yang bersifat membangun dalam pengerjaan tugas akhir ini.

xii

6. Gigih Foda Nama, S.T., M.T.I. selaku Pembimbing Pendamping tugas akhir

saya yang telah meluangkan waktunya untuk memberi arahan, bimbingan,

saran serta kritik yang bersifat membangun dalam pengerjaan tugas akhir

ini.

7. Wahyu Eko Sulistiono, S.T., M.Sc. selaku dosen penguji tugas akhir ini

dan terimakasih atas masukan guna membuat tugas akhir ini menjadi lebih

baik lagi.

8. Dr. Eng. Mardiana, S.T., M.T. selaku Dosen Pembimbing Akademik yang

memberikan bimbingan selama menempuh kuliah di Program Studi Teknik

Informatika.

9. Seluruh dosen Jurusan Teknik Elektro dan Teknik Informatika Universitas

Lampung, atas pengajaran dan bimbingannya yang telah diberikan kepada

penulis selama menjadi mahasiswa Teknik Elektro Universitas Lampung.

10. Mbak Ning, Mbak Rika, Mas Riyadi dan seluruh jajaran staf administrasi

atas semua bantuannya dalam menyelesaikan urusan administrasi di Jurusan

Teknik Elektro Universitas Lampung.

11. Kedua orang tua saya, yang sangat saya cintai dan sayangi yang telah

memberikan do’a, dorongan moril, cinta, kasih sayang dan semangat serta

pengorbanannya sehingga penulis mampu menyelesaikan tugas akhir ini.

xiii

12. Staff dan Asisten Laboratorium Teknik Komputer yang telah memberikan

wejangan yang kurang berguna dan menemani dalam pengerjaan tugas akhir

saya.

13. Teman – teman ELITE 2014 atas kebersamaan kalian semua, dari penulis

berada dibangku kuliah sampai penyelesaian tugas akhir ini, bagi penulis

kalian sahabat luar biasa.

14. Teman – teman Teknik Informatika 2014 atas kebersamaan kalian semua,

dari penulis berada dibangku kuliah sampai penyelesaian tugas akhir ini,

bagi penulis kalian sahabat luar biasa.

15. Bray Arif Fauzi yang telah membantu kelancaran wisuda penulis.

16. Semua pihak yang tidak dapat penulis sebutkan satu persatu yang telah

membantu serta mendukung penulis dari awal kuliah sampai dengan selesai

tugas akhir ini.

17. Teman – teman FullSTUCK Developer Verry, Hafiz dan Briyan yang telah

membuat keadaan lebih berwarna kelam dan suram.

18. Almamater tercinta, atas kisah hidup yang penulis dapatkan semasa kuliah.

Semoga Allah SWT membalas kebaikan semua pihak yang telah membantu dalam

penyelesaian tugas akhir ini. Penulis meminta maaf atas segala kesalahan dan

ketidaksempurnaan dalam penulisan tugas akhir ini. Kritik dan saran yang

membangun sangat penulis harapkan demi kebaikan dan kemajuan di masa

xiv

mendatang. Akhir kata semoga Tugas Akhir ini dapat bermanfaat bagi semua pihak,

dan dapat menambah khasanah ilmu pengetahuan.

Bandar Lampung, 26 November 2019

Penulis

Arham Awal Abiyan

xv

DAFTAR ISI

DAFTAR ISI ........................................................................................................ xv

DAFTAR GAMBAR ........................................................................................ xviii

DAFTAR TABEL................................................................................................ xx

I. PENDAHULUAN .............................................................................................. 1

1.1 Latar Belakang.......................................................................................... 1

1.2 Tujuan Penelitian ...................................................................................... 2

1.3 Manfaat Penelitian .................................................................................... 2

1.4 Rumusan Masalah .................................................................................... 3

1.5 Batasan Masalah ....................................................................................... 3

1.6 Sistematika Penulisan ............................................................................... 4

II. TINJAUAN PUSTAKA ................................................................................... 5

2.1 Data Mining.............................................................................................. 5

2.2 Sentiment Analysis .................................................................................... 6

2.3 Web Scraping............................................................................................ 7

2.4 TripAdvisor ............................................................................................... 7

xvi

2.5 Python ....................................................................................................... 7

2.6 Multinomial Naive Bayes ......................................................................... 9

2.7 Design Science Research ........................................................................ 10

2.8 Penelitian Terdahulu ............................................................................... 11

2.8.1 Implementasi Algoritma Naive Bayes Classifier (NBC) dalam

Mendeteksi Komentar Promosi pada Sosial Media Instagram ......................... 12

2.8.2 Klasifikasi Halaman Web Menggunakan Multinomial Naïve Bayes

Clasifier ............................................................................................................ 12

2.8.3 Twitter Sentiment Classification using Distant Supervision .............. 13

III. METODE PENELITIAN ............................................................................ 14

3.1 Waktu dan Tempat Penelitian ..................................................................... 14

3.2 Software dan Alat ........................................................................................ 14

3.3 Tahapan Penelitian ...................................................................................... 15

3.3.1 Identifikasi Masalah dan Motivasi .................................................. 17

3.3.2 Menentukan Objek Solusi ............................................................... 18

3.3.3 Perancangan & Pengembangan ....................................................... 18

3.3.4 Demonstrasi..................................................................................... 29

3.3.5 Evaluasi ........................................................................................... 29

3.3.6 Pelaporan Hasil Penelitian .............................................................. 29

xvii

IV. HASIL DAN PEMBAHASAN .......................... Error! Bookmark not defined.

4.1 Pengembangan ......................................... Error! Bookmark not defined.

4.1.1 Scraping Data .................................. Error! Bookmark not defined.

4.1.2 Importing Data ................................. Error! Bookmark not defined.

4.1.3 Preprocessing Data .......................... Error! Bookmark not defined.

4.1.4 Data Labeling................................... Error! Bookmark not defined.

4.1.5 Data Modelling ................................ Error! Bookmark not defined.

4.2 Demonstrasi ............................................. Error! Bookmark not defined.

4.2.1 Data Scraping .................................. Error! Bookmark not defined.

4.2.2 Data Analysis ................................... Error! Bookmark not defined.

4.2.3 Data Visualization ............................ Error! Bookmark not defined.

4.3 Evaluasi ................................................... Error! Bookmark not defined.

4.3.1 Precision Score ................................ Error! Bookmark not defined.

4.3.2 Recall Score ..................................... Error! Bookmark not defined.

4.3.3 Penggunaan CPU & Memory........... Error! Bookmark not defined.

V. KESIMPULAN DAN SARAN ...................................................................... 30

5.1 Kesimpulan ............................................................................................. 30

5.2 Saran ....................................................................................................... 31

DAFTAR PUSTAKA .......................................................................................... 32

xviii

DAFTAR GAMBAR

Gambar 2.1 Peringkat Bahasa Pemrograman Menurut Survey Stack Overflow

Berdasarkan Profesi ................................................................................................ 9

Gambar 2.2 Konsep Tahapan Penelitian untuk DSR ........................................... 11

Gambar 4.1 Diagram Pengembangan .................... Error! Bookmark not defined.

Gambar 4.2 Tampilan Halaman TripAdvisor ........ Error! Bookmark not defined.

Gambar 4.3 Tampilan Detial Objek Pariwisata ..... Error! Bookmark not defined.

Gambar 4.4 Fungsi parse_link ............................... Error! Bookmark not defined.

Gambar 4.5 Tampilan Detail Review Objek Wisata ............ Error! Bookmark not

defined.

Gambar 4.6 Fungsi parse_review .......................... Error! Bookmark not defined.

Gambar 4.7 Fungsi import data ............................. Error! Bookmark not defined.

Gambar 4.8 Hasil proses import data .................... Error! Bookmark not defined.

Gambar 4.9 Fungsi clean_text................................ Error! Bookmark not defined.

Gambar 4.10 Daftar Stop Word ............................. Error! Bookmark not defined.

Gambar 4.11 Hasil preprocessing .......................... Error! Bookmark not defined.

Gambar 4.12 Proses Pelabelan Data ...................... Error! Bookmark not defined.

Gambar 4.13 Library Data Modeling..................... Error! Bookmark not defined.

Gambar 4.14 Fungsi Convert dan Pembacaan Data............. Error! Bookmark not

defined.

xix

Gambar 4.15 Syntax Pemodelan Data .................... Error! Bookmark not defined.

Gambar 4.16 Contoh Data Training ...................... Error! Bookmark not defined.

Gambar 4.17 Kata – kata yang sering muncul pada data_test index pertama Error!

Bookmark not defined.

Gambar 4.18 Source code prediksi data dummy .... Error! Bookmark not defined.

Gambar 4.19 Hasil prediksi terhadap data dummy yang diberikan ................ Error!

Bookmark not defined.

Gambar 4.20 Source Code Load Model ................. Error! Bookmark not defined.

Gambar 4. 21 Output Program Load Model .......... Error! Bookmark not defined.

Gambar 4.22 Hasil Proses Scrapping Data ............ Error! Bookmark not defined.

Gambar 4.23 Hasil Pemodelan Data ...................... Error! Bookmark not defined.

Gambar 4.24 Visualisasi Data Secara Keseluruhan ............. Error! Bookmark not

defined.

Gambar 4.25 Penggunaan Resource Komputer ..... Error! Bookmark not defined.

xx

DAFTAR TABEL

Tabel 3.1 Jadwal Penelitian................................................................................... 14

Tabel 3.2 Lingkungan pengembangan sistem ....................................................... 14

Tabel 3.3 Lingkup pengujian sistem ..................................................................... 15

Tabel 3.4 Tabel Deskripsi Proses Diagram ........................................................... 20

Tabel 3.5 Proses Data Cleaning............................................................................ 22

Tabel 3.6 Proses Case Folding.............................................................................. 23

Tabel 3.7 Proses Stopword Removal ..................................................................... 25

Tabel 3.8 Proses Tokenization............................................................................... 26

Tabel 3.9 Tabel Contoh Klasifikasi ...................................................................... 27

Tabel 4. 1 Frekuensi Kemunculan Kata Kalimat Review .... Error! Bookmark not

defined.

Tabel 4.2 Tabel Report Klasifikasi ........................ Error! Bookmark not defined.

I. PENDAHULUAN

1.1 Latar Belakang

Provinsi Lampung memliki daya tarik untuk berwisata. Hal ini ditunjukan dengan

banyaknya wisatawan yang berwisata ke Provinsi Lampung, menurut data dari

pemerintah Provinsi Lampung, pada tahun 2017 kunjungan wisata ke Lampung

mencapai delapan juta wisatawan, hal ini menempatkan Provinsi Lampung diposisi

ke sembilan untuk kunjungan wisatawan Nusantara pada Oktober 2017 berdasarkan

data yang didapat dari Kementerian Pariwisata dan PT. Telkom yang menghitung

lalu lintas pergerakan wisatawan melalui telepon seluler. Gubernur Lampung M

Ridho Ficardo, mengatakan capaian tersebut lebih banyak ditunjang oleh beberapa

acara yang digelar di Lampung. Di antaranya Hari Keluarga Nasional, Hari Kopi

Internasional, dan sejumlah acara nasional lainnya yang mulai gencar memilih

Lampung sebagai tuan rumah [1]. Review merupakan salah satu faktor yang dapat

menentukan keputusan seorang wisatawan untuk pergi ke suatu tempat wisata,

menunjukkan bahwa wisatawan dapat mengambil jumlah review sebagai indikator

popularitas tempat wisata atau nilai dari suatu tempat wisata yang akan

mempengaruhi kemauan untuk berkunjung ke tempat ersebut.

TripAdvisor merupakan website dimana informasi yang diposting berasal dari para

pengguna. TripAdvisor akan menampung review tentang hotel, resort, penginapan,

liburan, paket perjalanan, pemandu perjalanan, penerbangan, penyewaan tempat

2

berlibur dan banyak lagi lainnya dari para wisatawan yang telah berkunjung ke

suatu tempat wisata, sehingga calon wisatawan dapat mengandalkan ulasan

wisatawan lain untuk membantu mengambil keputusan dalam menentukan tujuan

tempat berwisata [2]. Penilaian pada TripAdvisor dianggap belum cukup membantu

calon wisatawan untuk mengetahui kekurangan dan kelebihan suatu tempat wisata

karena ulasan pada TripAdvisor mengandung berbagai aspek penilaian dan berupa

mixed sentiment (seperti positif dan negatif). Untuk itu, perlu adanya sentiment

analysis terhadap ulasan TripAdvisor pada tempat wisata sehingga dapat diketahui

aspek penilaian apa saja yang sering dibahas oleh para pengunjung dan dapat

menentukan penilaian secara spesifik.

1.2 Tujuan Penelitian

Tujuan dari penelitian ini adalah :

1. Merancang dan mengimplementasi sistem sentiment analyzer pada review

tempat pariwisata di Provinsi Lampung.

2. Melakukan sentiment analysis terhadap review tempat wisata di Provinsi

Lampung berdasarkan model yang dibangun.

1.3 Manfaat Penelitian

Manfaat dari penelitian ini adalah:

1. Dapat mengetahui sentiment wisatawan terhadap suatu tempat wisata yang

akan digunakan sebagai data train dalam membangun model klasifikasi

yang akan dibangun.

3

2. Terciptanya sistem sentiment analyzer terhadap review tempat wisata di

Provinsi Lampung yang dapat melakukan memprediksi sentiment terhadap

review suatu tempat wisata sehingga model klasifikasi dapat digunakan oleh

pengelola wisata untuk mengklasifikasikan review.

3. Mengetahui efektifitas algoritma naïve bayes dalam memodelkan dataset

review situs TripAdvisor di Provinsi Lampung

1.4 Rumusan Masalah

Bagaimana membuat dan mengimplementasikan sebuah sistem yang melakukan

analisis terhadap sentiment wisatawan yang berkunjung ke Provinsi Lampung pada

website TripAdvisor.

1.5 Batasan Masalah

Tugas akhir ini membahas sistem analisi sentiment terhadap review tempat wisata

di Provinsi Lampung pada website TripAdvisor dengan batasan masalah sebagai

berikut :

1. Dataset yang digunakan adalah data review dari TripAdvisor pada tempat wisata

di Provinsi Lampung.

2. Sistem yang dibuat menggunakan bahasa pemrograman Python.

3. Pemilihan tempat wisata berdasarkan destinasi tempat wisata terpopuler di

Provinsi Lampung menurut TripAdvisor pada bulan September 2018.

4

1.6 Sistematika Penulisan

Sistematika penulisan penelitian ini terdiri atas beberapa bab, antara lain:

I. PENDAHULUAN

Bab ini meliputi latar belakang, tujuan penelitian, rumusan masalah, batasan

masalah, dan sistematika penulisan.

II. TINJAUAN PUSTAKA

Bab ini berisi prinsip, pengetahuan, rumus, dan teori penunjang secara garis

besar yang berkaitan dalam penelitian tugas akhir ini.

III. METODE PENELITIAN

Bab ini berisi mengenai langkah-langkah dalam penelitian di antaranya:

waktu dan tempat penelitian, alat dan bahan, prosedur penelitian.

IV. PEMBAHASAN

Pada bab pembahasan berisi tentang perancangan sistem analisis sentiment,

penjelasan mengenai aplikasi yang dibangun, dan hasil analisis sistem

aplikasi tersebut.

V. PENUTUP

Simpulan dan saran hasil penelitian.

DAFTAR PUSTAKA

LAMPIRAN

II. TINJAUAN PUSTAKA

2.1 Data Mining

Data mining merupakan suatu kegiatan untuk mengekstrak suatu informasi atau

knowledge penting dari suatu set data berukuran besar dengan menggunakan teknik

tertentu. Informasi atau knowledge yang dihasilkan dari proses data mining dapat

digunakan untuk membantu atau memperbaiki suatu pengambilan keputusan [3].

Beberapa langkah pendahuluan sebelum kita memasukkan data yang sudah siap ke

dalam teknik data mining tertentu adalah :

1. Data Selection

Tahap ini yaitu pemilihan set data yang akan dipakai dari suatu set database atau

dari data yang ada di suatu website.

2. Data Cleaning

Tahap ini yaitu pembersihan set data untuk menghindari terjadinya error dari

tahap data selection, sehingga tidak ada data yang kosong.

3. Data Transformation

Proses ini yaitu melakukan transformasi tertentu berdasarkan algoritma tertentu

agar suatu set data siap diproses atau untuk menghasilkan suatu analisis yang

lebih baik.

Terdapat banyak macam jenis task pada data mining yaitu clustering, classification.

regression, dan association. Classification atau klasifikasi merupakan contoh dari

6

supervised learning, karena diberikan suatu data untuk pelatihan, sehingga sistem

dapat belajar untuk mengklasifikasikan data yang akan diberikan berikutnya [4].

Klasifikasi yaitu mengelompokkan obyek berdasarkan kelompok yang sudah ada,

klasifikasi memerlukan data pelatihan yang sudah diberi label. Data pelatihan

berguna untuk membangun model, setelah model dibangun data baru bisa

dikelompokkan menggunakan model tersebut [3].

2.2 Sentiment Analysis

Sentiment analysis adalah suatu proses data mining untuk suatu teks informasi yang

mengidentifikasi dan mengekstrak suatu informasi subjektif dari suatu teks yang

bertujuan untuk memahami social sentiment teks tersebut. Sentiment analysis juga

digunakan untuk mendapatkan pemahaman tentang sikap, pendapat dan emosi yang

diungkap dalam suatu teks informasi [5]. Sentiment analysis tergolong penelitian

baru yang menarik karena terdapat banyak aplikasinya untuk dunia nyata.

Menemukan pendapat orang sangat penting untuk pembuatan keputusan yang lebih

baik. Sentiment analysis adalah studi yang menganalisis opini dan sentimen orang

terhadap entitas, seperti produk, layanan dalam suatu teks. Itu selalu penting untuk

mengetahui apa yang dipikirkan orang lain [6]. Tujuan dari proses sentiment

analysis yaitu untuk mengetahui apakah suatu tulisan mempunyai arti positif,

negatif atau netral. Sikap yang dianalis dapat berupa penilaian, keadaan efektif atau

komunikasi emosional yang dituju.

7

2.3 Web Scraping

Web scraping merupakan sebuah proses untuk memperoleh suatu informasi yang

tidak terstruktur pada suatu halaman website dan mengubahnya menjadi suatu

informasi terstruktur sehingga lebih mudah untuk dilakukan analisis. Web scraping

memungkinkan untuk mengambil data secara otomatis dengan menggunakan suatu

program [7]. Web scraping merupakan salah satu solusi untuk mendapatkan data

dari suatu website secara cepat dan efisien, dan menghasilkan format yang mudah

digunakan jika tidak ada API yang disediakan.

2.4 TripAdvisor

TripAdvisor didirikan oleh Stephen Kaufer dan Langley Steinert. TripAdvisor

merupakan situs wisata yang membantu wisatawan dalam merencanakan dan

memesan perjalanan wisata mereka, fungsi lain dari TripAdvisor yaitu

dapat memberikan rekomendasi tentang hotel, resort, penginapan, liburan, paket

perjalanan, pemandu perjalanan, dan penerbangan. TripAdvisor merupakan bagian

TripAdvisor Media Group yang berada di bawah kepemilikan dan dioperasikan

oleh TripAdvisor. Situs web TripAdvisor merupakan komunitas wisata terbesar di

dunia yang memiliki 456 juta pengunjung setiap bulannya dan menampilkan lebih

dari 661 juta review dan opini tentang suatu objek wisata [2].

2.5 Python

Python merupakan bahasa pemrograman yang diciptakan oleh Guido Van Rossum.

Menurut Guido Van Rossum, Python merupakan bahasa pemrograman tingkat tinggi

dan didesain untuk pembacaan kode dan sintaks yang pada tujuannya adalah untuk

8

memudahkan para programmer untuk mengekspresikan konsep hanya dalam beberapa

baris kode [8]. Program-program Python tidak dijalankan melalui compiler, namun

melalui interpreter. Keuntungan besar dari bahasa yang dijalankan melalui

interpreter adalah bahwa program-program dapat diuji dan dijalankan dengan cepat.

Karena tidak perlu mengkompilasi, menautkan, dan mengeksekusi setelah setiap

baris program dikoreksi, program Python dapat dikembangkan dalam waktu yang

jauh lebih singkat daripada program Fortran atau C yang setara [9]. Bahasa

pemrograman Python mendukung konsep pemrograman berorientasi objek (object

oriented programming), sehingga terdapat berbagai macam library dan framework

yang dikembangkan yang berguna untuk melakukan analisis data, yaitu :

1. Scikit-Learn

Scikit-learn merupakan library untuk Python yang umum digunakan untuk

membangun sebuah program tentang machine learning. Library ini mulai

dikembangkan pada tahun 2007 oleh David Cournapeau. Scikit-learn

menyediakan berbagai macam supervised dan unsupervised algorithm untuk

Python [10].

2. Scrapy

Scrapy merupakan aplikasi framework yang berguna untuk melakukan crawling

pada sebuah situs web dan mengekstrak suatu data yang dapat digunakan dalam

proses data mining [11].

Python adalah bahasa pemrograman yang memiliki banyak fungsi. Python dapat

diaplikasikan ke aplikasi web, aplikasi desktop, server jaringan, machine learning,

alat media, dan banyak lagi. Menurut data dari survey yang dilakukan oleh situs

Stack Overflow pada tahun 2017, Python merupakan bahasa pemrogram terpopuler

9

ketiga berdasarkan voting dari 4.799 responden yang berprofesi sebagai data

scientist/engineer pada situs Stack Overflow [12].

Gambar 2.1 Peringkat Bahasa Pemrograman Menurut Survey Stack Overflow

Berdasarkan Profesi [12]

2.6 Multinomial Naive Bayes

Multinomial Naïve Bayes merupakan salah satu metode spesifik dari metode Naive

Bayes. Multinomial naïve bayes ini juga merupakan salah satu algoritma machine

learning dalam supervised learning pada proses pengklasifikasian teks dengan

menggunakan nilai probabilitas suatu kelas dalam suatu dokumen. Menurut

Multinomial Naïve Bayes, secara umum probabilitas suatu dokumen d, sebagai

bagian dari anggota kelas c. Multinomial Naïve Bayes merupakan model

pengembangan dari algoritma bayes yang cocok dalam pengklasifikasian teks atau

dokumen. Pada formula Multinomial Naive Bayes Classifier, kelas dokumen tidak

hanya ditentukan dengan kata yang muncul tetapi juga jumlah kemunculannya

[13].

10

2.7 Design Science Research

Metode DSR diperkenalkan oleh Ken Peffers, Tuure Tuunanen, Marcus A.

Rothenberger, dan Samir Chatterjee pada jurnal berjudul “A Design Science

Research Methodology for Information Systems Research”. Penelitian tentang

design science kaya dengan gagasan tentang bagaimana melakukan penelitian.

Literatur ini, meskipun tidak menyediakan model proses yang dapat diterapkan

langsung ke masalah penelitian design science, memberikan konsep dari mana kita

dapat menyimpulkan hasil dari suatu proses dalam penelitian tentang information

system. Tahapan yang dilakukan dalam metode ini yaitu [14]:

11

Gambar 2.2 Konsep Tahapan Penelitian untuk DSR (Design Science Research)

2.8 Penelitian Terdahulu

Terdapat beberapa penelitian terdahulu yang ada kaitannya dengan penelitian ini

sebagai rujukan dan perbandingan pada metode yang digunakan serta hasil yang

dicapai pada penelitian ini

Problem identification and motivation

Define the objectives for a solution

Design and development

Communication

Demonstration

Evaluation

12

2.8.1 Implementasi Algoritma Naive Bayes Classifier (NBC) dalam

Mendeteksi Komentar Promosi pada Sosial Media Instagram

Abu Rizal Habibie Tito membuat Sistem untuk mendeteksi komentar promosi dan

bukan promosi pada mesia sosial Instagram. Sistem yang dibuat ini berfungsi untuk

mengetahui apakah komentar pada suatu post di Instagram merupakan komentar

promosi atau komentar bukan promosi [15]. Hasil dari penelitian ini sistem yang

dapat memonitoring setiap username yang didaftarkan di situs Magi Metric dan

memprediksi komentar yang ada di dalam sebuah post apakah itu termasuk

komentar promosi atau komentar bukan promosi.

2.8.2 Klasifikasi Halaman Web Menggunakan Multinomial Naïve Bayes

Clasifier

Anastasia Diandra membuat penelitian tentang Klasifikasi Halaman Web

Menggunakan Multinomial Naïve Bayes Clasifier untuk mengklasifikasikan isi dari

suatu halaman web berdasarkan tag meta yang ada di dalam suatu class pada atribut

HTML. Penelitian ini bertujuan untuk menemukan kumpulan rule klasifikasi yang

kemudian diuji pada data testing untuk mendapatkan akurasi prediksi berdasarkan

class yang telah didefinisikan sebelumnya. Implementasi dilakukan melalui

penggunaan multinomial naive bayes classifier untuk diterapkan pada

permasalahan klasifikasi [16]. Hasil dari penelitian ini adalah sebuah sistem yang

dapat mengklasifikan sebuah halaman web berdasarkan meta tag description dan

meta tag keywords yang digunakan menghasilkan rule klasifikasi berdasarkan

multinomial naive bayes classifier.

13

2.8.3 Twitter Sentiment Classification using Distant Supervision

Penelitian ini dilakukan oleh Alec Go, Richa Bayani dan Lei Huang dari Stanford

Univeristy. Tujuan dari penelitian ini yaitu untuk mengklasifikasikan sentiment dari

pesan Twitter ke dalam dua kelas, yaitu kelas positif dan kelas negatif. Sistem ini

akan berguna untuk para pembeli untuk mengecek sentiment dari produk yang akan

mereka beli terlebih dahulu atau bagi perusahaan yang ingin memantau public

sentiment yang dimiliki oleh perusahaan tersebut. Penelitian ini menggunakan tiga

algoritma dari machine learning, yaitu Naive Bayes, Maximum Enthropy dan

Support Vector Machine. Hasil dari penelitian ini yaitu sistem dapat mengklasifikan

berbagai macam tweet dan memiliki akurasi lebih dari 80% untuk ketiga algoritma

tersebut [17].

14

III. METODE PENELITIAN

3.1 Waktu dan Tempat Penelitian

Tugas Akhir ini dilaksanakan dari September 2018 sampai dengan Desember 2019,

yang bertempat di Laboratorium Teknik Komputer Jurusan Teknik Elektro

Universitas Lampung.

Tabel 3.1 Jadwal Penelitian

No Kegiatan

Waktu Pelaksanaan

Sept Okt Nov Des Jan Feb Mar Apr Mei Jun Jul Agu

1 Identifikasi masalah

2 Menentukan objek solusi

3 Perancangan & pengembangan

4 Demonstrasi

5 Evaluasi

6 Pelaporan hasil penelitian

3.2 Software dan Alat

Perangkat keras dan perangkat lunak yang digunakan untuk pengembangan tugas

akhir ini adalah sebagai berikut:

Tabel 3.2 Lingkungan pengembangan sistem

No Perangkat Spesifikasi Kegunaan Jumlah

1 Laptop Intel core I5-4300,

RAM 8 GB

Perangkat pembuatan dan

pengujian aplikasi. 1

2 Python Anaconda based

on Python 3.6.5

Bahasa pemrograman dalam

pembuatan aplikasi.. 1

3 Visual Studio

Code Version 1.26

Text Editor untuk

pengembangan aplikasi. 1

4 Linux Ubuntu Version 18.04 LTS Sistem operasi 1

15

Tabel 3.3 Lingkup pengujian sistem

No Perangkat Spesifikasi Kegunaan Jumlah

1 Laptop Intel core I5-

4300, RAM 8 GB

Untuk meng-install dan

menjalankan aplikasi yang

telah dibuat

1

3.3 Tahapan Penelitian

Metode penelitian yang digunakan dalam pelaksanaan tugas akhir ini adalah

metode DSR ( Design Science Research/Rancangan penelitian ilmiah ). Metode

DSR diperkenalkan oleh Ken Peffers, Tuure Tuunanen, Marcus A. Rothenberger,

dan Samir Chatterjee pada jurnal berjudul “A Design Science Research

Methodology for Information Systems Research” [14]. Bagan alir dapat dilihat pada

gambar di bawah ini:

16

Gambar 3.1 Tahapan Penelitian untuk DSR (Design Science Research)

Berdasarkan konsep tersebut, metode penelitian yang disesuaikan dengan

penelitian yang dilakukan memiliki tahapan identifikasi masalah dan motivasi,

menetapkan objek solusi, melakukan perancangan dan pengembangan perangkat

lunak, pelaporan hasil penelitian.

Identifikasi Masalah

Menentukan Objek Solusi

Perancangan & Pengembangan

Pelaporan Hasil Penelitian

Demonstrasi

Evaluasi

17

3.3.1 Identifikasi Masalah dan Motivasi

Proses pertama yang dilakukan adalah mencari permasalahan apa yang terjadi pada

objek pariwisata provinsi Lampung sebagai motivasi dari penelitian ini. Pada tahap

ini dilakukan analisis kebutuhan sistem. Cara yang dilakukan dalam analisis

kebutuhan ini yaitu dengan observasi dan wawancara kepada para wisatawan yang

mengunjungi obyek wisata di provinsi Lampung. Hasil wawancara tersebut yaitu

wisatawan sulit memahami review yang diberikan oleh pengguna TripAdvisor dan

para pengelola tempat wisata kesulitan untuk mendapatkan tanggapan atas tempat

wisata.

3.3.1.1 Identifikasi Masalah

Berdasarkan survey yang dilakukan dengan cara wawancara kepada wisatawan ada

masalah yang diperoleh yaitu :

a. Adanya kesulitan untuk memahami isi dari review tempat wisata pada

TripAdvisor.

b. Kesulitan untuk mendapatkan tanggapan atas tempat wisata bagi para pengelola

tempat wisata.

c. Belum adanya suatu program yang dapat memberikan analisis berupa topic dari

review yang diberikan.

Untuk itu perlu dibangun sebuah program yang mampu mengklasifikasikan

berbagai macam review pada tempat wisata sesuai dengan topic dari review

tersebut.

18

3.3.1.2 Motivasi

Motivasi yang mendukung penelitian ini adalah sebagai berikut :

a. Latar belakang permasalahan yang telah disurvey sebelumnya.

b. Penelitian sebelumnya yang berhubungan dengan penelitian sentiment analysis.

c. Teknologi sentiment analysis yang digunakan dalam program.

3.3.2 Menentukan Objek Solusi

Menetapkan obyek dari penelitian yang akan dilakukan sesuai dengan

permasalahan yang terjadi dan mencari solusi bagi permasalahan yang terjadi. Pada

tahap ini dilakukan analisis segala konten yang dibutukan untuk pembuatan

program. Program yang dibuat akan terdiri dari web scraping yang akan melakukan

scraping pada halaman review tempat wisata pada halaman website TripAdvisor

untuk mendapatkan dataset dan program sentiment analysis yang berguna untuk

melakukan klasifikasi berdasarkan dataset yang diberikan dengan menggunkan

algoritma Naive Bayes.

3.3.3 Perancangan & Pengembangan

Pada tahap ini terdiri 2 tahap, yaitu :

1. Perancangan

2. Pengembangan

3.3.3.1 Perancangan

Gambar 3.2 merupakan diagram alir dari sistem yang akan dibuat pada penelitian

ini :

19

Gambar 3.2 Diagram Alir Sistem

Informasi mengenai deskripsi dari diagram alir sistem ada dalam tabel 3.4

20

Tabel 3.4 Tabel Deskripsi Proses Diagram

No. Tahap Input Proses Output

1. Scraping data

review

TripAdvisor

Link menuju ke

halaman review

Pengambilan data

review dengan

program yang

dibuat

menggunakan

framework scrapy

untuk mendapatkan

data review secara

otomatis

Data Review

csv

2. Import Data

to Database

Data Review csv Memasukkan

dataset ke dalam

database agar

mudah dilakukan

pelabelan data.

Data Review

4. Labeling

Data

Data Review Melakukan proses

labelisasi data

berdasarkan

kalimat review dan

rating yang didapat

oleh obyek wisata.

Dataset

5. Preprocessing Dataset Merapikan dataset

agar sistem lebih

mudah dalam

melakukan proses

klasifikasi.

Dataset hasil

preprocessing

6. Splitting

dataset

Dataset hasil

preprocessing

Membagi dataset

menjadi data

training dan data

testing dari data

hasil preprocessing.

Data training

dan data

testing

21

7. Analyzing and

Building

Model

Hasil klasifikasi Mengevaluasi

sistem dengan

menghitung nilai

precision dan recall

Evaluation

Report

8. Evaluation &

Data

Visualization

Hasil klasifikasi Menampilkan data

sesuai dengan

infografik yang

dipilih

Data

Infographic

1. Scraping Data

Proses pengambilan data pada TripAdvisor diambil langsung dari halaman web

TripAdvisor menggunakan aplikasi yang dibuat menggunakan framework

scrapy menggunakan bahasa pemrograman Python. Aplikasi ini memungkinkan

untuk mengambil data-data dari suatu halaman web yang bersifat publik seperti

data review pada website TripAdvisor. Dari satu review hal yang didapat yaitu

user, review dan rating yang diberikan terhadap tempat wisata. Karena

kebutuhan Data yang dihasilkan dari aplikasi ini berekstensi csv.

2. Import Data

Proses import data pada dataset diambil langsung dari dataset yang masih

berbentuk dokumen berformat csv ke dalam database MySQL. Proses ini

dilakukan untuk menyimpan dataset agar tersimpan ke dalam suatu database

yang dapat digunakan berkali – kali oleh model dalam melakukan analisis.

22

3. Labeling Data

Proses labeling data pada berguna untuk memberikan label atau kelas kepada

masing – masing kalimat review yang terdapat di setiap obyek wisata. Dalam

memberikan label atau kelas dilihat dari kalimat review yang diberikan oleh tiap

– tiap user yang terdaftar dalam TripAdvisor dan review yang diberikan oleh

user tersebut.

4. Preprocessing

Preprocessing diperlukan untuk mendapatkan hasil analisis yang lebih akurat

dalam pemakaian teknik data mining. Tahapan yang dilakukan pada proses ini

yaitu [15]:

a) Data Cleaning

Tahap ini digunakan untuk menghilangkan data komentar dari tanda baca atau

karakter seperti titik( . ), koma( , ), @, #, $, %, dan lain - lain serta menghapus

kalimat dan atau kata yang berulang. Contoh dari proses ini dapat dilihat di

tabel 3.5

Tabel 3.5 Proses Data Cleaning

No. Input Output

1. Pantai ini tidak sesuai dengan

namanya karna air di pantai ini

kotor dan banyak sampah di

pantai nya. sebenarnya kalau

pantai nya di rawat dengan baik,

Pantai ini tidak sesuai dengan

namanya karna air di pantai ini

kotor dan banyak sampah di pantai

nya sebenarnya kalau pantai nya di

rawat dengan baik pasti akan

23

pasti akan banyak pengunjung

yang tertarik kesini.

banyak pengunjung yang tertarik

kesini

2. Overall suka banget kesini. HTM

10 ribu. Banyak pepohonan,

rindang banget. Tempatnya

bersih & terawat.Kupu-kupu nya

banyak, bagus2, warna warni,

besar2 :D Fasilitasnya lengkap,

mushola ada, cafe mini juga ada.

Overall suka banget kesini HTM

10 ribu Banyak pepohonan

rindang banget Tempatnya bersih

terawat Kupu-kupu nya banyak

bagus warna warni besar

Fasilitasnya lengkap mushola ada

cafe mini juga ada

3. Gapura penanda masuk ke area

bandar lampung, cocok buat foto

dokumentasi sebagai tanda

pernah menginjakkan kaki di

kota bandar lampung.

Gapura penanda masuk ke area

bandar lampung cocok buat foto

dokumentasi sebagai tanda pernah

menginjakkan kaki di kota bandar

lampung

b) Case Folding

Proses ini yang digunakan untuk mengubah setiap huruf pada komentar

menjadi huruf kecil (lower case). Contoh dari proses ini dapat dilihat di tabel

3.6

Tabel 3.6 Proses Case Folding

No. Input Output

1. Pantai ini tidak sesuai dengan

namanya karna air di pantai ini

pantai ini tidak sesuai dengan

namanya karna air di pantai ini

24

kotor dan banyak sampah di

pantai nya sebenarnya kalau

pantai nya di rawat dengan baik

pasti akan banyak pengunjung

yang tertarik kesini

kotor dan banyak sampah di pantai

nya sebenarnya kalau pantai nya di

rawat dengan baik pasti akan

banyak pengunjung yang tertarik

kesini

2. Overall suka banget kesini HTM

10 ribu Banyak pepohonan

rindang banget Tempatnya bersih

terawat Kupu-kupu nya banyak

bagus warna warni besar

Fasilitasnya lengkap mushola

ada cafe mini juga ada

overall suka banget kesini htm 10

ribu banyak pepohonan rindang

banget tempatnya bersih terawat

kupu-kupu nya banyak bagus

warna warni besar fasilitasnya

lengkap mushola ada cafe mini

juga ada

3. Gapura penanda masuk ke area

bandar lampung cocok buat foto

dokumentasi sebagai tanda

pernah menginjakkan kaki di

kota bandar lampung

gapura penanda masuk ke area

bandar lampung cocok buat foto

dokumentasi sebagai tanda pernah

menginjakkan kaki di kota bandar

lampung

c) Stopword Removal

Tahap ini digunakan untuk menghapus kata yang sering muncul yang tidak

memiliki makna dan tidak memiliki pengaruh yang signifikan terhadap

klasifikasi [18]. Contoh dari proses ini dapat dilihat di tabel 3.7

25

Tabel 3.7 Proses Stopword Removal

No. Input Output

1. pantai ini tidak sesuai dengan

namanya karna air di pantai ini

kotor dan banyak sampah di

pantai nya sebenarnya kalau

pantai nya di rawat dengan baik

pasti akan banyak pengunjung

yang tertarik kesini

pantai tidak sesuai dengan

namanya pantai kotor sampah

pantai rawat baik pengunjung

tertarik kesini

2. pantai ini tidak sesuai dengan

namanya karna air di pantai ini

kotor dan banyak sampah di

pantai nya sebenarnya kalau

pantai nya di rawat dengan baik

pasti akan banyak pengunjung

yang tertarik kesini

overall suka kesini htm 10 ribu

pepohonan rindang tempat bersih

terawat kupu-kupu bagus warna

warni besar fasilitasn lengkap

mushola cafe mini

3. overall suka banget kesini htm 10

ribu banyak pepohonan rindang

banget tempatnya bersih terawat

kupu-kupu nya banyak bagus

warna warni besar fasilitasnya

lengkap mushola ada cafe mini

juga ada

gapura penanda masuk area bandar

lampung cocok foto dokumentasi

tanda menginjakkan kaki kota

bandar lampung

26

d) Tokenization

Tahap ini akan dilakukan untuk memecah data review menjadi beberapa

bagian. Data review berupa sebuah list yang memiliki elemen – elemen di

dalamnya, tahap ini bertujuan untuk menjadikan elemen – elemen kata satu

persatu di dalam data review. Contoh dari proses ini dapat dilihat di tabel 3.8.

Tabel 3.8 Proses Tokenization

No. Input Output

1. pantai tidak sesuai dengan

namanya pantai kotor sampah

pantai rawat baik pengunjung

tertarik kesini

1( pantai, tidak, sesuai, dengan,

namanya, air, pantai, kotor,

sampah, pantai, rawat, baik,

pengunjung, tertarik, kesini )

2. overall suka kesini htm 10 ribu

pepohonan rindang tempat

bersih terawat kupu-kupu bagus

warna warni besar fasilitasn

lengkap mushola cafe mini

( overall, suka, kesini, htm, 10

ribu, pepohonan, rindang, tempat,

bersih, terawat, kupu-kupu, bagus,

warna-warni, besar, fasilitas,

lengkap, mushola, cafe mini )

3. gapura penanda masuk area

bandar lampung cocok foto

dokumentasi tanda

menginjakkan kaki

( gapura, penanda, masuk, area,

bandar, lampung, cocok, foto,

dokumentasi, tanda,

menginjakkan, kaki )

27

5. Splitting Dataset

Setelah tahap preprocessing, kemudian dataset akan dibagi menjadi dua bagian

yaitu data training dan data testing. Data training adalah data yang digunakan

untuk membangun classifier, sedangkan data testing adalah data yang digunakan

pada pengujian sistem.

6. Analyzing & Building Model

Tahap ini adalah melakukan klasifikasi menggunakan metode klasifikasi Naïve

Bayes Classifier. Contoh data yang akan diklasifikasikan dapat dilihat pada tabel

3.9.

Tabel 3.9 Tabel Contoh Klasifikasi

No. Review Topic

1. Pantai ini tidak sesuai dengan namanya karna

air di pantai ini kotor dan banyak sampah di

pantai nya. sebenarnya kalau pantai nya di

rawat dengan baik, pasti akan banyak

pengunjung yang tertarik kesini. Lokasi nya

juga mudah di jangkau dan masuknya gak jauh

dari jalan raya. Tapi kalau hanya ingin

merasakan vit sea gak masalah datang kesini

tapi kalau yang benar-benar mau berlibur

sepertinya kurang deh. Saran perbaiki

perawatan nya dan kebersihan nya.

Negatif

28

2. Overall suka banget kesini. HTM 10 ribu.

Banyak pepohonan, rindang banget.

Tempatnya bersih & terawat.Kupu-kupu nya

banyak, bagus2, warna warni, besar2 :D

Fasilitasnya lengkap, mushola ada, cafe mini

juga ada,Ada kaya museum gitu juga.Ada

lumayan banyak spot buat foto-foto.

Positif

3. Gapura penanda masuk ke area bandar

lampung, cocok buat foto dokumentasi sebagai

tanda pernah menginjakkan kaki di kota

bandar lampung.

Netral

7. Evaluation & Data Visualization

Tahap evaluasi adalah tahap untuk memberikan ulasan dari hasil pengujian yang

dilakukan pada program aplikasi. Evaluasi ini penting untuk memberikan

penilaian performa metode Naïve Bayes Classifier yang diimplementasikan pada

program. Penilaian yang dilakukan adalah dengan melihat hasil akurasi dari

setiap skenario pengujian yang dilakukan. Hasil penilaian inilah yang digunakan

sebagai bahan evaluasi pada tugas akhir ini. Tujuan utama dari visualisasi data

adalah untuk mengkomunikasikan informasi secara jelas dan efisien kepada

pengguna lewat grafik informasi yang dipilih, seperti tabel dan grafik.

Visualisasi yang efektif membantu pengguna dalam menganalisa dan penalaran

tentang data dan bukti.

29

3.3.3.2 Pengembangan

Dalam tahap ini dilakukan konfigurasi dan pembangan sebuah sistem yang dapat

melakukan klasifikasi data hasil review TripAdvisor terhadap tempat wisata di

Provinsi Lampung. Pada tahap pengembangan ini sistem akan disesuaikan

berdasarkan rancangan yang telah direvisi dan ditinjau agar sesuai dengan diagram

alir pada tahap perancangan.

3.3.4 Demonstrasi

Pada tahap demonstrasi ini akan dilakukan pengujian sistem, dimana sistem akan

diuji kemampuannya apakah dapat berjalan dengan baik atau tidak. Demonstrasi

juga disesuaikan apakah telah memenuhi semua rancangan yang telah dibuat

sebelumnya atau tidak.

3.3.5 Evaluasi

Tahap evaluasi adalah tahap untuk memberikan ulasan dari hasil pengujian yang

dilakukan pada program aplikasi. Evaluasi ini penting untuk memberikan penilaian

performa dari program yang melakukan web scraping pada review tempat wisata

dan metode Multinomial Naïve Bayes Classifier yang diimplementasikan pada

program.

3.3.6 Pelaporan Hasil Penelitian

Laporan temuan penelitian berdasarkan data dan hasil analisis yang ada dibuat dan

dilaporkan sebagai skripsi pada Universitas Lampung.

30

V. KESIMPULAN DAN SARAN

5.1 Kesimpulan

Berdasarkan hasil yang telah dicapai dalam tugas akhir ini, terdapat beberapa

kesimpulan di antaranya:

1. Aplikasi scraping mampu mengambil data dengan baik dari tripadvisor

sebagai dataset yang digunakan untuk membangun model.

2. Terciptanya model klasifikasi sentiment yang dapat memprediksi data test

dengan baik sesuai dengan rata – rata dari accuracy score berada pada angka

75%.

3. Aplikasi dapat melakukan prediksi untuk label positif dengan baik, sesuai

dengan precission score dan recall score yang berada di atas 80%.

4. Aplikasi tidak dapat melakukan prediksi untuk label netral dan negatif dengan

cukup baik, sesuai dengan precission score dan recall score yang berada di

bawah 70%, dikarenakan dataset tidak memiliki cukup data untuk label netral

dan negatif.

5. Proses aritmatika dibutuhkan saat proses pemodelan data untuk mengubah

kalimat review sesuai dengan algoritma naïve bayes, dibuktikan dengan

penggunaan CPU yang mencapai 100%.

31

5.2 Saran

Berdasarkan dari pengalaman penulis dalam melakukan tugas akhir ini, adapun

beberapa saran untuk pengembangan sistem selanjutnya, di antaranya:

1. Menambah dataset menjadi lebih banyak agar model yang dibangun menjadi

lebih baik.

2. Mendistribusikan dataset sesuai dengan label yang ada sehingga model dapat

belajar masing – masing label secara seimbang.

3. Mencoba algoritma lain dalam melakukan pemodelan data untuk

mendapatkan hasil yang lebih baik.

32

DAFTAR PUSTAKA

[1] Anonymous, “Wisatawan ke Lampung Diprediksi Meningkat Tahun 2018,”

[Online]. Available: http://lampungprov.go.id/berita/wisatawan-ke-

lampung-diprediksi-meningkat-tahun-2018.html. [Diakses 10 Agustus

2018].

[2] TripAdvisor LLC, “About TripAdvisor,” [Online]. Available:

https://tripadvisor.mediaroom.com/us-about-us. [Diakses 17 Agustus 2018].

[3] B. Santosa dan A. Umam, Data Mining dan Big Data Analytics Teori dan

Implementasi Menggunakan Python & Apache Spark, Yogyakarta: Penebar

Media Pustaka, 2018.

[4] W. Budiharto, Machine Learning & Computational Intelligence,

Yogyakarta: Penerbit Andi, 2016.

[5] S. Gupta, “Towards Data Science,” [Online]. Available:

https://towardsdatascience.com/sentiment-analysis-concept-analysis-and-

applications-6c94d6f58c17. [Diakses 17 Agustus 2018].

[6] B. Agarwal, Prominent Feature Extraction for Sentiment Analysis,

Switzerland: Springer International Publishing Switzerland , 2016.

[7] C. Hanretty, Scraping the Web for Arts and Humanity, Norwich: University

of East Anglia, 2013.

33

[8] Python, “What is Python? Executive Summary,” [Online]. Available:

https://www.python.org/doc/essays/blurb/. [Diakses 20 Agustus 2018].

[9] J. Kiusalaas, Numerical Methods in Engineering with Python 3, vol. 3,

Cambridge : Cambridge University Press, 2013, pp. 1-30.

[10] Anonymous, “About us - Scikit-Learn,” [Online]. Available: http://scikit-

learn.org/stable/about.html. [Diakses 30 Agustus 2018].

[11] S. developers, “Scrapy at a glance,” [Online]. Available:

https://doc.scrapy.org/en/latest/intro/overview.html. [Diakses 30 Agustus

2018].

[12] Anonymous, “Developer Survey Results 2017,” [Online]. Available:

https://insights.stackoverflow.com/survey/2017#technology-top-paying-

technologies-by-region. [Diakses 27 Oktober 2018].

[13] O. e. UP, “ Naive Bayes text classification,” 1 April 2009. [Online].

Available: https://nlp.stanford.edu/IR-book/html/htmledition/naive-bayes-

textclassification-1.html . [Diakses 16 Agustus 2018].

[14] K. Peffers, T. Tuunanen, M. A. Rothenberger dan S. Chatterjee, “A Design

Science Research Methodology for Information Systems Research,” Journal

of Management Information Systems, vol. 24, no. 3, pp. 45-78, 2007.

[15] A. R. H. Tito, Implementasi Algoritma Naive Bayes Classifier (NBC) dalam

Mendeteksi Komentar Promosi pada Sosial Media Instagram, Bandung:

Universitas Telkom, 2018.

[16] A. Diandra, Klasifikasi Halaman Web Menggunakan Multinomial Naïve

Bayes Clasifier, Bandung: Universitas Telkom, 2010.

34

[17] A. Go, R. Bayani dan L. Huang, “Twitter Sentiment Classification using

Distant Supervision,” Processing, pp. 1-6, 2009.

[18] har07, “Indonesian stemmer. Python port of PHP Sastrawi project,” Git

Hub, [Online]. Available: https://github.com/har07/PySastrawi. [Diakses 22

September 2018].

[19] K. Macek, “The Pareto Principle in Datamining: an Above-Average Fencing

Algorithm,” Acta Polytechnica, vol. 48, no. 6, 2008.