ALGORITMA NAÏVE BAYES - Universitas Pelita Bangsa
Transcript of ALGORITMA NAÏVE BAYES - Universitas Pelita Bangsa
PENERAPAN KELASIFIKASI KEPUASAN
PELANGGAN GO-JEK MENGGUNAKAN METODE
ALGORITMA NAÏVE BAYES
SKRIPSI
Oleh:
NOFI DEFFIA SARI
311410440
TEKNIK INFORMATIKA
SEKOLAH TINGGI TEKNOLOGI PELITA BANGSA
BEKASI
2018
PENERAPAN KELASIFIKASI KEPUASAN
PELANGGAN GO-JEK MENGGUNAKAN METODE
ALGORITMA NAÏVE BAYES
SKRIPSI
Diajukan Sebagai Salah Satu Syarat Untuk Menyelesaikan
Program Strata Satu (S1) pada Program Studi Teknik Informatika
Oleh:
NOFI DEFFIA SARI
311410440
TEKNIK INFORMATIKA
SEKOLAH TINGGI TEKNOLOGI PELITA BANGSA
BEKASI
2018
i
ii
iii
iv
KATA PENGANTAR
Puji syukur penulis panjatkan ke hadiran Allah SWT. yang telah
melimpahkan segala rahmat dan hidayah-Nya, sehingga tersusunlah Skripsi yang
berjudul ―PENERAPAN KLASIFIKASI KEPUASAN PELANGGAN GO-JEK
MENGGUNAKAN METODE ALGORITMA NAÏVE BAYES‖.
Skripsi tersusun dalam rangka melengkapi salah satu persyaratan dalam
rangka menempuh ujian akhir untuk memperoleh gelar Sarjana Komputer
(S.Kom.) pada Program Studi Teknik Informatika di Sekolah Tinggi Teknologi
Pelita Bangsa.
Dalam penyusunan Skripsi ini, penulis menyadari sepenuhnya bahwa
selesainya Skripsi ini tidak terlepas dari dukungan, semangat, serta bimbingan dari
berbagai pihak, baik bersifat moril maupun materil, oleh karenanya, penulis ingin
menyampaikan ucapan terima kasih yang sebesar-besarnya kepada :
a. Bapak Dr. Ir. Suprianto, M.P selaku Ketua STT Pelita Bangsa
b. Bapak Aswan Supriyadi Sunge, S.Kom.,M.Kom selaku Ketua Program Studi
Teknik Informatika STT Pelita Bangsa.
c. Bapak Muhtajudin Dani, S.Kom.,M.Kom selaku Pembimbing Utama yang
telah banyak memberikan arahan dan bimbingan kepada penulis dalam
penyusunan Skripsi ini.
d. Bapak Hamzah M Mardi Putra, S.K.M, MM. selaku Pembimbing Dua yang
juga banyak memberikan arahan dan bimbingan kepada penulis dalam
penyusunan Skripsi ini.
e. Seluruh Dosen STT Pelita Bangsa yang telah membekali penulis dengan
wawasan dan ilmu di bidang teknik informatika.
v
f. Seluruh staf STT Pelita Bangsa yang telah memberikan pelayanan terbaiknya
kepada penulis selama perjalanan studi jenjang Strata 1.
g. Rekan-rekan mahasiswa STT Pelita Bangsa, khususnya angkatan 2014, yang
telah banyak memberikan inspirasi dan semangat kepada penulis untuk dapat
menyelesaikan studi jenjang Strata 1.
h. Ibu dan Ayah tercinta yang senantiasa mendo’akan dan memberikan semangat
dalam perjalanan studi Strata 1 maupun dalam kehidupan penulis.
Akhir kata, penulis mohon maaf atas kekeliruan dan kesalahan yang
terdapat dalam Skripsi ini dan berharap semoga Skripsi ini dapat memberikan
manfaat bagi khasanah pengetahuan Teknologi Informasi di lingkungan STT
Pelita Bangsa khususnya dan Indonesia pada umumnya.
Bekasi,16 November 2018
Nofi Deffia Sari
vi
DAFTAR ISI
PERSETUJUAN .................................................... Error! Bookmark not defined.
PENGESAHAN .................................................... Error! Bookmark not defined.i
PERNYATAAN KEASLIAN PENELITIAN .... Error! Bookmark not defined.ii
KATA PENGANTAR ......................................................................................... ivv
DAFTAR ISI ........................................................................................................... v
DAFTAR TABEL .................................................................................................. ix
DAFTAR GAMBAR .............................................................................................. x
ABSTRACT ........................................................................................................... xi
ABSTAKSI ........................................................................................................... xii
BAB I PENDAHULUAN ....................................................................................... 1
1.1 Latar Belakang.......................................................................................... 1
1.2 Identifikasi Masalah ................................................................................. 3
1.3 Rumusan Masalah .................................................................................... 3
1.4 Batasan Masalah ....................................................................................... 4
1.5 Tujuan dan Manfaat .................................................................................. 4
1.6 Sistematika Penulisan ............................................................................... 5
BAB II TINJAUAN PUSTAKA ............................................................................. 6
2.1 Kajian Pustaka .......................................................................................... 6
2.2 Dasar Teori ............................................................................................... 8
vii
2.2.1 Data Mining ...................................................................................... 8
2.2.2 Proses Tahapan Data Mining. ........................................................... 9
2.2.3 Fungsi Data Mining........................................................................ .10
2.2.4 Perkembangan Data Mining……………………………………….11
2.2.5 Model Data Mining………………………………………………...14
2.2.6 Pengertian Pelanggan………………………………………………16
2.2.7 Pengertian Kepuasan Pelanggan…………………………………...16
2.3 Kerangka Berfikir ............................................................................. 17
BAB III METODE PENELITIAN........................................................................ 19
3.1 Tahapan Penelitian ........................................................................... 19
3.2 Metodologi Data mining ................................................................... 20
3.2.1 Pemahaman Bisnis…………………………………………..……..20
3.2.1.1 Objek Penelitian…………………………..………………………..20
3.3 Pemahaman Data……………………………………………..…….22
3.3.1 Jenis Data Dan Sumber Data………………………………………..24
3.4 Persiapan Data………………………………………………...….…24
3.4.1 Permodelan…………………………………………………...…….25
3.4.2 Evaluasi…………………………………………………………….25
3.5 Metode Analisa Data……………………………………………….26
BAB VI HASIL DAN PEMBAHASAN………………………………………..31
viii
4.1 Penentuan Kriteria........................................................................... 31
4.2 Perhitungan Nive Bayes .................................................................. 31
4.2.1 Perhitungan Probabilitas Prior…………………………………….31
4.2.2 Perhitungan Probabilitas Posterior X Bersyarat C (P(X|Ci)……....32
4.3 Perhitungan Manual………………………………………………..33
4.3.1 Pendefinisan Variabel……………………………………………...34
4.3.2 Pendefinisian Probabilitas prior P (Ci)……………………….........34
4.4 Implementasi Klasifikasi Nive Bayes Pada Rapid Miner…………35
4.4.1 Proses Select Autribut……………………………………………..35
4.4.2 Akurasi Prediksi…………………………………………………...37
4.4.3 Kurva ROC/ AVC (area under curve)……………………………..38
BAB V KESIMPULAN ........................................................................................ 41
5.1 Kesimpulan ........................................................................................ 41
5.2 Saran .................................................................................................. 41
DAFTAR PUSTAKA ........................................................................................... 42
LAMPIRAN .......................................................................................................... 44
ix
DAFTAR TABEL
Tabel 2.1 Kerangka Pikiran................................................................................... 18
Tabel 3.1 Variabel dan KategoriAplikasi Go-Jek ................................................. 24
Tabel 3.2 Perhitungan Akurasi .............................................................................. 25
Tabel 3.3 Perangkat Lunak ................................................................................... 29
Tabel 3.4 Perangkat Keras .................................................................................... 30
Tabel 4.1 Keriteria Yang Digunakan .................................................................... 31
Tabel 4.2 Probabilitas Prior................................................................................... 32
Tabel 4.3 Probabilitas Aplikasi ............................................................................. 32
Tabel 4.4 Probabilitas Ketepatan Waktu ............................................................... 32
Tabel 4.5 Probabilitas Kenyamanan ..................................................................... 33
Tabel 4.6 Probabilitas Keramahan ........................................................................ 33
Tabel 4.7 Data Uji ................................................................................................. 33
x
DAFTAR GAMBAR
Gambar 2.1 Tahapan Knowledge Discovery in Database (KDD) ........................ 10
Gambar 2.2 Proses Data Mining Menurut CRISP-DM ........................................ 11
Gambar 3.1 Tahapan Penelitian ............................................................................ 19
Gambar 3.2 Struktur Organisasi Perusahaan Go-Jek ............................................ 20
Gambar 4.1 Proses Select Attribute ....................................................................... 36
Gambar 4.2 Hasil Prediksi RapidMiner ................................................................ 36
Gambar 4.3 Proses Accurasy Prediksi .................................................................. 37
Gambar 4.4 Hasil Accurasy Data Testing ............................................................. 38
Gambar 4.5 Kurva ROC ........................................................................................ 39
xi
ABSTRACT
Customer satisfaction is a condition in which expectations, requests, and customer
needs are met. This could increase its business, because it can give a positive
impact in the form of menigkatka profit and positive praise for the services
provided. At this point the more increased consciousness of customers GO — IEK
will need quality of service provided by the driver. The customer will compare the
expected service with the service received, the purpose of this research was to
classify the customer satisfaction GO-JEK by applying techniques of data mining
bermetode naïve bayes algorithm. Naïve bayes methods applied in this study to
calculate the largest independent variable on the probability. As an application,
punctuality, comfort in driving, friendliness and price. This classification are
satisfied and whether customers GO-JEK, research results is a system that can
help the community to evaluate against GO-JEK
Keyworad: Data Mining, Customers Satisfaction, Naïve Bayes, Klasifikation
xii
ABSTRAK
Kepuasan pelanggan adalah suatu kondisi dimana harapan, permintaan, dan
keperluan pelanggan terpenuhi. Hal ini dapat meningkatkan bisnisnya, karena
dapat memberi dampak positif berupa menigkatka profit dan pujian positif untuk
layanan yang diberikan. Pada saat ini makin meningkat kesadaran pelanggan GO-
JEK akan perlu kualitas pelayanan yang diberikan oleh driver. Pelanggan akan
membandingkan pelayanan yang diharapkan dengan pelayanan yang diterima,
tujuan penelitian ini untuk mengklasifikasi kepuasan pelanggan GO-JEK dengan
menerapkan teknik data mining bermetode algoritma naïve bayes. Metode naïve
bayes yang diterapkan dalam penelitian ini untuk menghitung probabilitas terbesar
pada variable independent yang telah ditentukan. Seperti aplikasi, ketepatan
waktu, kenyamanan dalam berkendara, keramahan dan harga. Klasifikasi ini
adalah puas dan tidaknya pelanggan GO-JEK, hasil penelitian ini adalah sebuah
sistem yang dapat membantu masyarakat untuk mengevaluasi terhadap pelayanan
GO-JEK, sehingga dapat menjadi pertimbangan bagi pihak GO-JEK untuk
meningkatkan pelayanan pada pelanggan.
Kata kunci: Data Maining, Kepuasan Pelanggan, Naïve Bayes, Klasifikasi
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Perkembangan teknologi informasi pada zaman ini sangat pesat, teknologi
transportasi tak kalah berkembang pesat. Seperti banyak jasa transportasi
online di Indonesia, salah satunya Go-Jek. Go-Jek semakin popular dan telah
menjadi transportasi umum yang banyak diminati karena praktis dan cepat.
Pada saat ini semakin meningkat kesadaran pelanggan Go-Jek akan perlunya
nilai kualitas pelayanan yang diberikan oleh driver. Tingkat kepuasan
pelanggan sendiri dapat dipengaruhi oleh kualitas pelayanan yang diberikan
oleh perusahaan kepada pelanggan (Santoso, 2014)
Pengertian kepuasan pelanggan sendiri adalah suatu keadaan dimana
harapan,keinginan, dan kebutuhan konsumen dipenuhi. Setiap pelanggan akan
membadingkan antara servis yang diharapkan dengan servis yang diterima.
Kepuasan pelanggan sangat penting bagi perusahaan untuk meningkatkan
profit dan pujian positif untuk layanan yang diberikan. Oleh karena itu,
dengan mengetahui loyalitas pelanggan perusahaan dapat mengidentifikasi
pelanggan setiadan pelanggan yang akan berpaling ke perusahaan lain (Wijaya
& Girsang, 2016). Loyalitas pelanggan dapat membantu perusahaan untuk
membuat perencanaan ditahun mendatang untuk menangani penurunan
pelanggan (Moedjiono, Isak, & Kusdaryono, 2016). Sedangkan pendapat
pelanggan terkadang tidak sesuai dengan sekala penilaian dari perusahaan
(Sipayung, Maharani & Zafanya, 2016). Media social menjadi salah satu
2
sarana untuk membahas isu dan mengungkapkan pendapat pelanggan
(susilawati, 2016).
Penelitian terdahulu telah memberikan gambaran mengenai solusi yang
dapat dilakukan untuk permasalahan yang sejenisnya. (Soepardi & Permata,
2015) Mengatakan dalam penelitiannya terkait dengan penilaian kepuasan
masyarakat terhadap kinerja pemerintah, bahwa penilaian kepuasan
masyarakat dalam melakukan analisa sentiment yang diutarakan melalui
media social. Metode data mining naïve bayes yang diterapkan dalam
penelitian ini untuk mengkalsifikasikan sentiment positif dan negativ.
Pada saat ini perusahaan Go-Jek dalam mengetahui kepuasaan
pelangganya hanya melalui halaman komentar pada akun Go-jek di sosil
media. Sehingga peneliti melakukan teknik mining untuk mengatasi masalah
tersebut yaitu berupa system evaluasi kepuasan pelanggan yang dapat
membantu perusahaan Go-Jek dalam menganalisa review kepuasan
pelanggan.
Metode yang digunakan adalah metode Nive Bayes yang merupaka
metode yang paling sederhana dari pengkalsifikasi probabilitas, memiliki
tingkat akurasi yang sangat tinggi ketika di aplikasikan pada database dengan
bigdata (Wati, 2016). Menurut (Liu, 2016) membandingkan dengan metode
kalasifikasi yang lain, tingkat kesalahan yang minimum dimiliki Naïve Bayes
ini.model Naïve Bayes memprediksi probalitas pada masa depan berdasarkan
hasil perhitungan yang sudah dilakukan dimasa lalu.
Penelitian ini bertujuan untuk membangun sebuah sstem
mengkalsifikasikan kepuasan dari pelayanan yang diberikan Driver Go-Jek
3
kepada pelanggan dengan menggunakan metode Naïve Bayes, serta
mengetahui beberapa besar tingkat akurasi dalam membuat kalsifikasi
kepuasan pelanggandalam menggunakan jasa Go-Jek. Sehingga dapat
membantudalam meningkatkan kualitas pelayanan Go-Jek dan mendapatkan
hasil bisaatau tidaknya Go-Jek menjadi jasa antar jemput yang terpecaya.
menimbang dari latar belakang masalah diatas maka penulisan mengambil
penelitian skripsi ini dengan judul
“Penerapan Klasifikasi Kepuasaan Pelanggan GO-JEK menggunakan
metode algoritma Naïve Bayes”
1.2 Identifikasi Masalah
Pada tahapan ini dilakukan pengidentifikasian permasalhan yang muncul pada
pelanggan Go-Jek tentang pelayanan dari Driver Go-Jek. Dalam melakukan
pengidentifikasian permasalahan tersebut diperlukan informasi untuk membangun
sebuah sistem evaluasi kepuasan pelanggan, yang didapat dari komentar
pelanggan di aplikasi Go-Jek di playstore. Data yang diperlukan sebagai bahan
pertimbangan penentuan kepuasan pelanggan adalah aplikasi,ketepatan waktu,
dan kenyamanan berkendara, keramahan, dan harga.
1.3 Perumusan Masalah
Berdasarkan indetifikasi masalah, maka dirumuskan permasalahan,
1. Bagaimana memuaskan pelanggan pada perusahaan dengan kriteria dan
proses yang sesuai?
2. Bagaimana memanfaatkan penggalian data untuk menghasilkan kepuasan
pada pelanggan dengan tingkat keakuratan yang tinggi.
4
3. Bagaimana melihat hasil tingkat kinerja karyawan pada dliverry
perusahaan.
1.4 Batasan Masalah
Berdasarkan Rumusan Masalah diatas maka dibatasi permasalahan dalam
penelitian, yaitu
1. Data yang digunakan di ambil dari data perusahaan go-jek yang sudah
tersedia.
2. Meningkatkan akurasi pada prediksi kepuasan pelanggan menggunakan
metode algoritma Naïve Bayes.
3. Kriteia yang digunakan terdiri dari kepuasaan jasa perusahaan go-jek pada
pelanggan.
1.5 Tujuan Dan Manfaat
Tujuan yang hendak dicapai dalam penelitian ini adalah :
1. mempermudah perusahaan dalam hal menilai kinerja kerja karyawan saat
mengantarkan pelanggan
2. mengetahui hasil prediksi dengan melihat akurasi Naïve Bayes agar
karyawan bisa memenuhi kepuasan pelanggan pada saat memakai jasa.
3. peneliti ini dapat dijadikan referensi atau perbandingan bagi peneliti lain
yang berkaitan dengan pengambilan keputusan / kepuasan.
Manfaat dari penelitian ini antara lain :
1. praktisi diharapkan dapat digunakan sebagai masukan suatu bentuk akurasi
yang berpotensi menguasai atau tidak sehingga memudahkan pihak
PERUSAHAAN dalam menentukan kebijakan untuk meningkatkan
kepuasan pelanggan pada saat pengiriman.
5
2. Teoritis diharapkan dapat memberikan kontribusi bagi penelitian yang
berkaitan dengan metode klasifikasi algoritma Nive Bayes khusunya
dalam delivery.
1.6 Sistematika Penulisan
Sistem penulisan penelitian ini disusun untuk memberikan gambaran umum
tentang penelitian yang dijalankan. Sistematika penulisan penelitian ini adalah
sebagai berikut :
BAB I PENDAHULUAN
Bab ini menguraikan tentang latar belakang permasalahan, identifikasi masalah,
rumusan masalah, batasan masalah yang dihadapi, menentukan tujuan serta
manfaat dari masalah yang diteliti, dan sistematika penulisan.
BAB II LANDASAN TEORI
Bab ini membahas berbagai konsep dasar dan teori-teori yang berkaitan dengan
topik masalah yang diteliti.
BAB III METODOLOGI PENELITIAN
Bab ini menjelaskan tentang metode penelitian dari pengumpulan data eksperimen
dengan menguji data yang ada dengan menggunakan algoritma Naive Bayes yang
menentukan status kesejahteraan rumah tangga.
BAB IV HASIL DAN PEMBAHASAN
Bab ini menjelaskan dan menampilkan hasil analisa dengan menggunakan
algoritma Naive Bayes.
BAB V PENUTUP
Bab ini meliputi uraian mengenai kesimpulan dan koreksi berserta saran-saran
untuk peneliti melakukan penelitian berikutnya.
6
BAB II
TINJAUAN PUSTAKA
2.1 Kajian Pustaka
Dibawah ini adalah beberapa penelitian tentang data mining ataupun
mendekati penelitian yang digunakan sebagai bahan referensi:
1. Analisis Algoritma Naїve Bayes Untuk Sistem Klasifikasi Status Kepuasan
Pelanggan Go-Jek (Soepriadi, A, Permata, M. 2016).
Tujuan dari penelitian ini untuk menerapkan metode dari algoritma Naive
Bayes dalam klasifikasi status kepuasan pelanggan pada antar / jemput
menggunakan aplikasi Go-Jek.
Analisis proses klasifikasi status kepuasan pelanggan menggunakan variabel
target/kelas yang sesuai dengan kategori antar / jemput pada aplikasi Go-Jek
berdasarkan aspek non-monetary.
Dari hasil penelitian yang dilakukan bahwa model yang terbentuk dengan
menggunakan algoritma Naive Bayes menghasilkan akurasi yang cukup baik yaitu
sebesar 85.80 %. Berdasarkan kehandalan dalam klasifikasi berupa nilai AUC yang
didapat dari algoritma Naive Bayes adalah 0.930 sehingga tergolong sebagai
Excellent Classification sehingga dapat disimpulkan algoritma Naive Bayes dapat
diterapkan untuk melakukan klasifikasi status kepuasan pelanggan.
2. Pengembangan Sistem Identifikasi pelanggan go-jek Naive Bayes Dalam
kepuasan pelanggan (I Wayan Supriana, dkk. 2018).
7
Dalam penelitian ini dilakukan penerapan pemanfaatan kemajuan teknologi
informasi untuk mengidentifikasi sebuah klasifikasi, sistem yang dibangun akan
menentukan tingkat keakurasian berdasarkan indikator tingkat kepuasan
pelanggan.
Metode identifikasi untuk mengetahui tingkat kepuasan pelanggan dengan
menggunakan analisis Bayesian yaitu Naive Bayes Classifier.
Hasil yang diperoleh berdasarkan analisis dan implementasi bahwa sistem
yang dibangun mampu mengidentifikasi tingkat kepuasan pelanggan sebesar
75% berdasarkan data uji yang digunakan, hal ini akan memudahkan program-
program penanggulangan kepuasan dapat disalurkan tepat sasaran sesuai servis
deliveri.
3. Penerapan Metode Naive Bayes Dalam Klasifikasi Kesalahan Driver (Liu,
dkk. 2016).
Penerapan data mining dalam menentukan klasifikasi kesalahan driver ini
dapat digunakan untuk memprediksi iya atau tidaknya sebuah kepuasan dengan
menggunakan algoritma Naive Bayes.
Metode pengumpulan data yang dilakukan pada penelitian ini berupa
wawancara dengan kepala bagian / driver dari perusahaan Go-Jek tersendiri,
kemudian melakukan pengumpulan data berdasarkan data dari kantor atau
karyawan Go-Jek. Peneliti mengambil data latih sebanyak 60 data dan sebuah
data uji, dengan menggunakan 6 kriteria yaitu Status Driver, Jumlah
Tanggungan, Jumlah Karyawan, Kondisi Kendaraan, Jumlah Penghasilan, dan
Status Pemilik Kendaraan.
8
Hasil penilitian ini diharapkan dapat membantu pelanggan agar menentukan
iya atau tidaknya dalam kepuasan driver..
Dari semua penelitian dan metode diatas terbukti penggunaan metode Naive
Bayes memiliki banyak kelebihan didalam hal prediksi dengan tingkat akurasi
yang baik, oleh karena itu metode Naive Bayes dipilih untuk digunakan dalam
penelitian ini.
2.2 Dasar Teori
2.2.1 Data Mining
Data mining adalah serangkaian proses untuk menggali nilai tambah berupa
informasi yang selama ini tidak diketahui secara manual dari suatu basis data.
Data mining terutama digunakan untuk mencari pengetahuan yang terdapat dalam
basis data yang besar sehingga sering disebut Knowledge Discovery Database
(KDD) (Vulandari, 2017).
Data mining merupakan proses penemuan pola-pola baru dari kumpulan-
kumpulan data sangat besar, meliputi metode-metode yang merupakan irisan dari
intelligence, mechine learning, statistics,dan database system (Suyanto, 2017).
Menurut Patil T.R & Sherekar S.S, (2013), data mining adalah teknologi
yang powerfull dengan kemampuan penemuan usefull knowledge, yang semuanya
diperoleh dari sumber data yang besar dan cukup komplek untuk diketahui.
Berdasarkan beberapa pengertian tersebut dapat ditarik kesimpulan bahwa
data mining adalah suatu teknik untuk menggali informasi yang tersimpan
disebuat gudang data (database) yang sangat besar sehingga ditemuka pola-pola
baru atau pengetahuan baru yang sebelumnya tidak diketahui.
9
2.2.2 Proses Tahapan Data Mining
Data mining merupakan salah satu dari rangkaian Knowledge Discovery in
Database (KDD). KDD berhubungan dengan teknik integrasi dan penemuan
ilmiah, interpretasi dan visualisasi dari pola-pola sejumlah data. Serangkaian
proses tersebut memiliki tahap sebagai berikut (vulandari 2017):
1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise).
2. Integrasi data (penggabungan data dari beberapa sumber).
3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining).
4. Aplikasi teknik data mining, proses ekstraksi pola dari data yang ada.
5. Evaluasi pola yang ditentukan (proses interpretasi pola menjadi pengetahuan
yang dapat digunakan untuk mendukung pengambilan keputusan).
6. Presentasi pengetahuan (dengan teknik visualisasi).
Tahap ini merupakan bagian dari proses pencarian pengetahuan yang
mencakup pemeriksaan apakah pola atau informasi yang ditemukan
bertentangan dengan fakta atau hipotesa yang ada sebelumnya. Langkah
terakhir KDD adalah mempresentasikan pengetahuan dalam bentuk yang
mudah dipahami pengguna.
10
Gambar 2.1 Tahapan Knowledge Discovery in Database (KDD)
Sumber : (Vulandari,2017)
2.2.3 Fungsi Data Mining
Menurut Haskett dalam (Vulandari, 2017) fungsi-fungsi yang umum
diterapkan dalam data mining yaitu :
1. Assosiation, adalah proses untuk menemukan aturan aturan asosiasi antara
suatu kombinasi item dalam suatu waktu.
2. Sequence, proses untuk menemukan aturan asosiasi antara suatu kombinasi
item dalam suatu waktu dan diterapkan lebih dari satu periode.
3. Clustering, adalah proses pengelompokan sejumlah data/obyek ke dalam
kelompok data sehingga setiap kelompok berisi data yang mirip.
4. Classification, proses penemuan model atau fungsi yang menjelaskan atau
membedakan konsep atau kelas data, dengan tujuan untuk dapat
memperkirakan kelas dari suatu objek yang labelnya tidak diketahui.
11
5. Regression, adalah proses pemetaan data dalam suatu nilai prediksi.
6. Forecasting, adalah proses pengestimasian nilai prediksi berdasarkan pola-pola
di dalam sekumpulan data.
7. Solution, adalah proses penemuan akar masalah dan problem solving dari
persoalan bisnis yang dihadapkan atau paling tidak sebagai informasi dalam
pengambilan keputusan.
2.2.4 Perkembangan Data Mining
Gambar 2.2 Proses Data Mining menurut CRISP-DM
Sumber : Larose dalam buku ―Algoritma Data Mining‖.
Fase Pemahaman
Bisnis
Fase Pemahaman
Data
Fase Penyebaran Fase Pengelolahan
Fase Evaluasi Fase Pemodelan
12
Enam fase CRISP-DM :
1. Fase Pemahaman Bisnis (Business Understanding Phase)
a) Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup
bisnis atau unit penelitian secara keseluruhan.
b) Menerjemahkan tujuan dan batasan menjadi formula dari permasalahan
data mining.
c) Menyiapkan strategi awal untuk mencapai tujuan.
2. Fase Pemahaman Data (Data Understanding Phase)
a) Mengumpulkan data.
b) Menggunakan analisis penyelidikan data untuk mengenali lanjut data
dan pencarian pengetahuan awal.
c) Mengevaluasi kualitas data.
d) Jika diinginkan, pilih sebagian kecil grup data yang mungkin
mengundang pola dari permasalahan.
3. Fase Pengolahan Data (Data Preparation Phase)
a) Siapkan dari data awal, kumpulkan data yang akan digunakan untuk
keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat yang
perlu dilaksanakan secara intensif.
b) Pilih kasus dan variable yang ingin dianalisis dan yang sesuai analisis
yang akan dilakukan.
c) Lakukan perubahan pada beberapa variable jika dibutuhkan.
d) Siapkan data awal sehingga siap untuk perangkat pemodelan.
4. Fase Pemodelan (Modelling Phase)
a) Pilih dan aplikasikan teknik pemodelan yang sesuai.
13
b) Kalibrasi aturan model untuk mengoptimalkan hasil.
c) Perlu diperhatikan bahwa beberapa teknik mungkin untuk digunakan
pada permasalahan data mining yang sama.
d) Jika diperlukan, proses dapat kembali ke fase pengolahan data untuk
menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi
kebutuhan teknik data mining tertentu.
5. Fase Evaluasi (Evaluation Phase)
a) Mengevaluasi satu atau lebih model yang digunaka dalam fase
pemodelan untuk mendapatkan kualitas dan efektifitas sebelum
disebarkan untuk digunakan.
b) Menetapkan apakah terdapat model yang memenuhi tujuan pada fase
awal.
c) Menentukan apakah terdapat permasalahan penting dari bisnis atau
penelitian yang tidak tertangani dengan baik.
d) Mengambil keputusan berkaitan dengan penggunaan hasil dari data
mining.
6. Fase Penyebaran (Deployment Phase)
a) Menggunakan model yang dihasilkan. Terbentuknya model tidak
menandakan telah terselesaikannya proyek.
b) Contoh sederhana penyebaran : Pembuatan laporan.
c) Contoh kompleks penyebaran : Penerapan proses data mining secara
paralel pada departemen lain.
14
2.2.5 Model Data Mining
Ada berbagai model dalam data mining atau sering disebut teknik data
mining, secara umum model data mining dibagi dalam tiga kelompok berdasarkan
pada tugas atau fungsi yang terdiri dari classification, clustering, association.
Dalam penelitian ini penulis meggunakan model data mining klasifikasi.
A. Klasifikasi
Klasifikasi adalah teknik pengolahan data yang membagi objek menjadi
beberapa kelas sesuai dengan jumlah kelas yang diinginkan (Arifin & Fitrianah,
2018). Klasifikasi merupakan proses untuk menemukan fungsi dan model yang
dapat membedakan atau menjelaskan konsep atau kelas data dengan tujuan
memperkirakan kelas yang tidak diketahui dari suatu objek. Dalam proses
pengklasifikasian biasa terdapat dua proses yang harus dilakukan, yaitu (Nugroho
& Subanar, 2013) :
a) Proses training
Pada proses ini akan digunakan data training set atau data sampel yang telah
diketahui label–label atau atribut dari data sampel tersebut untuk membangun
model.
b) Proses testing
Untuk mengetahui keakuratan model atau fungsi yang akan dibangun pada
proses training, maka digunakan data yang disebut dengan data testing set
untuk memprediksi label-labelnya.
A.K. Usyal dan S. Gunal, (2014) klasifikasi merupakan suatu pekerjaan
menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah
kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan utama yang dilakukan,
15
yaitu : pertama, pembangunan model sebagai prototype untuk disimpan sebagai
memori dan kedua, penggunaan model tersebut untuk melakukan
pengenalan/klasifikasi/prediksi pada suatu objek data lain agar diketahui dikelas
mana objek data tersebut dalam model yang mudah disimpan.
Contoh aplikasi yang sering ditemui adalah pengklasifikasian jenis hewan,
yang mempunyai sejumlah atribut. Dengan atribut tersebut, jika ada hewan baru,
kelas hewannya bisa langsung diketahui. Contoh lain adalah bagaimana
melakukan diag nosis penyakit kulit kanker melanoma, yaitu dengan melakukan
pembangunan model berdasarkan data latih yang ada,kemudian menggunakan
model tersebut untuk mengidentifikasi penyakit pasien baru sehingga diketahui
apakah pasien tersebut menderita kanker atau tidak (C.Meaney, 2015).
B. Naive Bayes Classifier
Menurut Saleh, (2015) Naive Bayes merupakan sebuah pengklasifikasian
probalistik sederhana yang menghitung sekumpulan probabilitas dengan
menjumlahkan frekuensi dan kombinasi nilai dari dataset yang diberikan. Naive
Bayes juga didefinisikan sebagai pengklasifikasian dengan metode probabilitas
dan statistik yang dikemukakan oleh ilmuan inggis Thomas Bayes, yaitu
memprediksi peluang dimasa depan berdasarkan pengalaman di masa sebelumnya
Bayes merupakan teknik prediksi berbasis probabilistik sederhana yang
berdasar pada penerapan teorema Bayes (atau aturan Bayes) dengan asumsi
independensi (ketidaktergantungan) yang kuat (naïf). Dengan kata lain, Naive
Bayes, model yang digunakan adalah ―model fitur independen‖. Dalam Bayes
(terutama Naive Bayes), maksud independensi yang kuat pada fitur adalah bahwa
16
sebuah fitur pada sebuah data tidak berkaitan dengan ada atau tidaknya fitur lain
dalam data yang sama (Prasetyo, Eko. 2012).
Naive Bayes merupakan metode probabilistik yang digunakan secara
sederhana berdasarkan Teorema Bayes dimana pengklasifikasian dilakukan
melalui training set sejumlah data secara efisien (Dahri, dkk, 2016).
2.2.6 Pengertian Pelanggan
Pelanggan merukapakan konsumen berupa pembeli ataupun pengguna jasa
yang melakukan kegiatan pembelian ataupun penggunaan jasa, secara berulang-
ulang dikarenakan kepuasan yang diterimanya dari penjual ataupun penyediaan
jasa. Dalam sebuah bisnis pelanggan sangat dibutuhkan untuk menjamin
keberlangsungan dan juga keuntungan sebuah bisnis. Tanpa pelanggan yang tepat,
maka bisnis yang dijalankan cenderung terombang-ambing dan beresiko.
Pelanggan Dibagi menjadi 2 jenis yaitu :
1. Pelanggan Internal
Merupakan pelanggan yang tidak mengonsumsi suatu barang atau
jasasecara langsung, pelanggan tipe ini membeli barang atau jasa untuk
dijual kembalioleh orang ain.
2. Pelanggan External
Merupakan pelanggan yang secara aktif langsung mengonsumsi barang
ataupun jasa yang yang mereka beli pelanggan jenis ini sering juga disebut
sebagai konsumen akir.
2.2.7 Pengertian Kepuasan Pelanggan
Kepuasaan pelanggan adalah sejauh mana anggapan kinerja karyawan
memenuhi harapan pelanggan. Bila kinerja karyawan lebih rendah ketimbang
17
harapan pelanggan, maka pembelinya merasa puas atau amat gembira jika merasa
puas dengan nilai yang diberikan oleh karyawan (tukang ojek) sangat besar
kemungkinannya menjadi pelanggan dengan waktu yang lama.
Adapun factor-faktor kepuasan pelanggan sebagai berikut :
a. Kualitas pelayanan atau jasa, yaiu pelanggan akan merasa puas apabila
mereka mendapatkan pelayanan yang baik atau sesuai yang mereka
harapan.
b. Kualitas karyawan, yaitu pelanggan akan merasa puas apabila hasil mereka
menunjukan keramahan kepada pelanggan yang akan memakai jasa ojek
online.
c. Harga, yaitu jasa yang mempunyai kualitas yang relative murah akan
memberikan nilai yang lebih.
d. Ketepatan waktu, yaitu dating sesuai pelanggan inginkan dan tidak
membuat kecewa pelanggan.
e. Kondisi Kendaraan, yaitu mempunyai kendaraan yang layak untuk dipakai
dan memiliki kenyaman saat pelanggan menaikinya.
2.3 Kerangka Pemikiran
Dalam menyelesaikan penelitian ini dibutuhkan sebuah kerangka pemikiran
sebagai pedoman yang dilakukan secara konsisten. Kerangka penelitian
ditunjukkan pada tabel 2.1. Pendekatan yang dilakukan adalah dengan melakukan
klasifikasi data rumah tangga menggunakan Naive Bayes. Berikut gambaran
keseluruhan penelitian yang dilakukan.
18
Tabel 2.1 Kerangka Pemikiran
Masalah
Belum diketahui metode yang akurat untuk mengklasifikasi menentukan
Kepuasan pelanggan pada aplikasi Go-Jek
Metode
Metode Klasifikasi Data Mining Naive Bayes
Tool
RapidMiner
Implementasi
Penentuan Status Kepuasan Pelanggan ya atau tidaknya pada aplikasi Go-
Jek
Pengukuran
Confusion Matrix Dan Kurva ROC
Hasil
Metode Naive Bayes Mampu Mengklasifikasi Data Dengan Tepat Dan
Akurat
19
BAB III
METODE PENELITIAN
Metode penelitian merupakan salah satu rangkaian kegiatan ilmiah untuk
mendapatkan data yang valid dengan langkah-langkah yang teratur dan sistematis
(Sugiyono, 2016). Penelitian ini dilakukan untuk menemukan, mengembangkan,
dan membuktikan suatu pengetahuan tertentu sehingga dapat ditarik kesimpulan
berdasarkan faktor- faktor yang mempengaruhi.
3.1 Tahapan Penelitian
Pada penelitian ini data yang digunakan dari data rumah tangga di desa
Pasirsari. Data tersebut akan diolah menggunakan metode klasifikasi dengan
algoritma Naive Bayes.
Pengumpulan Data
Persiapan Data
Metode Analisa
Pengujian dan
Validasi Hasil
Gambar 3.1 Tahapan Penelitian
20
Tahapan pengumpulan data dan tahapan persiapan data berada di dalam
metodologi data mining dan tahap pengujian akan di uraikan pada bab
selanjutnya.
3.2 Metodologi Data Mining
Data mining metodologi yang sudah banyak digunakan dalam pengembangan
data mining yakni CRISP-DM (Cross Industry Standard Process Model for Data
Mining), terdiri dari enam fase yaitu pemahaman bisnis (Bussines
Understanding), pemahaman data (data understanding), persiapan data (data
preparation), pemodelan (modelling), evaluasi (Evaluation), dan penyebaran
(deployment).
3.2.1 Pemahaman Bisnis (Bussines Understanding)
3.2.1.1 Objek Penelitian
Dalam penelitian ini penulis mengambil data Struktur perusahaan Go-Jek
dari salah satu karyawan Go-Jek yang beralamatan di kp.kandang roda Rt.002/004
Kec.Cikarang Selatan Kab.Bekasi.
Adapun struktur Perusahaan Go-Jek sebagai berikut :
Diretur Utama
Wakil Direktur
Manajemen / CO,
Bidang IT
Manajemen / CO, (karyawan
found office) dan pemasaran
Manajemen /CO,
KeuanganManajemen / CO,
Tukang Ojek
Karyawan IT
- Program- WEB
Karyawan Found
- Customer ServiceKaryawan Akuntansi Tukang Ojek
Gambar 3.2 Struktur Organisasi Perusahaan Go-Jek
21
Tugas dan tanggungjawab dari masing-masing jabatan yaitu :
1. Direktur Utama
- Memelihara ketentraman dan ketertiban Karyawan Pada Pelanggan.
- Mengelolakeuangan dan aset Perusahaan.
- Menyelenggarakan administrasi Perusahaan dengan baik.
- Menyelesaikan perselisihan Pelanggan Pada Driver.
2. Wakil Direktur
- Membahas dan menyepakati rencana peraturan Perusahaan Go-Jek.
- Menampung dan menyalurkan aspirasi Karyawan.
- Melakukan pengawasan kinerja Karyawan.
3. Karyawan IT
- Merancang Aplikasi Dengan Desaign Yang Menarik.
- Menyaring Data Dari Pelanggan Yang Sudah Order Melalui Aplikasi.
- Mempersiapkan bahan untuk laporan Agar Bisa Diakses Melalui Aplikasi.
4. Customer Service
- Melaksanakan administrasi kependudukan.
- Mempersiapkan bahan-bahan penyusunan perencanaan peraturan desa dan
keputusan kepala desa.
- Melaksanakan kegiatan administrasi pertanahan.
- Melaksanakan kegiatan pencatatan monografi desa.
22
5. Karyawan Akutansi
- Mengelola administrasi keuangan Perusahaan
- Membuat laporan pertanggungjawaban keuangan.
- Mempersiapkan bahan penyusunan Karyawan.
6. Tukang Ojek
- Menerima Pesana Dari Pelanggan Lewat Aplikasi.
- Menyiapkan atau Menuju Kelokasi Yang Sudah Di Tentukan.
- Mengantar Pelanggan Pada Lokasi Yang Sudah Dipesan Pada Aplikasi
Go-Jek.
3.3 Pemahaman Data (Data Understanding)
3.3.1 Jenis Data dan Sumber Data
Pada penelitian ini menggunakan data yang berasal dari data perusahaan
dengan jumlah data sebanyak 150 karyawan. Terdapat 4 atribut untuk
mempengaruhi penentuan status kepuasan pelanggan go-jek yaitu :Status
Aplikasi, ketepatan Waktu, Kenyaman Dalm Berkendara, Keramahan.
1. Jenis Data
Pada penelitian ini akan dilakukan menggunakan dua jenis data yaitu : data
Kualitatif dan data kuantitatif.
1. Data Kualitatif
Data yang dinyatakan dalam bentuk kata-kata atau bukan dalam bentuk
angka. Data ini biasanya menjelaskan karakteristik atau sifat. Seperti pekerjaan
(wiraswasta, supir, karyawan swasta),dll.
2. Data kuantitatif
23
Data yang berisi keterangan yang dinyatakan dalam bentuk bilangan dan
bersifat variabel.
2. Sumber Data
Untuk mendapatkan data-data yang dapat menunjang penelitian ini, peneliti
menggunakan beberapa metode pengumpulan data sebagai berikut:
1. Sumber Data Primer
a) Metode Interview atau Wawancara
Metode wawancara dilakukan dengan cara melakukan wawancara
terhadap sekertaris rukun warga untuk mendapatkan data rumah tangga.
b) Metode Studi Literatur
Pada metode studi literatur, penulis melakukan pencarian data berdasarkan
sumber-sumber tertulis, baik berupa buku, arsip, jurnal, maupun dokumen-
dokumen lain yang relevan dengan permasalahan yang berkaitan dengan
algoritma Naive Bayes.
2. Sumber Data Sekunder
Dalam penulisan penelitian ini penulis tidak hanya menggunakan metode
pengumpulan data secara wawancara dan studi literatur. Tetapi menggunakan
pengumpulan data yang diperoleh langsung dari sumber objek penelitian. Dalam
hal ini penulis mendapatkan data dari arsip yang disimpan di kantor desa.
Pengumpulan data dilakukan dengan mempertimbangkan penggunaan data
berdasarkan jenis dan sumbernya. Data yang digunakan dalam penelitian ini adalah
data sekunder, data yang penulis dapatkan adalah data Perusahaan aplikasi go-jek
yang akan dijadikan bahan penelitian. Data yang digunakan dalam penelitian ini
adalah data karyawan go-jek.
24
3.4 Persiapan Data (Data Preparation)
Dataset yang digunakan memiliki 1 variabel sebagai kelas yaitu status
aplikasi go-jek ―puas‖ dan status aplikasi go-jek ―tidak puas‖ dan 4 variabel
sebagai atribut. Variabel dan kategori yang digunakan pada penelitian ini adalah :
Tabel 3.1 Variabel dan kategori aplikasi go-jek
Variabel Keterangan Skala Kategori
X1 Aplikasi Real 1 : Tidak Setuju
2 : Setuju
3 : Sangat Setuju
4 : Sangat Tidak Setuju
X2 Ketepatan Waktu Real 1 : Tidak Setuju
2 : Setuju
3 : Sangat Setuju
4 : Sangat Tidak Setuju
X3 Kenyamanan Berkendara Real 1 : Tidak Setuju
2 : Setuju
3 : Sangat Setuju
4 : Sangat Tidak Setuju
X4 Keramahan Real 1 : Tidak Setuju
2 : Setuju
3 : Sangat Setuju
4 : Sangat Tidak Setuju
25
3.4.1 Pemodelan (Modelling)
Dalam penelitian ini akan dilakukan pengujian menggunakan klasifikasi
dengan algoritma Naive bayes untuk mengetahui hasil perhitungan yang dianalisa
dan untuk mengetahui apakah fungsi bekerja dengan baik atau tidak.. Setelah data
dihitung secara manual, kemudian data diuji menggunakan tools RapidMiner
untuk memastikan apakah hasil perhitungan manual dengan hasil yang diperoleh
RapidMiner sama atau tidak.
3.4.2 Evaluasi (Evaluation)
Melakukan pengecekan terhadap setiap nilai atribut dan model yang sudah
dibangun. Kemudian melakukan evaluasi dengan cara mengamati dan
menganalisa hasil dari algoritma yang digunakan untuk memastikan bahwa hasil
pengujian benar dan sesuai hasil pembahasan, pengujian dilakukan untuk
mengukur keakuratan hasil dari tiap model yang diusulkan.
Akurasi didefinisikan sebagai tingkat kedekatan antara nilai prediksi dengan
nilai aktual. Pengukuran akurasi terhadap model dengan menggunakan confusion
matrix yang menitik beratkan pada kelasnya. Confusion matrix merupakan table
untuk mencatat hasil kerja klasifikasi. Berikut table Confusion Matrix untuk
klasifikasi dua kelas :
Tabel 3.2 Perhitungan Akurasi, Presisi, Recall
Correct
Classification
Classified as
+ -
+ True positives False Negatives
- False positives True Negatives
Sumber : Han & Kamber dalam (Andriani, 2013)
26
Rumus confusion matrix :
Akurasi = 𝑇𝑃+𝑇𝑁
𝑇𝑃+𝐹𝑃+𝐹𝑁+𝑇𝑁
Presisi = 𝑇𝑃
𝑇𝑃+𝐹𝑃
Recall = 𝑇𝑃
𝑇𝑃+𝐹𝑁
Keterangan :
Akurasi adalah proporsi jumlah prediksi yang benar.
Precsisi adalah proporsi kasus dengan hasil positif yang benar,
TP (True positive) adalah jumlah record positif yang diklasifikasikan sebagai
positif oleh classifier.
TN (True negative) adalah jumlah record negatif yang diklasifikasikan sebagai
negatif oleh clasifier.
FP (False positive) adalah jumlah record negatif yang diklasifikasikan sebagai
positif oleh clasifier.
FN (False negative) adalah jumlah record positif yang diklasifikasikan sebagai
negatif oleh classifier.
3.5 Metode Analisis Data
Naive Bayes merupakan metode probabilistik pengklasifikasian sederhana
berdasarkan Teorema Bayes dimana pengklasifikasian dilakukan melalui training
set sejumlah data secara efisien. Naive bayes mengasumsikan bahwa nilai dari
sebuah input atribut pada kelas yang diberikan tidak tergantung dengan nilai
atribut yang lain.
27
Metode analisis data menggunakan Naive Bayes Classifier (NBC) yang
merupakan sebuah pengklasifikasi probabilitas sederhana yang mengaplikasikan
Teorema Bayes dengan asumsi ketidaktergantungan (independen) yang tinggi.
Bentuk umum atau persamaan dari teorema Bayes adalah :
...(1)
Keterangan :
X : Data dengan class yang belum diketahui
H : Hipotesa data X merupakan suatu cass spesifik
P(H|X) : Probabilitas hipotesis H berdasar kondisi X (posteriori probability)
P(H) : Probabilitas hipotesis H (prior probability)
P(X|H) : Probabilitas X berdasarkan kondisi pada hipotesis H
P(X) : Probabilitas X
Penjabaran lebih lanjut rumus Bayes tersebut dilakukan dengan menjabarkan
(C|X1…,Xn) menggunakan aturan perkalian sebagai berikut.
P(C|x1,…..,xn = P(C) P(x1,...,xn|C)
= P(C)P(X1|C)P(X2....,Xn|C,X1)
= (C)P(X1|C)P(X2|C,X1)P(X3 ...Xn|C,X1,X2
(C)P(X1|C)P(X2|C,X1)P(X3|
= C,X1,X2)P(X4 ...,Xn|C,X1,X2,X3)P(C)
= P(X1|C)P(X2|C,X1)P(X3|C,X1,X2)
...P(Xn|C,X1,X2,X3,...,Xn-1 ...(2)
28
Dapat dilihat bahwa semakin banyak faktor-faktor yang semakin kompleks
yang mempengaruhi nilai probabilitas maka semakin mustahil untuk menghitung
nilai tersebut satu persatu. Akibatnya perhitungan semakin sulit untuk dilakukan,
maka disinilah digunakan asumsi independensi yang sangat tinggi, bahwa masing-
masing atribut dapat saling bebas.
Dengan asumsi tersebut, diperlukan persamaan :
𝑃(X𝑖|X𝑗) = = = 𝑃(X𝑖)
untuk I ≠ j, sehingga:
𝑃(X𝑖 | 𝐶, X𝑗) = 𝑃(X𝑖|𝐶) ...(3)
Dari persamaan (3) tersebut dapat di ambil kesimpulan bahwa asumsi
independensi membuat syarat perhitungan menjadi lebih sederhana. Selanjutnya
penjabaran (P(C|X1,..,Xn) dapat di sederhanakan menjadi persamaan (4) :
P(X2|C)P(X3|C) ...
P(C|X1, ...,Xn) = P(X1|C)
= ...(4)
Keterangan :
= Perkalian ranting antar atribut
Dalam metode naive bayes diperlukan data latih dan data uji yang ingin
diklasifikasikan, semakin banyak data latih yang yang dilibatkan, semakin baik
hasil yang prediksi yang diberikan. Menghitung P(Ci) yang merupakan
probabilitas prior untuk setiap sub kelas C yang akan dihasilkan menggunakan
persamaan :
29
...(5)
Dimana :
Si : Jumlah data training dari kategori Ci
S : Jumlah total data training.
3.3 Instrumen Penelitian
Berdasarkan permasalahan yang telah diuraikan sebelumnya, maka bahan dan
peralatan yang diperlukan untuk penelitian ini meliputi :
3.6.1 Bahan
Dalam penelitian ini bahan yang dibutuhkan adalah data karyawan go-jek
yang akan digunakan sebagai instrumentasi guna memperoleh data untuk
menentukan status kesejahteraan rumah tangga.
3.6.2 Peralatan
Peralatan dalam penelitian ini meliputi kebutuhan perangkat lunak dan
kebutuhan perangkat keras. Dibawah ini merupakan peralatan atau tools yang
dibutuhkan, diantaranya:
a) Perangkat Lunak (Software)
Perangkat Lunak, versi dan fungsi dapat dilihat pada tabel 3.4 dibawah ini :
Tabel 3.3 Perangkat Lunak (Software)
Software Versi Fungsi
Sistem Operasi
Microsoft Windows 10 Sebagai sistem operasi penelitian ini
Microsoft Office
Word 2010 Digunakan untuk mengolah laporan hasil
penelitian
30
Microsoft Office
Excel 2010 Digunakan untuk mengolah dataset
RapidMiner Studio 9.0 Digunakan untuk mengolah dataset dan untuk
melihat hasil akurasi dari algoritma yang
digunakan
b) Perangkat Keras (Hardware)
Selain perangkat lunak (software) dibutuhkan pula perangkat keras (hardware)
sebagai pendukung penelitian data mining, yaitu laptop. Adapun spesifikasi
laptop dijelaskan pada Tabel 3.4 dibawah ini
Tabel 3. 4 Perangkat Keras (Hardware)
Spesifikasi Hardware Keterangan
Processor Intel Core i3
RAM 2,00 GB
System Type 64-bit Operating System
31
4.1 Penentuan Kriteria
Dalam menganalisa kepuasan pelanggan pada perusahaan ojek online (GO-
JEK) ada beberapa kriteria yang digunakan adalah sebagai berikut :
Tabel 4.1 Kriteria yang digunakan
Diketahui : Y X
Variabel Data
Aplikasi Ojek
Online (Go-
Jek)
Y = Status Kepuasan
Pelanggan
1 = Puas
2 = Tidak Puas
X1 = Aplikasi
X2 = Ketetapan Waktu
X3 = Kenyamanan Berkendara
X4 = Keramahan
4.2 Perhitungan Naive Bayes
Dataset yang digunakan sebagai data training adalah sebanyak 36 data
(lampiran 1). Sedangkan untuk data testing yang akan ditentukan hasil status
rumah tangga berjumlah 13 data (lampiran 2).
4.2.1 Perhitungan Probabilitas Prior (P(Ci))
Dataset akan diproses dengan metode Naive Bayes dengan beberapa
tahapan sehingga perlu menentukan besarnya nilai dari data, yaitu dari 36 data
latih yang digunakan, diketahui kelas C0 (Puas) sebanyak 23 data, dan kelas C1
(Tidak Puas) sebanyak 13 data. Perhitungan probabilitas prior dapat dilakukan
dengan persamaan (5) yaitu :
32
Tabel 4. 1 Probabilitas Prior
Perhitungan Prior Hasil
P (C0) 23/36 0,638
P (C1) 13/36 0.361
4.2.2 Perhitungan Probabilitas Posterior X bersyarat C (P(X|Ci)
Perhitungan probabilitas posterior dilakukan pada data latih sebanyak 36
data dengan menggunakan X sebagai vector penentuan status rumah tangga yaitu
Xstatus kendaraan, Xnomer kendaraan, Xjumlah point, Xpendidikan, Xjenis
kelamin. Sehingga P (X|Ci) dapat dijabarkan menjadi :
Tabel 4.3 Probabilitas Aplikasi
X1 Jumlah Kejadian
“Dipilih” Probabilitas
Aplkasi Puas Tidak Puas (C0) Tidak (C1)
Sangat Setuju 8 2 0,347826087 0,153846154
Tidak Setuju 9 8 0,391304348 0,615384615
Setuju 6 3 0,260869565 0,230769231
Jumlah 23 13 1 1
Tabel 4.4 Probabilitas Ketepatan Waktu
X2 Jumlah Kejadian
―Dipilih‖ Probabilitas
Ketepatan Waktu Puas Tidak Puas (C0) Tidak Puas (C1)
Sangat Tidak Setuju 1 8 0,043478261 0,615384615
Setuju 19 1 0,826086957 0,076923077
Tidak Setuju 3 4 0,130434783 0,307692308
Jumlah 23 13 1 1
33
Tabel 4.5 Probabilitas Kenyamanan Dalam Berkendara
X3 Jumlah Kejadian
“Dipilih” Probabilitas
Kenyaman Dalam
Berkendara
Puas Tidak Puas (C0) Tidak (C1)
Sangat Setuju 8 0 0,347826087 0
Setuju 14 5 0,608695652 0,384615385
Tidak Setuju 1 8 0,043478261 0,615384615
Jumlah 23 13 1 1
Tabel 4.6 Probabilitas Keramahan
X4 Jumlah Kejadian
“Dipilih” Probabilitas
Keramahan Puas Tidak Puas (C0) Tidak (C1)
Sangat Setuju 6 2 0,260869565 0,153846154
Setuju 13 4 0,565217391 0,307692308
Tidak Setuju 4 7 0,173913043 0,538461538
Jumlah 23 13 1 1
4.3 Perhitungan Manual
Berikut ini perhitungan manual dengan menggunakan data uji yang dapat
dilihat pada data training (lampiran 4.1), dengan menggunkan metode Naive
Bayes.
Tabel 4.7 Data Uji
Sangat Setuju Sangat Tidak Setuju Sangat Setuju Sangat Setuju ?
Aplikasi Ketepatan Waktu
Kenyamanan
dalam
berkendara
keramahan Prediksi
34
4.3.1 Pendefinisian Variabel
Berdasarkan tabel 4.7 dapat didefinisian data uji X adalah sebagai berikut :
X = {XAplikasi=Sangat Setuju, XKetepatan Waktu=Sangat Tida Setuju,
Keramahan=Sangat Setuju}
4.3.2 Pendefinisian Probabilitas Prior P(Ci)
Hasil pendefinisian Probabilitas prior berdasarkan persamaan (5)
menghasilkan nilai untuk kelas puas (C0) sebesar 0.638 dan untuk Tidak Puas
(C1) sebesar 0.361.
4.3.3 Perhitungan Probabilitas Data Uji
Berdasarkan data uji pada tabel 4.11 dapat dilakukan klasifikasi kedalam
kelas puas (C0) dengan ketentuan nilai masing-masing kriteria yaitu : 0.348,
0.043, 0.348, 0.261.
Kemudian nilai dari masing-masing kriteria tersebut dikalikan P(X|C0) = 0.348 *
0.043 * 0.348 * 0.261 = 0.00136
Untuk menghitung klasifikasi kedalam kelas tidak puas (C1) dengan ketetuan nilai
masing-masing kriteria yaitu : 0.154, 0.615, 0, 0.154.
Kemudian nilai dari masing-masing kriteria tersebut dikalikan P(X|C1) = 0.154 *
0.615 * 0* 0.154 = 0
4.3.4 Pemaksimalan P(X|Ci) P(Ci)
Perhitungan pemaksimal untuk klasifikasi kelas puas (C0) adalah dengan
cara mengalikan P(X|C0) dengan P(C0) :
P(C0|X) = P(X|C0) * P(C0)
= 3,926 * 0,638 = 2,5048
35
Kemudian untuk kelas tidak puas (C1) adalah dengan cara mengalikan P(X|C1)
dengan P(C1) :
P(C1|X) = P(X|C1) * P(C1)
= 0 * 0.361 = 0
Dari perhitungan di atas dapat dihasilkan nilai P(C0|X) = 2,5048 sedangkan nilai
P(C1|X) = 0. Berdasarkan nilai tersebut dapat di ambil kesimpulan bahwa P(C0|X)
> P(C1|X). maka data uji tersebut diklasifikasikan kedalam kelas Miskin dalam
kesejahteraan rumah tangga.
4.4 Implementasi Klasifikasi Naive Bayes pada RapidMiner
Uji coba dilakukan untuk mengetahui apakah perhitungan yang telah
dilakukan diatas sesuai untuk menentukan status kesejahteraan rumah tangga
dengan metode Naive Bayes. Uji coba dilakukan dengan menentukan 19 data
testing yang telah dipilih (lampiran 1). Data testing tersebut akan dicari nilai
prediksinya menggunakan RapidMiner 9.0.
4.4.1 Proses Select Attributes
Melakukan select attributes yaitu untuk mengetahui hasil prediski dari
RapidMiner, apakah hasil perhitungan manual sama atau tidak dengan hasil
RapidMiner. Dapat dilihat pada gambar 4.1 Proses Select Attribute dan Hasil
Prediksi RapidMiner dapat dilihat pada gambar 4.2.
36
Gambar 4.1 Proses Select Attribute
Gambar 4.2 Hasil Prediksi RapidMiner
37
4.4.2 Akurasi Prediksi
Proses klasifikasi dengan RapidMiner menggunakan metode algoritma
Naive Bayes pada data rumah tangga ini untuk membandingkan data testing
dengan data training yang sudah diketahui rule-rulenya sebelumnya. Berikut
langkahnya:
Pada tampilan process masukan operator Read Excel masukan masing-
masing data training dan data testing, selanjutnya masukan operator Naive Bayes,
Apply Model, dan Performance lalu sambungkan kabel seperti gambar dibawah
ini :
Gambar 4.3 Proses Accuracy Prediksi
38
Gambar 4.4 Hasil Accuracy Data Testing
Hasil pengukuran data accurasy yang diperoleh dari data training mencapai
84.21%. Jumlah prediksi puas yang diklasifikasikan sebagai puas oleh classifier
yaitu 13 data, dan jumlah prediksi tidak puas yang diklasifikasikan sebagai puas
soleh classifier yaitu 0. Dengan pencapaian class precision 100.00%.
Sedangkan jumlah prediksi tidak puas yang diklasifikasikan sebagai puas oleh
classifier yaitu 3 data, dan jumlah prediksi tidak puas yang diklasifikasikan
sebagai tidak puas oleh classifier yaitu 3 data. Dengan pencapaian class precision
50.00%.
Untuk class recall dengan true tidak puas mencapai 81,25% sedangkan untuk
class recall dengan true puas mencapai 100.00%.
4.4.3 Kurva ROC/AUC (Area Under Curve)
Menurut Vercellis dalam (Andriani, 2013) Kurva ROC menunjukkan
akurasi dan membandingkan klasifikasi secara visual dan ROC mengekspresikan
confusion matrix. ROC adalah grafik dua dimensi dengan false positives sebagai
garis horizontal dan true positive sebagai garis vertikal. Tingkat keakurasian AUC
dapat diklasifikasikan menjadi lima kelompok yaitu :
39
a) 0.90 – 1.00 = Excellent Classification
b) 0.80 – 0.90 = Good Classification
c) 0.70 – 0.80 = Fair Classification
d) 0.60 – 0.70 = Poor Classification
e) 0.50 – 0.60 = Failure
Nilai AUC yang didapatkan dari pengujian berdasarkan kurva ROC
menggunakan metode Naïve bayes sebesar 0.998, sehingga dari hasil tersebut
berdasarkan kriteria diatas menunjukan klasifikasi yang dihasilkan termasuk
kedalam kelompok excellent classification atau klasifikasi yang sangat baik. Hasil
kurva ROC dapat dilihat pada gambar 4.5.
Gambar 4.5 Kurva ROC
40
Untuk mengetahui performance vector yang diperoleh, maka akan dijelaskan di
bawah ini :
PerformanceVector:
accuracy: 84.21%
ConfusionMatrix:
True: Puas Tidak Puas
Puas: 13 0
Tidak Puas: 3 3
precision: 50.00% (positive class: puas)
ConfusionMatrix:
True: Puas Tidak Puas
Puas: 13 0
Tidak Puas: 3 3
recall: 100.00% (positive class: Tidak Puas)
ConfusionMatrix:
True: Puas Tidak Puas
Puas: 13 0
Tidak Puas: 3 3
AUC (optimistic): 0.998 (positive class: Puas)
AUC: 0.998 (positive class: Puas)
AUC (pessimistic): 0.998 (positive class: Puas )
41
BAB V
KESIMPULAN
5.1 Kesimpulan
Dari penelitian yang dilakukan dapat ditarik kesimpulan sebagai berikut :
1. Klasifikasi prediksi kepuasaan pelanggan yang dapat membantu seorang
admin dalam menentukan klasifikasi kepuasan masyarakat terhadappelayanan
Go-Jek dengan bermetode algoritma naïve bayes.
2. Meto de Naive Bayes memanfaatkan data training untuk menghasilkan
probabilitas setiap kriteria untuk class yang berbeda, sehingga nilai-nilai
probabilitas dari kriteria tersebut dapat dioptimalkan untuk memprediksi
status rumah tangga berdasarkan proses klasifikasi yang dilakukan oleh
metode Naive Bayes itu sendiri.
5.2 Saran
1. Pada penelitian ini penulis hanya menggunakan 4 variabel target/kelas dari
kepuasan pelanggan yaitu setuju, tidak setuju, sangat tidak setuju dan sangat
setuju mampu sehingga untuk penelitian selanjutnya diharapkan dapat
mencoba menggunakan 5 variabel target dengan menambahkan variabel
target/kelas kepuasan pelanggan.
2. Penulis mengharapkan penelitian ini dapat diterapkan dengan menggunakan
algoritma lain agar dapat mengembangkan penelitian dimasa yang akan
datang.
42
DAFTAR PUSTAKA
A.K Usyal, & S. Gunal.(2014).The impact of preprocessing on text classification,
Information Processing and Management. 50:104-112.
Arifin, M.F, & Fitrianah, D.(2018).Penerapan Algoritma Klasifikasi C4.5 Dalam
Rekomendasi Penerimaan Mitra Penjualan Studi Kasus : PT Atria Artha
Persada. InComTech.8(2):87–102.
C.Meaney, R.Moineddin, P.Krugger dan F.Sullivan.(2015).Text Mining Describes
the use of Statistical and Epidemiological Methods in Published Medical
Research.Journal of Clinical Epidemiology.
D. Dahri, dkk.(2016).Metode Naive Bayes Untuk Penentuan Penerimaan
Beasiswa Bidikmisi. Universitas Mulawarman.11(2).
Fadlan, C.(2018).Penerapan Metode Naive Bayes Dalam Klasifikasi Kelayakan
Keluarga Penerima Beras Rastra.3(1):1-8.
Patil, T.R. & Sherekar, S.S.(2013).Performance Analysisof Naive Bayes and J48
Classification Algorithm for Data Classification.International Journal Of
Computer Science And Applications.6(2).
Prasetyo, Eko.(2012).Data Mining Konsep dan Aplikasi Menggunakan MATLAB.
Yogyakarta:Andi.
Saleh, A.(2015).Implementasi Metode Klasifikasi Naive Bayes Dalam
Memprediksi Besarnya Penggunaan Listrik Rumah Tangga.Citec
Jurnal.2(3):207-217.
Sugiyono.(2016).Metode Penelitian Kuantitatif, Kualitatif dan R&D (23rd
ed.).Bandung: Alfabeta.
Suyanto.(2017).Data Mining Untuk Klasifikasi dan Klasterisasi Data.Bandung:
Informatika.
Vulandari, R.T.(2017).Data Mining Teori dan Aplikasi RapidMiner.
Yogyakarta:Gava Media.
43
Liu, J., Tian, Z.., Liu, P., Jing, J., & Li, Z., (2016). An Aproach of
Semantic Web Service Clasification Based on Naïve Bayes, 2016
IEE Internasional Conference on service Computing, 356-362.
Soepardi, A., permata, M. (2015) Sentiment Analisis Untuk Menilai
Kepuasan Masyarakat Terhadap Kinerja Pemeritah Menggunakan
Nive Bayes Classifer (study kasus: Walikota Bandung 2013-
2018). Jurnal Teknologi Informasi Dan Komunikasi. 4(1).1-7.
Wati, R. (2016). Penerapan Algoritma Genetik Untuk Seleksi Fitur Pada
Analisis Sentimen Review Jasa Maskapai Penerbangan
Menggunakan Naïve Bayes. Jurnal Evaluasi, 4(1), 25-31. ISSN :
2338-8161.
44
DATA TREANING
Aplikasi Ketepatan WaktuKenyamanan
BerkendaraKeramahan
Kepuasan
Pelanggan
Sangat setuju Setuju Setuju Sangat Setuju Puas
Tidak Setuju setuju setuju Sangat Setuju Tidak Puas
setuju sangat tidak setuju tidak setuju setuju Tidak Puas
setuju setuju sangat setuju setuju Puas
Sangat setuju setuju setuju Sangat Setuju Puas
Sangat setuju tidak setuju setuju Sangat Setuju Puas
tidak setuju setuju setuju setuju Puas
setuju tidak setuju setuju setuju Puas
setuju setuju setuju setuju Puas
Sangat setuju setuju tidak setuju setuju Puas
setuju sangat tidak setuju setuju setuju Puas
Sangat setuju tidak setuju setuju Sangat Setuju Tidak Puas
setuju setuju Setuju Sangat Setuju Puas
setuju tidak setuju tidak setuju setuju Tidak Puas
Tidak Setuju setuju Setuju setuju Puas
setuju Setuju sangat setuju Sangat Setuju Puas
Sangat setuju Setuju sangat setuju setuju Puas
Tidak Setuju Setuju Setuju tidak setuju Puas
setuju sangat tidak setuju Setuju tidak setuju Tidak Puas
Tidak Setuju sangat tidak setuju tidak setuju tidak setuju Tidak Puas
setuju sangat tidak setuju tidak setuju setuju Tidak Puas
setuju Setuju sangat setuju setuju Puas
setuju tidak setuju Setuju setuju Puas
Tidak Setuju Setuju Setuju tidak setuju Puas
setuju sangat tidak setuju Setuju tidak setuju Tidak Puas
setuju tidak setuju tidak setuju tidak setuju Tidak Puas
Sangat setuju Setuju sangat setuju setuju Puas
Tidak Setuju Setuju Setuju tidak setuju Puas
setuju sangat tidak setuju Setuju tidak setuju Tidak Puas
Tidak Setuju sangat tidak setuju tidak setuju tidak setuju Tidak Puas
setuju sangat tidak setuju tidak setuju setuju Tidak Puas
Sangat setuju Setuju sangat setuju setuju Puas
setuju tidak setuju tidak setuju tidak setuju Tidak Puas
Sangat setuju Setuju sangat setuju setuju Puas
Tidak Setuju Setuju Setuju tidak setuju Puas
setuju Setuju sangat setuju Sangat Setuju Puas
45
DATA TESTING
Aplikasi Ketepatan WaktuKenyamanan
BerkendaraKeramahan
Kepuasan
Pelanggan
tidak setuju setuju setuju setuju Puas
setuju tidak setuju setuju setuju Puas
setuju setuju setuju setuju Puas
Sangat setuju setuju tidak setuju setuju Puas
setuju setuju Setuju Sangat Setuju Puas
setuju tidak setuju tidak setuju setuju Tidak Puas
Tidak Setuju setuju Setuju setuju Puas
setuju Setuju sangat setuju Sangat Setuju Puas
Sangat setuju Setuju sangat setuju setuju Puas
Tidak Setuju Setuju Setuju tidak setuju Puas
setuju sangat tidak setuju Setuju tidak setuju puas
Tidak Setuju sangat tidak setuju tidak setuju tidak setuju Tidak Puas
setuju sangat tidak setuju tidak setuju setuju puas
setuju Setuju sangat setuju setuju Puas
setuju sangat tidak setuju Setuju tidak setuju Puas
setuju tidak setuju tidak setuju tidak setuju Tidak Puas
Sangat setuju Setuju sangat setuju setuju Puas
setuju Setuju sangat setuju Sangat Setuju Puas
setuju setuju sangat setuju setuju Puas
46