Post on 01-Oct-2021
PENERAPAN DATA MINING CLASSIFICATION UNTUK TREN JENIS
PEMBAYARAN MEMBER STORE SALES POINT ALFAMART DI
CABANG KARAWANG MENGUNAKAN METODE NAÏVE BAYES
SKRIPSI
Oleh:
YURI EKA AGUSTA
311410290
TEKNIK INFORMATIKA
SEKOLAH TINGGI TEKNOLOGI PELITA BANGSA
BEKASI
2018
PENERAPAN DATA MINING CLASSIFICATION UNTUK TREN JENIS
PEMBAYARAN MEMBER STORE SALES POINT ALFAMART DI
CABANG KARAWANG MENGUNAKAN METODE NAÏVE BAYES
SKRIPSI
Diajukan Sebagai Salah Satu Syarat Untuk Menyelesaikan
Program Sarjana pada Program Studi Teknik Informatika
Oleh:
YURI EKA AGUSTA
311410290
TEKNIK INFORMATIKA
SEKOLAH TINGGI TEKNOLOGI PELITA BANGSA
BEKASI
2018
PERSETUJUAN
i
PENGESAHAN
ii
ii
KATA PENGANTAR
Puji syukur penulis panjatkan ke hadiran Allah SWT. yang telah
melimpahkan segala rahmat dan hidayah-Nya, sehingga tersusunlah Skripsi yang
berjudul “PENERAPAN DATA MINING CLASSIFICATION UNTUK TREN
JENIS PEMBAYARAN MEMBER STORE SALES POINT ALFAMART DI
CABANG KARAWANG MENGUNAKAN METODE NAÏVE BAYES”.
Skripsi tersusun dalam rangka melengkapi salah satu persyaratan dalam
rangka menempuh ujian akhir untuk memperoleh gelar Sarjana Komputer (S.Kom.)
pada Program Studi Teknik Informatika di Sekolah Tinggi Teknologi Pelita Bangsa.
Penulis sungguh sangat menyadari, bahwa penulisan Skripsi ini tidak akan
terwujud tanpa adanya dukungan dan bantuan dari berbagai pihak. Sudah
selayaknya, dalam kesempatan ini penulis menghaturkan penghargaan dan ucapan
terima kasih yang sebesar-besarnya kepada:
a. Bapak Dr. Ir. Suprianto, M.P selaku Ketua STT Pelita Bangsa
b. Bapak Aswan S. Sunge, S.E., M.Kom selaku ketua Program Studi Tehnik
Informatika STT Pelita Bangsa.
c. Bapak Abdul Halim Anshor S.Kom, M.Kom dan Bapak Ahmad Aguswin,
S.T., M.M. selaku dosen pembimbing satu dan dua.
d. Seluruh Dosen STT Pelita Bangsa yang telah membekali penulis dengan
wawasan dan ilmu di bidang teknik informatika.
e. Seluruh staf STT Pelita Bangsa yang telah memberikan pelayanan terbaiknya
kepada penulis selama perjalanan studi jenjang Strata 1.
f. Rekan-rekan mahasiswa STT Pelita Bangsa, khususnya angkatan 2014, yang
telah banyak memberikan inspirasi dan semangat kepada penulis untuk dapat
menyelesaikan studi jenjang Strata 1.
g. Ibu dan Ayah tercinta yang senantiasa mendo’akan dan memberikan semangat
dalam perjalanan studi Strata 1 maupun dalam kehidupan penulis.
v
Akhir kata, penulis mohon maaf atas kekeliruan dan kesalahan yang terdapat
dalam Skripsi ini dan berharap semoga Skripsi ini dapat memberikan manfaat bagi
khasanah pengetahuan Teknologi Informasi di lingkungan STT Pelita Bangsa
khususnya dan Indonesia pada umumnya.
Bekasi, November 2018
Penulis
vi
DAFTAR ISI
PERSETUJUAN ...................................................................................................... i
PENGESAHAN ...................................................................................................... ii
PERNYATAAN KEASLIAN PENELITIAN ....................................................... iv
KATA PENGANTAR..............................................................................................v
DAFTAR ISI ......................................................................................................... vii
DAFTAR TABEL .................................................................................................. ix
DAFTAR GAMBAR ...............................................................................................x
ABSTRACT ........................................................................................................... xi
ABSTAKSI ........................................................................................................... xii
BAB I PENDAHULUAN ........................................................................................1
1.1 Latar Belakang ...........................................................................................1
1.2 Identifikasi Masalah ..................................................................................2
1.3 Rumusan Masalah......................................................................................2
1.4 Batasan Masalah ........................................................................................2
1.5 Tujuan dan Manfaat ...................................................................................3
1.5.1 Tujuan ................................................................................................3
1.5.2 Manfaat ..............................................................................................3
1.6 Sistematika Penulisan ................................................................................4
vii
BAB II TINJAUAN PUSTAKA ..............................................................................6
2.1 Kajian Pustaka ....................................... Error! Bookmark not defined.
2.2 Dasar Teori ............................................ Error! Bookmark not defined.
2.2.1 Data Mining.................................... Error! Bookmark not defined.
2.2.2 Contoh penulisan label untuk table.. Error! Bookmark not defined.
2.3 Kerangka Berfikir .................................. Error! Bookmark not defined.
BAB III METODE PENELITIAN.........................................................................45
3.1 Objek Penelitian ......................................................................................45
3.2 Pengumpulan Data ...................................................................................45
BAB V HASIL DAN PEMBAHASAN .................................................................46
4.1 Hasil .........................................................................................................46
4.2 Pembahasan .............................................................................................46
BAB V KESIMPULAN .........................................................................................47
5.1 Kesimpulan ..............................................................................................47
5.2 Saran ........................................................................................................47
DAFTAR PUSTAKA ............................................................................................48
LAMPIRAN ...........................................................................................................49
viii
DAFTAR TABEL
Tabel 0.1 contoh tabel.......................................... Error! Bookmark not defined.
Tabel 0.2contoh 2 ................................................ Error! Bookmark not defined.
ix
DAFTAR GAMBAR
Gambar 1Gambar Insert Caption.......................... Error! Bookmark not defined.
Gambar 2Caption Dialog ..................................... Error! Bookmark not defined.
Gambar 3 Contoh Gambar ................................... Error! Bookmark not defined.
Gambar 4Gambar dua .......................................... Error! Bookmark not defined.
x
ABSTRACT
Abstract in English here….
Keyworad:
xi
ABSTRAK
Abstrak dalam Bahasa Indonesia disini….
Kata kunci:
xii
BAB I
PENDAHULUAN
1.1 Latar Belakang
Dalam rangka membangun usaha para pelaku Usaha Mikro Kecil Menengah
(UMKM) Alfamart memberikan program Store Sales Point. Program ini
memberikan kemudahan pemilik usaha warung untuk mencukupi kebutuhan barang
dagangannya dengan harga khusus dan pedagang akan mendapatkan kartu member
khusus. Pembelian dilakukan dengan cara pemesanan melalui Alfa Mikro Aplikasi
(AMA).
Pembayaran merupakan salah satu aktivitas penting pada setiap transaksi dalam
kegiatan ekonomi. Dengan perkembangan teknologi yang semakin pesat, semakin
banyak dan semakin besarnya nilai transaksi serta risiko, dibutuhkan adanya sistem
pembayaran dan alat pembayaran yang cepat, lancar dan aman. Keberhasilan sistem
pembayaran akan dapat mendukung perkembangan sistem keuangan dan
perbankan. Sebaliknya ketidaklancaran atau kegagalan sistem pembayaran akan
memberikan dampak yang kurang baik pada kestabilan perekonomian.
Pada saat ini pembayaran barang dagangan oleh member Store Sales Point
adalah dengan 2 cara yaitu sistem pembayaran tunai dan sistem pembayaran non
tunai. Sistem pembayaran non tunai menggunakan dana pinjaman dari pihak ke tiga
yaitu Toko Modal, dengan sistem jangka waktu pembayaran yang telah ditentukan
oleh pihak Store Sales Point.
1
2
Dari latar belakang tersebut maka penulis memfokuskan pada pola pembayaran
yang dilakukan oleh member Store Sales Point sebagai skripsi dengan judul :
PENERAPAN DATA MINING CLASSIFICATION UNTUK TREN JENIS
PEMBAYARAN MEMBER STORE SALES POINT ALFAMART DI CABANG
KARAWANG MENGUNAKAN METODE NAÏVE BAYES
1.2 Identifikasi Masalah
Dari permasalahan yang ada penulis mengidentifikasikan beberapa
permasalahan, sebagai berikut;
a. Belum adanya metode yang digunakan untuk menentukan apakah program
jenis pembayaran non tunai efektif atau tidak.
b. Melihat perkembangan jenis sistem pembayaran yang dilakukan oleh
Member Store Sales Point.
1.3 Rumusan Masalah
Berdasarkan uraian latar belakang di atas, diperoleh rumusan masalah yaitu
bagaimana menggunakan metode naive bayes sehingga mampu menjadi pendukung
keputusan yang dapat berguna dalam menentukan pola pembayaran Member Store
Sales Point.
1.4 Batasan Masalah
Sebagaimana disebutkan dalam latar belakang ada beberapa permsalahan yang
di analisa penulis. Ruang lingkup permasalahan di atas perlu adanya suatu batasan
untuk memberikan kemudahan dalam praktek di lapangan.
Batasan masalah tersebut sebagai berikut :
3
Algoritma yang di khususkan adalah Naïve Bayes guna menentukan tren
jenis pembayaran yang dilakukan oleh Member Store Sales Point Alfamart
cabang Karawang.
Parameter yang digunakan adalah kepuasan pelanggan, sehinga dapat
melihat perkembangan jenis pembayaran yang di inginkan.
1.5 Tujuan dan Manfaat
1.5.1 Tujuan
Berdasarkan rumusan masalah yang di uraikan di atas, maka tujuan dari
penelitian ini adalah menerapkan algoritma klasifikasi naive bayes untuk melihat
perkembangan jenis pembayaran yang di inginkan oleh member Store Sales Point
Alfamart di Cabang Karawang.
1.5.2 Manfaat
Manfaat dari penelitian ini diantaranya adalah :
a. Manfaat bagi Akademik
Penelitian ini dapat memberikan informasi bagi peneliti atau calon peneliti
lain untuk menerapkannya kedalam sistem yang lebih luas dan lebih
kompleks atau sebagai bahan acuan yang dapat di kembangkan bagi
kemungkinan pengembang konsep materi lebih lanjut serta dapat
melengkapi referensi pustaka Akademik.
b. Manfaat bagi Perusahaan
Membantu perusahaan dalam melihat pola perilaku member – member
Store Sales Point dalam hal pembayaran, memberikan kemudahan bagi
4
perusahaan dalam menentukan jenis pembayaran yang banyak digunakan
oleh member Store Sales Point Alfamart di Cabang Karawang.
c. Manfaat bagi member Store Sales Point
Memberikan kemudahan kepada konsumen untuk memilih jenis
pembayaran.
d. Manfaat bagi penulis
Sebagai sarana untuk menambah wawasan pengetahuan serta pengalaman
tentang penggunaan metode naive bayes dalam sistem pendukung
keputusan serta sebagai sarana untuk mengaplikasikan ilmu yang
didapatkan selama mengikuti perkuliahan.
1.6 Sistematika Penulisan
Untuk mempermudah dalam penyusunan laporan tugas akhir ini, adapun sistem
penulisan dikelompokkan dalam beberapa bab, yang masing-masing diuraikan
sebagai berikut:
BAB I PENDAHULUAN
Bab ini membahas mengenai latar belakang masalah, rumusan masalah,
batasan masalah, tujuan penelitian, manfaat penelitian serta sistematika
penulisan.
BAB II LANDASAN TEORI
Bab ini membahas mengenai penelitian terkait, Data Mining, Rapidminer,
Kerangka pemikiran dan teori-teori pendukung lainnya.
BAB III METODE PENELITIAN
5
Bab ini membahas langkah-langkah yang dilaksanankan dalam proses
penelitian pengumpulan data (observasi, wawan cara, studi pustaka),
algoritma naive bayes clasification.
BAB IV HASIL PENELITIAN DAN PEMBAHASAN
Bab ini menjelaskan uraian panjang lebar mengenai penelitan yang dibuat
mengenai hasil dan pembahasan.
BAB V PENUTUP
Bab ini membahas kesimpulan yang diambil dari hasil penelitian dan
penulisan skripsi ini, serta saran-saran untuk pengembangan selanjutnya,
agar dapat dilakukan perbaikan dimasa yang akan datang.
BAB II
LANDASAN TEORI
2.1 Pengertian Sistem Pembayaran
Sistem yang mencakup seperangkat aturan, lembaga dan mekanisme yang
digunakan untuk melaksanakan pemindahan dana guna memenuhi suatu kewajiban
yang timbul dari suatu kegiatan ekonomi.[1] Sistem Pembayaran merupakan sistem
yang berkaitan dengan pemindahan sejumlah nilai uang dari satu pihak ke pihak
lain. Media yang digunakan untuk pemindahan nilai uang tersebut sangat beragam,
mulai dari penggunaan alat pembayaran yang sederhana sampai pada penggunaan
sistem yang kompleks dan melibatkan berbagai lembaga berikut aturan mainnya.
2.2 Jenis – Jenis Alat Pembayaran
Secara umum, alat pembayaran dapat dibedakan menjadi dua jenis yaitu alat
pembayaran tunai dan non tunai. Masing-masing alat pembayaran tunai dan non
tunai. Masing – masing alat pembayaran ini memiliki kelebihan dan kekurangan
tersendiri. Alat pembayaran kelebihannya dapat dipergunakan dalam melakukan
transaksi dimanapun dan kapanpun, tetapi kekurangannya ialah sulit dibawa dalam
jumlah yang besar untuk melakukan kegiatan transaksi. Sedangkan alat
pembayaran non tunai kelebihannya mudah dibawa dalam julah yang besar, simple
dan praktis, namun kekurangannya ialah belum tentu dapat dipergunakan pada
toko-toko berskala kecil dalam melakukan kegiatan transaksi pembayaran. Berikut
ini penjelasan lengkapnya :
6
7
a. Alat pembayaran tunai
Alat pembayaran tunai dapat dilakukan menggunkan uang baik jenis uang
kertas mapun logam. Dalam peredarannya di masyarakat, uang yang
tersedia ada dalam berbagai jenis pecahan yang berfungsi untuk
memudahkan dalam kegiatan bertransaksi. Agar kebutuhan uang tunai dapat
terpenuhi di masyarakat, maka sangat perlu dilakukan empat kegiatan yang
strategis dalam menangani uang tunai.
b. Alat pembayaran nontunai
Secara umum alat pembayaran nontunai dapat digolongkan menjadi dua
kelompok yaitu alat pembayaran untuk credit transfer dan debit transfer.
Perbedaan yang mendasar antara credit transfer dan debit transfer terletak
pada perintah pengiriman uang. Berdasarkan terminology yang dibuat oleh
Bank Of International Settlement (BIS), credit transfer adalah perintah
pembayaran untuk tujuan penempatan dana dari pengirim ke penerima dan
dimungkinkan melalui bank lain sebagai perantaranya. Sedangkan debit
transfer adalah sistem transfer dana saat perintah transfer dibuat atau
diotorisasi oleh pihak yang memiliki dana dan akan melakukan pengiriman
dana tersebut kepada pihak lain. Berikut ini jenis – jenis alat pembayaran
nontunai :
Cek
Cek adalah surat perintah tidak bersyarat untuk membayar sejumlah
dana yang tercantum dalam cek.
8
Bilyet Giro
Bilyet Giro adalah surat perintah dari nasabah kepada bank
penyimpan dana untuk memindahkan bukukan sejumlah dana dari
rekening yang bersangkutan kepada rekening pemegang yang
disebutkan namanya.
Kartu ATM/Debit
Kartu ATM/Debit adalah kartu pembayaran menggunakan kartu
yang digunakan untuk melakukan penarikan tunai, pemindahan
dana, melakukan pembayaran, transaksi belanja, dan lain
sebagainya.
Kartu Kredit
Kartu kredit pada dasarnya merupakan alat pembayaran yang
memiliki prinsip “buy now pay later”, atau dalam Bahasa
indonesianya memiliki arti beli sekarang bayar kemudian (nanti),
dimana pada saat transaksi kewajiban pemegang kartu ditalangi
terlebih dahulu oleh penerbit kartu kredit. Pemegang kartu kemudian
dapat melunasi pembayaran kepada penerbit kartu kredit
berdasarkan waktu yang disepakati antara pemegang kartu kredit
dan penerbit, misalnya perbulan atau pertahun.
Uang Elektronik (E-money)
9
Secara sederhana, uang elektronik dapat didefinisikan sebagai alat
pembayaran dalam bentuk elektronik tertentu. Walaupun memuat
karakteristik yang sedikit berbeda dengan instrument pembayaran
lainnya seperti kartu kredit dan kartu ATM/Debit, namun
penggunaan instrument ini tetap sama dengan kartu kredit dan kartu
ATM/Debit yakni ditujukan sebagai alat pembayaran.
Sistem Transfer BI-RTGS
Sistem Bank Indonesia Real Time Gross Stettlement (BI-RTGS)
ialah suatu sistem transfer dana elektronik antarpeserta dalam mata
uang rupiah yang penyelesaiannya dilakukan secara seketika
pertransaksi secara individual.
Sistem Dompet Elektronik (E-Wallet)
Dompet elektronik berfungsi hampir sama dengan dompet saku.
Dompet elektronik pertama kalinya diakui sebagai sebuah metode
untuk menyimpan uang dalam bentuk elektronik, namun kemudian
menjadi populer karena cocok untuk menyediakan cara yang
nyaman bagi pengguna Internet untuk menyimpan dan
menggunakan informasi berbelanja secara daring (online). Dengan
perkembangan dunia internet yang semakin maju mendorong
penggunaan dompet elektronik sebagai alat transaksi yang lebih
efisien ketimbang menggunakan bank. ini terbukti dengan
banyaknya website-webisite e-comerce yang menggunakan dompet
elektronik sebagai alat transaksinya. Beberapa contoh yang
10
termasuk dalam kategori e-wallet adalah PayPal, Doku, Rakuten,
RekBer dan Toko Modal.
2.3 Data Mining
Pengertian data mining, berdasarkan beberapa orang:
1. Data mining (penambangan data) adalah suatu proses untuk menemukan
suatu pengetahuan atau informasi yang berguna dari data berskala besar.
Sering juga disebut segabai bagian proses KDD (Knowledge Discovery in
Databases). (Santosa, 2007).
2. Proses menemukan korelasi-korelasi penuh arti, pola-pola dan trend
dengan penyaringan melalui sejumlah data yang besar pada tempat
penyimpanan, dan menggunakan teknologi pengenalan pola seperti yang
terdapat pada teknik-teknik di statistika dan matematika (Larose, 2005).
3. Data mining adalah kegiatan menemukan pola yang menarik dari data
dalam jumlah besar, data dapat disimpan dalam database, data warehouse,
ataupenyimpanan informasi lainnya. Data mining berkaitan dengan bidang
ilmu–ilmu lain seperti database system, data warehousing, statistik,
machine learning, information retrieval, dan komputasi tingkat tinggi.
Selain itu, data mining didukung oleh ilmu lain seperti neural network,
11
pengenalan pola, spatial data analysis, image database, signal processing
(Han, et al., 2006).
4. Data mining didefinisikan sebagai proses menemukan pola-pola dalam
data. Proses ini otomatis atau seringnya semiotomatis. Pola yang
ditemukan harus penuh arti dan pola tersebut memberikan keuntungan,
biasanya keuntungan secara ekonomi. Data yang dibutuhkan dalam jumlah
besar (Witten, et al.,2005).
Karakteristik data mining sebagai berikut :
a. Data mining berhubungan dengan penemuan sesuatu yang tersembunyi
dan pola data tertentu yang tidak diketahui sebelumnya.
b. Data mining biasa menggunakan data yang sangat besar. Biasanya data
yang besar digunakan untuk membuat hasil lebih percaya.
c. Data mining berguna untuk membuat keputusan yang kritis, terutama
dalam strategi.
2.3.1 Tahap-Tahap Data Mining
Salah satu tuntutan dari data mining ketika diterapkan pada data berskala
besar adalah diperlukan metodologi sistematis tidak hanya ketika melakukan
analisa saja tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi
dari hasilnya sehingga dapat menjadi aksi ataupun keputusan yang bermanfaat.
Karenanya data mining seharusnya dikhususkan sebagai suatu proses, yang
memiliki tahapan-tahapan tertentu dan juga ada umpan balik dari setiap tahapan ke
12
tahapan sebelumnya. Pada umumnya proses data mining berjalan interaktif karena
tidak jarang hasil data mining pada awalnya tidak sesuai dengan harapan analisnya
sehingga perlu dilakukan desain ulang prosesnya.
Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa
tahap. Tahap-tahap tersebut bersifat interaktif di mana pemakai terlibat langsung
atau dengan perantaraan knowledge base.
Keterangan:
1. Pembersihan data
Gambar 2.1 Tahapan Data
13
Pembersihan data merupakan proses menghilangkan noise dan data yang
tidak konsisten atau data tidak relevan. Pada umumnya data yang diperoleh, baik
dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang
tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya
sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan
dengan hipotesa data mining yang dimiliki. Data-data yang tidak relevan itu juga
lebih baik dibuang. Pembersihan data juga akan mempengaruhi performasi dari
teknik data mining karena data yang ditangani akan berkurang jumlah dan
kompleksitasnya.
2. Integrasi data
Integrasi data merupakan penggabungan data dari berbagai database ke
dalam satu database baru. Tidak jarang data yang diperlukan untuk data mining
tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database
atau file teks. Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan
entitasentitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dan
lainnya. Integrasi data perlu dilakukan secara cermat karena kesalahan pada
integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan
pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis
produk ternyata menggabungkan produk dari kategori yang berbeda maka akan
didapatkan korelasi antar produk yang sebenarnya tidak ada.
3. Seleksi data
14
Data yang ada pada database sering kali tidak semuanya dikhususkan, oleh
karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database.
Sebagai contoh sebuah kasus yang meneliti faktor kecenderungan orang membeli
dalam kasus market basket analysis tidak perlu mengambil nama pelanggan cukup
dengan id pelanggan saja.
4. Transformasi data
Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam
data mining. Beberapa metode data mining membutuhkan format data yang khusus
sebelum bisa diaplikasikan. Sebagai contoh beberapa metode standar seperti
analisis asosiasi dan clustering hanya bisa menerima input data kategorikal.
Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi
beberapa interval. Proses ini sering disebut transformasi data. Ada beberapa jenis
transformasi data yang sering digunakan, diantaranya
Transformasi kuadrat, berarti kita mengoprasikan pangkat dua data
variablel.
Transformasi kubik, berarti kita mengoprasikan pangkat tiga pada data
variabel asli.
Transformasi akar, berarti kita mengoprasikan akar pada data variabel
asli. Berguna untuk memperbaiki data yang terdistribusi positive
skewness dan unequal variance (data tidak memenuhi asumsi
kehomogenan). Dapat digunakan untuk data persentase, jika nilainya
kebanyakan kecil maka sebaiknya gunakan transformasi akar.
15
Transformasi invers/kebalikan, melakukan oprasi balikan baik balikan
pangkat atupun tidak.
Transformasi logarima, berarti kita mengoprasikan data asli kebentuk
ligaritma. Digunakan untuk data yang terdisibusi positive skewness dan
unequel variance. Ada beberapa hal yang perlu diperhatikan, jika pada
data asli menunjukan nilai kurang dari 10 atau mendekati nol, maka
gunakan log(x+1); jika data banyak mendekati nol seperti desimal, maka
sebaiknya dikalikan 10 lalu di logaritmakan atau log(10x).
Transformasi arcsin, berarti kita mengoprasikan data asli kebentuk arcsin
(balikan sinus), disebut juga transformasi Angular yang di gunakan bila
data dinyatakan dalam bentuk persentas atau proposi biasanya memiliki
sebaran Binomial. Ada beberapa hal yang perlu diperhatikan, apabila data
asli memiliki nilai antara 30%- 70% maka tidak membutuhkan
transformasi, bila memiliki 0%-30% dan 70%-100% maka lakukan
transformasi Arcsin dan bila banyak bernilai nol maka gunakan
transformasi Arcsin akar (%+0,5).
Transformasi invers skor, digunakan dalan data yang terdapat dalam nilai
negatif dan akan menggunakan transfomasi berikutnya, berguna untuk
memperbaiki data yang terdistribusi positive skwe dan unequal variance
5. Proses mining
Merupakan suatu proses utama saat metode diterapkan untuk menemukan
pengetahuan berharga dan tersembunyi dari data.
16
6. Presentasi pengetahuan
Untuk mengidentifikasi pola-pola menarik kedalam knowledge based yang
ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang
khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada
memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa, ada
beberapa alternatif yang dapat diambil seperti menjadikannya umpan balik untuk
memperbaiki proses data mining. Mencoba metode data mining lain yang lebih
sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang
mungkin bermanfaat.
2.3.2 Manfaat Data Mining
Pemanfaatan data mining dilihat dari dua sudut pandang, yaitu sudut
pandang komersial dan sudut pandang keilmuan.
Dari sudut pandang komersial, pemanfaatan data mining dapat digunakakan
untuk menangani meledaknya volume data, dengan teknik komputasi dapat
digunakan untuk menghasilkan informasi-informasi yang di butuhkan yang
merupakan asset yang dapat meningkatkan daya saing suatu institusi.
Contohnya:
1. Bagaimana hilangnya pelanggan karena pesaingan.
2. Bagaimana mengetahui item produk atau konsumen yang memiliki
kesamaan karakteristik.
3. Bagaimana mengidentifikasi produk-produk yang terjual bersamaan dengan
produk lain.
17
4. Bagaimana memprediksi tingkat penjualan.
5. Bagaimana menilai tingkat resiko dalam menentukan jumlah produksi suatu
item.
6. Bagaimana memprediksi prilaku bisnis dimasa yang akan datang.
Dari sudut pandang keilmuan, data mining dapat digunakan untuk
mengcapture, menganalisa serta menyimpan data yang bersifat real time dan
sangat besar, misalnya:
1. Remote sensor yang ditempatkan pada suatu satelit.
2. Telescope yang digunakan untuk memindai langit.
3. Simulasi saintifik yang membangkitkan data dalam ukuran terrabytes.
2.3.3 fungsi Data Mining
fungsi-fungsi umum yang diterapkan data mining (Haskett, 2000)
1. Assosiation, adalah proses untuk menemukan aturan asosiasi antara suatu
kombinasi item dalam suatu waktu.
2. Sequence, proses untuk menemukan suatu aturan asosiasi antara suatu
kombinasi item dalam suatu waktu dan diterapkan lebih dari satu priode.
3. Clustering, adalah proses pengelompokan sejumlah data/obyek kedalam
kelompok data sehingga setiap kelompok berisi data yang mirip.
4. Classification, proses penemuan model atau fungsi yang menjelaskan atau
membedakan konsep atau kelas data dengan tujuan untuk dapat
memperkirakan kelas dari suatu obyek yang lebelnya tidak diketahui.
5. Regression, adalah proses pemetaan data dalam suatu nilai prediksi.
18
6. Forecasting, adalah proses pengestimasian nilai prediksi berdasarkan
pola-pola didalam sekumpulan data.
7. Solution, adalah penemuan akar masalah dan problem solving dari
persoalan bisnis yang dihadapi atau paling tidak sebagai informasi dalam
pengambilan keputusan.
2.3.4 Penerapan Data Mining
1. Analisa pasar dan menejemen
Sumber data yang digunakan seperti transaksi kartu kredit, kartu anggota
club tertentu, kupon diskon, keluhan pembeli, ditambah studi tentang gaya hidup
public.
Beberapa solusi yang dapat diselesaikan dengan data mining antara lain:
Menembak target pasar
Data mining dapat melakukan pengelompokan (clustering) dari model-
model pembeli dan melakukan klasifikasi terhadap setiap pembeli
sesuai dengan karakteristik yang di inginkan seperti kedudukan yang
sama, tingkat penghasilan yang sama, kebiasaan membeli dan
karakteristik lainnya.
Melihat pola pembeli pemakai dari waktu kewaktu
Data mining dapat digunakan untuk melihat pola beli dari waktu
kewaktu. Sebagai contoh, ketika seorang menikah biasa saja dia
kemudian memutusksn untuk pindah dari single account ke joint
account.
Cross market analysis
19
Kita dapat memanfaatkan untuk melihat hubungan antara penjual satu
produk dengan produk lainya.
Profil customer
Data mining dapat melihat profil customer sehingga dapat mengetahui
kelompok customer tertentu suka membeli produk apa saja.
Identifikasi kebutuhan customer
Dapat mengidentifikasi apa saja yang terbaik untuk tiap kelompok
customor dan faktor apa saja yang dapat menarik konsumen baru.
Melihat loyalitas customer
Informasi summary
Dapat digunakan untuk melihat laporan summary yang bersifat multi
dimensi dan dilengkapi dengan informasi statistic lainnya.
2. Analisa perusahaan dan menejemen resiko
Perencangan keuangan dan evaluasi asset
Data mining dapat membantu melakukan analisa dan prediksi cash flow
serta dapat melakukan contingent claim analysis untuk mengevaluasi
aset. Selain itu dapat menggunakan untuk analisis trend.
Perencanaan sumber daya
Dengan melihat ringkasan informasi serta pola pembelanjaan dan
pemasukan dari masing-masing resource. Maka dapat memanfaatkan
untuk resource planning.
Persaingan
20
Data mining dapat membantu untuk memonitor pesaing. Pesaing
dengan melihat market direction mereka. Data mining dapat juga
melakukan pengelopokan customer dan dapat memberikan variasi
harga untuk masing-masing group.
3. Telekomunikasi
Data mining melihat jutaan transaksi yang masuk, dan melihat
transaksi mana sajakah yang masih harus di tangani secara manual.
Tujuannya adalah untuk menambah layanan otomatis.
4. Keuangan
Financial Crimes Enforcement Network di Amerika Serikat baru
baru ini menggunakan data mining untuk menambang triliyunan dari
berbagai subyek seperti properti, rekening bank dan transaksi keuangan
lainnya untuk mendeteksi transaksi-transaksi mencurigakan (seperti money
laundry).
5. Asuransi
Australian Health Insurance commisison menggunakan data mining
untuk mengidentifikasi layanan kesehatan yang sebenernya tidak perlu
tetapi tetep dilakukan oleh peserta asuransi.
2.3.5 Tehnik Pembelajaran Data Mining
21
Tehnik yang digunakan dalam data mining erat kaitannya dengan’’
penemuan”(discovery) dan”pembelajaran”(learning) yang terbagi dalam tiga
metode utama pembelajaran yaitu:
a. Supervised learning
Adalah tehnik yang paling banyak di gunakan, tehnik ini sama
dengan”programming by ecample”. Tehnik ini melibatkan fase pelatihan dimana
data pelatihan historis yang karakter-karakternya di petakan kehasil-hasil yang telah
diketahui diolah dalam algoritma data mining. Proses ini melatih algoritma untuk
mengenali variabel-variabel dan nilai-nilai kunci yang nantinya akan digunakan
sebagai dasar dalam membuat perkiraan-perkiraan ketika diberikan data baru.
b. Unsupervised learning
Tehnik pembelajaran ini tidak melibatkan fase pelatihan seperti yang terdapat
pada supervised learning. Tehnik ini bergantung pada penggunaan algoritma yang
mendeteksi semua pola, seperti associations dan sequences, yang muncul dari
kriteria penting yang spesifik dalam data masukan. Pendekatan ini mengarah pada
pembuatan banyak aturan (rules) yang mengkarakterisasikan penemuan
associations, clussters, dan segments. Atutan-aturan ini kemudian dianalisis untuk
menemukan hal-hal yang penting.
c. Reinforcement learning
Tehnik pembelajaran ini jarang digunakan dibandingkan dengan dua tehnik
lainnya, namun memiliki penerapan-penerapan yang terus dioptimalkan dari waktu
kewaktu dan memiliki kontrol adaptif. Tehnik ini sangat menyerupai kehidupan
nyata yaitu seperti”on-job-training”, dimana seorang pekerja diberikan sekumpulan
22
tugas yang membutuhkan keputusan-keputusan. Pada beberapa titik waktu kelak
diberikan penilaian atas performance pekerja tersebut kemudian pekerja diminta
mengevaluasi keputusan-keputusan yang telah dibuatnya sehubungan dengan hasil
performance pekerja tersebut. Reinforcement learning sangat tepat digunakan untuk
menyelesaikan masalah-masalah yang sulit yang bergantung pada waktu.
2.3.6 Kategori Data Mining
Data mining dibagi menjadi dua kategori utama (Han dan kamber, 2006) yaitu:
a. Prediktif
Tujuan dari tugas prediktif adalah untuk memprediksi nilai dari atribut
tertentu berdasarkan pada nilai atribut-atribut lain. Atibut yang di prediksi
umumnya dikenal sebagai target atau variable tak bebas, sedangkan atribut-atribut
yang di untuk membuat prediksi dikenal sebagai explanatory atau variabel bebas.
b. Deskritif
Tujuan dari tugas deskriptif adalah untuk menurukan pola- (korelasi, trend,
cluster, teritori, dan anomali) yang meringkas hubungan yang pokok dalam data.
Tugas data mining deskriptif sering merupakan penyelidikan dan seringkali
memerlukan teknik post-procesing untuk validasi dan penjelasan hasil.
2.3.7 Kelebihan Dan Kekurangan Data Mining
Data mining mempunyai kelebihan dan kekurangan dalam mengolah data
diantaranya kekurangan dan kelebihan data mining adalah:
23
Kelebihan data mining:
1. Kemampuan dalam mengolah data dalam jumlah yang besar.
2. Pencarian data secara otomatis.
Kekurangan data mining:
1. Kendala database
2. Tidak bisa melakukan analisa sendiri
2.3.8 CRISP-DM (Cross Industry Standart Process for Data Mining)
CRISP-DM (CRoss-Industry Standard Process for Data Mining)
merupakan suatu konsorsium perusahaan yang didirikan oleh Komisi Eropa pada
tahun 1996 dan telah ditetapkan sebagai proses standar dalam data mining yang
dapat diaplikasikan di berbagai sektor industri. Berikut ini adalah gambar proses
siklus hidup pengembangan dari CRISP-DM :
Gambar 2.2 CRISP-DM
Keterangan gambar :
1. Business Understanding
24
Tahap pertama adalah memahami tujuan dan kebutuhan dari sudut
pandang bisnis, kemudian menterjemakan pengetahuan ini ke dalam pendefinisian
masalah dalam data mining. Selanjutnya akan ditentukan rencana dan strategi
untuk mencapai tujuan tersebut.
2. Data Understanding
Tahap ini dimulai dengan pengumpulan data yang kemudian akan
dilanjutkan dengan proses untuk mendapatkan pemahaman yang mendalam
tentang data, mengidentifikasi masalah kualitas data, atau untuk mendeteksi
adanya bagian yang menarik dari data yang dapat digunakan untuk hipotesa untuk
informasi yang tersembunyi.
3. Data Preparation
Tahap ini meliputi semua kegiatan untuk membangun dataset akhir (data
yang akan diproses pada tahap pemodelan/modeling) dari data mentah. Tahap ini
dapat diulang beberapa kali. Pada tahap ini juga mencakup pemilihan tabel,
record, dan atribut-atribut data, termasuk proses pembersihan dan transformasi
data untuk kemudian dijadikan masukan dalam tahap pemodelan (modeling).
4. Modeling
Dalam tahap ini akan dilakukan pemilihan dan penerapan berbagai teknik
pemodelan dan beberapa parameternya akan disesuaikan untuk mendapatkan nilai
yang optimal. Secara khusus, ada beberapa teknik berbeda yang dapat diterapkan
untuk masalah data mining yang sama. Di pihak lain ada teknik pemodelan yang
25
membutuhan format data khusus. Sehingga pada tahap ini masih memungkinan
kembali ke tahap sebelumnya.
5. Evaluation
Pada tahap ini, model sudah terbentuk dan diharapkan memiliki kualitas
baik jika dilihat dari sudut pandang analisa data. Pada tahap ini akan dilakukan
evaluasi terhadap keefektifan dan kualitas model sebelum digunakan dan
menentukan apakah model dapat mencapat tujuan yang ditetapkan pada fase awal
(Business Understanding). Kunci dari tahap ini adalah menentukan apakah ada
masalah bisnis yang belum dipertimbangkan. Di akhir dari tahap ini harus
ditentukan penggunaan hasil proses data mining.
6. Deployment
Pada tahap ini, pengetahuan atau informasi yang telah diperoleh akan
diatur dan dipresentasikan dalam bentuk khusus sehingga dapat digunakan oleh
pengguna. Tahap deployment dapat berupa pembuatan laporan sederhana atau
mengimplementasikan proses data mining yang berulang dalam perusahaan.
Dalam banyak kasus, tahap deployment melibatkan konsumen, di samping analis
data, karena sangat penting bagi konsumen untuk memahami tindakan apa yang
harus dilakukan untuk menggunakan model yang telah dibuat.
2.4 Klasifikasi
Classification (Han dan Kamber, 2006: 285) adalah sebuah model dalam
data mining dimana, classifier dikontruksi untuk memprediksi categorical lebel,
26
seperti”aman” atau “beresiko” untuk data aplikasi peminjaman uang;”ya” atau
“tidak” untuk data marketing; atau “treatment A”, “treatment B” atau “treatment
C” untuk data medis. Kategori tersebut dapat direpresentasikan dengan nilai yang
sesuai dengan kebutuhannya, dimana pengaturan dari nilai tersebut tidak memiliki
arti tertentu.
Classification dan Association rule discovery merupakan tugas yang sama
dalam data mining, dengan pengecualian bahwa tujuan utam dari klasifikasi
adalah prediksi lebel kelas, sedangkan assosiasi aturan penenemuan
mengambarkan korelasi antara item dalam database transasional. (Fadi Thabtha,
2007).
Proses data klasifikasi memiliki dua tahapan, yang pertama adalah
Learning: yaitu training data dianalisa dengan menggunakan sebuah algoritma
klasifikasi. Dan yang kedua adalah Classification: yaitu pada tahap ini test data
digunakan untuk mengestiasi ketepatan dari Classification rules. Jika keakuratan
yang dikondisikan dan yang diperkirakan data diterima, rule tersebut dapat
diaplikasikasikan pada klasifikasi lainnya dari tuple data yang baru. Vladimir
Nikulin (2008) lebih spesifik mengatakan bahwa, classification hanya bisa
diterapkan pada data training yang sangat kuat dimana diasumsikan bahwa kelas”
positif” sudah mewakili minoritas tanpa atribut umum.
2.4.1 Algoritma Naive Bayes
Algoritma Naive Bayes merupakan salah satu algoritma yang terdapat pada
teknik klasifikasi. Naive Bayes merupakan pengklasifikasian dengan metode
27
probabilitas dan statistik yang dikemukan oleh ilmuwan Inggris Thomas Bayes,
yaitu memprediksi peluang di masa depan berdasarkan pengalaman dimasa
sebelumnya sehingga dikenal sebagai Teorema Bayes. Teorema tersebut
dikombinasikan dengan Naive dimana diasumsikan kondisi antar atribut saling
bebas. Klasifikasi Naive Bayes diasumsikan bahwa ada atau tidak ciri tertentu dari
sebuah kelas tidak ada hubungannya dengan ciri dari kelas lainnya.
Persamaan dari teorema Bayes adalah :
Keterangan :
X : Data dengan class yang belum diketahui
H : Hipotesis data X merupakan suatu class spesifik
P(H|X) :Probabilitas hipotesis H berdasar kondisi X (posteriori probability)
P(H) : Probabilitas hipotesis H (prior probability)
P(X|H) : Probabilitas X berdasarkan kondisi pada hipotesis H
P(X) : Probabilitas X
Untuk menjelaskan teorema Naive Bayes, perlu diketahui bahwa proses
klasifikasi memerlukan sejumlah petunjuk untuk menentukan kelas apa yang cocok
bagi sampel yang dianalisis tersebut. Karena itu, teorema bayes di atas disesuaikan
sebagai berikut :
Dimana Variabel C merepresentasikan kelas, sementara variabel F 1... Fn
merepresentasikan karakteristik petunjuk yang dibutuhkan untuk melakukan
28
klasifikasi. Maka rumus tersebut menjelaskan bahwa peluang masuknya sampel
karakteristik tertentu dalam kelas C (Posterior) adalah peluang munculnya kelas C
(sebelum masuknya sampel tersebut, seringkali disebut prior), dikali dengan
peluang kemunculan karakteristik – karakteristik sampel pada kelas C (disebut juga
likelihood), dibagi dengan peluang kemunculan karakteristik – karakteristik sampel
secara global ( disebut juga evidence). Karena itu, rumus diatas dapat pula ditulis
secara sederhana sebagai berikut :
Posterior =
Nilai Evidence selalu tetap untuk setiap kelas pada satu sampel. Nilai dari
posterior tersebut nantinya akan dibandingkan dengan nilai – nilai posterior kelas
lainnya untuk menentukan ke kelas apa suatu sampel akan diklasifikasikan.
Penjabaran lebih lanjut rumus Bayes tersebut dilakukan dengan menjabarkan
(C|F1, ... , Fn) menggunakan aturan perkalian sebagai berikut :
Dapat dilihat bahwa hasil penjabaran tersebut menyebabkan semakin banyak
dan semakin kompleksnya faktor – faktor syarat yang mempengaruhi nilai
probabilitas, yang hampir mustahil untuk dianalisa satu persatu. Akibatnya,
perhitungan tersebut menjadi sulit untuk dilakukan. Disinilah digunakan asumsi
29
independensi yang sangat tinggi (naif), bahwa masing – masing petunjuk (F1, F2 ...
Fn) saling bebas (independen) satu sama lain.
Dengan asumsi maka berlaku suatu kesamaan sebagai berikut :
Dari persamaan diatas dapat disimpulkan bahwa asumsi independensi naif tersebut
membuat syarat peluang menjadi
sederhana, sehingga perhitungan menjadi mungkin untuk dilakukan. Selanjutnya,
penjabaran P(C|F1, ... , Fn) dapat disederhanakan menjadi :
Persamaan diatas merupakan model dari teorema Naive Bayes yang selanjutnya
akan digunakan dalam proses klasifikasi. Untuk klasifikasi dengan data kontinyu
digunakan rumus Densitas Gauss:
Keterangan :
P : Peluang
X : Atribut ke i
30
xi : Nilai atribut ke i
Y : Sub kelas Y yang dicari
yi : Sub kelas Y yang dicari
μ : Mean, menyatakan rata-rata dari seluruh atribut
σ : Deviasi standar, menyatakan varian dari seluruh atribut
Adapun alur dari metode Naive Bayes adalah sebagai berikut :
1. Baca data training
2. Hitung Jumlah dan probabilitas, namun apabila data numerik maka:
a. Cari nilai mean dan standar deviasi dari masing – masing parameter yang
merupakan data numerik.
b. Cari nilai probabilistik dengan cara menghitung jumlah data yang sesuai
dari kategori yang sama dibagi dengan jumlah data pada kategori tersebut.
3. Mendapatkan nilai dalam tabel mean, standart deviasi dan probabilitas.
31
2.4.2 Contoh Kasus Penggunaan Metode Naive Bayes
Tabel 1. Data Training
No
Jumlah
Tanggungan
Keluarga
Luas
Rumah
Pendapat
an/ bulan
Daya
Listrik
Perlengkapan
Yang Dimiliki
Penggunaan
Listrik
1 Banyak Besar Besar Sedang Banyak Tinggi
2 Banyak Besar Besar Sedang Banyak Tinggi
3 Banyak Besar Besar Sedang Banyak Tinggi
4 Banyak Besar Besar Sedang Banyak Tinggi
5 Banyak Besar Besar Sedang Banyak Tinggi
Gambar 2.3: skema naive bayes
32
6 Kecil Standar Besar Rendah Sedang Sedang
7 Kecil Besar Besar Sedang Sedang Sedang
8 Kecil Kecil Besar Sedang Sedang Sedang
9 Sedang Besar Besar Sedang Banyak Sedang
10 Sedang Besar Besar Sedang Banyak Sedang
11 Sedang Standar Besar Sedang Banyak Sedang
12 Sedang Standar Besar Sedang Banyak Sedang
13 Sedang Standar Besar Sedang Banyak Tinggi
14 Sedang Standar Besar Sedang Banyak Tinggi
15 Sedang Standar Besar Sedang Banyak Tinggi
60 Banyak Standar Kecil Sedang Banyak Sedang
Kriteria dan Probabilitas:
Adapun nilai probabilitas setiap kriteria didapatkan dari data latih pada tabel
1. Adapun nilai probabilitas setiap kriteria sebagai berikut.
1. Probabilitas Kriteria Jumlah Tanggungan
Berdasarkan data penggunaan listrik rumah tangga pada tabel 1diketahui
jumlah data latih (data training) adalah sebanyak 60 data, di mana dari 60 data
tersebut terdapat 3 data rumah tangga dengan jumlah tanggungan banyak dan
penggunaan listrik rendah, 2 data rumah tangga dengan jumlah tanggungan banyak
dan penggunaan listrik sedang, 5 data rumah tangga dengan jumlah tanggungan
banyak dan penggunaan listrik tinggi. 21 data rumah tangga dengan jumlah
tanggungan sedang dan penggunaan listrik rendah, 4 data rumah tangga dengan
jumlah tanggungan sedang dan penggunaan listrik sedang, 0 data rumah tangga
dengan jumlah tanggungan sedang dan penggunaan listrik tinggi. 9 data rumah
33
tangga dengan jumlah tanggungan sedikit dan penggunaan listrik rendah, 13 data
rumah tangga dengan jumlah tanggungan sedikit dan penggunaan listrik sedang, 3
data rumah tangga dengan jumlah tanggungan sedikit dan penggunaan listrik tinggi.
Probabilitas kriteria jumlah tanggungan dapat dilihat pada tabel 2.
Tabel 2. Probabilitas Kriteria Jumlah Tanggungan
Jumlah
Tanggungan
Jumlah Kejadian “Penggunaan
Listrik”
Probabilitas
Rendah Sedang Tinggi Rendah Sedang Tinggi
Banyak 3 2 5 0.09 0.11 0.63
Sedang 21 4 0 0.64 0.21 0.00
Sedikit 9 13 3 0.27 0.68 0.38
Jumlah 33 19 8 0.55 0.32 0.13
2. Kriteria Luas Rumah
Pada kriteria luas rumah dapat diketahui dari 60 data terdapat 7 data rumah
tangga dengan luas rumah besar dan penggunaan listrik rendah, 5 data rumah tangga
dengan luas rumah besar dan penggunaan listrik sedang, 5 data rumah tangga
dengan luas rumah besar dan penggunaan listrik tinggi. 5 data rumah tangga dengan
luas rumah standar dan penggunaan listrik rendah, 11 data rumah tangga dengan
luas rumah standar dan penggunaan listrik sedang, 3 data rumah tangga dengan luas
rumah standar dan penggunaan listrik tinggi. 21 data rumah tangga dengan luas
rumah kecil dan penggunaan listrik rendah, 3 data rumah tangga dengan luas rumah
kecil dan penggunaan listrik sedang, 0 data rumah tangga dengan luas rumah kecil
dan penggunaan listrik tinggi. Probabilitas kriteria luas rumah dapat dilihat pada
tabel 3.
34
Tabel 3. Probabilitas Kriteria Luas Rumah
Luas
Rumah
Jumlah Kejadian “Penggunaan
Listrik”
Probabilitas
Rendah Sedang Tinggi Rendah Sedang Tinggi
Besar 7 5 5 0.21 0.26 0.63
Standar 5 11 3 0.15 0.58 0.38
Kecil 21 3 0 0.64 0.16 0.00
Jumlah 33 19 8 0.55 0.32 0.13
3. Probabilitas Kriteria Pendapatan
Pada kriteria pendapatan dapat diketahui dari 60 data terdapat 0 data rumah
tangga dengan pendapatan besar dan penggunaan listrik rendah, 7 data rumah
tangga dengan pendapatan besar dan penggunaan listrik sedang, 8 data rumah
tangga dengan pendapatan besar dan penggunaan listrik tinggi. 0 data rumah tangga
dengan pendapatan sedang dan penggunaan listrik rendah, 0 data rumah tangga
dengan pendapatan sedang dan penggunaan listrik sedang, 0 data rumah tangga
dengan pendapatan sedang dan penggunaan listrik tinggi. 33 data rumah tangga
dengan pendapatan kecil dan penggunaan listrik rendah, 12 data rumah tangga
dengan pendapatan kecil dan penggunaan listrik sedang, 0 data rumah tangga
dengan pendapatan kecil dan penggunaan listrik tinggi. Probabilitas kriteria
pendapatan dapat dilihat pada tabel 4.
Tabel 4. Probabilitas Pendapatan
Pendapatan
Jumlah Kejadian “Penggunaan
Listrik”
Probabilitas
Rendah Sedang Tinggi Rendah Sedang Tinggi
Besar 0 7 8 0.00 0.37 1.00
35
Sedang 0 0 0 0.00 0.00 0.00
Kecil 33 12 0 1.00 0.63 0.00
Jumlah 33 19 8 0.55 0.32 0.13
4. Probabilitas Daya Listrik
Pada kriteria daya listrik dapat diketahui dari 60 data terdapat 0 data rumah
tangga dengan daya listrik tinggi dan penggunaan listrik rendah, 7 data rumah
tangga dengan daya listrik tinggi dan penggunaan listrik sedang, 8 data rumah
tangga dengan daya listrik tinggi dan penggunaan listrik tinggi. 0 data rumah tangga
dengan daya listrik sedang dan penggunaan listrik rendah, 0 data rumah tangga
dengan daya listrik sedang dan penggunaan listrik sedang, 0 data rumah tangga
dengan daya listrik sedang dan penggunaan listrik tinggi. 33 data rumah tangga
dengan daya listrik rendah dan penggunaan listrik rendah, 12 data rumah tangga
dengan daya listrik rendah dan penggunaan listrik sedang, 0 data rumah tangga
dengan daya listrik rendah dan penggunaan listrik tinggi. Probabilitas kriteria daya
listrik dapat dilihat pada tabel 5.
Tabel 5. Probabilitas Daya Listrik
Daya
Listrik
Jumlah Kejadian “Penggunaan
Listrik”
Probabilitas
Rendah Sedang Tinggi Rendah Sedang Tinggi
Tinggi 0 0 0 0.00 0.00 0.00
36
Sedang 21 17 8 0.64 0.89 1.00
Rendah 12 2 0 0.36 0.11 0.00
Jumlah 33 19 8 0.55 0.32 0.13
5. Probabilitas Perlengkapan
Pada kriteria perlengkapan dapat diketahui dari 60 data terdapat 0 data
rumah tangga dengan perlengkapan tinggi dan penggunaan listrik rendah, 7 data
rumah tangga dengan perlengkapan banyak dan penggunaan listrik sedang, 8 data
rumah tangga dengan perlengkapan banyak dan penggunaan listrik banyak. 0 data
rumah tangga dengan perlengkapan sedang dan penggunaan listrik rendah, 0 data
rumah tangga dengan perlengkapan sedang dan penggunaan listrik sedang, 0 data
rumah tangga dengan perlengkapan sedang dan penggunaan listrik tinggi. 33 data
rumah tangga dengan perlengkapan sedikit dan penggunaan listrik rendah, 12 data
rumah tangga dengan perlengkapan sedikit dan penggunaan listrik sedang, 0 data
rumah tangga dengan perlengkapan sedikit dan penggunaan listrik tinggi.
Probabilitas kriteria perlengkapan dapat dilihat pada tabel 6.
Tabel 6. Probabilitas Perlengkapan
Perlengkapan
Jumlah Kejadian “Penggunaan
Listrik”
Probabilitas
Rendah Sedang Tinggi Rendah Sedang Tinggi
Banyak 4 12 8 0.12 0.63 1.00
Sedang 3 3 0 0.09 0.16 0.00
Sedikit 26 4 0 0.79 0.21 0.00
Jumlah 33 19 8 0.55 0.32 0.13
37
6. Probabilitas Penggunaan Listrik
Berdasarkan tabel 1 diketahui dari 60 data penggunaan listrik terdapat 33
data rumah tangga dengan penggunaan listrik rendah, 19 data rumah tangga dengan
penggunaan listrik sedang, 8 data rumah tangga dengan penggunaan listrik tinggi.
Probabilitas kriteria penggunaan listrik dapat dilihat pada tabel 7.
Tabel 7. Probabilitas Penggunaan Listrik
Jumlah Kejadian “Penggunaan
Listrik”
Probabilitas
Rendah Sedang Tinggi Rendah Sedang Tinggi
33 19 8 0.55 0.32 0.13
Berdasarkan contoh kasus dengan menggunakan metode naive bayes pada
penelitian tentang memprediksi penggunaan listrik rumah tangga dapat ditarik
beberapa kesimpulan sebagai berikut :
1. Metode Naive Bayes memanfaatkan data training untuk menghasilkan
probabilitas setiap kriteria untuk class yang berbeda, sehingga nilai-nilai
probabilitas dari kriteria tersebut dapat dioptimalkan untuk memprediksi
penggunaan listrik berdasarkan proses klasifikasi yang dilakukan oleh metode
Naive Bayes itu sendiri.
2. Berdasarkan data rumah tangga yang dijadikan data training, metode Naive
Bayes berhasil mengklasifikasikan 47 data dari 60 data yang diuji.
38
2.4.3 Pengujian Cross Validation
Validation adalah proses untuk mengevaluasi keakuratan prediksi dari
model. Validasi digunakan untuk memperoleh prediksi menggunakan model yang
ada dan kemudian membandingkan hasil tersebut dengan hasil yang sudah
diketahui, ini mewakili langkah paling penting dalam proses membangun sebuah
model.
Cross Validation adalah teknik validasi dengan membagi data secara acak
ke dalam k bagian dan masing-masing bagian akan dilakukan proses klasifikasi.
Dalam Cross Validation, jumlah tetap khusus atau partisi dari data ditentukan
sendiri. Cara standar untuk memprediksi error rate dari teknik pembelajaran dari
sebuah sampel data tetap adalah dengan menggunakan tenfold cross validation.
Dengan tenfold cross validation, data akan dibagi secara acak menjadi 10
bagian, dimana class diwakili (kurang lebih) proporsi yang sama seperti pada
dataset yang penuh. Setiap bagian mendapatkan gilirannya dan skema pembelajaran
dilatih pada sisa sembilan persepuluh; kemudian error rate dihitung pada holdout
set. Dengan demikian, prosedur pembelajaran dilaksanakan sebanyak 10 kali di
training set yang berbeda (setiap set memiliki banyak kesamaan dengan yang lain).
Akhirnya, 10 estimasi error dirata-rata untuk menghasilkan perkiraan kesalahan
keseluruhan.
2.4.3 Evaluasi dan Validasi Klasifikasi Data Mining
Untuk melakukan evaluasi pada algoritma naïve bayes maka diilakukan
pengujian menggunakan confusion matrix.
39
Confusion Matrix
Confusion matrix memberikan keputusan yang diperoleh dalam traning
dan testing, confusion matrix memberikan penilaian performance klasifikasi
berdasarkan objek dengan benar atau salah. Confusion matrix berisi informasi
aktual (actual) dan prediksi (predicted) pada sistem klasifikasi.
Tabel 2.1: Tabel Confusion Matrix untuk 2 Kelas
Classification Predicted Class
Observed Class
Class = Yes Class = No
Class = Yes
A
(true positif – tp)
B
(false negative –
fn)
Class = No
C
(false positif – fp)
D
(true negative –
tn)
Keterangan:
a. True Positive (tp) = proporsi positif dalam data set yang diklasifikasikan
positif.
b. True Negative (tn) = proporsi negative dalam data set yang diklasifikasikan
negative.
c. False Positive (fp) = proporsi negatif dalam data set yang diklasifikasikan
potitif.
40
d. FalseNegative(fn) = proporsi negative dalam data set yang diklasifikasikan
negative
Tabel 2.2 : Tabel Confusion Matrix untuk 3 Kelas
Predicted Cla s
Class 1 Class 2 Class 3
Actual Class Class 1 Count11 Count12 Count13
Class 2 Count21 Count22 Count23
Class 3 Count31 Count32 Count33
Berikut adalah persamaan model confusion matrix untuk 3 kelas:
a. Nilai akurasi
b. Error rate
2.5 RapidMiner
RapidMiner adalah platform perangkat lunak ilmu data yang dikembangkan
oleh perusahaan bernama sama dengan yang menyediakan lingkungan terintegrasi
untuk persiapan data, pembelajaran mesin, pembelajaran dalam, penambangan
41
teks, dan analisis prediktif. Hal ini digunakan untuk bisnis dan komersial, juga
untuk penelitian, pendidikan, pelatihan, rapid prototyping, dan pengembangan
aplikasi serta mendukung semua langkah dalam proses pembelajaran mesin
termasuk persiapan data, hasil visualisasi, validasi model, dan
optimasi. RapidMiner dikembangkan pada model inti terbuka dengan RapidMiner
Studio Free Edition, yang terbatas untuk 1 prosesor logika dan 10.000 baris data,
tersedia di bawah lisensi AGPL.
RapidMiner perangakat lunak yang bersifat terbuka (open source).
RapidMiner adalah sebuah solusi untuk melakukan analisis terhadap data mining,
text mining dan analisis prediksi. RapidMiner menggunakan berbagai teknik
deskriptif dan prediksi dalam memberikan wawasan kepada pengguna sehingga
dapat membuat keputusan yang paling baik. RapidMiner memiliki kurang lebih 500
operator data mining, termasuk operator untuk input, output, data preprocessing dan
visualisasi. RapidMiner merupakan software yang berdiri sendiri untuk analisis
data dan sebagai mesin data mining yang dapat diintegrasikan pada produknya
sendiri. RapidMiner ditulis dengan munggunakan siap java sehingga dapat bekerja
di semua sistem operasi.
RapidMiner sebelumnya bernama YALE (Yet Another Learning
Environment), dimana versi awalnya mulai dikembangkan pada tahun 2001 oleh
RalfKlinkenberg, Ingo Mierswa, dan Simon Fischer di Artificial Intelligence Unit
dari University of Dortmund. RapidMiner didistribusikan di bawah lisensi AGPL
(GNU Affero General Public License) versi 3. Hingga saat ini telah ribuan aplikasi
42
yang dikembangkan mengunakan RapidMiner di lebih dari 40 negara. RapidMiner
sebagai software open source untuk data mining tidak perlu diragukan lagi karena
software ini sudah terkemuka di dunia. RapidMiner menempati peringkat pertama
sebagai Software data mining pada polling oleh KDnuggets, sebuah portal data-
mining pada 2010-2011.
RapidMiner menyediakan GUI (Graphic User Interface) untuk merancang
sebuah pipeline analitis. GUI ini akan menghasilkan file XML (Extensible Markup
Language) yang mendefenisikan proses analitis keingginan pengguna untuk
diterpkan ke data. File ini kemudian dibaca oleh RapidMiner untuk menjalankan
analis secara otomatis.
RapidMiner memiliki beberapa sifat sebagai berikut:
a. Ditulis dengan siap pemrograman Java sehingga dapat dijalankan di berbagai
sistem operasi.
b. Proses penemuan pengetahuan dimodelkan sebagai operator trees.
c. Representasi XML internal untuk memastikan format standar pertukaran data.
d. Siap scripting memungkinkan untuk eksperimen skala besar dan otomatisasi
eksperimen.
e. Konsep multi-layer untuk menjamin tampilan data yang efisien dan menjamin
penanganan data.
f. Memiliki GUI, command line mode, dan Java API yang dapat memanggil dari
program lain.
Beberapa Fitur dari RapidMiner, antara lain:
43
Tool = Rapidminer
Data = Trening
Metode = Algoritma naive bayes
clasification
Exsperimen
a. Banyaknya algoritma data mining, seperti decision treee dan self-organization
map.
b. Bentuk grafis yang canggih, seperti tumpang tindih diagram histogram, tree
chart dan 3D Scatter plots.
c. Banyaknya variasi plu gin, seperti text plugin untuk melakukan analisis teks.
d. Menyediakan prosedur data mining dan machine learning termasuk: ETL
(extraction, transformation, loading), data preprocessing, visualisasi, modelling
dan evaluasi
e. Proses data mining tersusun atas operator-operator yang nestable,
dideskrtidakikan dengan XML, dan dibuat dengan GUI.
f. Mengintegrasikan proyek data mining Weka dan statistika R.
2.6 Kerangka Pemikiran
Kerangka pikiran merupakan suatu bentuk proses dari keseluruhan bentuk
proses penelitian, yang di perlukan oleh penulis untuk membuat suatu gambaran
secara singkat sebagai alur dalam penyusunan laporan dengan kerangka pemikiran
sebagai berikut:
Adanya pemilihan jenis
pembayaran
Masalah
Tindakan
Menentukan jenis pembayaran yang
digunakan
44
Gambar 2.3 Kerangka pikiran
Pengelompokan jenis
pembayaran yang banyak
digunakan
Hasil
BAB III
METODE PENELITIAN
3.1 Objek Penelitian
3.2 Pengumpulan Data
45
BAB V
HASIL DAN PEMBAHASAN
4.1 Hasil
4.2 Pembahasan
46
BAB V
KESIMPULAN
5.1 Kesimpulan
Uraikan kesimpulan disini
5.2 Saran
Uraikan saran disini
47
DAFTAR PUSTAKA
Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From data mining to
knowledge discovery in databases. AI Magazine, 37–54.
http://doi.org/10.1145/240455.240463
Witten, I. H., & Frank, E. (2011). Data Mining: Practical Machine Learning Tools
and Techniques. Elsevier, San Francisco, 3 edition, 629.
http://doi.org/0120884070, 9780120884070
Untuk membuat daftar pustaka atau melakukan sitasi, sebaiknya gunakan software
mendeley, bisa di unduh di http://www.medeley.com
48
LAMPIRAN
PENJELASAN MENGENAI TEMPLATE LAPORAN SKRIPSI
Template ini dibuat untuk memudahkan mahasiswa yang sedang akan/sedang
menyusun naskah laporan Skripsi sehingga dapat sesuai dengan format penulisan
yang sesuai. Penggunaan template ini sangatlah mudah, anda hanya tinggal
mengganti teks yang ada disesuaikan dengan naskah yang anda buat dengan
memperhatikan style atau formatting yang digunakan. Sebelum menggunakan
template ini, sangat disarankan anda untuk mempelajari terlebih dahulu mengenai
beberapa fasilitas yang ada pada MS Word seperti style and formatting dan
reference sehingga dapat melakukan penyuntingan secara lebih efektif. Manfaatan
fasilitas yang ada MS Word 2013 atau 2016 untuk membantu anda dalam
mempelajari fasilitas tersebut di atas.
Beberapa keuntungan yang bisa diperoleh dengan menggunakan template ini antara
lain konsistensi format penulisan pada keseluruhan naskah, kemudahan dalam
pemberian judul beserta pengacuan tabel dan gambar, serta otomatisasi dalam
pembuatan daftar isi, daftar tabel dan daftar gambar. Diharapkan dengan
menggunakan template ini mahasiswa dapat menyusun naskah laporan TA dengan
lebih efektif dan efisien, sekaligus juga dapat meningkatkan ketrampilan
mahasiswa dalam menggunakan peranti lunak pengolah kata, khususnya MS Word.
Jika terdapat pertanyaan ataupun masukan mengenai template ini dapat dikirimkan
ke email: agung@pelitabangsa.ac.id. Telegram: @agung_n
Terimakasih.,semoga bermanfaat.
49
50