PENERAPAN DATA MINING CLASSIFICATION UNTUK TREN …

PENERAPAN DATA MINING CLASSIFICATION UNTUK TREN JENIS

PEMBAYARAN MEMBER STORE SALES POINT ALFAMART DI

CABANG KARAWANG MENGUNAKAN METODE NAÏVE BAYES

SKRIPSI

Oleh:

YURI EKA AGUSTA

311410290

TEKNIK INFORMATIKA

SEKOLAH TINGGI TEKNOLOGI PELITA BANGSA

BEKASI

2018


PEMBAYARAN MEMBER STORE SALES POINT ALFAMART DI

CABANG KARAWANG MENGUNAKAN METODE NAÏVE BAYES

SKRIPSI

Diajukan Sebagai Salah Satu Syarat Untuk Menyelesaikan

Program Sarjana pada Program Studi Teknik Informatika

Oleh:

YURI EKA AGUSTA

311410290

TEKNIK INFORMATIKA

SEKOLAH TINGGI TEKNOLOGI PELITA BANGSA

BEKASI

2018

PERSETUJUAN

i

PENGESAHAN

ii

KATA PENGANTAR

Puji syukur penulis panjatkan ke hadiran Allah SWT. yang telah

melimpahkan segala rahmat dan hidayah-Nya, sehingga tersusunlah Skripsi yang

berjudul “PENERAPAN DATA MINING CLASSIFICATION UNTUK TREN

JENIS PEMBAYARAN MEMBER STORE SALES POINT ALFAMART DI

CABANG KARAWANG MENGUNAKAN METODE NAÏVE BAYES”.

Skripsi tersusun dalam rangka melengkapi salah satu persyaratan dalam

rangka menempuh ujian akhir untuk memperoleh gelar Sarjana Komputer (S.Kom.)

pada Program Studi Teknik Informatika di Sekolah Tinggi Teknologi Pelita Bangsa.

Penulis sungguh sangat menyadari, bahwa penulisan Skripsi ini tidak akan

terwujud tanpa adanya dukungan dan bantuan dari berbagai pihak. Sudah

selayaknya, dalam kesempatan ini penulis menghaturkan penghargaan dan ucapan

terima kasih yang sebesar-besarnya kepada:

a. Bapak Dr. Ir. Suprianto, M.P selaku Ketua STT Pelita Bangsa

b. Bapak Aswan S. Sunge, S.E., M.Kom selaku ketua Program Studi Tehnik

Informatika STT Pelita Bangsa.

c. Bapak Abdul Halim Anshor S.Kom, M.Kom dan Bapak Ahmad Aguswin,

S.T., M.M. selaku dosen pembimbing satu dan dua.

d. Seluruh Dosen STT Pelita Bangsa yang telah membekali penulis dengan

wawasan dan ilmu di bidang teknik informatika.

e. Seluruh staf STT Pelita Bangsa yang telah memberikan pelayanan terbaiknya

kepada penulis selama perjalanan studi jenjang Strata 1.

f. Rekan-rekan mahasiswa STT Pelita Bangsa, khususnya angkatan 2014, yang

telah banyak memberikan inspirasi dan semangat kepada penulis untuk dapat

menyelesaikan studi jenjang Strata 1.

g. Ibu dan Ayah tercinta yang senantiasa mendo’akan dan memberikan semangat

dalam perjalanan studi Strata 1 maupun dalam kehidupan penulis.

v

Akhir kata, penulis mohon maaf atas kekeliruan dan kesalahan yang terdapat

dalam Skripsi ini dan berharap semoga Skripsi ini dapat memberikan manfaat bagi

khasanah pengetahuan Teknologi Informasi di lingkungan STT Pelita Bangsa

khususnya dan Indonesia pada umumnya.

Bekasi, November 2018

Penulis

vi

DAFTAR ISI

PERSETUJUAN ...................................................................................................... i

PENGESAHAN ...................................................................................................... ii

PERNYATAAN KEASLIAN PENELITIAN ....................................................... iv

KATA PENGANTAR..............................................................................................v

DAFTAR ISI ......................................................................................................... vii

DAFTAR TABEL .................................................................................................. ix

DAFTAR GAMBAR ...............................................................................................x

ABSTRACT ........................................................................................................... xi

ABSTAKSI ........................................................................................................... xii

BAB I PENDAHULUAN ........................................................................................1

1.1 Latar Belakang ...........................................................................................1

1.2 Identifikasi Masalah ..................................................................................2

1.3 Rumusan Masalah......................................................................................2

1.4 Batasan Masalah ........................................................................................2

1.5 Tujuan dan Manfaat ...................................................................................3

1.5.1 Tujuan ................................................................................................3

1.5.2 Manfaat ..............................................................................................3

1.6 Sistematika Penulisan ................................................................................4

vii

BAB II TINJAUAN PUSTAKA ..............................................................................6

2.1 Kajian Pustaka ....................................... Error! Bookmark not defined.

2.2 Dasar Teori ............................................ Error! Bookmark not defined.

2.2.1 Data Mining.................................... Error! Bookmark not defined.

2.2.2 Contoh penulisan label untuk table.. Error! Bookmark not defined.

2.3 Kerangka Berfikir .................................. Error! Bookmark not defined.

BAB III METODE PENELITIAN.........................................................................45

3.1 Objek Penelitian ......................................................................................45

3.2 Pengumpulan Data ...................................................................................45

BAB V HASIL DAN PEMBAHASAN .................................................................46

4.1 Hasil .........................................................................................................46

4.2 Pembahasan .............................................................................................46

BAB V KESIMPULAN .........................................................................................47

5.1 Kesimpulan ..............................................................................................47

5.2 Saran ........................................................................................................47

DAFTAR PUSTAKA ............................................................................................48

LAMPIRAN ...........................................................................................................49

viii

DAFTAR TABEL

Tabel 0.1 contoh tabel.......................................... Error! Bookmark not defined.

Tabel 0.2contoh 2 ................................................ Error! Bookmark not defined.

ix

DAFTAR GAMBAR

Gambar 1Gambar Insert Caption.......................... Error! Bookmark not defined.

Gambar 2Caption Dialog ..................................... Error! Bookmark not defined.

Gambar 3 Contoh Gambar ................................... Error! Bookmark not defined.

Gambar 4Gambar dua .......................................... Error! Bookmark not defined.

x

ABSTRACT

Abstract in English here….

Keyworad:

xi

ABSTRAK

Abstrak dalam Bahasa Indonesia disini….

Kata kunci:

xii

BAB I

PENDAHULUAN

1.1 Latar Belakang

Dalam rangka membangun usaha para pelaku Usaha Mikro Kecil Menengah

(UMKM) Alfamart memberikan program Store Sales Point. Program ini

memberikan kemudahan pemilik usaha warung untuk mencukupi kebutuhan barang

dagangannya dengan harga khusus dan pedagang akan mendapatkan kartu member

khusus. Pembelian dilakukan dengan cara pemesanan melalui Alfa Mikro Aplikasi

(AMA).

Pembayaran merupakan salah satu aktivitas penting pada setiap transaksi dalam

kegiatan ekonomi. Dengan perkembangan teknologi yang semakin pesat, semakin

banyak dan semakin besarnya nilai transaksi serta risiko, dibutuhkan adanya sistem

pembayaran dan alat pembayaran yang cepat, lancar dan aman. Keberhasilan sistem

pembayaran akan dapat mendukung perkembangan sistem keuangan dan

perbankan. Sebaliknya ketidaklancaran atau kegagalan sistem pembayaran akan

memberikan dampak yang kurang baik pada kestabilan perekonomian.

Pada saat ini pembayaran barang dagangan oleh member Store Sales Point

adalah dengan 2 cara yaitu sistem pembayaran tunai dan sistem pembayaran non

tunai. Sistem pembayaran non tunai menggunakan dana pinjaman dari pihak ke tiga

yaitu Toko Modal, dengan sistem jangka waktu pembayaran yang telah ditentukan

oleh pihak Store Sales Point.

1

2

Dari latar belakang tersebut maka penulis memfokuskan pada pola pembayaran

yang dilakukan oleh member Store Sales Point sebagai skripsi dengan judul :


PEMBAYARAN MEMBER STORE SALES POINT ALFAMART DI CABANG

KARAWANG MENGUNAKAN METODE NAÏVE BAYES

1.2 Identifikasi Masalah

Dari permasalahan yang ada penulis mengidentifikasikan beberapa

permasalahan, sebagai berikut;

a. Belum adanya metode yang digunakan untuk menentukan apakah program

jenis pembayaran non tunai efektif atau tidak.

b. Melihat perkembangan jenis sistem pembayaran yang dilakukan oleh

Member Store Sales Point.

1.3 Rumusan Masalah

Berdasarkan uraian latar belakang di atas, diperoleh rumusan masalah yaitu

bagaimana menggunakan metode naive bayes sehingga mampu menjadi pendukung

keputusan yang dapat berguna dalam menentukan pola pembayaran Member Store

Sales Point.

1.4 Batasan Masalah

Sebagaimana disebutkan dalam latar belakang ada beberapa permsalahan yang

di analisa penulis. Ruang lingkup permasalahan di atas perlu adanya suatu batasan

untuk memberikan kemudahan dalam praktek di lapangan.

Batasan masalah tersebut sebagai berikut :

3

Algoritma yang di khususkan adalah Naïve Bayes guna menentukan tren

jenis pembayaran yang dilakukan oleh Member Store Sales Point Alfamart

cabang Karawang.

Parameter yang digunakan adalah kepuasan pelanggan, sehinga dapat

melihat perkembangan jenis pembayaran yang di inginkan.

1.5 Tujuan dan Manfaat

1.5.1 Tujuan

Berdasarkan rumusan masalah yang di uraikan di atas, maka tujuan dari

penelitian ini adalah menerapkan algoritma klasifikasi naive bayes untuk melihat

perkembangan jenis pembayaran yang di inginkan oleh member Store Sales Point

Alfamart di Cabang Karawang.

1.5.2 Manfaat

Manfaat dari penelitian ini diantaranya adalah :

a. Manfaat bagi Akademik

Penelitian ini dapat memberikan informasi bagi peneliti atau calon peneliti

lain untuk menerapkannya kedalam sistem yang lebih luas dan lebih

kompleks atau sebagai bahan acuan yang dapat di kembangkan bagi

kemungkinan pengembang konsep materi lebih lanjut serta dapat

melengkapi referensi pustaka Akademik.

b. Manfaat bagi Perusahaan

Membantu perusahaan dalam melihat pola perilaku member – member

Store Sales Point dalam hal pembayaran, memberikan kemudahan bagi

4

perusahaan dalam menentukan jenis pembayaran yang banyak digunakan

oleh member Store Sales Point Alfamart di Cabang Karawang.

c. Manfaat bagi member Store Sales Point

Memberikan kemudahan kepada konsumen untuk memilih jenis

pembayaran.

d. Manfaat bagi penulis

Sebagai sarana untuk menambah wawasan pengetahuan serta pengalaman

tentang penggunaan metode naive bayes dalam sistem pendukung

keputusan serta sebagai sarana untuk mengaplikasikan ilmu yang

didapatkan selama mengikuti perkuliahan.

1.6 Sistematika Penulisan

Untuk mempermudah dalam penyusunan laporan tugas akhir ini, adapun sistem

penulisan dikelompokkan dalam beberapa bab, yang masing-masing diuraikan

sebagai berikut:

BAB I PENDAHULUAN

Bab ini membahas mengenai latar belakang masalah, rumusan masalah,

batasan masalah, tujuan penelitian, manfaat penelitian serta sistematika

penulisan.

BAB II LANDASAN TEORI

Bab ini membahas mengenai penelitian terkait, Data Mining, Rapidminer,

Kerangka pemikiran dan teori-teori pendukung lainnya.

BAB III METODE PENELITIAN

5

Bab ini membahas langkah-langkah yang dilaksanankan dalam proses

penelitian pengumpulan data (observasi, wawan cara, studi pustaka),

algoritma naive bayes clasification.

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

Bab ini menjelaskan uraian panjang lebar mengenai penelitan yang dibuat

mengenai hasil dan pembahasan.

BAB V PENUTUP

Bab ini membahas kesimpulan yang diambil dari hasil penelitian dan

penulisan skripsi ini, serta saran-saran untuk pengembangan selanjutnya,

agar dapat dilakukan perbaikan dimasa yang akan datang.

BAB II

LANDASAN TEORI

2.1 Pengertian Sistem Pembayaran

Sistem yang mencakup seperangkat aturan, lembaga dan mekanisme yang

digunakan untuk melaksanakan pemindahan dana guna memenuhi suatu kewajiban

yang timbul dari suatu kegiatan ekonomi.[1] Sistem Pembayaran merupakan sistem

yang berkaitan dengan pemindahan sejumlah nilai uang dari satu pihak ke pihak

lain. Media yang digunakan untuk pemindahan nilai uang tersebut sangat beragam,

mulai dari penggunaan alat pembayaran yang sederhana sampai pada penggunaan

sistem yang kompleks dan melibatkan berbagai lembaga berikut aturan mainnya.

2.2 Jenis – Jenis Alat Pembayaran

Secara umum, alat pembayaran dapat dibedakan menjadi dua jenis yaitu alat

pembayaran tunai dan non tunai. Masing-masing alat pembayaran tunai dan non

tunai. Masing – masing alat pembayaran ini memiliki kelebihan dan kekurangan

tersendiri. Alat pembayaran kelebihannya dapat dipergunakan dalam melakukan

transaksi dimanapun dan kapanpun, tetapi kekurangannya ialah sulit dibawa dalam

jumlah yang besar untuk melakukan kegiatan transaksi. Sedangkan alat

pembayaran non tunai kelebihannya mudah dibawa dalam julah yang besar, simple

dan praktis, namun kekurangannya ialah belum tentu dapat dipergunakan pada

toko-toko berskala kecil dalam melakukan kegiatan transaksi pembayaran. Berikut

ini penjelasan lengkapnya :

6

7

a. Alat pembayaran tunai

Alat pembayaran tunai dapat dilakukan menggunkan uang baik jenis uang

kertas mapun logam. Dalam peredarannya di masyarakat, uang yang

tersedia ada dalam berbagai jenis pecahan yang berfungsi untuk

memudahkan dalam kegiatan bertransaksi. Agar kebutuhan uang tunai dapat

terpenuhi di masyarakat, maka sangat perlu dilakukan empat kegiatan yang

strategis dalam menangani uang tunai.

b. Alat pembayaran nontunai

Secara umum alat pembayaran nontunai dapat digolongkan menjadi dua

kelompok yaitu alat pembayaran untuk credit transfer dan debit transfer.

Perbedaan yang mendasar antara credit transfer dan debit transfer terletak

pada perintah pengiriman uang. Berdasarkan terminology yang dibuat oleh

Bank Of International Settlement (BIS), credit transfer adalah perintah

pembayaran untuk tujuan penempatan dana dari pengirim ke penerima dan

dimungkinkan melalui bank lain sebagai perantaranya. Sedangkan debit

transfer adalah sistem transfer dana saat perintah transfer dibuat atau

diotorisasi oleh pihak yang memiliki dana dan akan melakukan pengiriman

dana tersebut kepada pihak lain. Berikut ini jenis – jenis alat pembayaran

nontunai :

Cek

Cek adalah surat perintah tidak bersyarat untuk membayar sejumlah

dana yang tercantum dalam cek.

8

Bilyet Giro

Bilyet Giro adalah surat perintah dari nasabah kepada bank

penyimpan dana untuk memindahkan bukukan sejumlah dana dari

rekening yang bersangkutan kepada rekening pemegang yang

disebutkan namanya.

Kartu ATM/Debit

Kartu ATM/Debit adalah kartu pembayaran menggunakan kartu

yang digunakan untuk melakukan penarikan tunai, pemindahan

dana, melakukan pembayaran, transaksi belanja, dan lain

sebagainya.

Kartu Kredit

Kartu kredit pada dasarnya merupakan alat pembayaran yang

memiliki prinsip “buy now pay later”, atau dalam Bahasa

indonesianya memiliki arti beli sekarang bayar kemudian (nanti),

dimana pada saat transaksi kewajiban pemegang kartu ditalangi

terlebih dahulu oleh penerbit kartu kredit. Pemegang kartu kemudian

dapat melunasi pembayaran kepada penerbit kartu kredit

berdasarkan waktu yang disepakati antara pemegang kartu kredit

dan penerbit, misalnya perbulan atau pertahun.

Uang Elektronik (E-money)

9

Secara sederhana, uang elektronik dapat didefinisikan sebagai alat

pembayaran dalam bentuk elektronik tertentu. Walaupun memuat

karakteristik yang sedikit berbeda dengan instrument pembayaran

lainnya seperti kartu kredit dan kartu ATM/Debit, namun

penggunaan instrument ini tetap sama dengan kartu kredit dan kartu

ATM/Debit yakni ditujukan sebagai alat pembayaran.

Sistem Transfer BI-RTGS

Sistem Bank Indonesia Real Time Gross Stettlement (BI-RTGS)

ialah suatu sistem transfer dana elektronik antarpeserta dalam mata

uang rupiah yang penyelesaiannya dilakukan secara seketika

pertransaksi secara individual.

Sistem Dompet Elektronik (E-Wallet)

Dompet elektronik berfungsi hampir sama dengan dompet saku.

Dompet elektronik pertama kalinya diakui sebagai sebuah metode

untuk menyimpan uang dalam bentuk elektronik, namun kemudian

menjadi populer karena cocok untuk menyediakan cara yang

nyaman bagi pengguna Internet untuk menyimpan dan

menggunakan informasi berbelanja secara daring (online). Dengan

perkembangan dunia internet yang semakin maju mendorong

penggunaan dompet elektronik sebagai alat transaksi yang lebih

efisien ketimbang menggunakan bank. ini terbukti dengan

banyaknya website-webisite e-comerce yang menggunakan dompet

elektronik sebagai alat transaksinya. Beberapa contoh yang

10

termasuk dalam kategori e-wallet adalah PayPal, Doku, Rakuten,

RekBer dan Toko Modal.

2.3 Data Mining

Pengertian data mining, berdasarkan beberapa orang:

1. Data mining (penambangan data) adalah suatu proses untuk menemukan

suatu pengetahuan atau informasi yang berguna dari data berskala besar.

Sering juga disebut segabai bagian proses KDD (Knowledge Discovery in

Databases). (Santosa, 2007).

2. Proses menemukan korelasi-korelasi penuh arti, pola-pola dan trend

dengan penyaringan melalui sejumlah data yang besar pada tempat

penyimpanan, dan menggunakan teknologi pengenalan pola seperti yang

terdapat pada teknik-teknik di statistika dan matematika (Larose, 2005).

3. Data mining adalah kegiatan menemukan pola yang menarik dari data

dalam jumlah besar, data dapat disimpan dalam database, data warehouse,

ataupenyimpanan informasi lainnya. Data mining berkaitan dengan bidang

ilmu–ilmu lain seperti database system, data warehousing, statistik,

machine learning, information retrieval, dan komputasi tingkat tinggi.

Selain itu, data mining didukung oleh ilmu lain seperti neural network,

11

pengenalan pola, spatial data analysis, image database, signal processing

(Han, et al., 2006).

4. Data mining didefinisikan sebagai proses menemukan pola-pola dalam

data. Proses ini otomatis atau seringnya semiotomatis. Pola yang

ditemukan harus penuh arti dan pola tersebut memberikan keuntungan,

biasanya keuntungan secara ekonomi. Data yang dibutuhkan dalam jumlah

besar (Witten, et al.,2005).

Karakteristik data mining sebagai berikut :

a. Data mining berhubungan dengan penemuan sesuatu yang tersembunyi

dan pola data tertentu yang tidak diketahui sebelumnya.

b. Data mining biasa menggunakan data yang sangat besar. Biasanya data

yang besar digunakan untuk membuat hasil lebih percaya.

c. Data mining berguna untuk membuat keputusan yang kritis, terutama

dalam strategi.

2.3.1 Tahap-Tahap Data Mining

Salah satu tuntutan dari data mining ketika diterapkan pada data berskala

besar adalah diperlukan metodologi sistematis tidak hanya ketika melakukan

analisa saja tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi

dari hasilnya sehingga dapat menjadi aksi ataupun keputusan yang bermanfaat.

Karenanya data mining seharusnya dikhususkan sebagai suatu proses, yang

memiliki tahapan-tahapan tertentu dan juga ada umpan balik dari setiap tahapan ke

12

tahapan sebelumnya. Pada umumnya proses data mining berjalan interaktif karena

tidak jarang hasil data mining pada awalnya tidak sesuai dengan harapan analisnya

sehingga perlu dilakukan desain ulang prosesnya.

Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa

tahap. Tahap-tahap tersebut bersifat interaktif di mana pemakai terlibat langsung

atau dengan perantaraan knowledge base.

Keterangan:

1. Pembersihan data

Gambar 2.1 Tahapan Data

13

Pembersihan data merupakan proses menghilangkan noise dan data yang

tidak konsisten atau data tidak relevan. Pada umumnya data yang diperoleh, baik

dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang

tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya

sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan

dengan hipotesa data mining yang dimiliki. Data-data yang tidak relevan itu juga

lebih baik dibuang. Pembersihan data juga akan mempengaruhi performasi dari

teknik data mining karena data yang ditangani akan berkurang jumlah dan

kompleksitasnya.

2. Integrasi data

Integrasi data merupakan penggabungan data dari berbagai database ke

dalam satu database baru. Tidak jarang data yang diperlukan untuk data mining

tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database

atau file teks. Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan

entitasentitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dan

lainnya. Integrasi data perlu dilakukan secara cermat karena kesalahan pada

integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan

pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis

produk ternyata menggabungkan produk dari kategori yang berbeda maka akan

didapatkan korelasi antar produk yang sebenarnya tidak ada.

3. Seleksi data

14

Data yang ada pada database sering kali tidak semuanya dikhususkan, oleh

karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database.

Sebagai contoh sebuah kasus yang meneliti faktor kecenderungan orang membeli

dalam kasus market basket analysis tidak perlu mengambil nama pelanggan cukup

dengan id pelanggan saja.

4. Transformasi data

Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam

data mining. Beberapa metode data mining membutuhkan format data yang khusus

sebelum bisa diaplikasikan. Sebagai contoh beberapa metode standar seperti

analisis asosiasi dan clustering hanya bisa menerima input data kategorikal.

Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi

beberapa interval. Proses ini sering disebut transformasi data. Ada beberapa jenis

transformasi data yang sering digunakan, diantaranya

Transformasi kuadrat, berarti kita mengoprasikan pangkat dua data

variablel.

Transformasi kubik, berarti kita mengoprasikan pangkat tiga pada data

variabel asli.

Transformasi akar, berarti kita mengoprasikan akar pada data variabel

asli. Berguna untuk memperbaiki data yang terdistribusi positive

skewness dan unequal variance (data tidak memenuhi asumsi

kehomogenan). Dapat digunakan untuk data persentase, jika nilainya

kebanyakan kecil maka sebaiknya gunakan transformasi akar.

15

Transformasi invers/kebalikan, melakukan oprasi balikan baik balikan

pangkat atupun tidak.

Transformasi logarima, berarti kita mengoprasikan data asli kebentuk

ligaritma. Digunakan untuk data yang terdisibusi positive skewness dan

unequel variance. Ada beberapa hal yang perlu diperhatikan, jika pada

data asli menunjukan nilai kurang dari 10 atau mendekati nol, maka

gunakan log(x+1); jika data banyak mendekati nol seperti desimal, maka

sebaiknya dikalikan 10 lalu di logaritmakan atau log(10x).

Transformasi arcsin, berarti kita mengoprasikan data asli kebentuk arcsin

(balikan sinus), disebut juga transformasi Angular yang di gunakan bila

data dinyatakan dalam bentuk persentas atau proposi biasanya memiliki

sebaran Binomial. Ada beberapa hal yang perlu diperhatikan, apabila data

asli memiliki nilai antara 30%- 70% maka tidak membutuhkan

transformasi, bila memiliki 0%-30% dan 70%-100% maka lakukan

transformasi Arcsin dan bila banyak bernilai nol maka gunakan

transformasi Arcsin akar (%+0,5).

Transformasi invers skor, digunakan dalan data yang terdapat dalam nilai

negatif dan akan menggunakan transfomasi berikutnya, berguna untuk

memperbaiki data yang terdistribusi positive skwe dan unequal variance

5. Proses mining

Merupakan suatu proses utama saat metode diterapkan untuk menemukan

pengetahuan berharga dan tersembunyi dari data.

16

6. Presentasi pengetahuan

Untuk mengidentifikasi pola-pola menarik kedalam knowledge based yang

ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang

khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada

memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa, ada

beberapa alternatif yang dapat diambil seperti menjadikannya umpan balik untuk

memperbaiki proses data mining. Mencoba metode data mining lain yang lebih

sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang

mungkin bermanfaat.

2.3.2 Manfaat Data Mining

Pemanfaatan data mining dilihat dari dua sudut pandang, yaitu sudut

pandang komersial dan sudut pandang keilmuan.

Dari sudut pandang komersial, pemanfaatan data mining dapat digunakakan

untuk menangani meledaknya volume data, dengan teknik komputasi dapat

digunakan untuk menghasilkan informasi-informasi yang di butuhkan yang

merupakan asset yang dapat meningkatkan daya saing suatu institusi.

Contohnya:

1. Bagaimana hilangnya pelanggan karena pesaingan.

2. Bagaimana mengetahui item produk atau konsumen yang memiliki

kesamaan karakteristik.

3. Bagaimana mengidentifikasi produk-produk yang terjual bersamaan dengan

produk lain.

17

4. Bagaimana memprediksi tingkat penjualan.

5. Bagaimana menilai tingkat resiko dalam menentukan jumlah produksi suatu

item.

6. Bagaimana memprediksi prilaku bisnis dimasa yang akan datang.

Dari sudut pandang keilmuan, data mining dapat digunakan untuk

mengcapture, menganalisa serta menyimpan data yang bersifat real time dan

sangat besar, misalnya:

1. Remote sensor yang ditempatkan pada suatu satelit.

2. Telescope yang digunakan untuk memindai langit.

3. Simulasi saintifik yang membangkitkan data dalam ukuran terrabytes.

2.3.3 fungsi Data Mining

fungsi-fungsi umum yang diterapkan data mining (Haskett, 2000)

1. Assosiation, adalah proses untuk menemukan aturan asosiasi antara suatu

kombinasi item dalam suatu waktu.

2. Sequence, proses untuk menemukan suatu aturan asosiasi antara suatu

kombinasi item dalam suatu waktu dan diterapkan lebih dari satu priode.

3. Clustering, adalah proses pengelompokan sejumlah data/obyek kedalam

kelompok data sehingga setiap kelompok berisi data yang mirip.

4. Classification, proses penemuan model atau fungsi yang menjelaskan atau

membedakan konsep atau kelas data dengan tujuan untuk dapat

memperkirakan kelas dari suatu obyek yang lebelnya tidak diketahui.

5. Regression, adalah proses pemetaan data dalam suatu nilai prediksi.

18

6. Forecasting, adalah proses pengestimasian nilai prediksi berdasarkan

pola-pola didalam sekumpulan data.

7. Solution, adalah penemuan akar masalah dan problem solving dari

persoalan bisnis yang dihadapi atau paling tidak sebagai informasi dalam

pengambilan keputusan.

2.3.4 Penerapan Data Mining

1. Analisa pasar dan menejemen

Sumber data yang digunakan seperti transaksi kartu kredit, kartu anggota

club tertentu, kupon diskon, keluhan pembeli, ditambah studi tentang gaya hidup

public.

Beberapa solusi yang dapat diselesaikan dengan data mining antara lain:

Menembak target pasar

Data mining dapat melakukan pengelompokan (clustering) dari model-

model pembeli dan melakukan klasifikasi terhadap setiap pembeli

sesuai dengan karakteristik yang di inginkan seperti kedudukan yang

sama, tingkat penghasilan yang sama, kebiasaan membeli dan

karakteristik lainnya.

Melihat pola pembeli pemakai dari waktu kewaktu

Data mining dapat digunakan untuk melihat pola beli dari waktu

kewaktu. Sebagai contoh, ketika seorang menikah biasa saja dia

kemudian memutusksn untuk pindah dari single account ke joint

account.

Cross market analysis

19

Kita dapat memanfaatkan untuk melihat hubungan antara penjual satu

produk dengan produk lainya.

Profil customer

Data mining dapat melihat profil customer sehingga dapat mengetahui

kelompok customer tertentu suka membeli produk apa saja.

Identifikasi kebutuhan customer

Dapat mengidentifikasi apa saja yang terbaik untuk tiap kelompok

customor dan faktor apa saja yang dapat menarik konsumen baru.

Melihat loyalitas customer

Informasi summary

Dapat digunakan untuk melihat laporan summary yang bersifat multi

dimensi dan dilengkapi dengan informasi statistic lainnya.

2. Analisa perusahaan dan menejemen resiko

Perencangan keuangan dan evaluasi asset

Data mining dapat membantu melakukan analisa dan prediksi cash flow

serta dapat melakukan contingent claim analysis untuk mengevaluasi

aset. Selain itu dapat menggunakan untuk analisis trend.

Perencanaan sumber daya

Dengan melihat ringkasan informasi serta pola pembelanjaan dan

pemasukan dari masing-masing resource. Maka dapat memanfaatkan

untuk resource planning.

Persaingan

20

Data mining dapat membantu untuk memonitor pesaing. Pesaing

dengan melihat market direction mereka. Data mining dapat juga

melakukan pengelopokan customer dan dapat memberikan variasi

harga untuk masing-masing group.

3. Telekomunikasi

Data mining melihat jutaan transaksi yang masuk, dan melihat

transaksi mana sajakah yang masih harus di tangani secara manual.

Tujuannya adalah untuk menambah layanan otomatis.

4. Keuangan

Financial Crimes Enforcement Network di Amerika Serikat baru

baru ini menggunakan data mining untuk menambang triliyunan dari

berbagai subyek seperti properti, rekening bank dan transaksi keuangan

lainnya untuk mendeteksi transaksi-transaksi mencurigakan (seperti money

laundry).

5. Asuransi

Australian Health Insurance commisison menggunakan data mining

untuk mengidentifikasi layanan kesehatan yang sebenernya tidak perlu

tetapi tetep dilakukan oleh peserta asuransi.

2.3.5 Tehnik Pembelajaran Data Mining

21

Tehnik yang digunakan dalam data mining erat kaitannya dengan’’

penemuan”(discovery) dan”pembelajaran”(learning) yang terbagi dalam tiga

metode utama pembelajaran yaitu:

a. Supervised learning

Adalah tehnik yang paling banyak di gunakan, tehnik ini sama

dengan”programming by ecample”. Tehnik ini melibatkan fase pelatihan dimana

data pelatihan historis yang karakter-karakternya di petakan kehasil-hasil yang telah

diketahui diolah dalam algoritma data mining. Proses ini melatih algoritma untuk

mengenali variabel-variabel dan nilai-nilai kunci yang nantinya akan digunakan

sebagai dasar dalam membuat perkiraan-perkiraan ketika diberikan data baru.

b. Unsupervised learning

Tehnik pembelajaran ini tidak melibatkan fase pelatihan seperti yang terdapat

pada supervised learning. Tehnik ini bergantung pada penggunaan algoritma yang

mendeteksi semua pola, seperti associations dan sequences, yang muncul dari

kriteria penting yang spesifik dalam data masukan. Pendekatan ini mengarah pada

pembuatan banyak aturan (rules) yang mengkarakterisasikan penemuan

associations, clussters, dan segments. Atutan-aturan ini kemudian dianalisis untuk

menemukan hal-hal yang penting.

c. Reinforcement learning

Tehnik pembelajaran ini jarang digunakan dibandingkan dengan dua tehnik

lainnya, namun memiliki penerapan-penerapan yang terus dioptimalkan dari waktu

kewaktu dan memiliki kontrol adaptif. Tehnik ini sangat menyerupai kehidupan

nyata yaitu seperti”on-job-training”, dimana seorang pekerja diberikan sekumpulan

22

tugas yang membutuhkan keputusan-keputusan. Pada beberapa titik waktu kelak

diberikan penilaian atas performance pekerja tersebut kemudian pekerja diminta

mengevaluasi keputusan-keputusan yang telah dibuatnya sehubungan dengan hasil

performance pekerja tersebut. Reinforcement learning sangat tepat digunakan untuk

menyelesaikan masalah-masalah yang sulit yang bergantung pada waktu.

2.3.6 Kategori Data Mining

Data mining dibagi menjadi dua kategori utama (Han dan kamber, 2006) yaitu:

a. Prediktif

Tujuan dari tugas prediktif adalah untuk memprediksi nilai dari atribut

tertentu berdasarkan pada nilai atribut-atribut lain. Atibut yang di prediksi

umumnya dikenal sebagai target atau variable tak bebas, sedangkan atribut-atribut

yang di untuk membuat prediksi dikenal sebagai explanatory atau variabel bebas.

b. Deskritif

Tujuan dari tugas deskriptif adalah untuk menurukan pola- (korelasi, trend,

cluster, teritori, dan anomali) yang meringkas hubungan yang pokok dalam data.

Tugas data mining deskriptif sering merupakan penyelidikan dan seringkali

memerlukan teknik post-procesing untuk validasi dan penjelasan hasil.

2.3.7 Kelebihan Dan Kekurangan Data Mining

Data mining mempunyai kelebihan dan kekurangan dalam mengolah data

diantaranya kekurangan dan kelebihan data mining adalah:

23

Kelebihan data mining:

1. Kemampuan dalam mengolah data dalam jumlah yang besar.

2. Pencarian data secara otomatis.

Kekurangan data mining:

1. Kendala database

2. Tidak bisa melakukan analisa sendiri

2.3.8 CRISP-DM (Cross Industry Standart Process for Data Mining)

CRISP-DM (CRoss-Industry Standard Process for Data Mining)

merupakan suatu konsorsium perusahaan yang didirikan oleh Komisi Eropa pada

tahun 1996 dan telah ditetapkan sebagai proses standar dalam data mining yang

dapat diaplikasikan di berbagai sektor industri. Berikut ini adalah gambar proses

siklus hidup pengembangan dari CRISP-DM :

Gambar 2.2 CRISP-DM

Keterangan gambar :

1. Business Understanding

24

Tahap pertama adalah memahami tujuan dan kebutuhan dari sudut

pandang bisnis, kemudian menterjemakan pengetahuan ini ke dalam pendefinisian

masalah dalam data mining. Selanjutnya akan ditentukan rencana dan strategi

untuk mencapai tujuan tersebut.

2. Data Understanding

Tahap ini dimulai dengan pengumpulan data yang kemudian akan

dilanjutkan dengan proses untuk mendapatkan pemahaman yang mendalam

tentang data, mengidentifikasi masalah kualitas data, atau untuk mendeteksi

adanya bagian yang menarik dari data yang dapat digunakan untuk hipotesa untuk

informasi yang tersembunyi.

3. Data Preparation

Tahap ini meliputi semua kegiatan untuk membangun dataset akhir (data

yang akan diproses pada tahap pemodelan/modeling) dari data mentah. Tahap ini

dapat diulang beberapa kali. Pada tahap ini juga mencakup pemilihan tabel,

record, dan atribut-atribut data, termasuk proses pembersihan dan transformasi

data untuk kemudian dijadikan masukan dalam tahap pemodelan (modeling).

4. Modeling

Dalam tahap ini akan dilakukan pemilihan dan penerapan berbagai teknik

pemodelan dan beberapa parameternya akan disesuaikan untuk mendapatkan nilai

yang optimal. Secara khusus, ada beberapa teknik berbeda yang dapat diterapkan

untuk masalah data mining yang sama. Di pihak lain ada teknik pemodelan yang

25

membutuhan format data khusus. Sehingga pada tahap ini masih memungkinan

kembali ke tahap sebelumnya.

5. Evaluation

Pada tahap ini, model sudah terbentuk dan diharapkan memiliki kualitas

baik jika dilihat dari sudut pandang analisa data. Pada tahap ini akan dilakukan

evaluasi terhadap keefektifan dan kualitas model sebelum digunakan dan

menentukan apakah model dapat mencapat tujuan yang ditetapkan pada fase awal

(Business Understanding). Kunci dari tahap ini adalah menentukan apakah ada

masalah bisnis yang belum dipertimbangkan. Di akhir dari tahap ini harus

ditentukan penggunaan hasil proses data mining.

6. Deployment

Pada tahap ini, pengetahuan atau informasi yang telah diperoleh akan

diatur dan dipresentasikan dalam bentuk khusus sehingga dapat digunakan oleh

pengguna. Tahap deployment dapat berupa pembuatan laporan sederhana atau

mengimplementasikan proses data mining yang berulang dalam perusahaan.

Dalam banyak kasus, tahap deployment melibatkan konsumen, di samping analis

data, karena sangat penting bagi konsumen untuk memahami tindakan apa yang

harus dilakukan untuk menggunakan model yang telah dibuat.

2.4 Klasifikasi

Classification (Han dan Kamber, 2006: 285) adalah sebuah model dalam

data mining dimana, classifier dikontruksi untuk memprediksi categorical lebel,

26

seperti”aman” atau “beresiko” untuk data aplikasi peminjaman uang;”ya” atau

“tidak” untuk data marketing; atau “treatment A”, “treatment B” atau “treatment

C” untuk data medis. Kategori tersebut dapat direpresentasikan dengan nilai yang

sesuai dengan kebutuhannya, dimana pengaturan dari nilai tersebut tidak memiliki

arti tertentu.

Classification dan Association rule discovery merupakan tugas yang sama

dalam data mining, dengan pengecualian bahwa tujuan utam dari klasifikasi

adalah prediksi lebel kelas, sedangkan assosiasi aturan penenemuan

mengambarkan korelasi antara item dalam database transasional. (Fadi Thabtha,

2007).

Proses data klasifikasi memiliki dua tahapan, yang pertama adalah

Learning: yaitu training data dianalisa dengan menggunakan sebuah algoritma

klasifikasi. Dan yang kedua adalah Classification: yaitu pada tahap ini test data

digunakan untuk mengestiasi ketepatan dari Classification rules. Jika keakuratan

yang dikondisikan dan yang diperkirakan data diterima, rule tersebut dapat

diaplikasikasikan pada klasifikasi lainnya dari tuple data yang baru. Vladimir

Nikulin (2008) lebih spesifik mengatakan bahwa, classification hanya bisa

diterapkan pada data training yang sangat kuat dimana diasumsikan bahwa kelas”

positif” sudah mewakili minoritas tanpa atribut umum.

2.4.1 Algoritma Naive Bayes

Algoritma Naive Bayes merupakan salah satu algoritma yang terdapat pada

teknik klasifikasi. Naive Bayes merupakan pengklasifikasian dengan metode

27

probabilitas dan statistik yang dikemukan oleh ilmuwan Inggris Thomas Bayes,

yaitu memprediksi peluang di masa depan berdasarkan pengalaman dimasa

sebelumnya sehingga dikenal sebagai Teorema Bayes. Teorema tersebut

dikombinasikan dengan Naive dimana diasumsikan kondisi antar atribut saling

bebas. Klasifikasi Naive Bayes diasumsikan bahwa ada atau tidak ciri tertentu dari

sebuah kelas tidak ada hubungannya dengan ciri dari kelas lainnya.

Persamaan dari teorema Bayes adalah :

Keterangan :

X : Data dengan class yang belum diketahui

H : Hipotesis data X merupakan suatu class spesifik

P(H|X) :Probabilitas hipotesis H berdasar kondisi X (posteriori probability)

P(H) : Probabilitas hipotesis H (prior probability)

P(X|H) : Probabilitas X berdasarkan kondisi pada hipotesis H

P(X) : Probabilitas X

Untuk menjelaskan teorema Naive Bayes, perlu diketahui bahwa proses

klasifikasi memerlukan sejumlah petunjuk untuk menentukan kelas apa yang cocok

bagi sampel yang dianalisis tersebut. Karena itu, teorema bayes di atas disesuaikan

sebagai berikut :

Dimana Variabel C merepresentasikan kelas, sementara variabel F 1... Fn

merepresentasikan karakteristik petunjuk yang dibutuhkan untuk melakukan

28

klasifikasi. Maka rumus tersebut menjelaskan bahwa peluang masuknya sampel

karakteristik tertentu dalam kelas C (Posterior) adalah peluang munculnya kelas C

(sebelum masuknya sampel tersebut, seringkali disebut prior), dikali dengan

peluang kemunculan karakteristik – karakteristik sampel pada kelas C (disebut juga

likelihood), dibagi dengan peluang kemunculan karakteristik – karakteristik sampel

secara global ( disebut juga evidence). Karena itu, rumus diatas dapat pula ditulis

secara sederhana sebagai berikut :

Posterior =

Nilai Evidence selalu tetap untuk setiap kelas pada satu sampel. Nilai dari

posterior tersebut nantinya akan dibandingkan dengan nilai – nilai posterior kelas

lainnya untuk menentukan ke kelas apa suatu sampel akan diklasifikasikan.

Penjabaran lebih lanjut rumus Bayes tersebut dilakukan dengan menjabarkan

(C|F1, ... , Fn) menggunakan aturan perkalian sebagai berikut :

Dapat dilihat bahwa hasil penjabaran tersebut menyebabkan semakin banyak

dan semakin kompleksnya faktor – faktor syarat yang mempengaruhi nilai

probabilitas, yang hampir mustahil untuk dianalisa satu persatu. Akibatnya,

perhitungan tersebut menjadi sulit untuk dilakukan. Disinilah digunakan asumsi

29

independensi yang sangat tinggi (naif), bahwa masing – masing petunjuk (F1, F2 ...

Fn) saling bebas (independen) satu sama lain.

Dengan asumsi maka berlaku suatu kesamaan sebagai berikut :

Dari persamaan diatas dapat disimpulkan bahwa asumsi independensi naif tersebut

membuat syarat peluang menjadi

sederhana, sehingga perhitungan menjadi mungkin untuk dilakukan. Selanjutnya,

penjabaran P(C|F1, ... , Fn) dapat disederhanakan menjadi :

Persamaan diatas merupakan model dari teorema Naive Bayes yang selanjutnya

akan digunakan dalam proses klasifikasi. Untuk klasifikasi dengan data kontinyu

digunakan rumus Densitas Gauss:

Keterangan :

P : Peluang

X : Atribut ke i

30

xi : Nilai atribut ke i

Y : Sub kelas Y yang dicari

yi : Sub kelas Y yang dicari

μ : Mean, menyatakan rata-rata dari seluruh atribut

σ : Deviasi standar, menyatakan varian dari seluruh atribut

Adapun alur dari metode Naive Bayes adalah sebagai berikut :

1. Baca data training

2. Hitung Jumlah dan probabilitas, namun apabila data numerik maka:

a. Cari nilai mean dan standar deviasi dari masing – masing parameter yang

merupakan data numerik.

b. Cari nilai probabilistik dengan cara menghitung jumlah data yang sesuai

dari kategori yang sama dibagi dengan jumlah data pada kategori tersebut.

3. Mendapatkan nilai dalam tabel mean, standart deviasi dan probabilitas.

31

2.4.2 Contoh Kasus Penggunaan Metode Naive Bayes

Tabel 1. Data Training

No

Jumlah

Tanggungan

Keluarga

Luas

Rumah

Pendapat

an/ bulan

Daya

Listrik

Perlengkapan

Yang Dimiliki

Penggunaan

Listrik

1 Banyak Besar Besar Sedang Banyak Tinggi





Gambar 2.3: skema naive bayes

32

6 Kecil Standar Besar Rendah Sedang Sedang

7 Kecil Besar Besar Sedang Sedang Sedang

8 Kecil Kecil Besar Sedang Sedang Sedang

9 Sedang Besar Besar Sedang Banyak Sedang

10 Sedang Besar Besar Sedang Banyak Sedang

11 Sedang Standar Besar Sedang Banyak Sedang

12 Sedang Standar Besar Sedang Banyak Sedang

13 Sedang Standar Besar Sedang Banyak Tinggi



60 Banyak Standar Kecil Sedang Banyak Sedang

Kriteria dan Probabilitas:

Adapun nilai probabilitas setiap kriteria didapatkan dari data latih pada tabel

1. Adapun nilai probabilitas setiap kriteria sebagai berikut.

1. Probabilitas Kriteria Jumlah Tanggungan

Berdasarkan data penggunaan listrik rumah tangga pada tabel 1diketahui

jumlah data latih (data training) adalah sebanyak 60 data, di mana dari 60 data

tersebut terdapat 3 data rumah tangga dengan jumlah tanggungan banyak dan

penggunaan listrik rendah, 2 data rumah tangga dengan jumlah tanggungan banyak

dan penggunaan listrik sedang, 5 data rumah tangga dengan jumlah tanggungan

banyak dan penggunaan listrik tinggi. 21 data rumah tangga dengan jumlah

tanggungan sedang dan penggunaan listrik rendah, 4 data rumah tangga dengan

jumlah tanggungan sedang dan penggunaan listrik sedang, 0 data rumah tangga

dengan jumlah tanggungan sedang dan penggunaan listrik tinggi. 9 data rumah

33

tangga dengan jumlah tanggungan sedikit dan penggunaan listrik rendah, 13 data

rumah tangga dengan jumlah tanggungan sedikit dan penggunaan listrik sedang, 3

data rumah tangga dengan jumlah tanggungan sedikit dan penggunaan listrik tinggi.

Probabilitas kriteria jumlah tanggungan dapat dilihat pada tabel 2.

Tabel 2. Probabilitas Kriteria Jumlah Tanggungan

Jumlah

Tanggungan

Jumlah Kejadian “Penggunaan

Listrik”

Probabilitas

Rendah Sedang Tinggi Rendah Sedang Tinggi

Banyak 3 2 5 0.09 0.11 0.63

Sedang 21 4 0 0.64 0.21 0.00

Sedikit 9 13 3 0.27 0.68 0.38

Jumlah 33 19 8 0.55 0.32 0.13

2. Kriteria Luas Rumah

Pada kriteria luas rumah dapat diketahui dari 60 data terdapat 7 data rumah

tangga dengan luas rumah besar dan penggunaan listrik rendah, 5 data rumah tangga

dengan luas rumah besar dan penggunaan listrik sedang, 5 data rumah tangga

dengan luas rumah besar dan penggunaan listrik tinggi. 5 data rumah tangga dengan

luas rumah standar dan penggunaan listrik rendah, 11 data rumah tangga dengan

luas rumah standar dan penggunaan listrik sedang, 3 data rumah tangga dengan luas

rumah standar dan penggunaan listrik tinggi. 21 data rumah tangga dengan luas

rumah kecil dan penggunaan listrik rendah, 3 data rumah tangga dengan luas rumah

kecil dan penggunaan listrik sedang, 0 data rumah tangga dengan luas rumah kecil

dan penggunaan listrik tinggi. Probabilitas kriteria luas rumah dapat dilihat pada

tabel 3.

34

Tabel 3. Probabilitas Kriteria Luas Rumah

Luas

Rumah


Listrik”

Probabilitas


Besar 7 5 5 0.21 0.26 0.63

Standar 5 11 3 0.15 0.58 0.38

Kecil 21 3 0 0.64 0.16 0.00

Jumlah 33 19 8 0.55 0.32 0.13

3. Probabilitas Kriteria Pendapatan

Pada kriteria pendapatan dapat diketahui dari 60 data terdapat 0 data rumah

tangga dengan pendapatan besar dan penggunaan listrik rendah, 7 data rumah

tangga dengan pendapatan besar dan penggunaan listrik sedang, 8 data rumah

tangga dengan pendapatan besar dan penggunaan listrik tinggi. 0 data rumah tangga

dengan pendapatan sedang dan penggunaan listrik rendah, 0 data rumah tangga

dengan pendapatan sedang dan penggunaan listrik sedang, 0 data rumah tangga

dengan pendapatan sedang dan penggunaan listrik tinggi. 33 data rumah tangga

dengan pendapatan kecil dan penggunaan listrik rendah, 12 data rumah tangga

dengan pendapatan kecil dan penggunaan listrik sedang, 0 data rumah tangga

dengan pendapatan kecil dan penggunaan listrik tinggi. Probabilitas kriteria

pendapatan dapat dilihat pada tabel 4.

Tabel 4. Probabilitas Pendapatan

Pendapatan


Listrik”

Probabilitas


Besar 0 7 8 0.00 0.37 1.00

35

Sedang 0 0 0 0.00 0.00 0.00

Kecil 33 12 0 1.00 0.63 0.00

Jumlah 33 19 8 0.55 0.32 0.13

4. Probabilitas Daya Listrik

Pada kriteria daya listrik dapat diketahui dari 60 data terdapat 0 data rumah

tangga dengan daya listrik tinggi dan penggunaan listrik rendah, 7 data rumah

tangga dengan daya listrik tinggi dan penggunaan listrik sedang, 8 data rumah

tangga dengan daya listrik tinggi dan penggunaan listrik tinggi. 0 data rumah tangga

dengan daya listrik sedang dan penggunaan listrik rendah, 0 data rumah tangga

dengan daya listrik sedang dan penggunaan listrik sedang, 0 data rumah tangga

dengan daya listrik sedang dan penggunaan listrik tinggi. 33 data rumah tangga

dengan daya listrik rendah dan penggunaan listrik rendah, 12 data rumah tangga

dengan daya listrik rendah dan penggunaan listrik sedang, 0 data rumah tangga

dengan daya listrik rendah dan penggunaan listrik tinggi. Probabilitas kriteria daya

listrik dapat dilihat pada tabel 5.

Tabel 5. Probabilitas Daya Listrik

Daya

Listrik


Listrik”

Probabilitas


Tinggi 0 0 0 0.00 0.00 0.00

36

Sedang 21 17 8 0.64 0.89 1.00

Rendah 12 2 0 0.36 0.11 0.00

Jumlah 33 19 8 0.55 0.32 0.13

5. Probabilitas Perlengkapan

Pada kriteria perlengkapan dapat diketahui dari 60 data terdapat 0 data

rumah tangga dengan perlengkapan tinggi dan penggunaan listrik rendah, 7 data

rumah tangga dengan perlengkapan banyak dan penggunaan listrik sedang, 8 data

rumah tangga dengan perlengkapan banyak dan penggunaan listrik banyak. 0 data

rumah tangga dengan perlengkapan sedang dan penggunaan listrik rendah, 0 data

rumah tangga dengan perlengkapan sedang dan penggunaan listrik sedang, 0 data

rumah tangga dengan perlengkapan sedang dan penggunaan listrik tinggi. 33 data

rumah tangga dengan perlengkapan sedikit dan penggunaan listrik rendah, 12 data

rumah tangga dengan perlengkapan sedikit dan penggunaan listrik sedang, 0 data

rumah tangga dengan perlengkapan sedikit dan penggunaan listrik tinggi.

Probabilitas kriteria perlengkapan dapat dilihat pada tabel 6.

Tabel 6. Probabilitas Perlengkapan

Perlengkapan


Listrik”

Probabilitas


Banyak 4 12 8 0.12 0.63 1.00

Sedang 3 3 0 0.09 0.16 0.00

Sedikit 26 4 0 0.79 0.21 0.00

Jumlah 33 19 8 0.55 0.32 0.13

37

6. Probabilitas Penggunaan Listrik

Berdasarkan tabel 1 diketahui dari 60 data penggunaan listrik terdapat 33

data rumah tangga dengan penggunaan listrik rendah, 19 data rumah tangga dengan

penggunaan listrik sedang, 8 data rumah tangga dengan penggunaan listrik tinggi.

Probabilitas kriteria penggunaan listrik dapat dilihat pada tabel 7.

Tabel 7. Probabilitas Penggunaan Listrik


Listrik”

Probabilitas


33 19 8 0.55 0.32 0.13

Berdasarkan contoh kasus dengan menggunakan metode naive bayes pada

penelitian tentang memprediksi penggunaan listrik rumah tangga dapat ditarik

beberapa kesimpulan sebagai berikut :

1. Metode Naive Bayes memanfaatkan data training untuk menghasilkan

probabilitas setiap kriteria untuk class yang berbeda, sehingga nilai-nilai

probabilitas dari kriteria tersebut dapat dioptimalkan untuk memprediksi

penggunaan listrik berdasarkan proses klasifikasi yang dilakukan oleh metode

Naive Bayes itu sendiri.

2. Berdasarkan data rumah tangga yang dijadikan data training, metode Naive

Bayes berhasil mengklasifikasikan 47 data dari 60 data yang diuji.

38

2.4.3 Pengujian Cross Validation

Validation adalah proses untuk mengevaluasi keakuratan prediksi dari

model. Validasi digunakan untuk memperoleh prediksi menggunakan model yang

ada dan kemudian membandingkan hasil tersebut dengan hasil yang sudah

diketahui, ini mewakili langkah paling penting dalam proses membangun sebuah

model.

Cross Validation adalah teknik validasi dengan membagi data secara acak

ke dalam k bagian dan masing-masing bagian akan dilakukan proses klasifikasi.

Dalam Cross Validation, jumlah tetap khusus atau partisi dari data ditentukan

sendiri. Cara standar untuk memprediksi error rate dari teknik pembelajaran dari

sebuah sampel data tetap adalah dengan menggunakan tenfold cross validation.

Dengan tenfold cross validation, data akan dibagi secara acak menjadi 10

bagian, dimana class diwakili (kurang lebih) proporsi yang sama seperti pada

dataset yang penuh. Setiap bagian mendapatkan gilirannya dan skema pembelajaran

dilatih pada sisa sembilan persepuluh; kemudian error rate dihitung pada holdout

set. Dengan demikian, prosedur pembelajaran dilaksanakan sebanyak 10 kali di

training set yang berbeda (setiap set memiliki banyak kesamaan dengan yang lain).

Akhirnya, 10 estimasi error dirata-rata untuk menghasilkan perkiraan kesalahan

keseluruhan.

2.4.3 Evaluasi dan Validasi Klasifikasi Data Mining

Untuk melakukan evaluasi pada algoritma naïve bayes maka diilakukan

pengujian menggunakan confusion matrix.

39

Confusion Matrix

Confusion matrix memberikan keputusan yang diperoleh dalam traning

dan testing, confusion matrix memberikan penilaian performance klasifikasi

berdasarkan objek dengan benar atau salah. Confusion matrix berisi informasi

aktual (actual) dan prediksi (predicted) pada sistem klasifikasi.

Tabel 2.1: Tabel Confusion Matrix untuk 2 Kelas

Classification Predicted Class

Observed Class

Class = Yes Class = No

Class = Yes

A

(true positif – tp)

B

(false negative –

fn)

Class = No

C

(false positif – fp)

D

(true negative –

tn)

Keterangan:

a. True Positive (tp) = proporsi positif dalam data set yang diklasifikasikan

positif.

b. True Negative (tn) = proporsi negative dalam data set yang diklasifikasikan

negative.

c. False Positive (fp) = proporsi negatif dalam data set yang diklasifikasikan

potitif.

40

d. FalseNegative(fn) = proporsi negative dalam data set yang diklasifikasikan

negative

Tabel 2.2 : Tabel Confusion Matrix untuk 3 Kelas

Predicted Cla s

Class 1 Class 2 Class 3

Actual Class Class 1 Count11 Count12 Count13

Class 2 Count21 Count22 Count23

Class 3 Count31 Count32 Count33

Berikut adalah persamaan model confusion matrix untuk 3 kelas:

a. Nilai akurasi

b. Error rate

2.5 RapidMiner

RapidMiner adalah platform perangkat lunak ilmu data yang dikembangkan

oleh perusahaan bernama sama dengan yang menyediakan lingkungan terintegrasi

untuk persiapan data, pembelajaran mesin, pembelajaran dalam, penambangan

https://id.wikipedia.org/wiki/Ilmu_data

https://id.wikipedia.org/wiki/Pembelajaran_mesin

https://id.wikipedia.org/wiki/Pembelajaran_mesin

https://id.wikipedia.org/wiki/Penambangan_teks

41

teks, dan analisis prediktif. Hal ini digunakan untuk bisnis dan komersial, juga

untuk penelitian, pendidikan, pelatihan, rapid prototyping, dan pengembangan

aplikasi serta mendukung semua langkah dalam proses pembelajaran mesin

termasuk persiapan data, hasil visualisasi, validasi model, dan

optimasi. RapidMiner dikembangkan pada model inti terbuka dengan RapidMiner

Studio Free Edition, yang terbatas untuk 1 prosesor logika dan 10.000 baris data,

tersedia di bawah lisensi AGPL.

RapidMiner perangakat lunak yang bersifat terbuka (open source).

RapidMiner adalah sebuah solusi untuk melakukan analisis terhadap data mining,

text mining dan analisis prediksi. RapidMiner menggunakan berbagai teknik

deskriptif dan prediksi dalam memberikan wawasan kepada pengguna sehingga

dapat membuat keputusan yang paling baik. RapidMiner memiliki kurang lebih 500

operator data mining, termasuk operator untuk input, output, data preprocessing dan

visualisasi. RapidMiner merupakan software yang berdiri sendiri untuk analisis

data dan sebagai mesin data mining yang dapat diintegrasikan pada produknya

sendiri. RapidMiner ditulis dengan munggunakan siap java sehingga dapat bekerja

di semua sistem operasi.

RapidMiner sebelumnya bernama YALE (Yet Another Learning

Environment), dimana versi awalnya mulai dikembangkan pada tahun 2001 oleh

RalfKlinkenberg, Ingo Mierswa, dan Simon Fischer di Artificial Intelligence Unit

dari University of Dortmund. RapidMiner didistribusikan di bawah lisensi AGPL

(GNU Affero General Public License) versi 3. Hingga saat ini telah ribuan aplikasi

https://id.wikipedia.org/wiki/Penambangan_teks

https://id.wikipedia.org/w/index.php?title=Visualisasi_informasi&action=edit&redlink=1

https://id.wikipedia.org/w/index.php?title=GNU_Affero_General_Public_License&action=edit&redlink=1

42

yang dikembangkan mengunakan RapidMiner di lebih dari 40 negara. RapidMiner

sebagai software open source untuk data mining tidak perlu diragukan lagi karena

software ini sudah terkemuka di dunia. RapidMiner menempati peringkat pertama

sebagai Software data mining pada polling oleh KDnuggets, sebuah portal data-

mining pada 2010-2011.

RapidMiner menyediakan GUI (Graphic User Interface) untuk merancang

sebuah pipeline analitis. GUI ini akan menghasilkan file XML (Extensible Markup

Language) yang mendefenisikan proses analitis keingginan pengguna untuk

diterpkan ke data. File ini kemudian dibaca oleh RapidMiner untuk menjalankan

analis secara otomatis.

RapidMiner memiliki beberapa sifat sebagai berikut:

a. Ditulis dengan siap pemrograman Java sehingga dapat dijalankan di berbagai

sistem operasi.

b. Proses penemuan pengetahuan dimodelkan sebagai operator trees.

c. Representasi XML internal untuk memastikan format standar pertukaran data.

d. Siap scripting memungkinkan untuk eksperimen skala besar dan otomatisasi

eksperimen.

e. Konsep multi-layer untuk menjamin tampilan data yang efisien dan menjamin

penanganan data.

f. Memiliki GUI, command line mode, dan Java API yang dapat memanggil dari

program lain.

Beberapa Fitur dari RapidMiner, antara lain:

43

Tool = Rapidminer

Data = Trening

Metode = Algoritma naive bayes

clasification

Exsperimen

a. Banyaknya algoritma data mining, seperti decision treee dan self-organization

map.

b. Bentuk grafis yang canggih, seperti tumpang tindih diagram histogram, tree

chart dan 3D Scatter plots.

c. Banyaknya variasi plu gin, seperti text plugin untuk melakukan analisis teks.

d. Menyediakan prosedur data mining dan machine learning termasuk: ETL

(extraction, transformation, loading), data preprocessing, visualisasi, modelling

dan evaluasi

e. Proses data mining tersusun atas operator-operator yang nestable,

dideskrtidakikan dengan XML, dan dibuat dengan GUI.

f. Mengintegrasikan proyek data mining Weka dan statistika R.

2.6 Kerangka Pemikiran

Kerangka pikiran merupakan suatu bentuk proses dari keseluruhan bentuk

proses penelitian, yang di perlukan oleh penulis untuk membuat suatu gambaran

secara singkat sebagai alur dalam penyusunan laporan dengan kerangka pemikiran

sebagai berikut:

Adanya pemilihan jenis

pembayaran

Masalah

Tindakan

Menentukan jenis pembayaran yang

digunakan

44

Gambar 2.3 Kerangka pikiran

Pengelompokan jenis

pembayaran yang banyak

digunakan

Hasil

BAB III

METODE PENELITIAN

3.1 Objek Penelitian

3.2 Pengumpulan Data

45

BAB V

HASIL DAN PEMBAHASAN

4.1 Hasil

4.2 Pembahasan

46

BAB V

KESIMPULAN

5.1 Kesimpulan

Uraikan kesimpulan disini

5.2 Saran

Uraikan saran disini

47

DAFTAR PUSTAKA

Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From data mining to

knowledge discovery in databases. AI Magazine, 37–54.

http://doi.org/10.1145/240455.240463

Witten, I. H., & Frank, E. (2011). Data Mining: Practical Machine Learning Tools

and Techniques. Elsevier, San Francisco, 3 edition, 629.

http://doi.org/0120884070, 9780120884070

Untuk membuat daftar pustaka atau melakukan sitasi, sebaiknya gunakan software

mendeley, bisa di unduh di http://www.medeley.com

48

http://doi.org/10.1145/240455.240463

http://doi.org/10.1145/240455.240463

http://doi.org/0120884070

http://doi.org/0120884070

http://www.medeley.com/

LAMPIRAN

PENJELASAN MENGENAI TEMPLATE LAPORAN SKRIPSI

Template ini dibuat untuk memudahkan mahasiswa yang sedang akan/sedang

menyusun naskah laporan Skripsi sehingga dapat sesuai dengan format penulisan

yang sesuai. Penggunaan template ini sangatlah mudah, anda hanya tinggal

mengganti teks yang ada disesuaikan dengan naskah yang anda buat dengan

memperhatikan style atau formatting yang digunakan. Sebelum menggunakan

template ini, sangat disarankan anda untuk mempelajari terlebih dahulu mengenai

beberapa fasilitas yang ada pada MS Word seperti style and formatting dan

reference sehingga dapat melakukan penyuntingan secara lebih efektif. Manfaatan

fasilitas yang ada MS Word 2013 atau 2016 untuk membantu anda dalam

mempelajari fasilitas tersebut di atas.

Beberapa keuntungan yang bisa diperoleh dengan menggunakan template ini antara

lain konsistensi format penulisan pada keseluruhan naskah, kemudahan dalam

pemberian judul beserta pengacuan tabel dan gambar, serta otomatisasi dalam

pembuatan daftar isi, daftar tabel dan daftar gambar. Diharapkan dengan

menggunakan template ini mahasiswa dapat menyusun naskah laporan TA dengan

lebih efektif dan efisien, sekaligus juga dapat meningkatkan ketrampilan

mahasiswa dalam menggunakan peranti lunak pengolah kata, khususnya MS Word.

Jika terdapat pertanyaan ataupun masukan mengenai template ini dapat dikirimkan

ke email: [email protected]. Telegram: @agung_n

Terimakasih.,semoga bermanfaat.

49

mailto:[email protected]

PENERAPAN DATA MINING CLASSIFICATION UNTUK TREN …

Documents

Transcript of PENERAPAN DATA MINING CLASSIFICATION UNTUK TREN …