PENERAPAN ALGORITMA K-MEANS UNTUK MEMETAKAN …

PENERAPAN ALGORITMA K-MEANS UNTUK

MEMETAKAN GARIS KEMISKINAN MENURUT

PROVINSI DI INDONESIA

SKRIPSI

Oleh:

BAGAS PRAYOGO HARYAJI

311410430

TEKNIK INFORMATIKA

SEKOLAH TINGGI TEKNOLOGI PELITA BANGSA

BEKASI

2018

PENERAPAN ALGORITMA K-MEANS UNTUK

MEMETAKAN GARIS KEMISKINAN MENURUT

PROVINSI DI INDONESIA

SKRIPSI

Diajukan Sebagai Salah Satu Syarat Untuk Menyelesaikan

Program Strata Satu (S1) pada Program Studi Teknik Informatika

Oleh:

BAGAS PRAYOGO HARYAJI

311410430

TEKNIK INFORMATIKA

SEKOLAH TINGGI TEKNOLOGI PELITA BANGSA

BEKASI

2018

iv

KATA PENGANTAR

Puji syukur penulis panjatkan ke hadiran Allah SWT. yang telah

melimpahkan segala rahmat dan hidayah-Nya, sehingga tersusunlah Skripsi yang

berjudul “PENERAPAN ALGORITMA K-MEANS UNTUK MEMETAKAN

GARIS KEMISKINAN MENURUT PROVINSI DI INDONESIA”.

Skripsi tersusun dalam rangka melengkapi salah satu persyaratan dalam

rangka menempuh ujian akhir untuk memperoleh gelar Sarjana Komputer

(S.Kom.) pada Program Studi Teknik Informatika di Sekolah Tinggi Teknologi

Pelita Bangsa.

Penulis sungguh sangat menyadari, bahwa penulisan Skripsi ini tidak akan

terwujud tanpa adanya dukungan dan bantuan dari berbagai pihak. Sudah

selayaknya, dalam kesempatan ini penulis menghaturkan penghargaan dan ucapan

terima kasih yang sebesar-besarnya kepada:

a. Bapak Dr. Ir. Suprianto, M.P selaku Ketua STT Pelita Bangsa

b. Bapak Aswan Sunge, S.E., M.Kom. selaku Ketua Program Studi Teknik

Informatika STT Pelita Bangsa.

c. Bapak Asep Muhidin, S.Kom, M.Kom selaku Pembimbing Utama yang telah

banyak memberikan arahan dan bimbingan kepada penulis dalam penyusunan

Skripsi ini.

d. Seluruh Dosen STT Pelita Bangsa yang telah membekali penulis dengan

wawasan dan ilmu di bidang teknik informatika.

e. Seluruh staf STT Pelita Bangsa yang telah memberikan pelayanan terbaiknya

kepada penulis selama perjalanan studi jenjang Strata 1.

f. Rekan-rekan mahasiswa STT Pelita Bangsa, khususnya angkatan 2014, yang

telah banyak memberikan inspirasi dan semangat kepada penulis untuk dapat

menyelesaikan studi jenjang Strata 1.

g. Ibu dan Ayah tercinta yang senantiasa mendo’akan dan memberikan semangat

dalam perjalanan studi Strata 1 maupun dalam kehidupan penulis.

v

Akhir kata, penulis mohon maaf atas kekeliruan dan kesalahan yang

terdapat dalam Skripsi ini dan berharap semoga Skripsi ini dapat memberikan

manfaat bagi khasanah pengetahuan Teknologi Informasi di lingkungan STT

Pelita Bangsa khususnya dan Indonesia pada umumnya.

Bekasi, Oktober 2018

Penulis

vi

DAFTAR ISI

PERSETUJUAN ...................................................................................................... i

PENGESAHAN ...................................................................................................... ii

PERNYATAAN KEASLIAN PENELITIAN ....................................................... iii

KATA PENGANTAR ........................................................................................... iv

DAFTAR ISI .......................................................................................................... vi

DAFTAR TABEL .................................................................................................. ix

DAFTAR GAMBAR .............................................................................................. x

ABSTRACT ............................................................................................................ xii

ABSTRAK ........................................................................................................... xiii

BAB I ...................................................................................................................... 1

1.1 Latar belakang .......................................................................................... 1

1.2 Identifikasi masalah dan batasan masalah ................................................ 2

1.1.4 Identifikasi masalah .......................................................................... 2

1.2.2 Batasan masalah ..................................................................................... 3

1.2 Rumusan masalah ..................................................................................... 3

1.3 Tujuan penelitian ...................................................................................... 3

1.5 Manfaat penelitian ......................................................................................... 4

1.6 Metode pengumpulan data ............................................................................ 4

1.7 Sistematika penulisan .................................................................................... 5

BAB II ..................................................................................................................... 7

vii

2.1 Penelitian terkait............................................................................................ 7

2.2 Definisi judul ................................................................................................. 9

2.2.1 Algoritma ............................................................................................... 9

2.2.2 K-means ................................................................................................. 9

2.2.3 Clustering ............................................................................................. 10

2.2.4 Garis kemiskinan .................................................................................. 10

2.3 Data mining ................................................................................................. 11

2.3.1 Pengertian data mining ........................................................................ 11

2.3.2 Fungsi data mining ............................................................................... 13

2.3.3 Teknik pembelajaran data mining ........................................................ 15

2.3.4 Proses data mining ............................................................................... 16

2.3.5 Pengelompokan teknik data mining ..................................................... 17

2.4 K-means ...................................................................................................... 18

2.4.1 Pengertian k-means .............................................................................. 18

2.4.2 Keuntungan dan kekurangan k-means ................................................. 21

2.5 Rapidminer .................................................................................................. 22

BAB III ................................................................................................................. 24

3.1 Tahap penelitian .......................................................................................... 24

3.1.1 Gambaran penelitian ............................................................................ 24

3.2 Data ............................................................................................................. 25

viii

3.3 Preprocessing data ..................................................................................... 25

3.3.1 Data cleaning ....................................................................................... 25

BAB IV ................................................................................................................. 29

4.1 Proses clustering ......................................................................................... 29

4.2 Pengujian rapidminer .................................................................................. 29

4.3 Pembahasan hasil clustering k-means ......................................................... 37

BAB V ................................................................................................................... 45

5.1 Kesimpulan ................................................................................................. 45

5.2 Saran ............................................................................................................ 45

DAFTAR PUSTAKA ........................................................................................... 46

LAMPIRAN .......................................................................................................... 48

Lampiran 1. Tabel dataset penelitian ............................................................... 48

Lampiran 2. Tabel dataset daerah perkotaan..................................................... 49

Lampiran 3. Tabel dataset daerah perdesaan .................................................... 50

ix

DAFTAR TABEL

Tabel 4. 1 Dataset penelitian pendapatan/kapita/bulan dalam satuan rupiah........ 38

Tabel 4. 2 Dataset yang telah distandarkan z score .............................................. 39

Tabel 4. 3 Anggota cluster 0 ................................................................................. 40



Tabel 4. 6 Deskripsi (linguistik) dan domain nilai tiap atribut ............................. 42

Tabel 4. 7 Deskripsi data berdasarkan dengan cluster .......................................... 43

Tabel 4. 8 Hasil operasi perfomance vector .......................................................... 44

x

DAFTAR GAMBAR

Gambar 2. 1 Penemuan ilmu baru ......................................................................... 13

Gambar 2. 2 Fungsi data mining ........................................................................... 14

Gambar 3. 1 Gambaran penelitian ........................................................................ 24

Gambar 3. 2 Implementasi data pada rapidminer ................................................. 26

Gambar 3. 3 Penggantian data yang hilang pada data perdesaan DKI Jakarta ..... 27

Gambar 3. 4 Penggantian data yang hilang pada data perdesaan Kalimantan Utara

............................................................................................................................... 27

Gambar 3. 5 Penggantian data yang hilang pada data perkotaan Kalimantan Utara

............................................................................................................................... 28

Gambar 4. 1 Design process ................................................................................. 30

Gambar 4. 2 Example set result ............................................................................ 31

Gambar 4. 3 Cluster model ................................................................................... 32

Gambar 4. 4 Centroid table ................................................................................... 33

Gambar 4. 5 Anggota cluster 0 ............................................................................. 33



Gambar 4. 8 Example set statistic ......................................................................... 35

Gambar 4. 9 Graph result ..................................................................................... 35

Gambar 4. 10 Plot result ....................................................................................... 36

Gambar 4. 11 Chart clustering.............................................................................. 37

Gambar 4. 12 Perfomance vector.......................................................................... 37

Gambar 4. 13 Grafik titik hasil clustering ............................................................ 41

xi

Gambar 4. 14 Discretize data ............................................................................... 42

Gambar 4. 15 Perfomace vector............................................................................ 43

xii

ABSTRACT

BAGAS PRAYOGO HARYAJI. 311410430. Implementaion of K-means

Algorithm to Map Poverty Line by Province in Indonesia.

Indonesia has a sizeable population, the Central Bureau of Statistics in 2012

recorded that there were 250.000.000 more people scattered throughout the

Indonesian provinces. In addition, Indonesia also has a variety of social

problems, one of which is poverty. The poverty line number in Indonesia needs to

be improved. Data utilization techniques become a new information called data

mining. One of the most popular data mining methods is clustering using the k-

means algorithm. K-means can process data without being notified in advance of

the class label. This study will produce three provincial groups according to very

low, low and sufficient income figures. Data processing of poverty line numbers in

Indonesia using the k-means algorithm to get the results of the davies bouldin

index of 0,288. These results are considered good enough because the closer the

results obtained with zeros, the better the data similarity between members of the

cluster.

Keyword: Poverty Line, K-means

xiii

ABSTRAK

BAGAS PRAYOGO HARYAJI. 311410430. Penerapan Algoritma K-means

Untuk Memetakan Garis Kemiskinan Menurut Provinsi Di Indonesia.

Indonesia memiliki jumlah penduduk yang cukup besar, Badan Pusat Statistik di

tahun 2012 mencatat ada 250.000.000 lebih penduduk yang tersebar di seluruh

provinsi Indonesia. Selain itu, Indonesia juga memiliki beragam masalah sosial,

salah satunya kemiskinan. Angka garis kemiskinan di Indonesia perlu diperbaiki.

Teknik pemanfaatan data menjadi sebuah informasi baru disebut juga sebagai

data mining. Salah satu metode data mining yang cukup populer yaitu clustering

dengan menggunakan algoritma k-means. K-means dapat mengolah data tanpa

diberitahu lebih dahulu label kelasnya. Penelitian ini akan menghasilkan tiga

kelompok provinsi sesuai dengan angka pendapatan sangat rendah, rendah dan

cukup. Pengolahan data angka garis kemiskinan di Indonesia menggunakan

algoritma k-means mendapatkan hasil davies bouldin index sebesar 0,288. Hasil

tersebut dinilai cukup baik sebab semakin dekat hasil yang diperoleh dengan

angka nol, maka kemiripan data anggota antar cluster semakin baik.

Kata kunci: Garis kemiskinan, K-means

1

BAB I

PENDAHULUAN

1.1 Latar belakang

Indonesia merupakan negara yang mempunyai lebih dari 230.000.000

penduduk yang tersebar di beberapa provinsi berdasarkan data yang dihimpun

oleh Badan Pusat Statistik tahun 2012. Selain memiliki jumlah penduduk yang

cukup besar tersebut, Indonesia memilki beragam masalah sosial antara lain

tingkat kejahatan yang tinggi, swasembada pangan, masalah ekonomi dan lain

lain. Salah satu masalah sosial yang diakibatkan oleh faktor ekonomi, yaitu

kemiskinan. Kemiskinan adalah suatu keadaan dimana terjadi ketidakmampuan

untuk memenuhi kebutuhan dasar seperti makanan, pakaian, tempat berlindung,

pendidikan, dan kesehatan. Kemiskinan dapat disebabkan oleh kelangkaan alat

pemenuh kebutuhan dasar, ataupun sulitnya akses terhadap pendidikan dan

pekerjaan. Banyak orang saat ini menerjemahkan kemiskinan sebagai pangkal

penyebab masalah sosial dan ekonomi.

Angka garis kemiskinan di Indonesia dinilai perlu untuk diperbaiki.

Menurut lembaga Pembangunan PBB bersama ASEAN dan China tahun 2016,

Indonesia berada pada posisi sembilan dari sepuluh Negara di Asia Tenggara.

Parameter yang digunakan untuk menentukan sebuah daerah disebut miskin yaitu

angka pendapatan per kapita per bulan tiap penduduknya. Kepala Badan Pusat

Statistik pada tahun 2018 menetapkan batas garis kemiskinan yakni Rp 401.220

per kapita per bulan. Seperti di DKI Jakarta nilai garis kemiskinan Rp 593.000 per

kapita maka pengeluaran keluarga miskin dengan 4-5 orang mencapai sekira

2

Rp3.100.000 juta (sedikit di bawah UMR DKI JAKARTA Rp3.600.000).

Diperlukan sebuah langkah pemetaan bagi tiap provinsi sesuai dengan tingkat

garis kemiskinan sehingga dapat diambil sebuah solusi yang tepat sesuai dengan

kelompoknya. Salah satu teknik yang dikenal dalam data mining yaitu teknik

clustering.

Teknik clustering mengelompokan data secara otomatis tanpa perlu

diberitahu label kelasnya. Banyak metode clustering yang telah diusulkan oleh

para ahli, salah satunya adalah k-means. Metode k-means merupakan algoritma

klasterisasi yang paling banyak digunakan dalam berbagai aplikasi kecil hingga

menengah karena kemudahan mengaplikasikannya.

Menyikapi hal tersebut, pada penelitian ini penulis mencoba untuk

menerapkan teknik clustering dengan menggunakan algoritma k-means sebagai

metode penyelasian masalah tersebut. Sehingga penulis menjadikannya sebuah

judul ”PENERAPAN ALGORITMA K-MEANS UNTUK MEMETAKAN

GARIS KEMISKINAN MENURUT PROVINSI DI INDONESIA”.

Diharapkan penelitian ini dapat membantu pemerintah dalam mengambil

langkah yang tepat sebagai upaya menurunkan angka kemiskinan pada setiap

provinsi yang ada di Indonesia.

1.2 Identifikasi masalah dan batasan masalah

1.1.4 Identifikasi masalah

Berdasarkan latar belakang tersebut maka didapat identifikasi masalah

sebagai berikut :

3

1. Banyaknya data yang telah dihimpun belum diolah menjadi sebuah informasi

lebih lanjut.

2. Belum adanya pemetaan daerah yang berada dalam angka garis kemiskinan

sangat rendah, rendah maupun cukup.

1.2.2 Batasan masalah

Pada penulisan tugas akhir ini, penulis membatasi dalam implementasi

data mining untuk pemetaan angka garis kemiskinan di Indonesia yang meliputi :

1. Tidak membahas sistem pendukung keputusan maupun sistem informasi.

2. Metode yang digunakan adalah clustering dengan algoritma k-means.

3. Data yang digunakan diambil dari empat tahun terakhir.

1.2 Rumusan masalah

Berdasarkan latar belakang masalah tersebut maka perumusan masalah

yang diambil dalam penelitian ini adalah “Bagaimana menerapkan algoritma k-

means untuk pemetaan angka garis kemiskinan di Indonesia dari data yang sudah

dihimpun selama empat tahun terakhir”.

1.3 Tujuan penelitian

Penelitian ini dimaksudkan mengolah data angka garis kemiskinan di

Indonesia yang bersumber dari website Badan Pusat Statistik menggunakan

metode clustering sebagai sebuah bidang ilmu yaitu data mining. Selain itu untuk

mendapatkan hasil pemetaan angka garis kemiskinan dengan menerapkan

algoritma k-means, sehingga dapat diambil solusi yang tepat untuk tiap daerah

berbeda di Indonesia.

4

Adapun tujuan yang dalam penelitian ini adalah :

1. Melakukan tinjauan lebih lanjut terkait angka garis kemiskinan di Indonesia

yang dihimpun oleh Badan Pusat Statistik selama empat tahun terakhir.

2. Mengelompokkan provinsi di Indonesia menjadi tiga kelompok sesuai dengan

angka pendapatan tiap daerah menggunakan algoritma k-means.

1.5 Manfaat penelitian

Manfaat dari penelitian tugas akhir ini adalah hasil pemetaan angka garis

kemiskinan yang diharapkan dapat diambil langkah solusi yang tepat menurut

tingkat daerah masing-masing. Adapun manfaat lain dari penelitian ini adalah :

2. Bagi Penulis

Dapat menambah pengetahuan dan wawasan serta dapat mengaplikasikan teori

yang telah diperoleh selama masa perkuliahan.

3. Bagi Akademik

Dapat menjadi referensi bagi mahasiswa yang melakukan kajian terhadap

algoritma k-means di masa yang akan datang.

1.6 Metode pengumpulan data

Dalam melakukan penelitian ini penulis menerapkan beberapa metode

antara lain :

1. Studi Pustaka

Penulis mempelajari dan mengumpulkan data dari buku–buku serta mencari

informasi yang diperlukan terkait penyusunan laporan.

5

2. Sumber Data

Data yang digunakan dalam penelitian ini diperoleh secara online melalui

website https://www.bps.go.id/dynamictable/2016/01/18/1120/garis-

kemiskinan-menurut-provinsi-2013---2017.html sebagai sumber data yang

digunakan untuk penelitian.

1.7 Sistematika penulisan

Penelitian ini terbagi menjadi lima bab, dimana masing–masing bab terdiri

dari beberapa sub–sub bab untuk menghasilkan pembahasan secara sistematis.

Adapun lima bab tersebut ialah :

BAB I : PENDAHULUAN

Pada bab ini penulis ingin mengemukakan gambaran tentang latar belakang,

maksud dan tujuan, rumusan masalah, batasan masalah, metode pengumpulan

data dan sistematika penulisan.

BAB II : LANDASAN TEORI

Pada bab ini penulis ingin menjelaskan tentang teori-teori yang didapat dari

sumber-sumber yang relevan untuk digunakan sebagai panduan dalam penelitian

serta penyusunan skripsi.

BAB III : METODOLOGI PENELITIAN

Pada bab ini penulis akan menjelaskan tentang tahap penelitian, data yang

digunakan dan 5las an5n5ing data.

BAB IV : HASIL DAN PEMBAHASAN

Pada bab ini penulis akan menjelaskan tentang implementasi algoritma serta

pembahasan dari penelitian yang dilakukan.

6

BAB V : PENUTUP

Pada bab ini penulis akan memberikan kesimpulan dan saran dari keseluruhan

penelitian yang telah di bahas.

7

BAB II

LANDASAN TEORI

2.1 Penelitian terkait

1. Clustering penentuan potensi kejahatan daerah di kota Banjarbaru dengan

metode k-means (Rahayu, S., Nugrahadi, D.T., Indriani, F. 2014).

Penelitian tersebut membahas tentang penerapan algoritma k-means dalam

penentuan potensi kejahatan berdasarkan data kejahatan yang dimiliki oleh

Kepolisian Negara Republik Indonesia daerah Kalimantan Selatan Resort

Banjarbaru. Variabel-variabel yang digunakan dalam clustering penentuan potensi

kejahatan daerah di kota Banjarbaru adalah hukuman, bulan dan laporan.

Setelah mendapatkan data langkah selanjutnya adalah melakukan

persiapan data yaitu data selection, preprocessing data, transformation hingga

diterapkan metode k-means.

Kesimpulan dari penelitian ini clustering potensi kejahatan daerah di kota

Banjarbaru diproses berdasarkan perjajaran. Hal ini dilakukan agar hasil dari

pengelompokan potensi kejahatan daerah di kota Banjarbaru menjadi lebih

spesifik.

2. Analisa metode hierarchical clustering dan k-means dengan model LRFMP

pada segmentasi pelanggan (Muhidin,A. 2017).


menentukan segmentasi konsumen yang potensial. Variabel yang digunakan

dalam clustering pelanggan berdasarkan model LRFMP (Length, Recency,

Frequency, Monetary, Payment).

8

Pada penelitian ini proses segmentasi pelanggan dimulai dengan

melakukan proses preprocessing, analytic hierarchy process (AHP), pencarian

nilai K terbaik dari semua metode hierarchical clustering dengan membandingkan

nilai bouldien index. Selanjutnya nilai k terpilih dijadikan nilai awal pada k-means

clustering. Hasil clustering tersebut digunakan untuk melakukan segmentasi

menggunakan model RFM untuk mendapatkan kelas konsumen. Hasil clustering

dapat dijadikan acuan marketing dalam menentukan perlakuan terhadap

pelanggan.

3. Pemanfaatan metode k-means clustering dalam penentuan penjurusan siswa

SMA (Aziz, A., Purmaningsih, C., Saptono, R. 2014).


kasus penentuan penjurusan siswa SMA. Variabel yang digunakan dalam

penelitian ini adalah kriteria nilai akademik, nilai IQ dan minat siswa.

Data minat siswa dan nilai IQ belum dapat digunakan dalam proses

clustering maka perlu adanya proses konversi data non numerik minat siswa dan

nilai IQ siswa menjadi data numerik, oleh karena itu kriteria minat dan IQ siswa

dikategorikan terlebih dahulu.

Kesimpulan penelitian algoritma k-means dapat digunakan untuk

mengelompokkan data siswa sebagai pendukung keputusan penentuan penjurusan

siswa SMA. Hasil penelitian menunjukkan bahwa tidak ada siswa yang diterima

di dua jurusan IPA/IPS atau siswa ditolak di keduanya.

9

4. Penerapan metode k-means clustering untuk mengelompokan potensi produksi

buah-buahan di provinsi Daerah Istimewa Yogyakarta (Murti, M.A.W.K. 2017).


pengelompokan daerah penghasil buah. Variabel yang digunakan berdasarkan luas

panen (Ha), produksi (ton) dan tahun panen.

Setelah mendapatkan data langkah selanjutnya adalah melakukan

persiapan data yaitu cleaning data, transformation hingga diterapkan metode k-

means.

Kesimpulan penelitian memberikan pemetaan daerah dengan hasil

produksi buah banyak, sedang dan rendah.

2.2 Definisi judul

2.2.1 Algoritma

Menurut Munir (2012:176) algoritma adalah urutan logis langkah-langkah

penyelesaian masalah yang disusun secara sistematis. Metode pengurutan

digambarkan dalam sejumlah langkah terbatas yang mengarah pada solusi

permasalahan.

2.2.2 K-means

Menurut Vulandari (2017:54) k-means merupakan algoritma yang

menetapkan nilai-nilai cluster (k) secara random, untuk sementara nilai tersebut

menjadi pusat dari cluster yang biasa disebut centroid. Kemudian menghitung

jarak setiap data yang ada terhadap masing-masing centroid menggunakan rumus

9las an9n hingga ditemukan jarak yang paling dekat dari setiap data dengan

centroid hingga nilai centroid tidak berubah (stabil).

10

Menurut Suyanto (2017:262) k-means merupakan algoritma klasterisasi

yang memiliki ide dasar sederhana dengan cara meminimalkan Sum of Squared

Error (SSE) antara objek-objek data dengan sejumlah k centroid.

2.2.3 Clustering

Menurut Suyanto (2017:260) Clustering adalah proses pengelompokan

satu set objek data (into multiple groups) atau cluster sehingga benda-benda

dalam suatu kelompok memiliki kesamaan yang tinggi, tetapi sangat berbeda

dengan objek di kelompok lain.

Menurut Han,dkk (2012:445) clustering adalah proses mempartisi

sekumpulan objek data (pengamatan) kedalam himpunan bagian yang dapat

digunakan untuk mengatur hasil pencarian ke dalam kelompok dan menyajikan

hasil dengan cara yang ringkas dan mudah diakses.

Clustering banyak digunakan dalam berbagai bidang dengan beragam

aplikasi yang sangat penting diantaranya riset pasar, sistem perekomendasi, sistem

keamanan dan mesin pencarian.

2.2.4 Garis kemiskinan

Menurut Hamzah,dkk (2013:68) garis kemiskinan atau batas kemiskinan

ditetapkan dengan 10las an logis dengan berdasarkan konsep kebutuhan pokok

(basic needs). Terdapat dua hal yang harus terlebih dahulu ditentukan, yaitu

pengukuran kebutuhan hidup minimum (standard of living) dan penentuan garis

kemiskinan.

Sajogyo dalam Hamzah,dkk (2013:68) menetapkan garis kemiskinan

berdasarkan penghasilan rumah tangga senilai 360 Kg beras per tahun di

11

perkotaan dan 240 Kg beras per tahun di perdesaan. Pengukuran garis kemiskinan

ini dapat dipakai untuk memperbandingkan tingkat hidup antar zaman dan antar

ragam nilai rupiah.

2.3 Data mining

2.3.1 Pengertian data mining

Perkembangan teknologi informasi telah memberikan kontribusi pada

cepatnya pertumbuhan jumlah data yang dikumpulkan dan disimpan dalam basis

data berukuran besar (big data). Big data adalah istilah yang menggambarkan

volume data yang besar, baik data yang terstruktur maupun data yang tidak

terstruktur. Big data memiliki potensi tinggi untuk mengumpulkan wawasan kunci

dari informasi bisnis. Big data dapat dianalisis untuk wawasan yang mengarah

pada pengambilan keputusan dan strategi bisnis yang lebih baik.

Sebuah metode atau teknik diperlukan untuk dapat merubah data tersebut

menjadi sebuah informasi berharga atau pengetahuan yang bermanfaat untuk

mendukung pengambilan keputusan. Suatu teknologi yang dapat digunakan untuk

mewujudkannya adalah data mining. Belakangan ini data mining telah

diimplementasikan kedalam berbagai bidang, diantaranya dalam bidang bisnis

atau perdangangan, bidang pendidikan, dan telekomunikasi.

Menurut Stanton (2013:173) data mining adalah bidang penelitian dan

praktik yang berfokus pada penemuan pola-pola baru dalam data yang mengacu

pada penggunaan algoritma dan komputer untuk menemukan pola baru dan

menarik dalam data.

12

Menurut Pramudiono dalam Baskoro,dkk (2013:42) data mining adalah

analisis otomatis dari data yang berjumlah besar atau kompleks dengan tujuan

untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak

disadari keberadaanya.

Menurut Suyatno (2017:2) data mining ditujukan untuk mengekstrak

pengetahuan dari sekumpulan data sehingga didapatkan struktur yang dapat

dimengerti manusia serta meliputi basis data dan manajemen data, prapemrosesan

data, pertimbangan model dan inferensi, ukuran ketertarikan, pertimbangan

kompleksitas, pascapemrosesan terhadap struktur yang ditemukan, visualisasi dan

online updating.

Sebagai teknologi umum, data mining dapat diterapkan ke semua jenis

data selama data bermakna untuk aplikasi target. Bentuk data paling dasar untuk

penambangan aplikasi adalah database, data warehouse dan data transaksional.

Data mining juga dapat diterapkan ke bentuk data lain (misalnya, aliran data, data

urutan / urutan, grafik atau data jaringan, data spasial, data teks, data multimedia).

13

Sumber : Han,dkk, 2012.

2.3.2 Fungsi data mining

Secara umum, kegunaan data mining terbagi menjadi dua yaitu deskriptif

dan prediktif. Deskriptif memiliki arti untuk mencari pola-pola yang dapat

dipahami manusia yang menjelaskan karakteristik data sedangkan prediktif

digunakan untuk membentuk sebuah model pengetahuan guna melakukan

prediksi. Berdasarkan fungsionalitasnya, tugas-tugas data mining bisa

dikelompokan menjadi enam kelompok yaitu :

Gambar 2. 1 Penemuan ilmu baru

14

Adapun penjelasan rinci dari enam kelompok tersebut sebagai berikut:

1. Klasifikasi (classification)

Proses generalisasi struktur yang diketahui untuk diaplikasikan pada data-data

baru.

2. Klasterisasi (clustering)

Mengelompokan data yang belum diketahui label kelasnya ke dalam sejumlah

kelompok tertentu sesuai dengan ukuran kemiripannya.

3. Regresi (regression)

Menemukan suatu fungsi yang memodelkan data dengan kesalahan prediksi

seminimal mungkin.

Gambar 2. 2 Fungsi data mining

15

4. Deteksi anomali (anomaly detection)

Mengidentifikasi data yang tidak umum, berupa outlier (pencilan), perubahan

atau deviasi yang mungkin sangat penting dan perlu investigasi lebih lanjut.

5. Pemodelan kebergantungan (Depedency modeling)

Mencari relasi antar tabel.

6. Perangkuman (summarization)

Menyediakan representasi data yang lebih sederhana, meliputi visualisasi dan

pembuatan laporan.

2.3.3 Teknik pembelajaran data mining

Teknik yang digunakan dalam data mining erat kaitannya dengan

penemuan dan pembelajaran yang terbagi dalam tiga metode utama pembelajaran

yaitu :

1. Supervised learning

Teknik yang melibatkan fase pelatihan dimana data pelatihan historis yang

karakter-karakternya dipetakan ke hasil-hasil yang telah diketahui dan diolah

dalam algoritma data mining. Proses ini melatih algoritma untuk mengenali

variabel-variabel dan nilai-nilai kunci yang nantinya akan digunakan sebagai

dasar dalam membuat perkiraan-perkiraan ketika diberikan data baru.

2. Unsupervised learning

Teknik pembelajaran yang tidak melibatkan fase pelatihan seperti supervised

learning yakni bergantung pada penggunaan algoritma yang mendeteksi semua

pola yang muncul dari kriteria penting yang spesifik dalam data masukan.

Pendekatan ini mengarah pada pembuatan banyak aturan yang

16

mengkarakteristikan penemuan associations, clusters dan segment yang

kemudian dianalisis untuk menemukan hal-hal yang penting.

3. Reinforcement learning

Teknik yang memiliki penerapan-penerapan yang terus dioptimalkan dari

waktu ke waktu dan memiliki kontrol adaptif. Menyerupai kehidupan nyata

yaitu seperti “on job training” dimana seorang pekerja diberikan sekumpulan

tugas yang membutuhkan keputusan-keputusan. Reinforcement leraning sangat

tepat digunakan untuk menyelesaikan masalah-masalah sulit yang bergantung

pada waktu.

2.3.4 Proses data mining

Data mining biasanya terdiri dari empat proses (Stanton 2013:173) :

1. Persiapan data

Melibatkan memastikan bahwa data diatur dengan cara yang benar, bahwa

bidang data yang hilang terisi, bahwa data yang tidak akurat berada dan

diperbaiki atau dihapus, dan data tersebut "didaur ulang" seperlunya.

2. Analisis data eksploratori

Proses eksplorasi juga melibatkan mencari keluar nilai-nilai yang tepat untuk

parameter kunci.

3. Pengembangan model

Yaitu menguji pilihan penambangan data yang paling sesuai teknik.

Tergantung pada struktur dataset dan memilih yang paling menjanjikan di

dalamnya sebagai sains.

17

4. Interpretasi hasil.

Berfokus untuk memahami dari apa algoritma data mining telah dihasilkan

yang merupakan langkah penting dari perspektif pengguna data, karena ini

adalah tempat kesimpulan yang dapat ditindaklanjuti terbentuk.

Beberapa tahun terakhir data tumbuh menjadi semakin heterogen dan

kompleks dengan volume yang meningkat cepat secara eksponensial. Selain itu,

beberapa faktor pendorong kemajuan yang berlanjut dalam bidang data mining

ialah:

1. Pertumbuhan yang cepat dalam pertumbuhan data.

2. Penyimpanan data dalam data warehouse, sehingga seluruh perusahaan

memiliki akses ke dalam database yang handal.

3. Adanya peningkatan akses data melalui navigasi web dan internet.

4. Perkembangan teknologi perangkat lunak untuk data mining (ketersediaan

teknologi).

5. Perkembangan yang hebat dalam kemampuan komputasi dan pengembangan

kapasitas media penyimpanan.

2.3.5 Pengelompokan teknik data mining

Menurut Baskoro,dkk (2013:43) data mining dibagi menjadi beberapa

kelompok berdasarkan tugas yang dapat dilakukan, yaitu:

1. Classification

Suatu teknik dengan melihat pada kelakuan dan atribut dari kelompok yang

telah didefinisikan. Teknik ini dapat memberikan klasifikasi pada data baru

18

dengan memanipulasi data yang ada yang telah diklasifikasi dan dengan

menggunakan hasilnya untuk memberikan sejumlah aturan.

2. Association

Digunakan untuk mengenali kelakuan dari kejadian-kejadian khusus atau

proses dimana hubungan asosiasi muncul pada setiap kejadian.

3. Clustering

Digunakan untuk menganalisis pengelompokkan berbeda terhadap data, mirip

dengan klasifikasi, namun pengelompokkan belum didefinisikan sebelum

dijalankannya tool data mining.

4. Forecasting

Teknik forecasting sebagai input kemudian akan mengambil sederetan angka

yang menunjukkan nilai yang berjalan seiring waktu dan kemudian Teknik

forecasting ini akan menghubungkan nilai masa depan dengan menggunakan

bermacam-macam teknik machine learning dan teknik statistik yang

berhubungan dengan musim, trend, dan noise pada data.

5. Prediction

Prediction (prediksi), untuk memperkirakan nilai masa mendatang, misalnya

memprediksi stok barang satu tahun ke depan.

2.4 K-means

2.4.1 Pengertian k-means

K-means merupakan algoritma klasterisasi yang paling tua dan paling

banyak digunakan dalam berbagai aplikasi kecil hingga menengah karena

19

kemudahan implementasinya. Menurut Suyanto (2017:262) Algoritma k-means

bekerja dengan empat langkah, yaitu :

1. Himpunan data yang akan diklasterisasi, dipilih sejumlah k objek secara acak

sebagai centroid awal.

2. Setiap objek yang bukan centroid dimasukkan ke cluster terdekat berdasarkan

ukuran jarak tertentu.

3. Setiap centroid diperbarui berdasarkan rata-rata dari objek yang ada di dalam

setiap cluster.

4. Langkah kedua dan ketiga dilakukan secara diulang-ulang (diiterasi) sampai

semua centroid stabil dalam arti semua centroid yang dihasilkan dalam iterasi

saat ini sama dengan semua centroid yang dihasilkan pada iterasi sebelumnya.

Berikut ini adalah langkah-langkah algoritma k-means :

1. Penentuan cluster awal

Dalam menentukan n buah pusat cluster awal dilakukan pembangkitan

bilangan random yang merepresentasikan urutan data input. Pusat awal cluster

didapatkan dari data sendiri bukan dengan menentukan titik baru, yaitu dengan

random pusat awal dari data.

2. Perhitungan jarak dengan pusat cluster

Untuk mengukur jarak antar data dengan pusat dengan cluster digunakan

euclidian distance, algoritma perhitungan jarak data dengan pusat cluster :

a. Pilih nilai data dan nilai pusat cluster

b. Hitung euclidian distance data dengan tiap pusat cluster

𝑑(𝑥𝑖 , 𝜇𝑗) = √(𝑥𝑖 − 𝜇𝑗) 2 …..(1)

20

Penjelasan :

xi : Data kriteria

µi : Centroid pada cluster ke j

3. Pengelompokan data

Jarak hasil perhitungan akan dilakukan perbandingan dan dipilih jarak terdekat

antara data dengan pusat cluster, jarak ini menunjukan bahwa data tersebut

berada dalam satu kelompok dengan pusat cluster terdekat.

Adapun cara pengelompokan data tersebut adalah :

a. Pilih nilai jarak tiap pusat cluster dengan data.

b. Cari nilai jarak terkecil.

c. Kelompokkan data dengan pusat cluster yang memiliki jarak terkecil.

4. Penentuan pusat cluster baru

Untuk mendapatkan pusat cluster baru bisa dihitung dari rata-rata nilai anggota

cluster dan pusat cluster. Pusat cluster yang baru digunakan untuk melakukan

iterasi selanjutnya, jika hasil yang didapatkan belum konvergen. Proses iterasi

akan berhenti jika telah memenuhi maksimum iterasi yang dimasukkan oleh

user atau hasil yang dicapai sudah konvergen (pusat cluster baru sama dengan

pusat cluster lama).

Algoritma penentuan pusat cluster :

a. Cari jumlah anggota tiap cluster

b. Hitung pusat baru dengan rumus

𝜇𝑗 (𝑡 + 1) =1

𝑁𝑠𝑗∑ 𝑗 𝜖 𝑆𝑗 𝑥𝑗 … … (2)

21

Penjelasan :

µj (t+1) : Centroid baru pada iterasi ke 1

Nsj : Banyak data pada cluster sj

Hasil dari operasi clustering yang terbentuk selanjutnya akan di evaluasi

menggunakan Davies bouldin index yang dihitung dengan persamaan :

𝐷𝐵𝐼 =1

𝐾∑ 𝑅𝑖

𝑘

𝑖=1

𝑅𝑖 = max 𝑅𝑖𝑗 j=1…k,i≠j

𝑅 𝑖𝑗𝑖≠𝑗

=var(𝐶𝑖) + var(C𝑗)

||𝑐𝑖 − 𝑐𝑗||

Dimana:

Cᵢ = Cluster i dan cluster ci adalah centroid dari cluster i

2.4.2 Keuntungan dan kekurangan k-means

Sebagai fungsi penambangan data, analisis cluster dapat digunakan

sebagai alat yang berdiri sendiri untuk memperoleh wawasan ke dalam distribusi

data. Adapun keuntungan lain dari metode ini (Han,dkk , 2012:445) antara lain :

1. K-means juga disebut segmentasi data di beberapa aplikasi karena

pengelompokan mempartisi set data besar ke dalam grup sesuai dengan

kemiripannya.

2. K-means bisa juga digunakan untuk deteksi outlier (nilai yang "jauh" dari mana

pun cluster).

3. K-means mempartisi sekumpulan objek data (atau pengamatan) ke dalam

himpunan bagian, sehingga banyak digunakan dalam banyak aplikasi seperti

22

intelijen bisnis, pengenalan pola gambar, pencarian web, biologi, dan

keamanan.

Selain itu, metode clustering memiliki beberapa kekurangan (Suyanto,

2017:262) antara lain :

1. K-means tidak dapat menjamin konvergen pada optimum global.

2. K-means sering terjebak pada optimum lokal, dimana centroid akhir yang

dihasilkan tidak benar-benar menjadi pusat cluster yang sesungguhnya.

3. Keluaran dari k-means bergantung pada centroid awal yang ditentukan secara

acak.

2.5 Rapidminer

Menurut Baskoro,dkk (2013:8) Rapidminer merupakan perangkat lunak

yang bersifat terbuka (open source). Rapidminer adalah sebuah solusi untuk

melakukan analisis terhadap data mining, text mining dan analisis prediksi.

Rapidminer menggunakan berbagai teknik deskriptif dan prediksi dalam

memberikan wawasan kepada pengguna sehingga dapat membuat keputusan yang

paling baik.

Rapidminer memiliki beberapa sifat sebagai berikut:

1. Ditulis dengan bahasa pemrograman java sehingga dapat dijalankan di

berbagai sistem operasi.

2. Proses penemuan pengetahuan dimodelkan sebagai operator trees.

3. Representasi XML internal untuk memastikan format standar pertukaran data.

4. Bahasa scripting memungkinkan untuk eksperimen skala besar dan otomatisasi

eksperimen.

23

5. Konsep multi-layer untuk menjamin tampilan data yang efisien dan menjamin

penanganan data.

6. Memiliki GUI, command line mode, dan java API yang dapat dipanggil dari

program lain.

24

BAB III

METODOLOGI PENELITIAN

3.1 Tahap penelitian

Dalam tahapan ini akan membahas tentang penelitian yang dilakukan

dengan dataset yang sudah di dapatkan yaitu :

1. Tahap pencarian data. Pada tahap ini dilakukan pencarian terhadap dataset

angka garis kemiskinan di Indonesia yang di didapatkan melalui website

https://www.bps.go.id/dynamictable/2016/01/18/1120/garis-kemiskinan-

menurut-provinsi-2013---2017.html.

2. Tahap analisa. Pada tahap ini dilakukan analisa tentang algoritma yang cocok

digunakan untuk dataset yang ada yaitu k-means.

3. Tahap implementasi. Pada tahap ini dilakukan pengujian terhadap dataset yang

didapat dengan algortima k-means dengan cara menghitung centroid pada

setiap satuan data.

4. Tahap dokumentasi. Pada tahap ini semua hasil hitung dilampirkan kedalam

laporan serta grafik yang dihasilkan ditampilkan sebagai representasi tiap data.

3.1.1 Gambaran penelitian

Gambar 3. 1 Gambaran penelitian

25

Proses pertama yaitu pencarian data mentah berupa dataset angka garis

kemiskinan yang berekstensi .xlsx yang merupakan representasi dari data. Proses

kedua yaitu pembersihan data untuk mengambil data yang akan digunakan. Dalam

penelitian ini data dari tahun 2013 hingga 2017 dilakukan pembersihan data yang

tidak bagus dengan cara replace missing value. Proses ketiga yaitu data yang

sudah bisa digunakan untuk penelitian. Proses keempat yaitu k-means clustering

yaitu mengelompokan data menjadi tiga kelompok yaitu sangat rendah, rendah

dan cukup.

3.2 Data

Data yang digunakan untuk penelitian adalah data angka garis kemiskinan

yang diperoleh secara online melalui website

https://www.bps.go.id/dynamictable/2016/01/18/1120/garis-kemiskinan-menurut-

provinsi-2013---2017.html sebanyak 34 data sesuai dengan jumlah provinsi yang

ada di Indonesia. Data yang digunakan yaitu data yang terkumpul selama tahun

2013 sampai 2017 yang berekstensi .xlsx.

3.3 Preprocessing data

Sebelum mengolah data, perlu dilakukan proses preprocessing data untuk

memudahkan penggalian informasi dari hasil penambangan data. Prepocessing

data yang digunakan adalah data cleaning.

3.3.1 Data cleaning

Dalam tahap ini, akan dilakukan penggantian nilai yang hilang (replace

missing value). Terdapat dua dataset yang tidak lengkap yaitu data perdesaan di

DKI Jakarta dan Kalimantan Utara pada daerah perdesaan dan perkotaan. Dalam

26

kedua data tersebut tidak ada nilai pendapatan rupiah/kapita/bulan. Pada data DKI

Jakarta tahun 2013 semester 1 sampai tahun 2017 tidak terdapat angka pada

daerah perdesaan selama lima tahun tersebut. Sedangkan tidak terdapat data di

daerah Kalimantan Utara pada tahun 2014 baik di perkotaan maupun perdesaan.

Penggantian nilai yang hilang dari ketiga data tersebut memberikan hasil

baru pada data penelitian. Penggantian tersebut menggunakan nilai maksimal dari

data yang ada pada tiap provinsi kemudian memasukan nilai maksimal tersebut

pada atribut yang hilang.

Proses penggantian data yang hilang menggunakan tool rapidminer

dengan cara memasukan file dataset penelitian lalu mengabungkan dengan

operator Replace missing value kemudian melakukan run sehingga didapatkan

dataset yang dibutuhkan.

Gambar 3. 2 Implementasi data pada rapidminer

27

Gambar 3. 3 Penggantian data yang hilang pada data

perdesaan DKI Jakarta


perdesaan Kalimantan Utara

28


perkotaan Kalimantan Utara

29

BAB IV

HASIL DAN PEMBAHASAN

4.1 Proses clustering

Pada tahap ini akan dilakukan proses utama yaitu segmentasi atau

pengelompokan data angka garis kemiskinan. Berikut ini merupakan penerapan

algoritma k-means dengan asumsi bahwa parameter input adalah jumlah dataset

sebanyak n data dan jumlah inisialisasi centroid k = 3 sesuai dengan penelitian.

Data yang diambil untuk penelitian berjumlah 34 untuk dijadikan contoh

penerapan algoritma k-means. Percobaan dilakukan dengan menggunakan

parameter-parameter berikut :

Jumlah cluster : 3

Jumlah data : 34

Jumlah atribut : 2

4.2 Pengujian rapidminer

Pada penelitian ini penulis menggunakan tool rapidminer sebagai alat

pengujian dataset. Adapun tahapan pengujian yang dilakukan yaitu sebagai

berikut :

30

Gambar 4. 1 Design process

Pada tahapan ini dilakukan 8 proses yaitu :

a. Read excel

Tahapan ini dilakukan operasi penginputan dataset berupa file berekstensi .xls

angka garis kemiskinan di Indonesia.

b. Replace missing value

Tahapan ini dilakukan operasi pengisian nilai yang hilang dengan nilai

maksimal.

c. Select attributes

Tahapan ini dilakukan operasi pemilihan atribut yang akan dihitung yaitu data

perdesaan dan data perkotaan pada bulan September 2017.

d. Normalize

Tahapan ini dilakukan operasi normalisasi data menggunakan metode z score

dihasilkan nilai-nilai yang sudah distandarkan.

31

e. Clustering

Tahapan ini dilakukan operasi clustering sebagai algortima yang digunakan

pada penelitian ini.

f. Performance

Tahapan ini dilakukan operasi pencarian nilai davies bouldin index.

g. Sort

Tahapan ini dilakukan operasi pengurutan anggota cluster 0 sampai dengan

cluster 2.

h. Discretize

Tahapan ini dilakukan operasi mengubah atribut numerik yang dipilih menjadi

atribut nominal dengan mendiskritasikan atribut numerik.

Gambar 4. 2 Example set result

32

Pada tahapan ini ditampilkan hasil dari klasterisasi data. Label cluster

terbagi menjadi tiga kelompok yaitu cluster 0, cluster 1, cluster 2. Pembagian ini

berdasarkan hasil kedekatan tiap masing-masing data dengan jarak terdekat (k).

Gambar 4. 3 Cluster model

Pada tahapan ini ditampilkan hasil pembagian data terhadap tiap cluster.

Cluster 0 memiliki 17 anggota, Cluster 1 memiliki 6 anggota, Cluster 2 memiliki

11 anggota dari total 34 dataset yang di uji.

33

Gambar 4. 4 Centroid table

Pada tahapan ini ditampilkan nilai titik pusat pada tiap cluster. Nilai

tersebut menjadikan acuan perhitungan pada tiap-tiap dataset dengan cara

mengukur kedekatan nilai dengan masing-masing titik pusat cluster.

Gambar 4. 5 Anggota cluster 0

34



35

Gambar 4. 8 Example set statistic

Pada tahapan ini ditampilkan hasil statistik dari data yang sudah di uji.

Pada tabel K dan U terdapat 3 atribut yaitu min sebagai nilai terendah pada tabel

dataset, max sebagai nilai tertinggi pada tabel dataset dan average sebagai nilai

rata-rata dari penjumlahan tabel dataset tersebut.

Gambar 4. 9 Graph result

36

Pada tahapan ini ditampilkan hasil pembagian dari tiga kelompok berupa

lingkaran. Ukuran tiap lingkaran mendeskripsikan jumlah banyaknya anggota tiap

cluster.

Gambar 4. 10 Plot result

Pada tahapan ini ditampilkan hasil plot dari hasil pengujian. Pada bagian

sebelah kiri menunjukan angka pedapatan dan bagian sebelah kanan ditampilkan

garis sebagai gambaran rataan nilai anggota.

37

Gambar 4. 11 Chart clustering

Pada tahapan ini ditampilkan hasil pengelompokan data dalam bentuk

grafik titik dengan warna. Warna biru mengartikan cluster 0, warna hijau

mengartikan cluster 1 dan warna merah mengartikan cluster 2.

Gambar 4. 12 Perfomance vector

4.3 Pembahasan hasil clustering k-means

Setelah dilakukan pengujian dengan tool rapidminer, maka didapatkan

kesimpulan sebagai berikut :

38

Tabel 4. 1 Dataset penelitian pendapatan/kapita/bulan dalam satuan rupiah

PROVINSI

2017

PERKOTAAN PERDESAAN

Aceh 479872 442869

Sumatera Utara 438894 407157

Sumatera Barat 475365 441415

Riau 474626 457368

Jambi 465233 366036

Sumatera Selatan 417828 356020

Bengkulu 490475 449857

Lampung 427072 377049

Kep. Bangka Belitung 595031 623111

Kep. Riau 540062 507795

DKI Jakarta 578247 623111

Jawa Barat 354866 353103

Jawa Tengah 339692 337657

DI Yogyakarta 413631 352861

Jawa Timur 372585 347997

Banten 421137 373039

Bali 371118 350826

Nusa Tenggara Barat 363697 343387

Nusa Tenggara Timur 409382 329136

Kalimantan Barat 401588 394313

Kalimantan Tengah 378311 418861

Kalimantan Selatan 434791 407382

Kalimantan Timur 564801 554497

Kalimantan Utara 595802 554548

Sulawesi Utara 331931 340146

Sulawesi Tengah 430728 400639

Sulawesi Selatan 303834 287788

Sulawesi Tenggara 308624 295456

Gorontalo 312931 304353

Sulawesi Barat 318376 315137

Maluku 461552 443565

Maluku Utara 413797 390914

Papua Barat 523381 499086

Papua 508403 446994

Sumber: Badan Pusat Statistik

39

Tabel 4. 2 Dataset yang telah distandarkan z score

PROVINSI

2017

PERKOTAAN PERDESAAN

Aceh 0,563 0,394

Sumatera Utara 0,072 -0,017

Sumatera Barat 0,509 0,377

Riau 0,500 0,560

Jambi 0,387 -0,490

Sumatera Selatan -0,180 -0,605

Bengkulu 0,690 0,474

Lampung -0,069 -0,363

Kep. Bangka Belitung 1,942 2,466

Kep. Riau 1,283 1,140

DKI Jakarta 1,741 2,466

Jawa Barat -0,934 -0,638

Jawa Tengah -1,116 -0,816

DI Yogyakarta -0,230 -0,641

Jawa Timur -0,722 -0,697

Banten -0,141 -0,409

Bali -0,739 -0,665

Nusa Tenggara Barat -0,282 -0,750

Nusa Tenggara Timur -0,281 -0,914

Kalimantan Barat -0,375 -0,165

Kalimantan Tengah -0,653 0,118

Kalimantan Selatan 0,023 -0,014

Kalimantan Timur 1,580 1,677

Kalimantan Utara 1,951 1,678

Sulawesi Utara -1,209 -0,787

Sulawesi Tengah -0,026 -0,092

Sulawesi Selatan -1,545 -1,389

Sulawesi Tenggara -1,436 -1,301

Gorontalo -1,436 -1,199

Sulawesi Barat -1,371 -1,075

Maluku 0,343 0,402

Maluku Utara -0,228 -0,204

Papua Barat 1,084 1,040

Papua 0,904 0,441

Kemudian dilakukan operasi clustering untuk mendapatkan nilai

klasterisasi data berdasarkan tiap kelompoknya.

40

Tabel 4. 3 Anggota cluster 0

No Provinsi Perkotaan Perdesaan Cluster

1 Aceh 479872 442869 0

2 Sumatera Utara 438894 407157 0

3 Sumatera Barat 475365 441415 0

4 Riau 474626 457368 0

5 Jambi 465233 366036 0

6 Sumatera Selatan 417828 356020 0

7 Bengkulu 490475 449857 0

8 Lampung 427072 377049 0

9 DI Yogyakarta 413631 352861 0

10 Banten 421137 373039 0

11 Kalimantan Barat 401588 394313 0

12 Kalimantan Tengah 378311 418861 0

13 Kalimantan Selatan 434791 407382 0

14 Sulawesi Tengah 430728 400639 0

15 Maluku 461552 443565 0

16 Maluku Utara 413797 390914 0

17 Papua 508403 446994 0



1 Kep. Bangka Belitung 595031 623111 1

2 Kep. Riau 540062 507795 1

3 DKI Jakarta 578247 623111 1

4 Kalimantan Timur 564801 554497 1

5 Kalimantan Utara 595802 554548 1

6 Papua Barat 523381 499086 1

41



1 Jawa Barat 354866 353103 2

2 Jawa Tengah 339692 337657 2

3 Jawa Timur 372585 347997 2

4 Bali 371118 350826 2

5 Nusa Tenggara Barat 363697 343387 2

6 Nusa Tenggara Timur 409382 329136 2

7 Sulawesi Selatan 303834 287788 2

8 Sulawesi Tenggara 308624 295496 2

9 Gorontalo 312931 304353 2

10 Sulawesi Barat 318376 315137 2

11 Sulawesi Utara 331931 340146 2

Gambar 4. 13 Grafik titik hasil clustering

42

Tanda panah biru adalah data pada provinsi Nusa Tenggara Timur yang

memiliki kedekatan jarak secara sekilas dekat dengan cluster 0 yang diartikan

dengan titik berwarna biru. Peneliti berpendapat bahwa data tersebut tidak dapat

bergabung dengan cluster 0 dikarenakan nilai z score menunjukan hasil yang lebih

dekat dengan titik pusat cluster 2 sehingga data tersebut dinyatakan sebagai

anggota cluster 2.

Selanjutnya dibuat himpunan dan domain untuk masing-masing variabel

untuk memudahkan mendeskripsikan tiap provinsi :

Tabel 4. 6 Deskripsi (linguistik) dan domain nilai tiap atribut

Attribute Deskripsi Domain nilai

Cluster 0

Perkotaan 413714 – 515892

Perdesaan 369537 – 478227

Cluster 1 Perkotaan 515892 - ∞

Perdesaan 478227 - ∞

Cluster 2 Perkotaan ∞ - 413714

Perdesaan ∞ - 369537

Gambar 4. 14 Discretize data

43

Setelah cluster terbentuk, maka dapat diperoleh kesimpulan sebagai

berikut:

Tabel 4. 7 Deskripsi data berdasarkan dengan cluster

Cluster Deskripsi

0 Anggota cluster dengan rataan penghasilan rendah

1 Anggota cluster dengan rataan penghasilan cukup

2 Anggota cluster dengan rataan penghasilan sangat rendah

Setelah proses clustering selesai selanjutnya dilakukan operasi

performance untuk mengetahui nilai dari Davies bouldin index yang bertujuan

untuk memaksimalkan pengukuran jarak antar cluster dan meminimalkan jarak

antar anggota dalam suatu cluster .

Gambar 4. 15 Perfomace vector

Hasil yang diperoleh dari operasi performance vector adalah sebagai

berikut:

44

Tabel 4. 8 Hasil operasi perfomance vector

Perfomance Vector Value

Avg. within centroid distance 0.151

Avg. within centroid distance cluster 0 0.161



Davies Bouldin 0.288

Evaluasi hasil dari average within centroid distance mendekati angka 0

mengartikan bahwa masing-masing anggota didalam cluster berada dalam jarak

yang berdekatan. Evaluasi menggunakan davies bouldin index memiliki skema

internal cluster yang dilihat dari kuantitas dan kedekatan antar hasil cluster.

Semakin kecil nilai davies bouldin index yang diperoleh (non-negatif >= 0), maka

semakin baik cluster yang diperoleh dari pengelompokan menggunakan metode

clustering. Hasil perhitungan menggunakan algoritma k-means menunjukan nilai

0,288. Angka tersebut memiliki arti masing-masing objek dalam cluster tersebut

memiliki kesamaan yang cukup baik karena mendekati angka 0.

45

BAB V

PENUTUP

5.1 Kesimpulan

Berdasarkan hasil penelitian yang dilakukan oleh penulis, dapat diambil

kesimpulan sebagai berikut:

1. Penerapan algortima k-means membagi dataset menjadi tiga kelompok yaitu

sangat rendah, rendah dan cukup sesuai dengan kemiripan tingkat

pendapatan/kapita/bulan.

2. Hasil pengujian mendapatkan nilai davies bouldin index sebesar 0,288 yang

memiliki arti kesamaan antar anggota cluster yang cukup baik.

5.2 Saran

Mengingat masih banyaknya hal-hal yang belum dapat diimplemetasikan

dari penelitian ini, maka penulis mempertimbangkan beberapa saran yaitu :

1. Hasil clustering yang terbentuk dapat dikembangkan menjadi basis

pengetahuan untuk sistem pendukung keputusan pemetaan provinsi dengan

rataan pendapatan tiap daerah sesuai dengan kemiripannya.

2. Melakukan kombinasi dengan metode atau pendekatan yang lain guna

mendapatkan hasil penelitian yang lebih baik.

46

DAFTAR PUSTAKA

Aprilla, D., Ambarwati, L., Baskoro, D. A., Wicaksana, I. W. S. 2013. Belajar

Data Mining dengan RapidMiner. Jakarta: Open Content Model

Aziz, A., Purmaningsih, C., Saptono, R. 2014. Pemanfaatan Metode K-means

Clustering Dalam Penentuan Penjurursan Siswa SMA. Jurnal ITSMART. Vol

3 (1): 27-33

Hamzah, A., Syechalad, M. N., Takdir, A. 2013. Analisis Kemiskinan Rumah

Tangga Berdasarkan Karakteristik Sosial Ekonomi Di Kabupaten Aceh Barat

Daya. Vol. 1. Page 67-75

Han, J., Kamber, M., Pei, J. 2012. Data Mining Concepts and Techniques.

Waltham: Elsevier.

Jumadi, B.D.S. 2018. Peningkatan Hasil Evaluasi Clustering Davies Bouldin

Index Dengan Penentuan Titik Pusat Cluster Awal Algoritma K-means

[skripsi]. Medan. Universitas Sumatera Utara

Muhidin ,A. 2017. Analisa Metode Hierarchical dan K-means Dengan Model

LRFMP Pada Segmentasi Pelanggan. SIGMA. Vol 7 (1): 81-88

Munir, R. 2012. Matematika Diskrit. Bandung: Informatika

Murti, M.A.W.K. 2017. Penerapan Metode K-means Clustering Untuk

Mengelompokan Potensi Produksi Buah-buahan Di Provinsi Daerah Istimewa

Yogyakarta [skripsi]. Yogyakarta. Universitas Sanata Dharma

Rahayu, S., Nugrahadi, D.T., Indriani, F. 2014. Clustering Penentuan Potensi

Kejahatan Daerah Di Kota Banjarbaru Dengan Metode K-means. Kumpulan

Jurnal Ilmu Komputer. Vol 1 (1): 33-45

Stanton, J. 2013. Inroduction to Data Science. Syracuse: Syracuse University’s

School of Information Studies

47

Suyanto. 2017. Data Mining Untuk Klasifikasi dan Klasterisasi Data. Bandung:

Informatika

Vulandari, R. T. 2017. Data Mining Teori dan Aplikasi Rapidminer. Yogyakarta:

Gavamedia

48

LAMPIRAN

Lampiran 1. Tabel dataset penelitian

49

Lampiran 2. Tabel dataset daerah perkotaan

50

Lampiran 3. Tabel dataset daerah perdesaan

PENERAPAN ALGORITMA K-MEANS UNTUK MEMETAKAN …

Documents

Transcript of PENERAPAN ALGORITMA K-MEANS UNTUK MEMETAKAN …