jurnal_datamining

75
ANALISIS DATA MINING K-MEANS CLUSTER ANALYSIS UNTUK DATA BERJENIS BINER (STUDI KASUS:PENGELOMPOKAN RUMAH TANGGA SASARAN (RTS) BANTUAN LANGSUNG TUNAI (BLT) ) OLEH DADAN SAEPULLOH (140720070035) PROGRAM PASCASARJANA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS PADJADJARAN BANDUNG 2010

Transcript of jurnal_datamining

Page 1: jurnal_datamining

ANALISIS DATA MINING K-MEANS CLUSTER ANALYSIS UNTUK DATA BERJENIS BINER (STUDI KASUS:PENGELO MPO KAN RUMAH TANGGA SASARAN (RTS) BANTUAN LANGSUNG TUNAI (BLT))

OLEH

DADAN SAEPULLOH

(140720070035)

PROGRAM PASCASARJANA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS PADJADJARAN BANDUNG

2010

Page 2: jurnal_datamining

ANALISIS DATA MINING K-MEANS CLUSTER ANALYSIS UNTUK DATA BERJENIS BINER (STUDI KASUS : PENGELO MPOKAN RUMAH TANGGA SASARAN (RTS) BANTUAN LANGSUNG TUNAI (BLT))

PROGRAM PASCASARJANA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS PADJADJARAN BANDUNG

2010

OLEH

DADAN SAEPULLOH

(140720070035)

Untuk memenuhi salah satu syarat ujian

Guna memperoleh gelar Magister Statistika

Program Pendidikan Magister Program Studi Statistika Terapan

Page 3: jurnal_datamining

1

Page 4: jurnal_datamining

ANALISIS DATA MINING K-MEANS CLUSTER ANALYSIS UNTUK DATA BERJENIS BINER

(STUDI KASUS : PENGELOMPOKAN RUMAH TANGGA SASARAN (RTS) BANTUAN LANGSUNG TUNAI (BLT))

OLEH

DADAN SAEPULLOH

(140720070035)

Untuk memenuhi salah satu syarat ujian

Guna memperoleh gelar Magister Statistika

Program Pendidikan Magister Program Studi Statistika Terapan

Telah disetujui oleh tim pembimbing pada tanggal

Seperti tertera di bawah ini

Bandung, ____________________

Tim Pembimbing :

Dr. Jadi Supriadi, DEA Zulhanif, S.Si, M.Sc

Ketua Tim Pembimbing Anggota Tim Pembimbing

Page 5: jurnal_datamining

i

PERNYATAAN

Dengan ini saya menyatakan bahwa:

1. Karya tulis saya, tesis ini, adalah asli dan belum pernah diajukan untuk

mendapatkan gelar akademik (sarjana, magister dan/atau doctor) baik di

Universitas Padjadjaran maupun di perguruan tinggi lain.

2. Karya tulis ini adalah murni gagasan, rumusan dan penelitian saya sendiri

tanpa bantuan pihak lain, kecuali arahan Tim Pembimbing.

3. Dalam tesis ini tidak terdapat karya atau pendapat yang telah tertulis atau

dipublikasikan orang lain, kecuali secara tertulis dengan jelas dicantumkan

sebagai acuan dalam naskah dengan disebutkan nama pengarang dan

dicantumkan dalam daftar pustaka.

4. Pernyataan ini saya buat dengan sesungguhnya dan apabila dikemudian hari

terdapat penyimpangan dan ketidakbenaran dalam pernyataan ini, maka saya

bersedia menerima sanksi akademis berupa pencabutan gelar yang telah

diperoleh karena karya ini, serta sanksi lainnya sesuai dengan norma yang

berlaku diperguruan tinggi ini.

Bandung, 2010

Yang membuat pernyataan,

(Dadan Saepulloh)

Page 6: jurnal_datamining

ii

ABSTRAK

Judul Tesis : ANALISIS DATA MINING K-MEANS CLUSTER ANALYSIS UNTUK DATA BERJENIS BINER

(STUDI KASUS: PENGELOMPOKAN RUMAH TANGGA SASARAN (RTS) BANTUAN LANGSUNG TUNAI(BLT))

Subjek : 1. Data mining 2. Cluster Analysis

3. Non Hierarchical Clustering Method 4. K-Means Cluster Analysis 5. Metode Pengukuran Similaritas

Abstrak :

Pengelompokan (clustering) adalah salah satu proses dari data mining yang bertujuan untuk menemukan “pengetahuan” atau pola yang berharga dari data yang berukuran relatif besar yang umumnya dikelola sebagai data history dan

disimpan baik sebagai database maupun datawarehouse. Metode pengelompokan digunakan terhadap data-data yang bersifat un-supervised learning, sehingga proses

pengelompokan didalam konsep data mining termasuk dalam Un-supervised analysis.

Terdapat dua kelompok metode pengelompokan yang sudah dikenal yaitu metode cluster analysis hirarki (hierarchical clustering method) dan metode cluster analysis non hirarki (non hierarchical clustering method), Algoritma K-Means Cluster

Analysis termasuk dalam kelompok metode cluster analysis non hirarki, dimana jumlah kelompok yang akan dibentuk sudah terlebih dahulu diketahui atau

ditetapkan jumlahnya.

Algoritma K-Means Cluster Analysis mempergunakan metode perhitungan jarak

(distance) untuk mengukur tingkat kedekatan antara data dengan titik tengah (centroid), umumnya menggunakan Euclidean distance atau metode pengukuran

jarak lainnya,untuk data yang berjenis biner metode perhitungan jarak ini menjadi tidak tepat diterapkan sehingga perlu dilakukan perubahan yaitu dengan cara mempergunakan metode perhitungan tingkat similaritas, terdapat beberapa metode

perhitungan similaritas diantaranya yang dipergunakan dalam laporan ini adalah Jaccard simililarity, Anderberg similarity, Czekanowsky similarity, dan Kulczynski

similarity. Kemudian untuk menentukan nilai centroid awal pada algoritma K-Means Cluster Analysis umumnya dilakukan dengan cara acak (random), pada analisa ini dilakukan modifikasi dengan terlebih dahulu dilakukan proses

pengurutan (sorting) data dan nilai awal centroid ditetapkan berdasarkan kriteria pembentuk kelompok yang sudah diketahui. Dengan melakukan pendekatan

similaritas dan perubahan pada algoritma k-means cluster analysis seperti diatas menghasilkan algoritma k-means cluster analysis yang dapat dipergunakan pada data berjenis biner dan validitas yang lebih baik.

Page 7: jurnal_datamining

ii

ABSTRACT

Thesis : DATA MINING ANALYSIS WITH K-MEANS CLUSTER ANALYSIS FOR BINARY DATA

(CASE STUDY : CLUSTERING FOR RUMAH TANGGA SASARAN (RTS) BANTUAN LANGSUNG TUNAI(BLT))

Subject : 1. Data mining 2. Cluster Analysis

3. Non Hierarchical Clustering Methods 4. K-Means Cluster Analysis 5. Similarity Methods

Abstract :

Clustering is one of data mining function, which aims to find knowledge or valuable pattern from relatively large dataset, which mostly managed as historical dataset and stored in databases or datawarehouse.

Clustering methodes used for un-supervised dataset, in data mining concepts

called as un-supervised analysis. There are two groups of clustering, hierarchical clustering methods and non hierarchical clustering methods, K-Means Cluster Analysis within non hierarchical clustering methods with number of cluster is

already set from the begining of the algorithm.

K-means Cluster Analysis mostly used Euclidean distance or others distance

methodology to find distance from data to centroid, its can’t implement for binary data, so in this field k-means cluster analysis to be modified with use similarity

measures, in this study used Jaccard simililarity, Anderberg similarity,

Czekanowsky similarity and Kulczynski similarity, Classical k-means cluster analysis finding the first centroid by randomize from dataset,here k-means cluster

analysis algorithm will be modified with sorted dataset and then the first centroid selected from dataset base on cluster result criteria. With use similarity measures

and modification of k-means cluster analysis algorithm, the algorithm can and better implemented in binary data.

Page 8: jurnal_datamining

iii

KATA PENGANTAR

Segala puji bagi Allah SWT, Tuhan semesta alam yang telah mencurahkan

begitu banyak Rahmat dan Karunia-Nya sehingga penulis mampu menyelesaikan

Tesis ini yang berjudul “Analisis Data mining K-Means Cluster Analysis Untuk

Data Berjenis Biner, Studi Kasus: Pengelompokan Rumah Tangga Sasaran (RTS)

Bantuan Langsung Tunai (BLT)”. Banyak hal yang diperoleh penulis selama

proses pengerjaan tesis ini, untuk itu penulis sampaikan Terima Kasih dan

Penghargaan yang setinggi-tingginya kepada :

1. Pimpinan dan Management PT.Rekayasa Industri, tempat Penulis bekerja

yang telah memberikan kesempatan baik berupa moril maupun materil kepada

penulis untuk melanjutkan studi Magister Statistika Terapan.

2. Seluruh Staf Pengajar Program Pascasarjana Magister Statistika Terapan

Universitas Padjadjaran Bandung, yang telah membimbing dan membantu

penulis selama menempuh pendidikan magister.

3. Kedua Orang Tua, Mertua, Istriku Eva Mardhiana dan ke-Empat anak-anakku

tercinta yang telah banyak berkorban dan memberikan do’a, dukungan serta

motivasi untuk selalu semangat dalam proses pembelajaran dan

menyelesaikan studi dengan baik.

4. Bapak Septiadi Padmadisastra, Ph.D sebagai Ketua Program Studi Magister

Statistika Terapan dan Ibu Dr. Lienda Novianti sebagai Sekretaris Program

Studi Magister Statistika Terapan Universitas Padjadjaran Bandung yang telah

memberikan bimbingan dan kemudahan selama proses belajar mengajar.

Page 9: jurnal_datamining

iii

5. Bapak Dr. Jadi Suprijadi, DEA dan Bapak. Zulhanif, S.Si,M.Sc sebagai

pembimbing yang telah banyak memberikan bimbingan dan masukan atas

penyelesaian tesis ini.

6. Bapak Septiadi Padmadisastra, Ph.D dan Bapak Drs.H.Bernik Maskun,M.Stat

sebagai tim penguji yang telah banyak memberikan masukan.

7. Teman-teman seperjuangan di Magister Statistika Terapan Universitas

Padjadjaran Angkatan II, terima kasih atas bantuan, kebersamaan, dukungan dan

semangat yang selama ini diberikan selama proses perkuliahan dan penyelesaian

tesis ini.

8. Semua pihak yang tidak bisa disebutkan satu persatu

Semoga semua bantuan, bimbingan dan pengorbanan yang telah diberikan

mendapat balasan dan pahala berlipat ganda dari Allah SWT.

Akhir kata semoga karya tulis ini dapat memberikan manfaat dan menjadi

sumbangsih kecil bagi perkembangan ilmu pengetahuan, terutama dalam bidang

statistika terapan serta bidang ilmu lainnya yang terkait, kemudian dalam

penyusunan dan penulisan tesis ini penulis menyadari masih jauh dari sempurna

untuk itu saran dan kritik membangun sangat penulis harapkan.

Bandung, 2010

Penulis

Page 10: jurnal_datamining

iv

DAFTAR GAMBAR

Gambar 2.1 : Proses Knowledge Discovery in Database

Gambar 2.2 : Hubungan Data mining dan Bidang Ilmu Lainnya

Gambar 2.3 : Cluster Berdasarkan Definisi Well-Separated Cluster

Gambar 2.4 : Cluster Berdasarkan Definisi Center-Based-Cluster

Gambar 2.5 : Contoh Dendogram

Gambar 2.6 : Diagram Alur Algoritma K-Means Cluster Analysis

Gambar 3.1 : Diagram Alur Algoritma Usulan K-Means Cluster Analysis

Gambar 3.2 : Diagram Alur Algoritma Metode Penelitian

Gambar 4.1 : Sebagian Data Yang Akan Dianalisa

Gambar 4.2 : Distribusi Frekuensi Data Per Kecamatan

Gambar 4.3 : Star Skema Data Rumah Tangga Miskin Kriteria BPS

Gambar 4.4 : Distribusi Frekuensi Data RTS BLT yang Memenuhi Syarat

Gambar 4.5 : Contoh Data Terurut Berdasarkan Kriteria RTS BLT

Gambar 4.6 : Tampilan inisial proses Cluster Selected

Gambar 4.7 : Tampilan hasil proses Cluster Selected

Gambar 4.8 : Contoh Data Hasil Cluster Selected

Gambar 4.9 : Chart Hasil Cluster Selected

Gambar 4.10 : Chart Frekuensi Per Kriteria RTS Untuk Cluster Sangat Miskin

Gambar 4.11 : Chart Frekuensi Per Kriteria RTS Untuk Cluster Miskin

Gambar 4.12 : Chart Frekuensi Per Kriteria RTS Untuk Cluster Hampir Miskin

Gambar 4.13 :Tampilan inisial proses Cluster Randomize

Gambar 4.14 :Tampilan hasil proses Cluster Randomize

Gambar 4.15 :Chart Hasil ClusterRandomize

Page 11: jurnal_datamining

v

DAFTAR ISI

Halaman

PERNYATAAN………………………………………………………. ……… i

ABSTRAK ……………………………………………………………………. ii

KATA PENGANTAR ………………………………………………………… iii

DAFTAR GAMBAR ………………………………………………………….. iv

BAB I PENDAHULUAN ………………………………………………........... 1

1.1 Tinjauan Umum …………………………………………………… 1

1.2 Latar Belakang Masalah …………………………………………... 6

1.3 Identifikasi Masalah ……………………………………………….. 8

1.4 Maksud dan Tujuan ……………………………………................. 9

1.5 Manfaat Yang Diharapkan ………………………………………... 9

BAB II TINJAUAN PUSTAKA ……………………………………………… 11

2.1 Data Mining ……………………………………………………….. 11

2.2 Cluster Analysis ……………………..……………………………. 15

2.2.1 Definisi Cluster ……………………………………………… 15

2.2.2 Definisi Cluster Analysis ……….....…………………………. 17

2.2.3 Klasifikasi Metode Cluster Analysis……..…………………… 19

2.3 K-Means Cluster Analysis …………..……………………………… 21

2.3.1 Algoritma K-Means Cluster Analysis ………………………. 22

2.3.2 Menentukan Banyaknya Cluster k………………………………. 24

2.3.3 Menentukan Centroid …………………..…………………… 25

2.3.4 Menghitung Jarak Antara Data Dengan Centroid………….... 25

2.3.5 Pengalokasian Ulang Data Kedalam Masing-masing cluster… 26

2.3.6 Konvergensi …………………………………………................ 28

Page 12: jurnal_datamining

vi

2.4 Menilai Kualitas Cluster…………………………………………….. 28

2.5 Beberapa Permasalahan K-Means Cluster Analysis…………………. 30

2.6 Contoh Penerapan Algoritma K-Means Cluster Analysis…………. 32

BAB III K-MEANS CLUSTER ANALYSIS UNTUK DATA BINER………… 40

3.1 Algoritma Usulan K-Means Cluster Analysis…………………………... 40

3.2 Ukuran Similaritas……………………………………………............ 43

3.2.1 Similaritas Pada Data Biner…………………………………… 44

3.2.2 Jaccard Similarity & Jaccard Dissimilarity………………….... 46

3.3 Contoh Penerapan Algoritma Usulan………………………………... 49

BAB IV ANALISA DATA…………………………………………………… 57

4.1 Pemahaman data (data understanding)……………………………… 57

4.2 Transformasi Data…………………………………………………… 62

4.2.1 Pemodelan Data Dimensional ………………………………… 62

4.2.2 Visualisasi Datawarehouse ……………………………………. 65

4.3 Analisis K-means cluster analysis untuk data Biner………………… 66

BAB V KESIMPULAN DAN SARAN……………………………………….. 96

5.1Kesimpulan……………………………………………………………. 96

5.2 Saran………………………………………………………………….. 98

DAFTAR PUSTAKA………………………………………………………….. 99

DAFTAR LAMPIRAN………………………………………………………... 102

Page 13: jurnal_datamining

79

BAB I

PENDAHULUAN

1.1. Tinjauan Umum

Kegiatan perencanaan, evaluasi dan pengambilan keputusan akan dapat

dilakukan dengan lebih baik apabila para pengambil keputusan memiliki informasi

yang lengkap, cepat, tepat dan akurat. Hambatan yang sering ditemukan adalah

kenyataan bahwa ketika kita sudah memiliki data yang cukup lengkap dan besar akan

tetapi kita seringkali mengalami kesullitan dalam menyajikan dan mengolah data

tersebut sehingga menjadi informasi yang berguna dan mudah dipahami dengan

tinjauan dari berbagai sudut pandang/dimensi dan tingkat rincian data yang

diinginkan. Hambatan lain yang sering juga dihadapi adalah bagaimana melakukan

proses penggalian/ekstraksi informasi dari data yang masih tersembunyi untuk

selanjutnya diolah menjadi informasi yang terus berkembang menjadi pengetahuan

(knowledge) yang bermanfaat bagi proses pengambilan keputusan.

Teknik-teknik data mining dapat dimanfaatkan untuk melakukan proses

penggalian informasi dari data yang masih tersembunyi dalam jumlah yang besar dan

kompleks, output dari penggunaan teknik-teknik data mining adalah diperolehnya

karakteristik atau pola dari data tersebut.

Page 14: jurnal_datamining

80

Pada tahun 2005, Pemerintah republik Indonesia meluncurkan Program

Kompensasi Penghapusan Subsidi Bahan Bakar Minyak (PKPS BBM)1 untuk

membantu kalangan tidak mampu menghadapi laju inflasi saat itu yang sangat tinggi

akibat dinaikkannya harga BBM hingga 126%. Program ini dibagi dalam ini 2(dua)

tahapan, yaitu:

Pertama : PKPS BBM Tahap I, merupakan program kompensasi di bidang

pendidikan, melalui pemberian Bantuan Operasional Sekolah (BOS) dan Bantuan

Khusus Murid (BKM); bidang Kesehatan, diarahkan untuk meningkatkan pelayanan

kesehatan melalui sistem jaminan kesehatan bagi penduduk miskin, yang meliputi

layanan kesehatan dasar, layanan kesehatan rujukan dan pelayanan penunjang

lainnya; serta bidang infrastruktur pedesaan, diarahkan pada penyediaan infrastruktur

di desa-desa tertinggal (jalan, jembatan, air bersih, sanitasi, tambatan perahu, irigasi

desa sederhana dan penyediaan listrik bagi daerah yang betul-betul memerlukan).

Kedua : PKPS BBM Tahap II : Bantuan Langsung Tunai tanpa syarat kepada Rumah

Tangga Sasaran/RTS (unconditional cash transfer) sebesar Rp100.000/bulan selama

1(satu) tahun, dan setiap tahap diberikan Rp300.000/3 bulan. Program BLT

dilaksanakan mulai bulan September 2005, dan untuk mendukung kelancaran

pelaksanaan program tersebut, Pemerintah mengeluarkan Instruksi Presiden Nomor

12 Tahun 2005 tentang Pelaksanaan Bantuan Langsung Tunai Kepada Rumah

Tangga Miskin. Sasaran program BLT ini adalah rumah tangga sasaran(RTS) yang

1 Juknis Bantuan Langsung Tunai untuk Rumah Tangga Sasaran Dalam Rangka Program Kompensasi Pengurangan Subsidi Bahan Bakar Minyak (PKPS-

BBM)

Page 15: jurnal_datamining

81

didata oleh BPS sejumlah 19.1 juta, dengan DIPA Departemen Sosial yang

diterbitkan oleh Departemen Keuangan.

Pada tahun 2008, melalui Instruksi Presiden No. 3 Tahun 2008 tentang

Pelaksanaan Program Bantuan Langsung Tunai Untuk Rumah Tangga Sasaran,

sebagai kompensasi pengurangan subsidi Bahan Bakar Minyak (BBM) kembali

diluncurkan program ini dengan alokasi sebesar Rp14.1 triliun. Program ini

dilaksanakan dari bulan Juni s.d Desember 2008 (selama 7 bulan), dalam bentuk

Bantuan Langsung Tunai tanpa syarat kepada Rumah Tangga Sasaran (unconditional

cash transfer) sebesar Rp100.000,-/bulan, dengan rincian diberikan Rp300.000,-/3

bulan (Juni-Agustus) dan Rp400.000,-/4 bulan (September-Desember). Sasaran

utama terdiri dari Keluarga Sangat Miskin dan Keluarga Miskin serta 5-7 juta

PNS/TNI/Polri (golongan I dan II).

Pada tahun 2009, Pemerintah kembali menggulirkan program pemberian Bantuan

Langsung Tunai Plus kepada rumah tangga sasaran melalui Instruksi Presiden Nomor

1 Tahun 2009 tentang Pelaksanaan Program Bantuan Untuk Rumah Tangga Sasaran

Dalam Rangka Penanggulangan Kemiskinan.

Bantuan Langsung Tunai Plus adalah pemberian bantuan kepada rumah tangga

sasaran yang terdiri dari rumah tangga yang masuk dalam kategori Sangat Miskin,

Miskin dan Hampir Miskin. Disebut plus karena pemberian bantuan selain meliputi :

1. bantuan langsung tunai selama 2 (dua) bulan sebesar Rp100.000,- (seratus

ribu rupiah)/bulan/rumah tangga sasaran, juga disertai dengan

Page 16: jurnal_datamining

82

2. penjualan beras bersubsidi 15 kg/bulan/rumah tangga sasaran (sampai dengan

tanggal 31 Desember 2009

Realisasi penyaluran program BLT sampai dengan 5 Januari 2009 mencapai

Rp12,028 triliun. Jumlah total realisasi bayar sudah mencapai 18.759.129 rumah

tangga sasaran dari total alokasi anggaran BLT Plus yang mencapai 19.020.763

rumah tangga sasaran atau berdaya serap hingga 98,62% (Sembilan puluh delapan

koma enam puluh dua persen).2

kriteria rumah tangga sasaran (RTS) BLT yang digunakan terdiri atas 14 kriteria yaitu

:

1. luas lantai bangunan tempat tinggal kurang dari 8 M2 / orang

2. jenis lantai bangunan tempat tinggal terbuat dari tanah/bambu/kayu murahan

3. jenis dinding tempat tinggal bambu/rumbia/kayu berkualitas rendah/tembok

tampa plesteran

4. tidak memiliki fasilitas Mandi Cuci Kakus (MCK) atau memiliki fasilitas

MCK bersama dengan rumah tangga lain

5. sumber penerangan rumah tidak menggunakan listrik

6. sumber air minum berasal dari sumur/mata air tidak terlindung/sungai/air

hujan

2 Badan Pemeriksa Keuangan Republik Indonesia(2009), Jaringan Dokument & Informasi Hukum, ”Pemberian Dana Bantuan Langsung Tunai Plus”, http://www.JDIH.BPK.go.id

Page 17: jurnal_datamining

83

7. bahan bakar untuk memasak sehari-hari adalah kayu bakar/arang/minyak

tanah

8. hanya mengkonsumsi daging/susu/ayam 1 kali/minggu

9. hanya membeli pakaian baru 1(satu) stel/tahun

10. hanya sanggup makan sebanyak 1 atau 2 kali/hari

11. tidak sanggup membayar biaya pengobatan di puskesmas/poliklinik

12. sumber penghasilan hanya dari kepala rumah tangga yang bermata

pencaharian sebagai petani (dengan luas 0.5 Ha), buruh tani, nelayan, buruh

bangunan, buruh perkebunan, atau pekerja lainnya dengan penghasilan

dibawah Rp. 600.000 / bulan

13. pendidikan tertinggi kepala rumah tangga tidak sekolah/tidak tamat SD/hanya

SD dan

14. tidak memiliki tabungan atau barang yang mudah dijual dengan nilai minimal

Rp500.000

Bagi masyarakat yang

1. memenuhi semua kriteria, disebut rumah tangga sangat miskin

2. memenuhi antara sebelas sampai dengan tiga belas kriteria, disebut rumah

tangga miskin.

3. memenuhi antara sembilan sampai dengan sepuluh kriteria, disebut rumah

tangga hampir miskin.

Page 18: jurnal_datamining

84

Ketiga kategori rumah tangga sasaran diatas ditetapkan menurut Instruksi Presiden

No.1 Tahun 2009 tentang Pelaksanaan Program Bantuan Untuk Rumah Tangga

Sasaran Dalam Rangka Penanggulangan Kemiskinan.

1.2 Latar Be lakang Masalah

Salah satu faktor krusial dari program BLT ini adalah penentuan kriteria

rumah tangga miskin. Dari keterangan yang diperoleh penulis, diketahui bahwa

indikator awal yang digunakan adalah tingkat pendapatan orang miskin atau dikenal

dengan garis kemiskinan. Dengan menggunakan definisi BPS, pemerintah

menyatakan bahwa seseorang disebut mendekati miskin dan berhak memperoleh dana

BLT jika memiliki tingkat pendapatan di bawah Rp 175 ribu per bulan. Tentunya

angka ini merupakan angka rata-rata dari pendapatan seluruh anggota rumah tangga,

sehingga jika dikembalikan kepada definisi dari rumah tangga miskin, maka angka ini

perlu dikalikan dengan rata-rata jumlah anggota rumah tangga, yang diasumsikan

sama dengan 4 orang. Implikasinya, rumah tangga dikatakan mendekati miskin dan

memperoleh dana BLT jika memiliki pendapatan kurang dari Rp 700 ribu per bulan.

Aspek terpenting dari seluruh rangkaian penyaluran BLT adalah pendataan yang

bermuara pada diberikannya Kartu Penerima BLT kepada Kepala RTS di rumah

masing-masing yang diantar oleh petugas kantor pos. Dari hasil pengamatan di

lapangan, Bappenas mencatat hanya 67,98 persen yang menerima kartu di

Page 19: jurnal_datamining

85

rumah/kantor sendiri, sisanya menerima di kantor pos, kantor kelurahan atau di

tempat lainnya.3

Badan pemeriksa keuangan (BPK) telah melakukan pemeriksaan terhadap

program Bantuan Langsung Tunai, dengan hasil pemeriksaan adanya kelemahan

dalam SPI, adanya penyimpangan terhadap kriteria/peraturan yang telah ditetapkan,

adanya kelemahan yang mengganggu azas kehematan dan kelemahan yang dapat

mengakibatkan tidak tercapainya program yang direncanakan, yang dapat dirinci

antara lain sebagai berikut :4

1. penetapan rumah tangga miskin yang tidak sesuai dengan kriteria sehingga

penyaluran dana tidak tepat sasaran, dan terjadi ketidakhematan atas

pencairan Kartu Kompensasi BBM (KKB) serta pemborosan dari biaya cetak

KKB

2. ketidakhematan keuangan negara akibat pembatalan KKB dan pencairan

kupon KKB oleh rumah tangga miskin yang tidak berhak

3. terjadi keterlambatan pendistribusian kepada rumah tangga miskin

4. terjadi pencairan atas BLT yang tidak tepat sasaran

5. pengembalian dana BLT oleh rumah tangga miskin yang tidak berhak belum

disetor ke kas negara.

3 Laporan Kantor Kementrian Koordinator Bidang Kesejahteraan Rakyat, “Capaian Program BLT, Raskin, BOS,

Jamkesmas dan PKH tahun 2008 dan Awal Tahun 2009”, http://www.setneg.go.id 4 Jaringan Dokument & Informasi Hukum Badan Pemeriksa Keuangan Republik Indonesia(2009),”Pemberian Dana Bantuan Langsung Tunai Plus”, http://www.JDIH.BPK.go.id

Page 20: jurnal_datamining

86

Anggota Komisi XI DPR, Dradjad H Wibowo, mengatakan, beberapa kriteria itu

tidak konsisten dengan kondisi kemiskinan yang ada saat ini. Sebagai contoh,

masyarakat yang telah memiliki listrik, bukan berarti memiliki kemampuan ekonomi

yang layak.

1.3 Identif ikas i Masalah

Berdasarkan permasalahan-permasalahan yang muncul seputar penyaluran BLT,

maka dalam pembuatan tesis ini penulis tertarik untuk mencoba melakukan analisa

mengenai kriteria penentuan keluarga miskin. Data yang akan dilakukan sebagai studi

kasus adalah berupa data RTS di kabupaten Subang propinsi Jawa Barat yang

mempunyai karakteristik sebagai berikut :

1. Data merupakan data dalam bentuk database yang sudah ada dengan jumlah

baris sebanyak 153.016 baris yang merepresentasikan sebanyak 153.016

kepala keluarga di 22 kecamatan dan 252 kelurahan.

2. Variable yang terdapat dalam data adalah variable yang merepresentasikan 14

kriteria Rumah Tangga Sasaran (RTS) BLT

3. Type data berupa data biner, dengan isi data berupa numerik 0 atau 1

Page 21: jurnal_datamining

87

4. Merupakan data dengan kategori Unsupervised

Dengan karakteristik data seperti diatas maka terdapat masalah pada penerapan

analisis data mining dengan menggunakan algoritma k-means cluster analysis pada

data berjenis biner yaitu pada tahap perhitungan jarak antara data dengan centroid,

yang mana untuk data berjenis biner metode perhitungan jarak ini tidak bisa

diterapkan.

1.4 Maksud dan Tujuan

Maksud dari tesis ini adalah melakukan analisis data mining dengan

menggunakan algoritma k-means cluster analysis untuk data berjenis biner pada data

RTS BLT dikabupaten subang. Algoritma k-means cluster analysis yang akan

dipergunakan adalah algoritma k-means cluster analysis yang dilakukan modifikasi,

modifikasi yang akan dilakukan yaitu pada proses perhitungan jarak antara centroid

yang diperoleh pada tiap-tiap cluster dengan setiap item data yang dianalisa, dimana

pada umumnya mempergunakan Euclidean distance tetapi karena datanya berjenis

biner maka dimodifikasi dengan mempergunakan perhitungan similaritas untuk data

berjenis biner, dalam hal ini penulis akan mempergunakan koefisien similaritas

jaccard’s Similarity.

Page 22: jurnal_datamining

88

Sedangkan tujuan utama yang ingin dicapai dalam tesis ini adalah

memperoleh karakteristik dan kelompok-kelompok data sesuai dengan kriteria tingkat

kemiskinan yang ditetapkan oleh BPS.

1.5 Manfaat yang Diharapkan

Hasil dari tesis ini diharapkan mampu menghasilkan kelompok-kelompok

masyarakat miskin berdasarkan kriteria yang telah ditetapkan oleh BPS, sehingga

akan bermanfaat sebagai alat untuk memperoleh informasi yang akurat dan mudah

mengenai data RTS BLT dikabupaten subang, serta mampu memberikan informasi

tentang karakteristik data yang dianalisa, yang kemudian dijadikan sebagai alat

penunjang proses pengambilan keputusan dalam menentukan kriteria-kriteria data

RTS BLT pada masa berikutnya, sehingga secara spesifik diharapkan dapat

membantu pihak-pihak yang berkepentingan dalam pembuatan keputusan mengenai

penentuan kriteria RTS BLT yang masih relevan dengan kondisi kemiskinan yang

ada pada saat ini, khususnya kondisi kemiskinan di kabupaten subang.

Page 23: jurnal_datamining

89

BAB II

TINJAUAN PUSTAKA

2.1 Data mining

Data mining merupakan bagian dari suatu proses yang disebut dengan

Knowledge Discovery In Database (KDD), adalah kegiatan yang meliputi

pengumpulan, pemakaian data historis untuk menentukan keteraturan, pola atau

Page 24: jurnal_datamining

90

hubungan dalam sebuah set data yang berukuran besar.Keluaran dari data mining

banyak digunakan untuk pengambilan keputusan dimasa depan.5

Gambaran dari proses KDD terlihat seperti gambar berikut :

Gambar 2.1 Proses Knowledge Discovery in Database

Dari gambar diatas terlihat bahwa proses KDD terdiri dari :

1. Pemahaman data (Data Understanding), yaitu proses memahami data

berdasarkan kebutuhan data (Data Requirement). Proses ini meliputi

pengumpulan data (initial data collection) dan pendeskripsian data (data

decription).

5 Data mining Teknis Pemanfaatan Data untuk Keperluan Bisnis, Budi Santoso, Graha Ilmu, 2007

Page 25: jurnal_datamining

91

2. Data Preparation, yaitu preprocessing yang terdiri dari Penyeleksian data

(Data Selection) dan pembersihan (cleaning) data, pada proses ini dilakukan

pemilihan data yang disesuaikan dengan kebutuhan dan pembersihan data

dari data-data yang sifatnya redundansi atau data dengan type data yang salah.

3. Data transformation, yaitu proses mengkonversikan data kedalam format lain

yang sesuai dengan kebutuhan analisa

4. Modeling data mining, yaitu proses untuk memperoleh pola dan karakteristik

data, dalam fase ini juga dilakukan visualisasi, cluster analisis, klasifikasi dan

assosiasi.

5. Interpretation/Evaluation, melakukan interpretasi dan evaluasi terhadap

masalah yang dihadapi berdasarkan data yang dianalisa.

Perkembangan yang terjadi atas data mining adalah kenyataan bahwa data

mining mewarisi banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan

terlebih dulu. Gambar berikut menunjukkan bahwa data mining memiliki akar yang

panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine

learning, statistik, database dan juga information retrieval.

Page 26: jurnal_datamining

92

Gambar 2.2 Hubungan Data mining dan Bidang Ilmu Lainnya

Beberapa teknik yang sering disebut-sebut dalam literatur data mining seperti

classification, neural network, genetic algorithm dan lain-lain sudah lama dikenal di

dunia kecerdasan buatan. Statistik memberikan kontribusi pada data mining dengan

teknik-teknik untuk menyeleksi data dan evaluasi hasil data mining. Yang

membedakan persepsi terhadap data mining adalah perkembangan teknik-teknik data

mining untuk aplikasi pada database skala besar. Sebelum populernya data mining,

teknik-teknik tersebut pada umumnya diterapkan untuk data skala kecil saja. Selain

itu beberapa teknik dari bidang database untuk transformasi data juga merupakan

bagian integral dari proses data mining, perkembangan terakhir ada beberapa bidang

ilmu seperti information retrieval yang juga terlibat dalam proses data mining untuk

Page 27: jurnal_datamining

93

mengekstrak sumber data bagi data mining dari sumber-sumber seperti teks dan

website.

Machine Learning adalah suatu area dalam artificial intelligence atau kecerdasan

buatan yang berhubungan dengan pengembangan teknik-teknik yang bisa

diprogramkan dan belajar dari masa lalu, selanjutnya teknis-teknis ini dipergunakan

untuk melakukan prediksi, identifikasi dan pengenalan Pola data (pattern

recognition) yang meliputi klasifikasi, clustering dan assosiasi.

Dalam melakukan analisis data mining secara umum teknik-teknik pengolahan

data terbagi menjadi 2 pendekatan yaitu Supervised learning dan Unsupervised

learning. Dalam pendekatan unsupervised learning metode analisis dilakukan dengan

dengan tanpa adanya latihan (training) dan tanpa adanya label dari data. Misalkan

kita mempunyai sekelompok pengamatan atau data tanpa label (output) tertentu,

maka dalam unsupervised learning kita harus mengelompokan data tersebut kedalam

beberapa kelas yang dikehendaki, masuk dalam kategori ini adalah clustering analisis

dan association rule analisis. Pendekatan lain adalah supervised learning, yaitu

metode analisis dengan menggunakan latihan (training), dalam pendekatan

supervised learning ini untuk menemukan fungsi keputusan, fungsi pemisah atau

fungsi regresi digunakan beberapa contoh data yang mempunyai output atau label

selama proses training, disini kita ingin menemukan fungsi yang bisa dinyatakan

sebagai y= f(x), data untuk melakukan proses training ini disebut dengan set training.

Model atau fungsi yang dihasilkan kita uji dengan set data validasi. Apabila

performansi pada saat validasi belum memenuhi harapan maka kita bisa mengatur

Page 28: jurnal_datamining

94

nilai parameter model untuk mendapatkan model dengan performansi yang lebih

baik. Jika fungsi-fungsi tersebut sudah ditemukan dan performansinya cukup bagus

maka kemudian kita bisa melakukan pengelompokan objek lain yang belum diketahui

labelnya atau membuat prediksi. Data untuk training terdiri dari vector/matrik input

dan output(label). Matrik/Vektor input biasa diberi symbol X dan output diberi

symbol Y. Dalam unsupervised learning kita tidak mempunyai data output atau Y.

Karena hasil dari data mining ini akan digunakan untuk pengambilan keputusan

maka sifat mudah difahami dan mudah pencariannya menjadi sangat penting, sebab

bagaimanapun apabila hasil tersebut sulit untuk difahami maka kemungkinan akan

sulit juga diinterpretasikan dengan benar, yang pada akhirnya dihawatirkan akan

menghasilkan keputusan yang kurang tepat atau bahkan salah.

2.2 Cluster Analysis

2.2.1 Definis i Cluster

Secara umum cluster didefiniskan sebagai “sejumlah objek yang mirip yang

dikelompokan secara bersama”, namun definisi dari cluster bisa beragam tergantung

dari sudut pandang yang digunakan, beberapa definisi cluster berdasarkan sudut

pandang adalah sebagai berikut :

1. Definisi Well-Separated Cluster

Page 29: jurnal_datamining

95

Berdasarkan definisi ini cluster adalah sekelompok titik(objek) dimana sebuah

titik pada kelompok itu lebih dekat atau mirip dengan semua titik(objek) yang

ada pada kelompok tersebut dari pada titik-titik (objek-objek) lain yang tidak

terdapat pada kelompok itu. Biasanya digunakan sebuah nilai batas (threshold)

untuk menentukan titik-titik (objek-objek) yang dianggap cukup dekat satu sama

lainnya. Namun terdapat kelemahan pada definisi ini yaitu titik-titik yang

terdapat pada “pojok” sebuah cluster pada kenyataannya mungkin saja lebih

dekat dengan titik-titik pada cluster yang lain.

Gambar 2.3 Cluster berdasarkan definisi Well-Separated-Cluster

2. Definisi Center-Based Cluster

Berdasarkan definisi ini sebuah cluster didefinisikan sebagai sekelompok titik

(objek) dimana semua titik pada kelompok itu lebih dekat dengan pusat atau

“center” dari kelompok tersebut dari pada pusat pada kelompok lainnya.

Page 30: jurnal_datamining

96

Umumnya pusat cluster adalah centroid, yaitu rata-rata dari semua titik pada

cluster tersebut, namun dapat juga digunakan medoid, yaitu titik yang paling

mewakili pada sebuah cluster.

Gambar 2.4 Cluster berdasarkan definisi Center-Based Cluster

2.2.2 Definis i Cluster Analysis

Cluster analysis is usually used as an initial analytic tool, giving data mining

analysts the ability to identify general groupings in the data.6 Cluster analysis

merupakan salah satu metode Data mining yang bersifat tanpa latihan (unsupervised

analisys) yang mempunyai tujuan untuk mengelompokan data kedalam kelompok-

kelompok dimana data-data yang berada dalam kelompok yang sama akan

mempunyai sifat yang relatif homogen.

Jika ada n objek pengamatan dengan p variable maka terlebih dulu ditentukan

ukuran kedekatan sifat antar data, ukuran kedekatan sifat data yang bisa digunakan

adalah jarak euclidius (Euclidean distance) antara dua objek dari p dimensi

6 Introduction to Business Data mining, David olson, Yong Shi : Mc Graw Hill, International Edition-2007

Page 31: jurnal_datamining

97

pengamatan, jika objek pertama yang akan diamati adalah X = [x1,x2,x3,….xp] dan

Y=[y1,y2,y3,….yp] maka euclidean distance dirumuskan sebagai berikut :

Secara formal definisi dari cluster analysis adalah sebagai berikut:

Misalkan S adalah himpunan objek yang mempunyai n buah elemen,

S = {o1,o2,o3…on} (II.1)

Cluster analysis membagi S (didefinisikan pada persamaan II.1) menjadi k himpunan

C1,C2,C3…Ck, himpunan-himpunan tersebut disebut dengan cluster. Sebuah cluster Ci

adalah subset atau himpunan bagian dari S, iC S . Solusi atau keluaran dari sebuah

cluster Analysis dinyatakan sebagai himpunan dari semua cluster,

1 2 3{ , , .... | , 1,2.. }k i iC C C C C C S k

Jika S adalah himpunan objek yang mempunyai n buah elemen dan terdiri dari r

variable maka ketika S dibagi menjadi k cluster, maka model dari cluster dapat

didefinisikan dengan dua buah matrik yaitu matrik data Dnxk = (dik) dan matrik

variable Frxk = (fjk),

1, data ke i anggota kluster ke k

0,data ke i bukan anggota kluster ke kikd

Page 32: jurnal_datamining

98

1, Variable ke j anggota kluster ke k

0,Variable ke j bukan anggota kluster ke kjkf

Proses clustering mengasumsikan bahwa data akan menjadi anggota dari satu dan

hanya satu cluster.

2.2.3 Klas ifikas i Metode Cluster Analysis

Metode cluster analysis pada dasarnya ada dua jenis, yaitu metode cluster

analysis hirarki (hierarchical clustering method) dan Metode cluster analysis non

hirarki (non hierarchical clustering method). Metode clustering hirarki digunakan

apabila belum ada informasi jumlah cluster yang akan dipilih, metode hirarki akan

menghasilkan cluster-cluster yang bersarang (nested) sehingga masing-masing

cluster dapat memiliki sub-cluster. Prinsip utama metode cluster analysis hirarki

adalah mengatur semua objek dalam sebuah pohon keputusan (umumnya berupa

pohon biner) berdasarkan suatu fungsi kriteria tertentu. Pohon tersebut disebut

dendogram.

Page 33: jurnal_datamining

99

Gambar 2.5 Contoh Dendogram

Semakin tinggi level simpul pohon maka semakin rendah tingkat similaritas antar

objeknya, metode cluster analysis hirarki dapat dilakukan dengan dua pendekatan

yaitu bottom-up (agglomerative) dan top-down (divisive). Pada pendekatan

aggromerative setiap objek pada awalnya berada pada cluster masing-masing,

kemudian setiap cluster yang paling mirip akan dikelompokan dalam satu cluster,

hingga membentuk suatu hirarki cluster. Sedangkan pada pendekatan divisive, pada

awalnya hanya terdapat satu buah cluster tunggal yang beranggotakan seluruh objek,

kemudian dilakukan pemecahan atas cluster tersebut menjadi beberapa sub-cluster,

contoh algoritma metode cluster hirarki adalah HAC (Hieararchical Aggromerative

Clustering) dengan beberapa variasi perhitungan similaritas antar cluster seperti

single-link, complete-link dan group average.

Sedangkan metode cluster analysis non hirarki biasa juga disebut dengan

partitional clustering bertujuan mengelompokan n objek kedalam k cluster (k < n)

Page 34: jurnal_datamining

100

dimana nilai k sudah ditentukan sebelumnya. Salah satu prosedur clustering non

hirarki adalah menggunakan metode K-Means clustering analisis, yaitu metode yang

bertujuan untuk mengelompokan objek atau data sedemikian rupa sehingga jarak tiap

objek ke pusat cluster (centroid) adalah minimum, titik pusat cluster terbentuk dari

rata-rata nilai dari setiap variable.

Secara umum proses cluster analysis dimulai dengan perumusan masalah

clustering dengan mendefinisikan variable-variable yang akan digunakan sebagai

dasar proses cluster. Konsep dasar dari cluster analysis adalah konsep pengukuran

jarak (distance) atau kesamaaan (similarity), distance adalah ukuran tentang jarak

pisah antar objek sedangkan similaritas adalah ukuran kedekatan. Pengukuran jarak

(distance type measure) digunakan untuk data-data yang bersifat metrik, sedangkan

pengukuran kesesuaian (matching type measure) digunakan untuk data-data yang

bersifat kualitatif atau non metrik. Proses clustering yang baik seharusnya

menghasilkan cluster-cluster yang berkualitas tinggi dengan sifat-sifat sebagai

berikut :

1. Setiap objek pada cluster memiliki kemiripan (intra cluster similarity) yang

tinggi satu sama lainnya.

2. Kemiripan objek pada cluster yang berbeda(inter cluster similarity) rendah.

Kualitas solusi clustering sangat tergantung dari definisi cluster yang akan

digunakan.

Page 35: jurnal_datamining

101

2.3 K-Means Cluster Analysis

Cluster analysis merupakan salah satu metode Data mining yang bersifat tanpa

latihan (unsupervised analisys), K-means cluster analysis merupakan salah satu

metode cluster analysis non hirarki yang berusaha untuk mempartisi data yang ada

kedalam satu atau lebih cluster atau kelompok data berdasarkan karakteristiknya,

sehingga data yang mempunyai karakteristik yang sama dikelompokan dalam satu

cluster yang sama dan data yang mempunyai karakteristik yang berbeda

dikelompokan ke dalam cluster yang lain. Tujuannya adalah untuk meminimalkan

objective function yang di set dalam proses clustering, yang pada dasarnya berusaha

untuk meminimalkan variasi dalam satu cluster dan memaksimalkan variasi antar

cluster.

Metode ini meliputi sequential threshold, pararel threshold dan optimizing

threshold, Sequential threshold melakukan pengelompokan dengan terlebih dahulu

memilih satu objek dasar yang akan dijadikan nilai awal cluster, kemudian semua

cluster yang ada dalam jarak terdekat dengan cluster ini akan bergabung, lalu dipilih

cluster kedua dan semua objek yang mempunyai kemiripan dengan cluster ini akan

digabungkan, demikian seterusnya sehingga terbentuk beberapa cluster dengan

keseluruhan objek terdapat didalamnya.

Pararel threshold secara prinsip sama dengan sequential threshold hanya saja

dilakukan dengan melakukan pemilihan terhadap beberapa objek awal cluster

sekaligus dan kemudian melakukan penggabungan objek kedalamnya secara

Page 36: jurnal_datamining

102

bersamaan. optimizing threshold merupakan pengembangan dari sequential dan

pararel dengan melakukan optimalisasi penempatan objek dengan melakukan

reassigned ke dalam cluster untuk mengoptimalisasikan suatu kriteria secara

menyeluruh, seperti average within distance untuk sejumlah cluster tertentu.

2.3.1 Algoritma K-Means Cluster Analysis

Jika diberikan sekumpulan data X=(x1,x2,….xn) maka algoritma k-means cluster

analysis akan mempartisi X dalam k buah cluster, setiap cluster memiliki centroid

(titik tengah) atau mean dari data-data dalam cluster tersebut.

Pada tahap awal algoritma k-means cluster analysis akan memilih secara acak k buah

data sebagai centroid (titik tengah), kemudian jarak antara data dengan centroid

dihitung dengan menggunakan Euclidean distance, data akan ditempatkan dalam

cluster yang terdekat dihitung dari titik tengah cluster. Centroid baru akan ditetapkan

jika semua data sudah ditempatkan dalam cluster terdekat.

Proses penentuan centroid dan penempatan data dalam cluster diulangi sampai nilai

centroid konvergen (centroid dari semua cluster tidak berubah lagi). Secara umum

K-Means Cluster analysis menggunakan algoritma sebagai berikut :7

1. Tentukan k sebagai jumlah cluster yang akan di bentuk

2. Bangkitkan k Centroid (titik pusat cluster) awal secara random

7 Introduction to Business Data mining, David olson, Yong Shi : Mc Graw Hill, International Edition-2007

Page 37: jurnal_datamining

103

3. Hitung jarak setiap data ke masing-masing centroid dari masing-masing

cluster

4. Alokasikan masing-masing data ke dalam centroid yang paling terdekat

5. Lakukan iterasi, kemudian tentukan posisi centroid baru dengan cara

menghitung rata-rata dari data-data yang berada pada centroid yang sama

6. Ulangi langkah 3 jika posisi centroid baru dan centroid lama tidak sama.

Atau dalam bentuk flowchart digambarkan sebagai berikut :

Start

Tentukan Jumlah

Kluster K

Tentukan Centroid

Hitung Jarak Objek

dengan Centroid

Alokasikan Objek

berdasarkan

Minumum Jarak

Konvergen

End

Yes

NO

Gambar 2.6 Diagram Alur Algoritma K-Means Cluster Analysis

Page 38: jurnal_datamining

104

2.3.2 Menentukan Banyaknya Cluster k

Untuk menentukan nilai banyaknya cluster k dilakukan dengan beberapa

pertimbangan sebagai berikut :

1. Pertimbangan teoritis, konseptual, praktis yang mungkin diusulkan untuk

menentukan berapa banyak jumlah cluster.

2. Besarnya relative cluster seharusnya bermanfaat, pemecahan cluster yang

menghasilkan 1 objek anggota cluster dikatakan tidak bermanfaat sehingga

hal ini perlu untuk dihindari.

2.3.3 Menentukan Centroid

Penentuan centroid awal dilakukan secara random/acak dari data/objek yang

tersedia sebanyak jumlah kluster k, kemudian untuk menghitung centroid cluster

berikutnya ke i, v i digunakan rumus sebagai berikut :

1

iN

i

ik

k

X

VN

Vk : centroid pada cluster ke k

Xi : Data ke i

Nk : Banyaknya objek/jumlah data yang menjadi anggota cluster ke k

Page 39: jurnal_datamining

105

2.3.4 Menghitung Jarak Antara Data Dengan Centroid

Untuk menghitung jarak antara data dengan centroid terdapat beberapa cara yang

dapat dilakukan yaitu Manhattan/City Block distance (L1), Euclidean Distance (L2).

Jarak antara dua titik X1 dan X2 pada manhattan/citi block dihitung dengan

menggunakan rumus

Dimana P : Dimensi data

| . | : Nilai Absolut

Sedangkan untuk euclidean distance jarak antara data dengan centroid dihitung

dengan menggunakan rumus :

Dimana P : Dimensi data

| . | : Nilai Absolut

2.3.5 Pengalokas ian Ulang Data Kedalam Masing-masing Cluster

Page 40: jurnal_datamining

106

Untuk melakukan pengalokasian data kedalam masing-masing cluster pada saat

iterasi dilakukan secara umum dengan dua cara yaitu dengan cara pengalokasian

dengan cara hard k-means, dimana secara tegas setiap objek dinyatakan sebagai

anggota cluster satu dan tidak menjadi anggota cluster lainnya. Cara lain adalah

dengan cara fuzzy k-means dimana masing-masing objek diberikan nilai kemungkinan

untuk bisa bergabung dengan setiap cluster yang ada.

Hard K-means, pengalokasian kembali objek kedalam masing-masing cluster pada

metoda hard K-means didasarkan pada perbandingan jarak antara data dengan

centroid setiap cluster yang ada, objek dialokasikan secara tegas kedalam cluster

yang mempunyai jarak ke centroid terdekat dengan data tersebut. Pengalokasian ini

dirumuskan sebagai berikut :

aik : keanggotaan data atau objek ke k pada cluster ke i

vi : Nilai centroid cluster ke i

fuzzy k-means, pada fuzzy k-means atau lebih sering disebut fuzzy c-means

mengalokasikan kembali objek atau data kedalam masing-masing cluster dengan

menggunakan membership function, uik ,yang merujuk pada seberapa besar suatu

objek atau data bisa menjadi anggota suatu cluster.

Page 41: jurnal_datamining

107

Pada fuzzy k-means yang diusulkan oleh Bezdek8 diperkenalkan juga suatu variable m

yang merupakan weighting exponent dari membership function. m mempunyai

wilayah nilai m>1, sampai sekarang belum jelas berapa nilai m yang optimal dalam

melakukan proses optimalisasi suatu permasalahan clustering. Nilai m yang umum

digunakan adalah 2. Membership function untuk suatu data kedalam suatu cluster

tertentu dihitung dengan menggunakan rumus :

Dimana

uik : membership function untuk data atau objek ke k pada cluster ke i

vi : Nilai centroid cluster ke i

m : Weighting component

c : Jumlah cluster

2.3.6 Konvergensi

Pengecekan konvergensi dilakukan dengan membandingkan matrik group

assignment pada iterasi sebelumnya dengan matrik group assignment pada iterasi

yang sedang berjalan. Jika hasilnya sama maka algoritma k-means cluster analysis

8 Bezdek, J.C (1981). Pattern Recogniton with Fuzzy Objective Function Algoritmss, Plenum Press, New York

Page 42: jurnal_datamining

108

sudah konvergen, tetapi jika berbeda maka belum konvergen sehingga perlu

dilakukan iterasi berikutnya.

2.4 Menilai Kualitas Cluster

Hasil dari cluster analysis yang bagus jika setiap cluster memiliki tingkat

similaritas yang tinggi satu sama lain (internal homogeneity) diukur dengan variance

dalam cluster Vw yang sama sekali berbeda dengan nilai anggota cluster yang lain

(external homogeneity) yang diukur dengan varian antar cluster Vb.

Cluster dianggap ideal jika mempunya Vw seminimal mungkin dan Vb semaksimal

mungkin, sehingga nilai homogenity dapat dirumuskan sebagai berikut :

wMin

b

VV

V

untuk rumus ini maka semakin kecil nilai Vmin maka homogenity semakin bagus, atau

homogenity juga dapat dirumuskan sebagai berikut :

bMax

w

VV

V

untuk rumus ini maka semakin besar nilai Vmax maka homogenity semakin bagus

Untuk menghitung nilai varians dari semua data pada tiap cluster dapat dilakukan

dengan menggunakan rumus :

Page 43: jurnal_datamining

109

Dimana Vc2 =variance pada cluster c

c = 1..k dimana k = jumlah cluster

nc = Jumlah data pada cluster ke c

di = data ke– i pada suatu cluster

id = rata-rata atau centroid dari data pada suatu cluster

Sedangkan menghitung variance dalam cluster dapat dihitung dengan menggunakan

rumus :

Dimana Vw = Varians dalam cluster

N = Jumlah semua data

k = Banyaknya cluster

ni = Jumlah data dalam cluster ke i

vi2 = Variance pada cluster ke i

Sedangkan untuk menghitung varians antar cluster dihitung dengan menggunakan

rumus :

Page 44: jurnal_datamining

110

Dimana id rata rata d

Sedangkan nilai variance dari semua cluster diperoleh dengan membagi nilai variance

dalam cluster dengan nilai variance antar cluster, dimana semakin kecil nilai tersebut

maka semakin bagus cluster yang dihasilkan.

2.5 Beberapa Permasalahan K-Means Cluster Analysis

Terdapat beberapa permasalahan yang sering ditemukan pada pemakaian

algoritma K-means Cluster Analysis, antara lain yaitu :

1. Pemilihan jumlah custer yang tepat

2. Ditemukannya beberapa hasil cluster yang berbeda.

3. Nilai distance yang sama, sehingga berpengaruh pada alokasi data dalam

cluster

4. Kegagalan Konvergensi

5. Pendeteksian Outlier

Permasalahan pertama, merupakan masalah laten dalam k-means cluster analysis,

hal ini disebabkan karena pemilihan jumlah cluster yang tidak berdasarkan kriteria

Page 45: jurnal_datamining

111

jumlah cluster yang tepat, beberapa pendekatan sudah dilakukan untuk menentukan

jumlah cluster yang paling tepat antara lain yaitu Partition Entropy (PE)9.

Permasalahan yang kedua, umumnya terjadi karena kesalahan pada tahap inisiasi

nilai-nilai centroid awal pada setiap cluster yang kurang menggambarkan cluster

yang akan dibentuk, hal ini disebabkan karena proses inisiasi ini dilakukan secara

random sehingga jika hasil random tersebut menghasilkan nilai centroid cluster-

cluster yang jauh berbeda dengan cluster yang terbaik maka kemungkinan akan

terjadi proses iterasi yang banyak untuk mencapai konvergensi-nya. Untuk

menentukan cluster mana yang lebih baik maka dilakukan proses penilaian kualitas

cluster yang terbentuk, cluster yang mempunyai kualitas yang paling bagus

merupakan cluster yang lebih baik dari cluster lainnya.

Permasalahan ketiga dan keempat umumnya terjadi karena pada saat dilakukan

perhitungan minimal distance antara data dengan centroid pada setiap cluster ternyata

dihasilkan jarak yang sama pada minimal 2 cluster yang berbeda, sehingga tidak

ditemukan nilai minimal dari jarak ke masing-masing cluster, hal ini tentu saja akan

mengakibatkan proses alokasi data dalam cluster menjadi tidak berdasarkan nilai

jarak paling minimum antara data dengan centroid, sehingga dilakukan pemilihan

cluster secara acak dari semua jarak yang sama, hal ini juga akan menimbulkan

proses iterasi yang lebih banyak untuk mencapai konvergen. Kegagalan konvergensi

secara teori memungkinkan untuk terjadi, kemungkinan ini akan lebih besar pada

9 Bezdek, J. C. (1981). Pattern Recognition with Fuzzy Objective Function Algoritmss, Plenum Press, New York.

Page 46: jurnal_datamining

112

metode pengalokasian data dalam cluster dengan menggunakan Hard k-Means

Cluster, karena setiap data akan dialokasikan secara tegas (hard) untuk menjadi

anggota suatu cluster, perpindahan suatu data kedalam suatu cluster tertentu akan

mengubah karakteristik model pada proses selanjutnya, yang menyebabkan data yang

sudah dipindahkan tersebut lebih sesuai untuk menjadi anggota pada cluster semula

sebelum data tersebut dipindahkan. Untuk Fuzzy K-Means Cluster, kemungkinan ini

semakin kecil karena setiap data dilengkapi dengan membership function untuk

menjadi anggota dari cluster yang sudah ditentukan.

Permasalahan kelima , pada k-means cluster analysis merupakan sesuatu yang

menentukan karena outlier akan mengakibatkan lokasi dari centroid menjadi berbeda

dengan nilai yang mendekati centroid yang sebenarnya, beberapa hal yang perlu

diperhatikan dalam hal yang berhunbungan dengan outlier antara lain bagaimana

menentukan bahwa suatu data merupakan outlier dari suatu cluster.

2.6 Contoh Penerapan Algoritma K-Means Cluster Analysis

Untuk mempermudah memahami algoritma k-means cluster analysis maka

berikut ini adalah contoh sederhana pemakaian algoritma k-means cluster, Misalkan

kita mempunyai dua variable X1 dan X2 dengan masing-masing mempunyai item-

item A, B, C dan D sebagai berikut :

Page 47: jurnal_datamining

113

Item Observasi

X1 X2

A 1 1

B 2 1

C 4 3

D 5 4

Tujuannya adalah membagi semua item menjadi 2 cluster ( k = 2) , dengan

menggunakan algoritma yang disebutkan diatas maka langkah-langkah yang

dikerjakan adalah sebagai berikut :

Tentukan k sebagai jumlah cluster yang akan di bentuk

k = 2

Bangkitkan k Centroid (titik pusat cluster) awal secara random

Secara random kita tentukan A dan B sebagai centroid yang pertama,

sehingga diperoleh c1=(1,1) dan c2=(2,1)

Hitung jarak setiap data ke masing-masing centroid dari masing-masing

cluster dengan Euclidian distance sebagai berikut :

Dimana P : Dimensi data

| . | : Nilai Absolut

D(C1,A) = 2 2

(1 1) (1 1) 0

Page 48: jurnal_datamining

114

D(C1,B) = 2 2

(2 1) (1 1) 1

D(C1,C) = 2 2

(4 1) (3 1) 3,61

D(C1,D) = 2 2

(5 1) (4 1) 5

D(C2,A) = 2 2

(1 2) (1 1) 1

D(C2,B) = 2 2

(2 2) (1 1) 0

D(C2,C) = 2 2

(4 2) (3 1) 2,83

D(C2,D) = 2 2

(5 2) (4 1) 4, 24

Sehingga distance yang diperoleh adalah sebagai berikut

Cluster

Centroid

Distance

A B C D

C1 0 1 3,61 5

C2 1 0 2,83 4,24

Alokasikan masing-masing data ke dalam centroid yang paling terdekat

Proses alokasi dilakukan dengan melihat minimum distance. Dari table

distance diatas maka terlihat bahwa jarak item A terdekat pada cluster C1

sehingga item A dialokasikan kepada cluster C1, sementara item B, Item C,

Item D jarak terdekatnya pada cluster C2, sehingga item B, C, D dialokasikan

pada cluster C2.

Dengan menggunakan rumus alokasi dibawah ini,

Page 49: jurnal_datamining

115

Maka diperoleh table group assigmentnya adalah sebagai berikut :

A B C D

1 0 0 0

0 1 1 1

Lakukan iterasi-1, kemudian tentukan posisi centroid baru dengan cara

menghitung rata-rata dari data-data yang berada pada centroid yang sama.

Dengan menggunakan rumus,

1

iN

k

ki

i

X

VN

Maka diperoleh centroid baru untuk kedua cluster tersebut adalah

C1 = (1,1), karena beranggotakan 1 anggota

12( )

2 4 53,67

3xC

22( )

1 3 42,67

3xC

C2=(3.67, 2.67)

Ulangi langkah 3 jika posisi centroid baru dan centroid lama tidak sama,

karena nilai centroidnya berbeda maka langkah no 3 diulangi kembali sebagai

berikut :

Page 50: jurnal_datamining

116

D1(C1,A) = 2 2

(1 1) (1 1) 0

D1(C1,B) = 2 2

(2 1) (1 1) 1

D1(C1,C) = 2 2

(4 1) (3 1) 3,61

D1(C1,D) = 2 2

(5 1) (4 1) 5

D1(C2,A) = 2 2

(1 3,67) (1 2,67) 3,14

D1(C2,B) = 2 2

(2 3,67) (1 2,67) 2,36

D1(C2,C) = 2 2

(4 3,67) (3 2,67) 0, 47

D1(C2,D) = 2 2

(5 3,67) (4 2,67) 1,89

Sehingga distance yang diperoleh pada iterasi 1 adalah sebagai berikut

Cluster

Centroid

Distance

A B C D

C1 0 1 3,61 5

C2 3,14 2,36 0,47 1,89

Alokasikan masing-masing data ke dalam centroid yang paling terdekat

Page 51: jurnal_datamining

117

Maka diperoleh table group assigmentnya pada iterasi 1 adalah sebagai

berikut :

A B C D

1 1 0 0

0 0 1 1

Karena hasil table group assignment pada iterasi 1 berbeda dengan table group

assignment sebelumya maka hasilnya belum konvergen sehingga perlu dilakukan

iterasi berikutnya, sebagai berikut

Lakukan iterasi-2, tentukan posisi centroid baru dengan cara menghitung rata-

rata dari data-data yang berada pada centroid yang sama.

Maka diperoleh centroid baru untuk kedua cluster tersebut adalah

11( )

1 21,5

2xC

21( )

1 11

2xC

C1=(1.5, 1)

12( )

4 54,5

2xC

22( )

3 43,5

2xC

C2=(4.5, 3.5)

Page 52: jurnal_datamining

118

karena nilai centroid-nya berbeda dengan iterasi 1 maka langkah berikutnya

menghitung kembali distance-nya sebagai berikut :

D2(C1,A) = 2 2

(1 1,5) (1 1) 0,5

D2(C1,B) = 2 2

(2 1,5) (1 1) 0,5

D2(C1,C) = 2 2

(4 1,5) (3 1) 3, 2

D1(C1,D) = 2 2

(5 1,5) (4 1) 4,61

D2(C2,A) = 2 2

(1 4,5) (1 3,5) 4,30

D2(C2,B) = 2 2

(2 4.5) (1 3,5) 3,54

D2(C2,C) = 2 2

(4 4,5) (3 3,5) 0,71

D2(C2,D) = 2 2

(5 4,5) (4 3,5) 0,71

Sehingga distance yang diperoleh pada iterasi 1 adalah sebagai berikut

Cluster

Centroid

Distance

A B C D

C1 0,5 0,5 3,2 4,61

C2 4,3 3,54 0,71 0,71

Page 53: jurnal_datamining

119

Alokasikan masing-masing data ke dalam centroid yang paling terdekat

Maka diperoleh table group assigmentnya pada iterasi 2 adalah sebagai

berikut :

A B C D

1 1 0 0

0 0 1 1

Dari hasil table assignment pada iterasi 2 ternyata hasilnya sama dengan table group

assignment pada iterasi 1 sehingga pada iterasi 2 ini sudah konvergen sehingga tidak

perlu dilakukan iterasi kembali, dan hasil akhir cluster yg diperoleh adalah :

Item Observasi Cluster

X1 X2

A 1 1 1

B 2 1 1

C 4 3 2

D 5 4 2

Page 54: jurnal_datamining

120

BAB III

K-MEANS CLUSTER ANALYSIS UNTUK DATA BINER

3.1 Algoritma Usulan K-Means Cluster Analysis

Algoritma usulan yang dipergunakan dalam proses k-means cluster analysis

untuk data biner adalah sebagai berikut :

1. Tentukan k sebagai jumlah cluster yang akan di bentuk

2. Sorting data berdasarkan kriteria penentu cluster

3. Tentukan centroid awal berdasarkan kriteria penentu cluster.

Page 55: jurnal_datamining

121

4. Identifikasi outlier, jika data tersebut teridentifikasi sebagai outlier maka

alokasikan sebagai oulier tetapi jika data bukan teridentifikasi sebagai outlier

lakukan langkah selanjutnya.

5. Hitung similaritas data dengan centroid.

6. Alokasikan masing-masing data ke dalam cluster berdasarkan nilai similaritas

yang paling besar

7. Lakukan iterasi, kemudian tentukan posisi centroid baru

8. Ulangi langkah 3 jika posisi centroid baru dan centroid lama tidak sama.

Atau dalam bentuk flowchart dalam gambar 3.1 sebagai berikut :

Start

Tentukan Jumlah

Kluster K

Tentukan Centroid

Hitung Similarity

Alokasikan Objek

sebagai OutlierData Outlier

End

NO

Sorting Data

Berdasarkan

Kriteria2 Analisis

Identifikasi Outlier

Alokasikan Objek

berdasarkan

Tingkat Similarity

Yes

Konvergen

Yes

No

Page 56: jurnal_datamining

122

Gambar 3.1 Diagram Alur Algoritma Usulan K-Means Cluster Analysis

Terdapat beberapa bagian yang dilakukan modifikasi terhadap algortima k-means

cluster analysis pada implementasi untuk data berjenis biner, penjelasan dari

algoritma usulan tersebut adalah sebagai berikut :

1. Ditambahkan proses pengurutan (sorting) data pada awal data akan dianalisa,

proses pengurutan ini dilakukan dengan berdasarkan pada kriteria pembentuk

cluster, hasil dari proses ini adalah kondisi data yang sudah terurut dan siap untuk

dilakukan pemilihan centroid.

2. Pada tahap penentuan centroid awal, pada tahap ini pada algoritma k-means

cluster analysis yang ada dilakukan secara random yang mana hasil dari random

ini bisa saja tidak atau kurang menggambarkan bentukan cluster yang dihasilkan

sehingga memungkinkan akan terjadi proses iterasi yang banyak untuk menuju

konvergensi. Maka untuk mengatasi masalah tersebut dilakukan modifikasi

dengan cara penentuan centroid awal dilakukan tidak secara random tetapi

dilakukan dengan cara pemilihan (selected) data berdasarkan kriteria pembentuk

cluster dalam hal ini penulis melakukan pemilihan berdasarkan kriteria RTS BLT.

3. Identifikasi outlier, proses identifikasi outlier ditambahkan ke dalam algoritma k-

means cluster analysis sehingga cluster-cluster yang terbentuk merupakan cluster

yang handal dan terbebas dari data-data outlier. Pada tahap ini maka jika data

Page 57: jurnal_datamining

123

yang dianalisa teridentifikasi sebagai outlier maka data tersebut akan disimpan

dalam table outlier dan tidak diikutkan dalam proses selanjutnya, akan tetapi jika

data tidak teridentifikasi sebagai outlier maka data tersebut akan diproses

selanjutnya.

4. Pada tahap perhitungan distance antara data dengan centroid, untuk data berjenis

biner maka algoritma dilakukan modifikasi dengan mempergunakan perhitungan

ukuran similaritas, dalam hal ini penulis akan mempergunakan Jaccard

simililarity, Anderberg similarity, Czekanowsky similarity, dan Kulczynski

similarity.

5. Proses pengalokasian data kedalam cluster dilakukan dengan berdasarkan nilai

similaritas yang paling besar, dan dilakukan secara hard k-means, dimana secara

tegas setiap objek dinyatakan sebagai anggota cluster satu dan tidak menjadi

anggota cluster lainnya.

3.2 Ukuran Similaritas

Seperti disebutkan diatas bahwa pada data-data yang bersifat non metrik

termasuk didalamnya untuk data-data yang nilainya berjenis biner (0 atau 1) maka

cluster analysis merupakan proses identifikasi kelompok-kelompok objek yang mirip

atau similar satu sama lain, oleh karena itu pengukuran similaritas memegang

peranan yang amat penting pada algoritma K-Means Cluster Analysis.

Page 58: jurnal_datamining

124

Similarity is quantity that reflects the strength of relationship between two

objects or two features.10 Secara umum fungsi similaritas atau similarity adalah

fungsi yang merepresentasikan kekuatan hubungan antara dua buah objek dan

mengembalikan nilai kemiripan (similarity) antara kedua objek tersebut berupa

bilangan riil yang umumnya berkisar pada interval [0…1] namun ada juga beberapa

fungsi similaritas yang menghasilkan nilai yang berada diluar interval tersebut.

Semakin besar hasil fungsi similaritas, maka kedua objek yang dievaluasi

dianggap semakin mirip, sebaliknya semakin kecil hasil fungsi similaritas maka

kedua objek tersebut dianggap semakin berbeda. Pada fungsi yang menghasilkan nilai

pada interval [0…1] maka nilai 1 melambangkan bahwa kedua objek persis sama,

sedangkan nilai 0 melambangkan kedua objek sama sekali berbeda.

Selain pengukuran similaritas, dikenal juga fungsi pengukuran jarak (distance)

atau perbedaan (dissimilarity) antar objek. Jika similaritas antara objek i dan objek j

dinotasikan sebagai sij dan dissimilaritas antara objek i dan j dinotasikan dengan ∂ij

maka hubungan antara keduanya dinotasikan sebagai

∂ij= 1 - sij

3.2.1 Similaritas Pada Data Biner

Untuk data-data non metrik dimana nilai dari variable-variablenya bernilai biner

(nilai dari semua variable bernilai 1 atau 0) maka saat ini telah banyak

10 http://people.revoledo.com/kardi/tutorial/kmean/index.html

Page 59: jurnal_datamining

125

dikembangkan metode pengukuran similaritas pada data biner. Pada dasarnya proses

pengukuran similaritas pada data berjenis biner adalah mengitung rata-rata frekuensi

dari table kontingensi, seperti table berikut ini,

Cat X1 Cat X2 Sum

1 0

1 a b a+b

0 c d c+d

Sum a+c b+d a+b+c+d

Pada variable-variable yang bersifat symmetric variables (a binary attribute is

Symmetric variable if the outcomes are both equally important11), dikenal

pengukuran similaritas Sokal and Michener’s Simple Matching Coefficient yang

dirumuskan sebagai berikut :

SM

a dS

a b c d

Berikut ini adalah metode-metode pengukuran similaritas untuk data yang bersifat

symmetric variable yang sudah banyak dikenal :

Coefficient Equation

Simple Matching a d

a b c d

11 Data mining Concepts and Technique, Professor Anita Wasilewska, Stony Brook University

Page 60: jurnal_datamining

126

Russel and Rao a

a b c d

Rogers and Tanimoto

2( )

a d

a d b c

Hamann ( ) ( )a d b c

a b c d

Ochiai II

( )( )( )( )

ad

a d a c d b d c

Sokal & Sneath 2( )

2( )

a d

a d b c

Sementara untuk variable-variable yang bersifat asymmetric (a binary attribute is

asymmetric if the outcomes of the states are not equally importance)12 maka dikenal

pengukuran similaritas Jaccard’s Coefficient yang di rumusnya adalah sebagai

berikut :

J

aS

a b c

Berikut ini adalah metode-metode pengukuran similaritas untuk data yang bersifat

asymmetric variable yang sudah banyak dikenal :

Coefficient Equation

Jaccard a

a b c

12 Data mining Concepts and Technique, Professor Anita Wasilewska, Stony Brook University

Page 61: jurnal_datamining

127

Anderberg

2( )

a

a b c

Czekanowsky/Sorensen-Dice 2

2

a

a b c

Kulczynski I a

b c

Kulczynski II 1 1( )

2

a

a b a c

Ochiai

( )( )

a

a b a c

3.2.2 Jaccard Similari ty & Jaccard Dissimilari ty

Jaccard Similarity adalah salah satu metode yang dipakai untuk menghitung

similaritas antara dua objek, secara umum perhitungan metode ini didasarkan pada

vector space similarity measure. Jaccard Similarity atau Jaccard Coeficient

menghitung similaritas antara dua objek X dan Y yang dinyatakan dalam dua vector,

sebagai berikut:

X = (x1,x2,x3,….xP) Y = (y1,y2,y3,….yP), maka jaccard coefficient adalah

1

2 2

1 1 1

( , )

p

i i

i

p p p

i i i i

i i i

x y

J X Y

x y x y

dimana xiyi merupakan hasil dari perhitungan dot product dari X dan Y, hal ini akan

lebih mudah dideskripsikan sebagai ( )

( )

X Y

X Y

Page 62: jurnal_datamining

128

Untuk atribut yang bernilai biner ( 0 atau 1) yang bisa mengandung arti “ya” atau

“tidak”, “setuju” atau “Tidak Setuju”, “absen” atau “hadir”, “Positif” atau “negatif”

dan lain sebagainya yang hanya menghasilkan dua kemungkian, maka similaritas dan

dissimilarity bisa dilakukan dengan cara menghitung jumlah atau frekuensi dari

kombinasi seluruh atribut yang bernilai 1 (positif) dan 0 (negatif), jika kita

mempunyai dua objek A dan B dengan jumlah atribut/variable n dan masing-masing

variable mempunyai nilai biner maka kombinasi nilai variable-nya dinotasikan adalah

sebagai berikut :

M11 adalah representasi untuk total variable dimana A dan B mempunyai nilai 1

M01 adalah representasi untuk total variable dimana A mempunyai nilai 0 sedangkan

dan B mempunyai nilai 1

M10 adalah representasi untuk total variable dimana A mempunyai nilai 1 sedangkan

dan B mempunyai nilai 0

M00 adalah representasi untuk total variable dimana A dan B mempunyai nilai 0

dan M11 + M01 + M10 + M00 = n

Jaccard similarity diformulasikan sebagai berikut :

11

01 10 11

ij

MS

M M M

Jaccard Dissimilarity

Page 63: jurnal_datamining

129

∂ij= 1 - sij

11

01 10 11

1ij

M

M M M

11 01 10 11

01 10 11

ij

M M M M

M M M

01 10

01 10 11

ij

M M

M M M

Contoh misalkan kita mempunyai data sebagai berikut,

Objek X1 X2 X3 X4

i Yes Yes Yes Yes

J No Yes No No

Maka koordinat dari i adalah (1,1,1,1) sedangkan j adalah (0,1,0,0) sehingga

M11 = 1, M01 = 0, M10 = 3 dan M00 = 0

11

01 10 11

ij

MS

M M M

1 1

0 3 1 4ijS

dan

∂ij= 1 - sij ,

1 31

4 4ij

Page 64: jurnal_datamining

130

Dengan demikian maka nilai Jaccard Similarity sebesar 0,25 dan nilai dari Jaccard

Dissimilarity adalah 0,75.

3.3 Contoh Penerapan Algoritma Usulan

Untuk lebih memudahkan dalam memahami langkah-langkah algoritma k-

means cluster analysis untuk data berjenis biner maka berikut ini adalah contoh

penerapan algoritma tersebut, misalkan kita mempunyai data hasil observasi sebagai

berikut :

Item Observasi

X1 X2 X3 X4 X5

A 1 1 0 1 0

B 0 0 1 1 1

C 1 0 1 0 1

D 0 1 1 0 1

E 1 0 0 1 0

F 1 0 1 0 0

G 0 1 1 0 1

H 0 0 1 1 1

Tujuannya adalah membagi semua item menjadi 3 cluster ( k = 3) , dengan

menggunakan algoritma yang disebutkan diatas maka langkah-langkah yang

dikerjakan adalah sebagai berikut :

Tentukan k sebagai jumlah cluster yang akan di bentuk

k = 3

Urutkan data berdasarkan kriteria penentu cluster

Page 65: jurnal_datamining

131

Bangkitkan k Centroid (titik pusat cluster) awal secara selected

Misalkan kita tentukan A, B dan C sebagai centroid pertama, sehingga

diperoleh c1=(1,1,0,1,0), c2=(0,0,1,1,1) dan c3=(1,0,1,0,1)

Tentukan similaritas nilai jaccard similarity untuk kemudian diperoleh nilai

jaccard’s koefisien untuk masing-masing objek, sebagai berikut :

C1 1 1 0 1 0

A 1 1 0 1 0

M11 =3, M10 =0, M01=0, M00=2

11

10 01 11

31

0 0 3iC A

MS

M M M

C1 1 1 0 1 0

B 0 0 1 1 1

M11 =1, M10 =2, M01=2, M00=0

11

10 01 11

1 10,2

2 2 1 5iC B

MS

M M M

Demikian seterusnya sehingga koefisien similaritas antara setiap cluster

dengan semua Variable adalah sebagai berikut :

Cluster

Centroid

Jaccard Koefisien

A B C D E F G H

C1 1 0.20 0.20 0.20 0.67 0.25 0.20 0.20

C2 0.20 1 0.50 0.50 0.25 0.25 0.50 1

Page 66: jurnal_datamining

132

C3 0.20 0.50 1 0.50 0.25 0.67 0.50 0.50

Alokasikan masing-masing data ke dalam centroid yang nilai similaritasnya

paling besar. Maka diperoleh table group assigmentnya pada iterasi 1 adalah

sebagai berikut :

A B C D E F G H

C1 1 0 0 0 1 0 0 0

C2 0 1 0 1 0 0 1 1

C3 0 0 1 0 0 1 0 0

Item Observasi Cluster

X1 X2 X3 X4 X5

A 1 1 0 1 0 1

B 0 0 1 1 1 2

C 1 0 1 0 1 3

D 0 1 1 0 1 2

E 1 0 0 1 0 1

F 1 0 1 0 0 3

G 0 1 1 0 1 2

H 0 0 1 1 1 2

Lakukan iterasi-1, kemudian tentukan posisi centroid baru dengan cara

menghitung rata-rata dari data-data yang berada pada centroid yang sama

Dengan menggunakan rumus,

Page 67: jurnal_datamining

133

1

iN

k

ki

i

X

VN

Dengan nilai threshold = 0.5, Maka diperoleh centroid baru untuk kedua

cluster tersebut adalah

1

1 1 1 0 0 0 1 1 0 0( , , , , )

2 2 2 2 2C

1 (1,1,0,1,0)c

2

0 0 0 0 0 1 1 0 1 1 1 1 1 0 0 1 1 1 1 1( , , , , )

4 4 4 4 4C

2 (0,1,1,1,1)C

3

1 1 0 0 1 1 0 0 1 0( , , , , )

2 2 2 2 2C

3 (1,0,1,0,1)C

Ulangi langkah 3 jika posisi centroid baru dan centroid lama tidak sama,

karena nilai centroid-nya berbeda maka langkah no 3 diulangi, sehingga

diperoleh table koefisien similaritas sebagai berikut :

C1 1 1 0 1 0

A 1 1 0 1 0

M11 =3, M10 =0, M01=0, M00=2

11

10 01 11

31

0 0 3iC A

MS

M M M

Page 68: jurnal_datamining

134

C1 1 1 0 1 0

B 0 0 1 1 1

M11 =1, M10 =2, M01=2, M00=0

11

10 01 11

1 10,2

2 2 1 5iC B

MS

M M M

Demikian seterusnya sehingga koefisien similaritas antara setiap cluster

dengan semua Variable adalah sebagai berikut :

Cluster

Centroid

Jaccard Koefisien Similarity

A B C D E F G H

C1 1 0.20 0.20 0.67 0.67 0.25 0.20 0.20

C2 0.40 0.75 0.40 0.75 0.20 0.20 0.75 0.75

C3 0.20 0.50 1 0.50 0.25 0.67 0.50 0.5

Alokasikan masing-masing data ke dalam centroid yang nilai similaritasnya

paling kecil, Maka diperoleh table group assigmentnya pada iterasi 1 adalah

sebagai berikut :

A B C D E F G H

C1 1 0 0 0 1 0 0 0

C2 0 1 0 1 0 0 1 1

C3 0 0 1 0 0 1 0 0

Page 69: jurnal_datamining

135

Dari hasil table assignment pada iterasi 1 ternyata hasilnya sama dengan table group

assignment pada iterasi 0 artinya pada iterasi 1 ini sudah konvergen sehingga tidak

perlu dilakukan iterasi kembali, dan hasil akhir cluster yg diperoleh adalah :

Item Observasi Cluster

X1 X2 X3 X4 X5

A 1 1 0 1 0 1

B 0 0 1 1 1 2

C 1 0 1 0 1 3

D 0 1 1 0 1 2

E 1 0 0 1 0 1

F 1 0 1 0 0 3

G 0 1 1 0 1 2

H 0 0 1 1 1 2

Untuk mewujudkan maksud dan tujuan seperti yang disebutkan pada BAB I

maka metode analisis data mining yang akan dilakukan adalah sebagai berikut :

1. Pemahaman data (Data Understanding), yaitu proses memahami data

berdasarkan kebutuhan data (Data Requirement). Proses ini meliputi

pengumpulan data (initial data collection) dan pendeskripsian data (data

decription). Pada tahapan ini maka akan dilakukan analisis deskriptif terhadap

data yang akan dilakukan analisa, output yang diharapkan dari tahapan ini adalah

gambaran data secara jelas baik dari sisi struktur data, jenis data serta volume dari

data yang akan dianalisa.

2. Data Preparation, yaitu preprocessing yang terdiri dari Penyeleksian data (Data

Selection) dan pembersihan (cleansing) data, pada proses ini dilakukan pemilihan

data yang disesuaikan dengan kebutuhan dan pembersihan data dari data-data

Page 70: jurnal_datamining

136

yang sifatnya redundansi atau data dengan type data yang salah. Output dari

tahapan ini adalah terciptanya data yang siap untuk dilakukan analisa dan

transformasi jika diperlukan.

3. Data transformation, yaitu proses mengkonversikan data kedalam format lain

yang sesuai dengan kebutuhan analisa. Pada tahapan ini akan dilakukan

tranformasi data kedalam bentuk, format atau struktur data yang lain yang

disesuiakan dengan kebutuhan dari sisi analisa dan visualisasi atas hasil analisa.

4. Modeling data mining, yaitu proses untuk memperoleh pola dan karakteristik

data, dalam fase ini akan dilakukan cluster analysis dengan k-means cluster

analysis untuk memperoleh kelompok-kelompok berdasarkan karakteristik dari

data yang dianalisa. Pada tahapan ini maka algoritma K-means cluster analysis

akan dilakukan modifikasi pada proses perhitungan jarak antara data dengan

centroid diganti dengan menghitung similaritas mempergunakan Jaccard

Similarity, selain itu pada algoritma k-means cluster analysis juga akan

ditambahkan fungsi untuk mengidentifikasi dan melakukan penghapusan data-

data yang dikategorikan sebagai outlier

5. Interpretation/Evaluation, melakukan interpretasi dan evaluasi terhadap masalah

yang dihadapi berdasarkan data yang dianalisa. Output pada tahapan ini berupa

evaluasi atas hasil k-means cluster analysis yang telah dilakukan.

6. Kesimpulan, output pada tahapan ini adalah berupa rekomendasi yang

didihasilkan dari proses analisa yang telah dilakukan.

Page 71: jurnal_datamining

137

Skema alur metode penelitian yang dilakukan secara lengkap dapat dilihat dalam

gambar 3.2 dibawah ini,

Mulai

Pemahaman Data

(Data Understanding)

Penyiapan Data

(Data preparaition)

Data Transformation

Melakukan Analisis K-Means Cluster

Interpretasi hasil Analisis

Kesimpulan dan Saran

Selesai

Gambar 3.2 Diagram Alur Metoda Penelitian

Dalam melaksanakan metodologi diatas akan dipergunakan software SPSS 16,

STATISTICA 7 sebagai software untuk pengolahan data statistika dan SQL SERVER

2008 sebagai software untuk menyimpan data dan Microsoft Visual Studio 2008

sebagai software untuk membuat Aplikasi visualisasi hasil analisa. Pemilihan

software tersebut disebabkan karena selain keterbatasan penulis dalam menguasai

software-software untuk pengolahan data statistika juga disebabkan karena

Page 72: jurnal_datamining

138

kelengkapan feature (modul-modul) untuk melakukan pengolahan data, kemampuan

untuk mengolah dan menyimpan data dalam jumlah yang besar dari kedua software

statistik tersebut dianggap oleh penulis cukup untuk melakukan tujuan seperti yang

disebutkan diatas.

Page 73: jurnal_datamining

139

DAFTAR PUSTAKA

Badan Pemeriksa Keuangan Republik Indonesia (2009), Jaringan Dokument &

Informasi Hukum, ”Pemberian Dana Bantuan Langsung Tunai Plus”,

http://www.JDIH.BPK.go.id

Bezdek, J.C (1981). Pattern Recogniton with Fuzzy Objective Function Algoritms,

Plenum Press, New York.

Budi Santoso(2007), Data mining Teknis Pemanfaatan Data untuk Keperluan Bisnis,

Graha Ilmu, Jakarta.

David olson, Yong Shi (2007), Introduction to Business Data mining, International

Edition, Mc Graw Hill.

Departemen Sosial RI (2008), Petunjuk teknik Program penyaluran dana

BLT(Bantuan Langsung Tunai) Untuk Rumah Tangga Sasaran, Jakarta.

Fernando Lourenzo, Victor Lobo and Fernando Bacao (2004). “Binary-Base

Similarity Measure for Categorical Data and Their Application in Self-

Organization Maps”, Instituto Superior de Estatistica e Gestao de Informacao,

Universidade Nova de Lisboa

Hana Rezankova (2009). “Cluster Analysis and Categorical Data”, Profesional

Publishing, Vysoka Skola Ekonomicka v Praze, Praha.

Holmes Finch, Huynh Huynh (2000). “Comparison Of Similarity Measure in Cluster

Analysis with Binary Data”, Unpublished Presented at American Education

Page 74: jurnal_datamining

140

Research Association in New Orleans, Department of Statistics, University of

South Carolina Columbia.

Kardi Teknomo, PHD.”K-Means Clustering Tutorial”,

http://people.revoledo.com/kardi/tutorial/kmean/index.html

Laporan Kantor Kementrian Koordinator Bidang Kesejahteraan Rakyat (2009),

“Capaian Program BLT, Raskin, BOS, Jamkesmas dan PKH tahun 2008 dan

Awal Tahun 2009”, http://www.setneg.go.id

Nikolai Tatti(2009). “Approximation Bound for K-Means Clustering of Binary

Data”, HIIT, Departement of Information and Computer Science, Helsinki

University of Technology, Finland.

Paolo Giudici(2003). Applied Data mining Statistical Methods for Business and

Industry, Faculty of Economics University of Pavia Italy, John Wiley & Sons

Ltd.

Professor Anita Wasilewska. “Data mining Concepts and Technique”, Stony Brook

University

Richard A Johnson , Dean W. Wichern(2004). Applied Multivariate Statistical

Analysis, University of Wisconsin-Medison, Texas A&M University, Prentice

Hall, EagleWood Cliffs, New Jersey

Tao Lie(2005). “A General Model for Clustering Binary Data”. Research Track Paper

No:FL33199 Computer Science, Florida International University Miami.

Page 75: jurnal_datamining

141

Yudi Agusta, Phd. (2007) “K-Means Penerapan, Permasalahan dan Metode Terkait,”

Jurnal Sistem dan Informasi Vol.3 (Februari 2007), STMIK-STIKOM BALI,

Denpasar, Bali.