jurnal_datamining
Transcript of jurnal_datamining
ANALISIS DATA MINING K-MEANS CLUSTER ANALYSIS UNTUK DATA BERJENIS BINER (STUDI KASUS:PENGELO MPO KAN RUMAH TANGGA SASARAN (RTS) BANTUAN LANGSUNG TUNAI (BLT))
OLEH
DADAN SAEPULLOH
(140720070035)
PROGRAM PASCASARJANA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS PADJADJARAN BANDUNG
2010
ANALISIS DATA MINING K-MEANS CLUSTER ANALYSIS UNTUK DATA BERJENIS BINER (STUDI KASUS : PENGELO MPOKAN RUMAH TANGGA SASARAN (RTS) BANTUAN LANGSUNG TUNAI (BLT))
PROGRAM PASCASARJANA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS PADJADJARAN BANDUNG
2010
OLEH
DADAN SAEPULLOH
(140720070035)
Untuk memenuhi salah satu syarat ujian
Guna memperoleh gelar Magister Statistika
Program Pendidikan Magister Program Studi Statistika Terapan
1
ANALISIS DATA MINING K-MEANS CLUSTER ANALYSIS UNTUK DATA BERJENIS BINER
(STUDI KASUS : PENGELOMPOKAN RUMAH TANGGA SASARAN (RTS) BANTUAN LANGSUNG TUNAI (BLT))
OLEH
DADAN SAEPULLOH
(140720070035)
Untuk memenuhi salah satu syarat ujian
Guna memperoleh gelar Magister Statistika
Program Pendidikan Magister Program Studi Statistika Terapan
Telah disetujui oleh tim pembimbing pada tanggal
Seperti tertera di bawah ini
Bandung, ____________________
Tim Pembimbing :
Dr. Jadi Supriadi, DEA Zulhanif, S.Si, M.Sc
Ketua Tim Pembimbing Anggota Tim Pembimbing
i
PERNYATAAN
Dengan ini saya menyatakan bahwa:
1. Karya tulis saya, tesis ini, adalah asli dan belum pernah diajukan untuk
mendapatkan gelar akademik (sarjana, magister dan/atau doctor) baik di
Universitas Padjadjaran maupun di perguruan tinggi lain.
2. Karya tulis ini adalah murni gagasan, rumusan dan penelitian saya sendiri
tanpa bantuan pihak lain, kecuali arahan Tim Pembimbing.
3. Dalam tesis ini tidak terdapat karya atau pendapat yang telah tertulis atau
dipublikasikan orang lain, kecuali secara tertulis dengan jelas dicantumkan
sebagai acuan dalam naskah dengan disebutkan nama pengarang dan
dicantumkan dalam daftar pustaka.
4. Pernyataan ini saya buat dengan sesungguhnya dan apabila dikemudian hari
terdapat penyimpangan dan ketidakbenaran dalam pernyataan ini, maka saya
bersedia menerima sanksi akademis berupa pencabutan gelar yang telah
diperoleh karena karya ini, serta sanksi lainnya sesuai dengan norma yang
berlaku diperguruan tinggi ini.
Bandung, 2010
Yang membuat pernyataan,
(Dadan Saepulloh)
ii
ABSTRAK
Judul Tesis : ANALISIS DATA MINING K-MEANS CLUSTER ANALYSIS UNTUK DATA BERJENIS BINER
(STUDI KASUS: PENGELOMPOKAN RUMAH TANGGA SASARAN (RTS) BANTUAN LANGSUNG TUNAI(BLT))
Subjek : 1. Data mining 2. Cluster Analysis
3. Non Hierarchical Clustering Method 4. K-Means Cluster Analysis 5. Metode Pengukuran Similaritas
Abstrak :
Pengelompokan (clustering) adalah salah satu proses dari data mining yang bertujuan untuk menemukan “pengetahuan” atau pola yang berharga dari data yang berukuran relatif besar yang umumnya dikelola sebagai data history dan
disimpan baik sebagai database maupun datawarehouse. Metode pengelompokan digunakan terhadap data-data yang bersifat un-supervised learning, sehingga proses
pengelompokan didalam konsep data mining termasuk dalam Un-supervised analysis.
Terdapat dua kelompok metode pengelompokan yang sudah dikenal yaitu metode cluster analysis hirarki (hierarchical clustering method) dan metode cluster analysis non hirarki (non hierarchical clustering method), Algoritma K-Means Cluster
Analysis termasuk dalam kelompok metode cluster analysis non hirarki, dimana jumlah kelompok yang akan dibentuk sudah terlebih dahulu diketahui atau
ditetapkan jumlahnya.
Algoritma K-Means Cluster Analysis mempergunakan metode perhitungan jarak
(distance) untuk mengukur tingkat kedekatan antara data dengan titik tengah (centroid), umumnya menggunakan Euclidean distance atau metode pengukuran
jarak lainnya,untuk data yang berjenis biner metode perhitungan jarak ini menjadi tidak tepat diterapkan sehingga perlu dilakukan perubahan yaitu dengan cara mempergunakan metode perhitungan tingkat similaritas, terdapat beberapa metode
perhitungan similaritas diantaranya yang dipergunakan dalam laporan ini adalah Jaccard simililarity, Anderberg similarity, Czekanowsky similarity, dan Kulczynski
similarity. Kemudian untuk menentukan nilai centroid awal pada algoritma K-Means Cluster Analysis umumnya dilakukan dengan cara acak (random), pada analisa ini dilakukan modifikasi dengan terlebih dahulu dilakukan proses
pengurutan (sorting) data dan nilai awal centroid ditetapkan berdasarkan kriteria pembentuk kelompok yang sudah diketahui. Dengan melakukan pendekatan
similaritas dan perubahan pada algoritma k-means cluster analysis seperti diatas menghasilkan algoritma k-means cluster analysis yang dapat dipergunakan pada data berjenis biner dan validitas yang lebih baik.
ii
ABSTRACT
Thesis : DATA MINING ANALYSIS WITH K-MEANS CLUSTER ANALYSIS FOR BINARY DATA
(CASE STUDY : CLUSTERING FOR RUMAH TANGGA SASARAN (RTS) BANTUAN LANGSUNG TUNAI(BLT))
Subject : 1. Data mining 2. Cluster Analysis
3. Non Hierarchical Clustering Methods 4. K-Means Cluster Analysis 5. Similarity Methods
Abstract :
Clustering is one of data mining function, which aims to find knowledge or valuable pattern from relatively large dataset, which mostly managed as historical dataset and stored in databases or datawarehouse.
Clustering methodes used for un-supervised dataset, in data mining concepts
called as un-supervised analysis. There are two groups of clustering, hierarchical clustering methods and non hierarchical clustering methods, K-Means Cluster Analysis within non hierarchical clustering methods with number of cluster is
already set from the begining of the algorithm.
K-means Cluster Analysis mostly used Euclidean distance or others distance
methodology to find distance from data to centroid, its can’t implement for binary data, so in this field k-means cluster analysis to be modified with use similarity
measures, in this study used Jaccard simililarity, Anderberg similarity,
Czekanowsky similarity and Kulczynski similarity, Classical k-means cluster analysis finding the first centroid by randomize from dataset,here k-means cluster
analysis algorithm will be modified with sorted dataset and then the first centroid selected from dataset base on cluster result criteria. With use similarity measures
and modification of k-means cluster analysis algorithm, the algorithm can and better implemented in binary data.
iii
KATA PENGANTAR
Segala puji bagi Allah SWT, Tuhan semesta alam yang telah mencurahkan
begitu banyak Rahmat dan Karunia-Nya sehingga penulis mampu menyelesaikan
Tesis ini yang berjudul “Analisis Data mining K-Means Cluster Analysis Untuk
Data Berjenis Biner, Studi Kasus: Pengelompokan Rumah Tangga Sasaran (RTS)
Bantuan Langsung Tunai (BLT)”. Banyak hal yang diperoleh penulis selama
proses pengerjaan tesis ini, untuk itu penulis sampaikan Terima Kasih dan
Penghargaan yang setinggi-tingginya kepada :
1. Pimpinan dan Management PT.Rekayasa Industri, tempat Penulis bekerja
yang telah memberikan kesempatan baik berupa moril maupun materil kepada
penulis untuk melanjutkan studi Magister Statistika Terapan.
2. Seluruh Staf Pengajar Program Pascasarjana Magister Statistika Terapan
Universitas Padjadjaran Bandung, yang telah membimbing dan membantu
penulis selama menempuh pendidikan magister.
3. Kedua Orang Tua, Mertua, Istriku Eva Mardhiana dan ke-Empat anak-anakku
tercinta yang telah banyak berkorban dan memberikan do’a, dukungan serta
motivasi untuk selalu semangat dalam proses pembelajaran dan
menyelesaikan studi dengan baik.
4. Bapak Septiadi Padmadisastra, Ph.D sebagai Ketua Program Studi Magister
Statistika Terapan dan Ibu Dr. Lienda Novianti sebagai Sekretaris Program
Studi Magister Statistika Terapan Universitas Padjadjaran Bandung yang telah
memberikan bimbingan dan kemudahan selama proses belajar mengajar.
iii
5. Bapak Dr. Jadi Suprijadi, DEA dan Bapak. Zulhanif, S.Si,M.Sc sebagai
pembimbing yang telah banyak memberikan bimbingan dan masukan atas
penyelesaian tesis ini.
6. Bapak Septiadi Padmadisastra, Ph.D dan Bapak Drs.H.Bernik Maskun,M.Stat
sebagai tim penguji yang telah banyak memberikan masukan.
7. Teman-teman seperjuangan di Magister Statistika Terapan Universitas
Padjadjaran Angkatan II, terima kasih atas bantuan, kebersamaan, dukungan dan
semangat yang selama ini diberikan selama proses perkuliahan dan penyelesaian
tesis ini.
8. Semua pihak yang tidak bisa disebutkan satu persatu
Semoga semua bantuan, bimbingan dan pengorbanan yang telah diberikan
mendapat balasan dan pahala berlipat ganda dari Allah SWT.
Akhir kata semoga karya tulis ini dapat memberikan manfaat dan menjadi
sumbangsih kecil bagi perkembangan ilmu pengetahuan, terutama dalam bidang
statistika terapan serta bidang ilmu lainnya yang terkait, kemudian dalam
penyusunan dan penulisan tesis ini penulis menyadari masih jauh dari sempurna
untuk itu saran dan kritik membangun sangat penulis harapkan.
Bandung, 2010
Penulis
iv
DAFTAR GAMBAR
Gambar 2.1 : Proses Knowledge Discovery in Database
Gambar 2.2 : Hubungan Data mining dan Bidang Ilmu Lainnya
Gambar 2.3 : Cluster Berdasarkan Definisi Well-Separated Cluster
Gambar 2.4 : Cluster Berdasarkan Definisi Center-Based-Cluster
Gambar 2.5 : Contoh Dendogram
Gambar 2.6 : Diagram Alur Algoritma K-Means Cluster Analysis
Gambar 3.1 : Diagram Alur Algoritma Usulan K-Means Cluster Analysis
Gambar 3.2 : Diagram Alur Algoritma Metode Penelitian
Gambar 4.1 : Sebagian Data Yang Akan Dianalisa
Gambar 4.2 : Distribusi Frekuensi Data Per Kecamatan
Gambar 4.3 : Star Skema Data Rumah Tangga Miskin Kriteria BPS
Gambar 4.4 : Distribusi Frekuensi Data RTS BLT yang Memenuhi Syarat
Gambar 4.5 : Contoh Data Terurut Berdasarkan Kriteria RTS BLT
Gambar 4.6 : Tampilan inisial proses Cluster Selected
Gambar 4.7 : Tampilan hasil proses Cluster Selected
Gambar 4.8 : Contoh Data Hasil Cluster Selected
Gambar 4.9 : Chart Hasil Cluster Selected
Gambar 4.10 : Chart Frekuensi Per Kriteria RTS Untuk Cluster Sangat Miskin
Gambar 4.11 : Chart Frekuensi Per Kriteria RTS Untuk Cluster Miskin
Gambar 4.12 : Chart Frekuensi Per Kriteria RTS Untuk Cluster Hampir Miskin
Gambar 4.13 :Tampilan inisial proses Cluster Randomize
Gambar 4.14 :Tampilan hasil proses Cluster Randomize
Gambar 4.15 :Chart Hasil ClusterRandomize
v
DAFTAR ISI
Halaman
PERNYATAAN………………………………………………………. ……… i
ABSTRAK ……………………………………………………………………. ii
KATA PENGANTAR ………………………………………………………… iii
DAFTAR GAMBAR ………………………………………………………….. iv
BAB I PENDAHULUAN ………………………………………………........... 1
1.1 Tinjauan Umum …………………………………………………… 1
1.2 Latar Belakang Masalah …………………………………………... 6
1.3 Identifikasi Masalah ……………………………………………….. 8
1.4 Maksud dan Tujuan ……………………………………................. 9
1.5 Manfaat Yang Diharapkan ………………………………………... 9
BAB II TINJAUAN PUSTAKA ……………………………………………… 11
2.1 Data Mining ……………………………………………………….. 11
2.2 Cluster Analysis ……………………..……………………………. 15
2.2.1 Definisi Cluster ……………………………………………… 15
2.2.2 Definisi Cluster Analysis ……….....…………………………. 17
2.2.3 Klasifikasi Metode Cluster Analysis……..…………………… 19
2.3 K-Means Cluster Analysis …………..……………………………… 21
2.3.1 Algoritma K-Means Cluster Analysis ………………………. 22
2.3.2 Menentukan Banyaknya Cluster k………………………………. 24
2.3.3 Menentukan Centroid …………………..…………………… 25
2.3.4 Menghitung Jarak Antara Data Dengan Centroid………….... 25
2.3.5 Pengalokasian Ulang Data Kedalam Masing-masing cluster… 26
2.3.6 Konvergensi …………………………………………................ 28
vi
2.4 Menilai Kualitas Cluster…………………………………………….. 28
2.5 Beberapa Permasalahan K-Means Cluster Analysis…………………. 30
2.6 Contoh Penerapan Algoritma K-Means Cluster Analysis…………. 32
BAB III K-MEANS CLUSTER ANALYSIS UNTUK DATA BINER………… 40
3.1 Algoritma Usulan K-Means Cluster Analysis…………………………... 40
3.2 Ukuran Similaritas……………………………………………............ 43
3.2.1 Similaritas Pada Data Biner…………………………………… 44
3.2.2 Jaccard Similarity & Jaccard Dissimilarity………………….... 46
3.3 Contoh Penerapan Algoritma Usulan………………………………... 49
BAB IV ANALISA DATA…………………………………………………… 57
4.1 Pemahaman data (data understanding)……………………………… 57
4.2 Transformasi Data…………………………………………………… 62
4.2.1 Pemodelan Data Dimensional ………………………………… 62
4.2.2 Visualisasi Datawarehouse ……………………………………. 65
4.3 Analisis K-means cluster analysis untuk data Biner………………… 66
BAB V KESIMPULAN DAN SARAN……………………………………….. 96
5.1Kesimpulan……………………………………………………………. 96
5.2 Saran………………………………………………………………….. 98
DAFTAR PUSTAKA………………………………………………………….. 99
DAFTAR LAMPIRAN………………………………………………………... 102
79
BAB I
PENDAHULUAN
1.1. Tinjauan Umum
Kegiatan perencanaan, evaluasi dan pengambilan keputusan akan dapat
dilakukan dengan lebih baik apabila para pengambil keputusan memiliki informasi
yang lengkap, cepat, tepat dan akurat. Hambatan yang sering ditemukan adalah
kenyataan bahwa ketika kita sudah memiliki data yang cukup lengkap dan besar akan
tetapi kita seringkali mengalami kesullitan dalam menyajikan dan mengolah data
tersebut sehingga menjadi informasi yang berguna dan mudah dipahami dengan
tinjauan dari berbagai sudut pandang/dimensi dan tingkat rincian data yang
diinginkan. Hambatan lain yang sering juga dihadapi adalah bagaimana melakukan
proses penggalian/ekstraksi informasi dari data yang masih tersembunyi untuk
selanjutnya diolah menjadi informasi yang terus berkembang menjadi pengetahuan
(knowledge) yang bermanfaat bagi proses pengambilan keputusan.
Teknik-teknik data mining dapat dimanfaatkan untuk melakukan proses
penggalian informasi dari data yang masih tersembunyi dalam jumlah yang besar dan
kompleks, output dari penggunaan teknik-teknik data mining adalah diperolehnya
karakteristik atau pola dari data tersebut.
80
Pada tahun 2005, Pemerintah republik Indonesia meluncurkan Program
Kompensasi Penghapusan Subsidi Bahan Bakar Minyak (PKPS BBM)1 untuk
membantu kalangan tidak mampu menghadapi laju inflasi saat itu yang sangat tinggi
akibat dinaikkannya harga BBM hingga 126%. Program ini dibagi dalam ini 2(dua)
tahapan, yaitu:
Pertama : PKPS BBM Tahap I, merupakan program kompensasi di bidang
pendidikan, melalui pemberian Bantuan Operasional Sekolah (BOS) dan Bantuan
Khusus Murid (BKM); bidang Kesehatan, diarahkan untuk meningkatkan pelayanan
kesehatan melalui sistem jaminan kesehatan bagi penduduk miskin, yang meliputi
layanan kesehatan dasar, layanan kesehatan rujukan dan pelayanan penunjang
lainnya; serta bidang infrastruktur pedesaan, diarahkan pada penyediaan infrastruktur
di desa-desa tertinggal (jalan, jembatan, air bersih, sanitasi, tambatan perahu, irigasi
desa sederhana dan penyediaan listrik bagi daerah yang betul-betul memerlukan).
Kedua : PKPS BBM Tahap II : Bantuan Langsung Tunai tanpa syarat kepada Rumah
Tangga Sasaran/RTS (unconditional cash transfer) sebesar Rp100.000/bulan selama
1(satu) tahun, dan setiap tahap diberikan Rp300.000/3 bulan. Program BLT
dilaksanakan mulai bulan September 2005, dan untuk mendukung kelancaran
pelaksanaan program tersebut, Pemerintah mengeluarkan Instruksi Presiden Nomor
12 Tahun 2005 tentang Pelaksanaan Bantuan Langsung Tunai Kepada Rumah
Tangga Miskin. Sasaran program BLT ini adalah rumah tangga sasaran(RTS) yang
1 Juknis Bantuan Langsung Tunai untuk Rumah Tangga Sasaran Dalam Rangka Program Kompensasi Pengurangan Subsidi Bahan Bakar Minyak (PKPS-
BBM)
81
didata oleh BPS sejumlah 19.1 juta, dengan DIPA Departemen Sosial yang
diterbitkan oleh Departemen Keuangan.
Pada tahun 2008, melalui Instruksi Presiden No. 3 Tahun 2008 tentang
Pelaksanaan Program Bantuan Langsung Tunai Untuk Rumah Tangga Sasaran,
sebagai kompensasi pengurangan subsidi Bahan Bakar Minyak (BBM) kembali
diluncurkan program ini dengan alokasi sebesar Rp14.1 triliun. Program ini
dilaksanakan dari bulan Juni s.d Desember 2008 (selama 7 bulan), dalam bentuk
Bantuan Langsung Tunai tanpa syarat kepada Rumah Tangga Sasaran (unconditional
cash transfer) sebesar Rp100.000,-/bulan, dengan rincian diberikan Rp300.000,-/3
bulan (Juni-Agustus) dan Rp400.000,-/4 bulan (September-Desember). Sasaran
utama terdiri dari Keluarga Sangat Miskin dan Keluarga Miskin serta 5-7 juta
PNS/TNI/Polri (golongan I dan II).
Pada tahun 2009, Pemerintah kembali menggulirkan program pemberian Bantuan
Langsung Tunai Plus kepada rumah tangga sasaran melalui Instruksi Presiden Nomor
1 Tahun 2009 tentang Pelaksanaan Program Bantuan Untuk Rumah Tangga Sasaran
Dalam Rangka Penanggulangan Kemiskinan.
Bantuan Langsung Tunai Plus adalah pemberian bantuan kepada rumah tangga
sasaran yang terdiri dari rumah tangga yang masuk dalam kategori Sangat Miskin,
Miskin dan Hampir Miskin. Disebut plus karena pemberian bantuan selain meliputi :
1. bantuan langsung tunai selama 2 (dua) bulan sebesar Rp100.000,- (seratus
ribu rupiah)/bulan/rumah tangga sasaran, juga disertai dengan
82
2. penjualan beras bersubsidi 15 kg/bulan/rumah tangga sasaran (sampai dengan
tanggal 31 Desember 2009
Realisasi penyaluran program BLT sampai dengan 5 Januari 2009 mencapai
Rp12,028 triliun. Jumlah total realisasi bayar sudah mencapai 18.759.129 rumah
tangga sasaran dari total alokasi anggaran BLT Plus yang mencapai 19.020.763
rumah tangga sasaran atau berdaya serap hingga 98,62% (Sembilan puluh delapan
koma enam puluh dua persen).2
kriteria rumah tangga sasaran (RTS) BLT yang digunakan terdiri atas 14 kriteria yaitu
:
1. luas lantai bangunan tempat tinggal kurang dari 8 M2 / orang
2. jenis lantai bangunan tempat tinggal terbuat dari tanah/bambu/kayu murahan
3. jenis dinding tempat tinggal bambu/rumbia/kayu berkualitas rendah/tembok
tampa plesteran
4. tidak memiliki fasilitas Mandi Cuci Kakus (MCK) atau memiliki fasilitas
MCK bersama dengan rumah tangga lain
5. sumber penerangan rumah tidak menggunakan listrik
6. sumber air minum berasal dari sumur/mata air tidak terlindung/sungai/air
hujan
2 Badan Pemeriksa Keuangan Republik Indonesia(2009), Jaringan Dokument & Informasi Hukum, ”Pemberian Dana Bantuan Langsung Tunai Plus”, http://www.JDIH.BPK.go.id
83
7. bahan bakar untuk memasak sehari-hari adalah kayu bakar/arang/minyak
tanah
8. hanya mengkonsumsi daging/susu/ayam 1 kali/minggu
9. hanya membeli pakaian baru 1(satu) stel/tahun
10. hanya sanggup makan sebanyak 1 atau 2 kali/hari
11. tidak sanggup membayar biaya pengobatan di puskesmas/poliklinik
12. sumber penghasilan hanya dari kepala rumah tangga yang bermata
pencaharian sebagai petani (dengan luas 0.5 Ha), buruh tani, nelayan, buruh
bangunan, buruh perkebunan, atau pekerja lainnya dengan penghasilan
dibawah Rp. 600.000 / bulan
13. pendidikan tertinggi kepala rumah tangga tidak sekolah/tidak tamat SD/hanya
SD dan
14. tidak memiliki tabungan atau barang yang mudah dijual dengan nilai minimal
Rp500.000
Bagi masyarakat yang
1. memenuhi semua kriteria, disebut rumah tangga sangat miskin
2. memenuhi antara sebelas sampai dengan tiga belas kriteria, disebut rumah
tangga miskin.
3. memenuhi antara sembilan sampai dengan sepuluh kriteria, disebut rumah
tangga hampir miskin.
84
Ketiga kategori rumah tangga sasaran diatas ditetapkan menurut Instruksi Presiden
No.1 Tahun 2009 tentang Pelaksanaan Program Bantuan Untuk Rumah Tangga
Sasaran Dalam Rangka Penanggulangan Kemiskinan.
1.2 Latar Be lakang Masalah
Salah satu faktor krusial dari program BLT ini adalah penentuan kriteria
rumah tangga miskin. Dari keterangan yang diperoleh penulis, diketahui bahwa
indikator awal yang digunakan adalah tingkat pendapatan orang miskin atau dikenal
dengan garis kemiskinan. Dengan menggunakan definisi BPS, pemerintah
menyatakan bahwa seseorang disebut mendekati miskin dan berhak memperoleh dana
BLT jika memiliki tingkat pendapatan di bawah Rp 175 ribu per bulan. Tentunya
angka ini merupakan angka rata-rata dari pendapatan seluruh anggota rumah tangga,
sehingga jika dikembalikan kepada definisi dari rumah tangga miskin, maka angka ini
perlu dikalikan dengan rata-rata jumlah anggota rumah tangga, yang diasumsikan
sama dengan 4 orang. Implikasinya, rumah tangga dikatakan mendekati miskin dan
memperoleh dana BLT jika memiliki pendapatan kurang dari Rp 700 ribu per bulan.
Aspek terpenting dari seluruh rangkaian penyaluran BLT adalah pendataan yang
bermuara pada diberikannya Kartu Penerima BLT kepada Kepala RTS di rumah
masing-masing yang diantar oleh petugas kantor pos. Dari hasil pengamatan di
lapangan, Bappenas mencatat hanya 67,98 persen yang menerima kartu di
85
rumah/kantor sendiri, sisanya menerima di kantor pos, kantor kelurahan atau di
tempat lainnya.3
Badan pemeriksa keuangan (BPK) telah melakukan pemeriksaan terhadap
program Bantuan Langsung Tunai, dengan hasil pemeriksaan adanya kelemahan
dalam SPI, adanya penyimpangan terhadap kriteria/peraturan yang telah ditetapkan,
adanya kelemahan yang mengganggu azas kehematan dan kelemahan yang dapat
mengakibatkan tidak tercapainya program yang direncanakan, yang dapat dirinci
antara lain sebagai berikut :4
1. penetapan rumah tangga miskin yang tidak sesuai dengan kriteria sehingga
penyaluran dana tidak tepat sasaran, dan terjadi ketidakhematan atas
pencairan Kartu Kompensasi BBM (KKB) serta pemborosan dari biaya cetak
KKB
2. ketidakhematan keuangan negara akibat pembatalan KKB dan pencairan
kupon KKB oleh rumah tangga miskin yang tidak berhak
3. terjadi keterlambatan pendistribusian kepada rumah tangga miskin
4. terjadi pencairan atas BLT yang tidak tepat sasaran
5. pengembalian dana BLT oleh rumah tangga miskin yang tidak berhak belum
disetor ke kas negara.
3 Laporan Kantor Kementrian Koordinator Bidang Kesejahteraan Rakyat, “Capaian Program BLT, Raskin, BOS,
Jamkesmas dan PKH tahun 2008 dan Awal Tahun 2009”, http://www.setneg.go.id 4 Jaringan Dokument & Informasi Hukum Badan Pemeriksa Keuangan Republik Indonesia(2009),”Pemberian Dana Bantuan Langsung Tunai Plus”, http://www.JDIH.BPK.go.id
86
Anggota Komisi XI DPR, Dradjad H Wibowo, mengatakan, beberapa kriteria itu
tidak konsisten dengan kondisi kemiskinan yang ada saat ini. Sebagai contoh,
masyarakat yang telah memiliki listrik, bukan berarti memiliki kemampuan ekonomi
yang layak.
1.3 Identif ikas i Masalah
Berdasarkan permasalahan-permasalahan yang muncul seputar penyaluran BLT,
maka dalam pembuatan tesis ini penulis tertarik untuk mencoba melakukan analisa
mengenai kriteria penentuan keluarga miskin. Data yang akan dilakukan sebagai studi
kasus adalah berupa data RTS di kabupaten Subang propinsi Jawa Barat yang
mempunyai karakteristik sebagai berikut :
1. Data merupakan data dalam bentuk database yang sudah ada dengan jumlah
baris sebanyak 153.016 baris yang merepresentasikan sebanyak 153.016
kepala keluarga di 22 kecamatan dan 252 kelurahan.
2. Variable yang terdapat dalam data adalah variable yang merepresentasikan 14
kriteria Rumah Tangga Sasaran (RTS) BLT
3. Type data berupa data biner, dengan isi data berupa numerik 0 atau 1
87
4. Merupakan data dengan kategori Unsupervised
Dengan karakteristik data seperti diatas maka terdapat masalah pada penerapan
analisis data mining dengan menggunakan algoritma k-means cluster analysis pada
data berjenis biner yaitu pada tahap perhitungan jarak antara data dengan centroid,
yang mana untuk data berjenis biner metode perhitungan jarak ini tidak bisa
diterapkan.
1.4 Maksud dan Tujuan
Maksud dari tesis ini adalah melakukan analisis data mining dengan
menggunakan algoritma k-means cluster analysis untuk data berjenis biner pada data
RTS BLT dikabupaten subang. Algoritma k-means cluster analysis yang akan
dipergunakan adalah algoritma k-means cluster analysis yang dilakukan modifikasi,
modifikasi yang akan dilakukan yaitu pada proses perhitungan jarak antara centroid
yang diperoleh pada tiap-tiap cluster dengan setiap item data yang dianalisa, dimana
pada umumnya mempergunakan Euclidean distance tetapi karena datanya berjenis
biner maka dimodifikasi dengan mempergunakan perhitungan similaritas untuk data
berjenis biner, dalam hal ini penulis akan mempergunakan koefisien similaritas
jaccard’s Similarity.
88
Sedangkan tujuan utama yang ingin dicapai dalam tesis ini adalah
memperoleh karakteristik dan kelompok-kelompok data sesuai dengan kriteria tingkat
kemiskinan yang ditetapkan oleh BPS.
1.5 Manfaat yang Diharapkan
Hasil dari tesis ini diharapkan mampu menghasilkan kelompok-kelompok
masyarakat miskin berdasarkan kriteria yang telah ditetapkan oleh BPS, sehingga
akan bermanfaat sebagai alat untuk memperoleh informasi yang akurat dan mudah
mengenai data RTS BLT dikabupaten subang, serta mampu memberikan informasi
tentang karakteristik data yang dianalisa, yang kemudian dijadikan sebagai alat
penunjang proses pengambilan keputusan dalam menentukan kriteria-kriteria data
RTS BLT pada masa berikutnya, sehingga secara spesifik diharapkan dapat
membantu pihak-pihak yang berkepentingan dalam pembuatan keputusan mengenai
penentuan kriteria RTS BLT yang masih relevan dengan kondisi kemiskinan yang
ada pada saat ini, khususnya kondisi kemiskinan di kabupaten subang.
89
BAB II
TINJAUAN PUSTAKA
2.1 Data mining
Data mining merupakan bagian dari suatu proses yang disebut dengan
Knowledge Discovery In Database (KDD), adalah kegiatan yang meliputi
pengumpulan, pemakaian data historis untuk menentukan keteraturan, pola atau
90
hubungan dalam sebuah set data yang berukuran besar.Keluaran dari data mining
banyak digunakan untuk pengambilan keputusan dimasa depan.5
Gambaran dari proses KDD terlihat seperti gambar berikut :
Gambar 2.1 Proses Knowledge Discovery in Database
Dari gambar diatas terlihat bahwa proses KDD terdiri dari :
1. Pemahaman data (Data Understanding), yaitu proses memahami data
berdasarkan kebutuhan data (Data Requirement). Proses ini meliputi
pengumpulan data (initial data collection) dan pendeskripsian data (data
decription).
5 Data mining Teknis Pemanfaatan Data untuk Keperluan Bisnis, Budi Santoso, Graha Ilmu, 2007
91
2. Data Preparation, yaitu preprocessing yang terdiri dari Penyeleksian data
(Data Selection) dan pembersihan (cleaning) data, pada proses ini dilakukan
pemilihan data yang disesuaikan dengan kebutuhan dan pembersihan data
dari data-data yang sifatnya redundansi atau data dengan type data yang salah.
3. Data transformation, yaitu proses mengkonversikan data kedalam format lain
yang sesuai dengan kebutuhan analisa
4. Modeling data mining, yaitu proses untuk memperoleh pola dan karakteristik
data, dalam fase ini juga dilakukan visualisasi, cluster analisis, klasifikasi dan
assosiasi.
5. Interpretation/Evaluation, melakukan interpretasi dan evaluasi terhadap
masalah yang dihadapi berdasarkan data yang dianalisa.
Perkembangan yang terjadi atas data mining adalah kenyataan bahwa data
mining mewarisi banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan
terlebih dulu. Gambar berikut menunjukkan bahwa data mining memiliki akar yang
panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine
learning, statistik, database dan juga information retrieval.
92
Gambar 2.2 Hubungan Data mining dan Bidang Ilmu Lainnya
Beberapa teknik yang sering disebut-sebut dalam literatur data mining seperti
classification, neural network, genetic algorithm dan lain-lain sudah lama dikenal di
dunia kecerdasan buatan. Statistik memberikan kontribusi pada data mining dengan
teknik-teknik untuk menyeleksi data dan evaluasi hasil data mining. Yang
membedakan persepsi terhadap data mining adalah perkembangan teknik-teknik data
mining untuk aplikasi pada database skala besar. Sebelum populernya data mining,
teknik-teknik tersebut pada umumnya diterapkan untuk data skala kecil saja. Selain
itu beberapa teknik dari bidang database untuk transformasi data juga merupakan
bagian integral dari proses data mining, perkembangan terakhir ada beberapa bidang
ilmu seperti information retrieval yang juga terlibat dalam proses data mining untuk
93
mengekstrak sumber data bagi data mining dari sumber-sumber seperti teks dan
website.
Machine Learning adalah suatu area dalam artificial intelligence atau kecerdasan
buatan yang berhubungan dengan pengembangan teknik-teknik yang bisa
diprogramkan dan belajar dari masa lalu, selanjutnya teknis-teknis ini dipergunakan
untuk melakukan prediksi, identifikasi dan pengenalan Pola data (pattern
recognition) yang meliputi klasifikasi, clustering dan assosiasi.
Dalam melakukan analisis data mining secara umum teknik-teknik pengolahan
data terbagi menjadi 2 pendekatan yaitu Supervised learning dan Unsupervised
learning. Dalam pendekatan unsupervised learning metode analisis dilakukan dengan
dengan tanpa adanya latihan (training) dan tanpa adanya label dari data. Misalkan
kita mempunyai sekelompok pengamatan atau data tanpa label (output) tertentu,
maka dalam unsupervised learning kita harus mengelompokan data tersebut kedalam
beberapa kelas yang dikehendaki, masuk dalam kategori ini adalah clustering analisis
dan association rule analisis. Pendekatan lain adalah supervised learning, yaitu
metode analisis dengan menggunakan latihan (training), dalam pendekatan
supervised learning ini untuk menemukan fungsi keputusan, fungsi pemisah atau
fungsi regresi digunakan beberapa contoh data yang mempunyai output atau label
selama proses training, disini kita ingin menemukan fungsi yang bisa dinyatakan
sebagai y= f(x), data untuk melakukan proses training ini disebut dengan set training.
Model atau fungsi yang dihasilkan kita uji dengan set data validasi. Apabila
performansi pada saat validasi belum memenuhi harapan maka kita bisa mengatur
94
nilai parameter model untuk mendapatkan model dengan performansi yang lebih
baik. Jika fungsi-fungsi tersebut sudah ditemukan dan performansinya cukup bagus
maka kemudian kita bisa melakukan pengelompokan objek lain yang belum diketahui
labelnya atau membuat prediksi. Data untuk training terdiri dari vector/matrik input
dan output(label). Matrik/Vektor input biasa diberi symbol X dan output diberi
symbol Y. Dalam unsupervised learning kita tidak mempunyai data output atau Y.
Karena hasil dari data mining ini akan digunakan untuk pengambilan keputusan
maka sifat mudah difahami dan mudah pencariannya menjadi sangat penting, sebab
bagaimanapun apabila hasil tersebut sulit untuk difahami maka kemungkinan akan
sulit juga diinterpretasikan dengan benar, yang pada akhirnya dihawatirkan akan
menghasilkan keputusan yang kurang tepat atau bahkan salah.
2.2 Cluster Analysis
2.2.1 Definis i Cluster
Secara umum cluster didefiniskan sebagai “sejumlah objek yang mirip yang
dikelompokan secara bersama”, namun definisi dari cluster bisa beragam tergantung
dari sudut pandang yang digunakan, beberapa definisi cluster berdasarkan sudut
pandang adalah sebagai berikut :
1. Definisi Well-Separated Cluster
95
Berdasarkan definisi ini cluster adalah sekelompok titik(objek) dimana sebuah
titik pada kelompok itu lebih dekat atau mirip dengan semua titik(objek) yang
ada pada kelompok tersebut dari pada titik-titik (objek-objek) lain yang tidak
terdapat pada kelompok itu. Biasanya digunakan sebuah nilai batas (threshold)
untuk menentukan titik-titik (objek-objek) yang dianggap cukup dekat satu sama
lainnya. Namun terdapat kelemahan pada definisi ini yaitu titik-titik yang
terdapat pada “pojok” sebuah cluster pada kenyataannya mungkin saja lebih
dekat dengan titik-titik pada cluster yang lain.
Gambar 2.3 Cluster berdasarkan definisi Well-Separated-Cluster
2. Definisi Center-Based Cluster
Berdasarkan definisi ini sebuah cluster didefinisikan sebagai sekelompok titik
(objek) dimana semua titik pada kelompok itu lebih dekat dengan pusat atau
“center” dari kelompok tersebut dari pada pusat pada kelompok lainnya.
96
Umumnya pusat cluster adalah centroid, yaitu rata-rata dari semua titik pada
cluster tersebut, namun dapat juga digunakan medoid, yaitu titik yang paling
mewakili pada sebuah cluster.
Gambar 2.4 Cluster berdasarkan definisi Center-Based Cluster
2.2.2 Definis i Cluster Analysis
Cluster analysis is usually used as an initial analytic tool, giving data mining
analysts the ability to identify general groupings in the data.6 Cluster analysis
merupakan salah satu metode Data mining yang bersifat tanpa latihan (unsupervised
analisys) yang mempunyai tujuan untuk mengelompokan data kedalam kelompok-
kelompok dimana data-data yang berada dalam kelompok yang sama akan
mempunyai sifat yang relatif homogen.
Jika ada n objek pengamatan dengan p variable maka terlebih dulu ditentukan
ukuran kedekatan sifat antar data, ukuran kedekatan sifat data yang bisa digunakan
adalah jarak euclidius (Euclidean distance) antara dua objek dari p dimensi
6 Introduction to Business Data mining, David olson, Yong Shi : Mc Graw Hill, International Edition-2007
97
pengamatan, jika objek pertama yang akan diamati adalah X = [x1,x2,x3,….xp] dan
Y=[y1,y2,y3,….yp] maka euclidean distance dirumuskan sebagai berikut :
Secara formal definisi dari cluster analysis adalah sebagai berikut:
Misalkan S adalah himpunan objek yang mempunyai n buah elemen,
S = {o1,o2,o3…on} (II.1)
Cluster analysis membagi S (didefinisikan pada persamaan II.1) menjadi k himpunan
C1,C2,C3…Ck, himpunan-himpunan tersebut disebut dengan cluster. Sebuah cluster Ci
adalah subset atau himpunan bagian dari S, iC S . Solusi atau keluaran dari sebuah
cluster Analysis dinyatakan sebagai himpunan dari semua cluster,
1 2 3{ , , .... | , 1,2.. }k i iC C C C C C S k
Jika S adalah himpunan objek yang mempunyai n buah elemen dan terdiri dari r
variable maka ketika S dibagi menjadi k cluster, maka model dari cluster dapat
didefinisikan dengan dua buah matrik yaitu matrik data Dnxk = (dik) dan matrik
variable Frxk = (fjk),
1, data ke i anggota kluster ke k
0,data ke i bukan anggota kluster ke kikd
98
1, Variable ke j anggota kluster ke k
0,Variable ke j bukan anggota kluster ke kjkf
Proses clustering mengasumsikan bahwa data akan menjadi anggota dari satu dan
hanya satu cluster.
2.2.3 Klas ifikas i Metode Cluster Analysis
Metode cluster analysis pada dasarnya ada dua jenis, yaitu metode cluster
analysis hirarki (hierarchical clustering method) dan Metode cluster analysis non
hirarki (non hierarchical clustering method). Metode clustering hirarki digunakan
apabila belum ada informasi jumlah cluster yang akan dipilih, metode hirarki akan
menghasilkan cluster-cluster yang bersarang (nested) sehingga masing-masing
cluster dapat memiliki sub-cluster. Prinsip utama metode cluster analysis hirarki
adalah mengatur semua objek dalam sebuah pohon keputusan (umumnya berupa
pohon biner) berdasarkan suatu fungsi kriteria tertentu. Pohon tersebut disebut
dendogram.
99
Gambar 2.5 Contoh Dendogram
Semakin tinggi level simpul pohon maka semakin rendah tingkat similaritas antar
objeknya, metode cluster analysis hirarki dapat dilakukan dengan dua pendekatan
yaitu bottom-up (agglomerative) dan top-down (divisive). Pada pendekatan
aggromerative setiap objek pada awalnya berada pada cluster masing-masing,
kemudian setiap cluster yang paling mirip akan dikelompokan dalam satu cluster,
hingga membentuk suatu hirarki cluster. Sedangkan pada pendekatan divisive, pada
awalnya hanya terdapat satu buah cluster tunggal yang beranggotakan seluruh objek,
kemudian dilakukan pemecahan atas cluster tersebut menjadi beberapa sub-cluster,
contoh algoritma metode cluster hirarki adalah HAC (Hieararchical Aggromerative
Clustering) dengan beberapa variasi perhitungan similaritas antar cluster seperti
single-link, complete-link dan group average.
Sedangkan metode cluster analysis non hirarki biasa juga disebut dengan
partitional clustering bertujuan mengelompokan n objek kedalam k cluster (k < n)
100
dimana nilai k sudah ditentukan sebelumnya. Salah satu prosedur clustering non
hirarki adalah menggunakan metode K-Means clustering analisis, yaitu metode yang
bertujuan untuk mengelompokan objek atau data sedemikian rupa sehingga jarak tiap
objek ke pusat cluster (centroid) adalah minimum, titik pusat cluster terbentuk dari
rata-rata nilai dari setiap variable.
Secara umum proses cluster analysis dimulai dengan perumusan masalah
clustering dengan mendefinisikan variable-variable yang akan digunakan sebagai
dasar proses cluster. Konsep dasar dari cluster analysis adalah konsep pengukuran
jarak (distance) atau kesamaaan (similarity), distance adalah ukuran tentang jarak
pisah antar objek sedangkan similaritas adalah ukuran kedekatan. Pengukuran jarak
(distance type measure) digunakan untuk data-data yang bersifat metrik, sedangkan
pengukuran kesesuaian (matching type measure) digunakan untuk data-data yang
bersifat kualitatif atau non metrik. Proses clustering yang baik seharusnya
menghasilkan cluster-cluster yang berkualitas tinggi dengan sifat-sifat sebagai
berikut :
1. Setiap objek pada cluster memiliki kemiripan (intra cluster similarity) yang
tinggi satu sama lainnya.
2. Kemiripan objek pada cluster yang berbeda(inter cluster similarity) rendah.
Kualitas solusi clustering sangat tergantung dari definisi cluster yang akan
digunakan.
101
2.3 K-Means Cluster Analysis
Cluster analysis merupakan salah satu metode Data mining yang bersifat tanpa
latihan (unsupervised analisys), K-means cluster analysis merupakan salah satu
metode cluster analysis non hirarki yang berusaha untuk mempartisi data yang ada
kedalam satu atau lebih cluster atau kelompok data berdasarkan karakteristiknya,
sehingga data yang mempunyai karakteristik yang sama dikelompokan dalam satu
cluster yang sama dan data yang mempunyai karakteristik yang berbeda
dikelompokan ke dalam cluster yang lain. Tujuannya adalah untuk meminimalkan
objective function yang di set dalam proses clustering, yang pada dasarnya berusaha
untuk meminimalkan variasi dalam satu cluster dan memaksimalkan variasi antar
cluster.
Metode ini meliputi sequential threshold, pararel threshold dan optimizing
threshold, Sequential threshold melakukan pengelompokan dengan terlebih dahulu
memilih satu objek dasar yang akan dijadikan nilai awal cluster, kemudian semua
cluster yang ada dalam jarak terdekat dengan cluster ini akan bergabung, lalu dipilih
cluster kedua dan semua objek yang mempunyai kemiripan dengan cluster ini akan
digabungkan, demikian seterusnya sehingga terbentuk beberapa cluster dengan
keseluruhan objek terdapat didalamnya.
Pararel threshold secara prinsip sama dengan sequential threshold hanya saja
dilakukan dengan melakukan pemilihan terhadap beberapa objek awal cluster
sekaligus dan kemudian melakukan penggabungan objek kedalamnya secara
102
bersamaan. optimizing threshold merupakan pengembangan dari sequential dan
pararel dengan melakukan optimalisasi penempatan objek dengan melakukan
reassigned ke dalam cluster untuk mengoptimalisasikan suatu kriteria secara
menyeluruh, seperti average within distance untuk sejumlah cluster tertentu.
2.3.1 Algoritma K-Means Cluster Analysis
Jika diberikan sekumpulan data X=(x1,x2,….xn) maka algoritma k-means cluster
analysis akan mempartisi X dalam k buah cluster, setiap cluster memiliki centroid
(titik tengah) atau mean dari data-data dalam cluster tersebut.
Pada tahap awal algoritma k-means cluster analysis akan memilih secara acak k buah
data sebagai centroid (titik tengah), kemudian jarak antara data dengan centroid
dihitung dengan menggunakan Euclidean distance, data akan ditempatkan dalam
cluster yang terdekat dihitung dari titik tengah cluster. Centroid baru akan ditetapkan
jika semua data sudah ditempatkan dalam cluster terdekat.
Proses penentuan centroid dan penempatan data dalam cluster diulangi sampai nilai
centroid konvergen (centroid dari semua cluster tidak berubah lagi). Secara umum
K-Means Cluster analysis menggunakan algoritma sebagai berikut :7
1. Tentukan k sebagai jumlah cluster yang akan di bentuk
2. Bangkitkan k Centroid (titik pusat cluster) awal secara random
7 Introduction to Business Data mining, David olson, Yong Shi : Mc Graw Hill, International Edition-2007
103
3. Hitung jarak setiap data ke masing-masing centroid dari masing-masing
cluster
4. Alokasikan masing-masing data ke dalam centroid yang paling terdekat
5. Lakukan iterasi, kemudian tentukan posisi centroid baru dengan cara
menghitung rata-rata dari data-data yang berada pada centroid yang sama
6. Ulangi langkah 3 jika posisi centroid baru dan centroid lama tidak sama.
Atau dalam bentuk flowchart digambarkan sebagai berikut :
Start
Tentukan Jumlah
Kluster K
Tentukan Centroid
Hitung Jarak Objek
dengan Centroid
Alokasikan Objek
berdasarkan
Minumum Jarak
Konvergen
End
Yes
NO
Gambar 2.6 Diagram Alur Algoritma K-Means Cluster Analysis
104
2.3.2 Menentukan Banyaknya Cluster k
Untuk menentukan nilai banyaknya cluster k dilakukan dengan beberapa
pertimbangan sebagai berikut :
1. Pertimbangan teoritis, konseptual, praktis yang mungkin diusulkan untuk
menentukan berapa banyak jumlah cluster.
2. Besarnya relative cluster seharusnya bermanfaat, pemecahan cluster yang
menghasilkan 1 objek anggota cluster dikatakan tidak bermanfaat sehingga
hal ini perlu untuk dihindari.
2.3.3 Menentukan Centroid
Penentuan centroid awal dilakukan secara random/acak dari data/objek yang
tersedia sebanyak jumlah kluster k, kemudian untuk menghitung centroid cluster
berikutnya ke i, v i digunakan rumus sebagai berikut :
1
iN
i
ik
k
X
VN
Vk : centroid pada cluster ke k
Xi : Data ke i
Nk : Banyaknya objek/jumlah data yang menjadi anggota cluster ke k
105
2.3.4 Menghitung Jarak Antara Data Dengan Centroid
Untuk menghitung jarak antara data dengan centroid terdapat beberapa cara yang
dapat dilakukan yaitu Manhattan/City Block distance (L1), Euclidean Distance (L2).
Jarak antara dua titik X1 dan X2 pada manhattan/citi block dihitung dengan
menggunakan rumus
Dimana P : Dimensi data
| . | : Nilai Absolut
Sedangkan untuk euclidean distance jarak antara data dengan centroid dihitung
dengan menggunakan rumus :
Dimana P : Dimensi data
| . | : Nilai Absolut
2.3.5 Pengalokas ian Ulang Data Kedalam Masing-masing Cluster
106
Untuk melakukan pengalokasian data kedalam masing-masing cluster pada saat
iterasi dilakukan secara umum dengan dua cara yaitu dengan cara pengalokasian
dengan cara hard k-means, dimana secara tegas setiap objek dinyatakan sebagai
anggota cluster satu dan tidak menjadi anggota cluster lainnya. Cara lain adalah
dengan cara fuzzy k-means dimana masing-masing objek diberikan nilai kemungkinan
untuk bisa bergabung dengan setiap cluster yang ada.
Hard K-means, pengalokasian kembali objek kedalam masing-masing cluster pada
metoda hard K-means didasarkan pada perbandingan jarak antara data dengan
centroid setiap cluster yang ada, objek dialokasikan secara tegas kedalam cluster
yang mempunyai jarak ke centroid terdekat dengan data tersebut. Pengalokasian ini
dirumuskan sebagai berikut :
aik : keanggotaan data atau objek ke k pada cluster ke i
vi : Nilai centroid cluster ke i
fuzzy k-means, pada fuzzy k-means atau lebih sering disebut fuzzy c-means
mengalokasikan kembali objek atau data kedalam masing-masing cluster dengan
menggunakan membership function, uik ,yang merujuk pada seberapa besar suatu
objek atau data bisa menjadi anggota suatu cluster.
107
Pada fuzzy k-means yang diusulkan oleh Bezdek8 diperkenalkan juga suatu variable m
yang merupakan weighting exponent dari membership function. m mempunyai
wilayah nilai m>1, sampai sekarang belum jelas berapa nilai m yang optimal dalam
melakukan proses optimalisasi suatu permasalahan clustering. Nilai m yang umum
digunakan adalah 2. Membership function untuk suatu data kedalam suatu cluster
tertentu dihitung dengan menggunakan rumus :
Dimana
uik : membership function untuk data atau objek ke k pada cluster ke i
vi : Nilai centroid cluster ke i
m : Weighting component
c : Jumlah cluster
2.3.6 Konvergensi
Pengecekan konvergensi dilakukan dengan membandingkan matrik group
assignment pada iterasi sebelumnya dengan matrik group assignment pada iterasi
yang sedang berjalan. Jika hasilnya sama maka algoritma k-means cluster analysis
8 Bezdek, J.C (1981). Pattern Recogniton with Fuzzy Objective Function Algoritmss, Plenum Press, New York
108
sudah konvergen, tetapi jika berbeda maka belum konvergen sehingga perlu
dilakukan iterasi berikutnya.
2.4 Menilai Kualitas Cluster
Hasil dari cluster analysis yang bagus jika setiap cluster memiliki tingkat
similaritas yang tinggi satu sama lain (internal homogeneity) diukur dengan variance
dalam cluster Vw yang sama sekali berbeda dengan nilai anggota cluster yang lain
(external homogeneity) yang diukur dengan varian antar cluster Vb.
Cluster dianggap ideal jika mempunya Vw seminimal mungkin dan Vb semaksimal
mungkin, sehingga nilai homogenity dapat dirumuskan sebagai berikut :
wMin
b
VV
V
untuk rumus ini maka semakin kecil nilai Vmin maka homogenity semakin bagus, atau
homogenity juga dapat dirumuskan sebagai berikut :
bMax
w
VV
V
untuk rumus ini maka semakin besar nilai Vmax maka homogenity semakin bagus
Untuk menghitung nilai varians dari semua data pada tiap cluster dapat dilakukan
dengan menggunakan rumus :
109
Dimana Vc2 =variance pada cluster c
c = 1..k dimana k = jumlah cluster
nc = Jumlah data pada cluster ke c
di = data ke– i pada suatu cluster
id = rata-rata atau centroid dari data pada suatu cluster
Sedangkan menghitung variance dalam cluster dapat dihitung dengan menggunakan
rumus :
Dimana Vw = Varians dalam cluster
N = Jumlah semua data
k = Banyaknya cluster
ni = Jumlah data dalam cluster ke i
vi2 = Variance pada cluster ke i
Sedangkan untuk menghitung varians antar cluster dihitung dengan menggunakan
rumus :
110
Dimana id rata rata d
Sedangkan nilai variance dari semua cluster diperoleh dengan membagi nilai variance
dalam cluster dengan nilai variance antar cluster, dimana semakin kecil nilai tersebut
maka semakin bagus cluster yang dihasilkan.
2.5 Beberapa Permasalahan K-Means Cluster Analysis
Terdapat beberapa permasalahan yang sering ditemukan pada pemakaian
algoritma K-means Cluster Analysis, antara lain yaitu :
1. Pemilihan jumlah custer yang tepat
2. Ditemukannya beberapa hasil cluster yang berbeda.
3. Nilai distance yang sama, sehingga berpengaruh pada alokasi data dalam
cluster
4. Kegagalan Konvergensi
5. Pendeteksian Outlier
Permasalahan pertama, merupakan masalah laten dalam k-means cluster analysis,
hal ini disebabkan karena pemilihan jumlah cluster yang tidak berdasarkan kriteria
111
jumlah cluster yang tepat, beberapa pendekatan sudah dilakukan untuk menentukan
jumlah cluster yang paling tepat antara lain yaitu Partition Entropy (PE)9.
Permasalahan yang kedua, umumnya terjadi karena kesalahan pada tahap inisiasi
nilai-nilai centroid awal pada setiap cluster yang kurang menggambarkan cluster
yang akan dibentuk, hal ini disebabkan karena proses inisiasi ini dilakukan secara
random sehingga jika hasil random tersebut menghasilkan nilai centroid cluster-
cluster yang jauh berbeda dengan cluster yang terbaik maka kemungkinan akan
terjadi proses iterasi yang banyak untuk mencapai konvergensi-nya. Untuk
menentukan cluster mana yang lebih baik maka dilakukan proses penilaian kualitas
cluster yang terbentuk, cluster yang mempunyai kualitas yang paling bagus
merupakan cluster yang lebih baik dari cluster lainnya.
Permasalahan ketiga dan keempat umumnya terjadi karena pada saat dilakukan
perhitungan minimal distance antara data dengan centroid pada setiap cluster ternyata
dihasilkan jarak yang sama pada minimal 2 cluster yang berbeda, sehingga tidak
ditemukan nilai minimal dari jarak ke masing-masing cluster, hal ini tentu saja akan
mengakibatkan proses alokasi data dalam cluster menjadi tidak berdasarkan nilai
jarak paling minimum antara data dengan centroid, sehingga dilakukan pemilihan
cluster secara acak dari semua jarak yang sama, hal ini juga akan menimbulkan
proses iterasi yang lebih banyak untuk mencapai konvergen. Kegagalan konvergensi
secara teori memungkinkan untuk terjadi, kemungkinan ini akan lebih besar pada
9 Bezdek, J. C. (1981). Pattern Recognition with Fuzzy Objective Function Algoritmss, Plenum Press, New York.
112
metode pengalokasian data dalam cluster dengan menggunakan Hard k-Means
Cluster, karena setiap data akan dialokasikan secara tegas (hard) untuk menjadi
anggota suatu cluster, perpindahan suatu data kedalam suatu cluster tertentu akan
mengubah karakteristik model pada proses selanjutnya, yang menyebabkan data yang
sudah dipindahkan tersebut lebih sesuai untuk menjadi anggota pada cluster semula
sebelum data tersebut dipindahkan. Untuk Fuzzy K-Means Cluster, kemungkinan ini
semakin kecil karena setiap data dilengkapi dengan membership function untuk
menjadi anggota dari cluster yang sudah ditentukan.
Permasalahan kelima , pada k-means cluster analysis merupakan sesuatu yang
menentukan karena outlier akan mengakibatkan lokasi dari centroid menjadi berbeda
dengan nilai yang mendekati centroid yang sebenarnya, beberapa hal yang perlu
diperhatikan dalam hal yang berhunbungan dengan outlier antara lain bagaimana
menentukan bahwa suatu data merupakan outlier dari suatu cluster.
2.6 Contoh Penerapan Algoritma K-Means Cluster Analysis
Untuk mempermudah memahami algoritma k-means cluster analysis maka
berikut ini adalah contoh sederhana pemakaian algoritma k-means cluster, Misalkan
kita mempunyai dua variable X1 dan X2 dengan masing-masing mempunyai item-
item A, B, C dan D sebagai berikut :
113
Item Observasi
X1 X2
A 1 1
B 2 1
C 4 3
D 5 4
Tujuannya adalah membagi semua item menjadi 2 cluster ( k = 2) , dengan
menggunakan algoritma yang disebutkan diatas maka langkah-langkah yang
dikerjakan adalah sebagai berikut :
Tentukan k sebagai jumlah cluster yang akan di bentuk
k = 2
Bangkitkan k Centroid (titik pusat cluster) awal secara random
Secara random kita tentukan A dan B sebagai centroid yang pertama,
sehingga diperoleh c1=(1,1) dan c2=(2,1)
Hitung jarak setiap data ke masing-masing centroid dari masing-masing
cluster dengan Euclidian distance sebagai berikut :
Dimana P : Dimensi data
| . | : Nilai Absolut
D(C1,A) = 2 2
(1 1) (1 1) 0
114
D(C1,B) = 2 2
(2 1) (1 1) 1
D(C1,C) = 2 2
(4 1) (3 1) 3,61
D(C1,D) = 2 2
(5 1) (4 1) 5
D(C2,A) = 2 2
(1 2) (1 1) 1
D(C2,B) = 2 2
(2 2) (1 1) 0
D(C2,C) = 2 2
(4 2) (3 1) 2,83
D(C2,D) = 2 2
(5 2) (4 1) 4, 24
Sehingga distance yang diperoleh adalah sebagai berikut
Cluster
Centroid
Distance
A B C D
C1 0 1 3,61 5
C2 1 0 2,83 4,24
Alokasikan masing-masing data ke dalam centroid yang paling terdekat
Proses alokasi dilakukan dengan melihat minimum distance. Dari table
distance diatas maka terlihat bahwa jarak item A terdekat pada cluster C1
sehingga item A dialokasikan kepada cluster C1, sementara item B, Item C,
Item D jarak terdekatnya pada cluster C2, sehingga item B, C, D dialokasikan
pada cluster C2.
Dengan menggunakan rumus alokasi dibawah ini,
115
Maka diperoleh table group assigmentnya adalah sebagai berikut :
A B C D
1 0 0 0
0 1 1 1
Lakukan iterasi-1, kemudian tentukan posisi centroid baru dengan cara
menghitung rata-rata dari data-data yang berada pada centroid yang sama.
Dengan menggunakan rumus,
1
iN
k
ki
i
X
VN
Maka diperoleh centroid baru untuk kedua cluster tersebut adalah
C1 = (1,1), karena beranggotakan 1 anggota
12( )
2 4 53,67
3xC
22( )
1 3 42,67
3xC
C2=(3.67, 2.67)
Ulangi langkah 3 jika posisi centroid baru dan centroid lama tidak sama,
karena nilai centroidnya berbeda maka langkah no 3 diulangi kembali sebagai
berikut :
116
D1(C1,A) = 2 2
(1 1) (1 1) 0
D1(C1,B) = 2 2
(2 1) (1 1) 1
D1(C1,C) = 2 2
(4 1) (3 1) 3,61
D1(C1,D) = 2 2
(5 1) (4 1) 5
D1(C2,A) = 2 2
(1 3,67) (1 2,67) 3,14
D1(C2,B) = 2 2
(2 3,67) (1 2,67) 2,36
D1(C2,C) = 2 2
(4 3,67) (3 2,67) 0, 47
D1(C2,D) = 2 2
(5 3,67) (4 2,67) 1,89
Sehingga distance yang diperoleh pada iterasi 1 adalah sebagai berikut
Cluster
Centroid
Distance
A B C D
C1 0 1 3,61 5
C2 3,14 2,36 0,47 1,89
Alokasikan masing-masing data ke dalam centroid yang paling terdekat
117
Maka diperoleh table group assigmentnya pada iterasi 1 adalah sebagai
berikut :
A B C D
1 1 0 0
0 0 1 1
Karena hasil table group assignment pada iterasi 1 berbeda dengan table group
assignment sebelumya maka hasilnya belum konvergen sehingga perlu dilakukan
iterasi berikutnya, sebagai berikut
Lakukan iterasi-2, tentukan posisi centroid baru dengan cara menghitung rata-
rata dari data-data yang berada pada centroid yang sama.
Maka diperoleh centroid baru untuk kedua cluster tersebut adalah
11( )
1 21,5
2xC
21( )
1 11
2xC
C1=(1.5, 1)
12( )
4 54,5
2xC
22( )
3 43,5
2xC
C2=(4.5, 3.5)
118
karena nilai centroid-nya berbeda dengan iterasi 1 maka langkah berikutnya
menghitung kembali distance-nya sebagai berikut :
D2(C1,A) = 2 2
(1 1,5) (1 1) 0,5
D2(C1,B) = 2 2
(2 1,5) (1 1) 0,5
D2(C1,C) = 2 2
(4 1,5) (3 1) 3, 2
D1(C1,D) = 2 2
(5 1,5) (4 1) 4,61
D2(C2,A) = 2 2
(1 4,5) (1 3,5) 4,30
D2(C2,B) = 2 2
(2 4.5) (1 3,5) 3,54
D2(C2,C) = 2 2
(4 4,5) (3 3,5) 0,71
D2(C2,D) = 2 2
(5 4,5) (4 3,5) 0,71
Sehingga distance yang diperoleh pada iterasi 1 adalah sebagai berikut
Cluster
Centroid
Distance
A B C D
C1 0,5 0,5 3,2 4,61
C2 4,3 3,54 0,71 0,71
119
Alokasikan masing-masing data ke dalam centroid yang paling terdekat
Maka diperoleh table group assigmentnya pada iterasi 2 adalah sebagai
berikut :
A B C D
1 1 0 0
0 0 1 1
Dari hasil table assignment pada iterasi 2 ternyata hasilnya sama dengan table group
assignment pada iterasi 1 sehingga pada iterasi 2 ini sudah konvergen sehingga tidak
perlu dilakukan iterasi kembali, dan hasil akhir cluster yg diperoleh adalah :
Item Observasi Cluster
X1 X2
A 1 1 1
B 2 1 1
C 4 3 2
D 5 4 2
120
BAB III
K-MEANS CLUSTER ANALYSIS UNTUK DATA BINER
3.1 Algoritma Usulan K-Means Cluster Analysis
Algoritma usulan yang dipergunakan dalam proses k-means cluster analysis
untuk data biner adalah sebagai berikut :
1. Tentukan k sebagai jumlah cluster yang akan di bentuk
2. Sorting data berdasarkan kriteria penentu cluster
3. Tentukan centroid awal berdasarkan kriteria penentu cluster.
121
4. Identifikasi outlier, jika data tersebut teridentifikasi sebagai outlier maka
alokasikan sebagai oulier tetapi jika data bukan teridentifikasi sebagai outlier
lakukan langkah selanjutnya.
5. Hitung similaritas data dengan centroid.
6. Alokasikan masing-masing data ke dalam cluster berdasarkan nilai similaritas
yang paling besar
7. Lakukan iterasi, kemudian tentukan posisi centroid baru
8. Ulangi langkah 3 jika posisi centroid baru dan centroid lama tidak sama.
Atau dalam bentuk flowchart dalam gambar 3.1 sebagai berikut :
Start
Tentukan Jumlah
Kluster K
Tentukan Centroid
Hitung Similarity
Alokasikan Objek
sebagai OutlierData Outlier
End
NO
Sorting Data
Berdasarkan
Kriteria2 Analisis
Identifikasi Outlier
Alokasikan Objek
berdasarkan
Tingkat Similarity
Yes
Konvergen
Yes
No
122
Gambar 3.1 Diagram Alur Algoritma Usulan K-Means Cluster Analysis
Terdapat beberapa bagian yang dilakukan modifikasi terhadap algortima k-means
cluster analysis pada implementasi untuk data berjenis biner, penjelasan dari
algoritma usulan tersebut adalah sebagai berikut :
1. Ditambahkan proses pengurutan (sorting) data pada awal data akan dianalisa,
proses pengurutan ini dilakukan dengan berdasarkan pada kriteria pembentuk
cluster, hasil dari proses ini adalah kondisi data yang sudah terurut dan siap untuk
dilakukan pemilihan centroid.
2. Pada tahap penentuan centroid awal, pada tahap ini pada algoritma k-means
cluster analysis yang ada dilakukan secara random yang mana hasil dari random
ini bisa saja tidak atau kurang menggambarkan bentukan cluster yang dihasilkan
sehingga memungkinkan akan terjadi proses iterasi yang banyak untuk menuju
konvergensi. Maka untuk mengatasi masalah tersebut dilakukan modifikasi
dengan cara penentuan centroid awal dilakukan tidak secara random tetapi
dilakukan dengan cara pemilihan (selected) data berdasarkan kriteria pembentuk
cluster dalam hal ini penulis melakukan pemilihan berdasarkan kriteria RTS BLT.
3. Identifikasi outlier, proses identifikasi outlier ditambahkan ke dalam algoritma k-
means cluster analysis sehingga cluster-cluster yang terbentuk merupakan cluster
yang handal dan terbebas dari data-data outlier. Pada tahap ini maka jika data
123
yang dianalisa teridentifikasi sebagai outlier maka data tersebut akan disimpan
dalam table outlier dan tidak diikutkan dalam proses selanjutnya, akan tetapi jika
data tidak teridentifikasi sebagai outlier maka data tersebut akan diproses
selanjutnya.
4. Pada tahap perhitungan distance antara data dengan centroid, untuk data berjenis
biner maka algoritma dilakukan modifikasi dengan mempergunakan perhitungan
ukuran similaritas, dalam hal ini penulis akan mempergunakan Jaccard
simililarity, Anderberg similarity, Czekanowsky similarity, dan Kulczynski
similarity.
5. Proses pengalokasian data kedalam cluster dilakukan dengan berdasarkan nilai
similaritas yang paling besar, dan dilakukan secara hard k-means, dimana secara
tegas setiap objek dinyatakan sebagai anggota cluster satu dan tidak menjadi
anggota cluster lainnya.
3.2 Ukuran Similaritas
Seperti disebutkan diatas bahwa pada data-data yang bersifat non metrik
termasuk didalamnya untuk data-data yang nilainya berjenis biner (0 atau 1) maka
cluster analysis merupakan proses identifikasi kelompok-kelompok objek yang mirip
atau similar satu sama lain, oleh karena itu pengukuran similaritas memegang
peranan yang amat penting pada algoritma K-Means Cluster Analysis.
124
Similarity is quantity that reflects the strength of relationship between two
objects or two features.10 Secara umum fungsi similaritas atau similarity adalah
fungsi yang merepresentasikan kekuatan hubungan antara dua buah objek dan
mengembalikan nilai kemiripan (similarity) antara kedua objek tersebut berupa
bilangan riil yang umumnya berkisar pada interval [0…1] namun ada juga beberapa
fungsi similaritas yang menghasilkan nilai yang berada diluar interval tersebut.
Semakin besar hasil fungsi similaritas, maka kedua objek yang dievaluasi
dianggap semakin mirip, sebaliknya semakin kecil hasil fungsi similaritas maka
kedua objek tersebut dianggap semakin berbeda. Pada fungsi yang menghasilkan nilai
pada interval [0…1] maka nilai 1 melambangkan bahwa kedua objek persis sama,
sedangkan nilai 0 melambangkan kedua objek sama sekali berbeda.
Selain pengukuran similaritas, dikenal juga fungsi pengukuran jarak (distance)
atau perbedaan (dissimilarity) antar objek. Jika similaritas antara objek i dan objek j
dinotasikan sebagai sij dan dissimilaritas antara objek i dan j dinotasikan dengan ∂ij
maka hubungan antara keduanya dinotasikan sebagai
∂ij= 1 - sij
3.2.1 Similaritas Pada Data Biner
Untuk data-data non metrik dimana nilai dari variable-variablenya bernilai biner
(nilai dari semua variable bernilai 1 atau 0) maka saat ini telah banyak
10 http://people.revoledo.com/kardi/tutorial/kmean/index.html
125
dikembangkan metode pengukuran similaritas pada data biner. Pada dasarnya proses
pengukuran similaritas pada data berjenis biner adalah mengitung rata-rata frekuensi
dari table kontingensi, seperti table berikut ini,
Cat X1 Cat X2 Sum
1 0
1 a b a+b
0 c d c+d
Sum a+c b+d a+b+c+d
Pada variable-variable yang bersifat symmetric variables (a binary attribute is
Symmetric variable if the outcomes are both equally important11), dikenal
pengukuran similaritas Sokal and Michener’s Simple Matching Coefficient yang
dirumuskan sebagai berikut :
SM
a dS
a b c d
Berikut ini adalah metode-metode pengukuran similaritas untuk data yang bersifat
symmetric variable yang sudah banyak dikenal :
Coefficient Equation
Simple Matching a d
a b c d
11 Data mining Concepts and Technique, Professor Anita Wasilewska, Stony Brook University
126
Russel and Rao a
a b c d
Rogers and Tanimoto
2( )
a d
a d b c
Hamann ( ) ( )a d b c
a b c d
Ochiai II
( )( )( )( )
ad
a d a c d b d c
Sokal & Sneath 2( )
2( )
a d
a d b c
Sementara untuk variable-variable yang bersifat asymmetric (a binary attribute is
asymmetric if the outcomes of the states are not equally importance)12 maka dikenal
pengukuran similaritas Jaccard’s Coefficient yang di rumusnya adalah sebagai
berikut :
J
aS
a b c
Berikut ini adalah metode-metode pengukuran similaritas untuk data yang bersifat
asymmetric variable yang sudah banyak dikenal :
Coefficient Equation
Jaccard a
a b c
12 Data mining Concepts and Technique, Professor Anita Wasilewska, Stony Brook University
127
Anderberg
2( )
a
a b c
Czekanowsky/Sorensen-Dice 2
2
a
a b c
Kulczynski I a
b c
Kulczynski II 1 1( )
2
a
a b a c
Ochiai
( )( )
a
a b a c
3.2.2 Jaccard Similari ty & Jaccard Dissimilari ty
Jaccard Similarity adalah salah satu metode yang dipakai untuk menghitung
similaritas antara dua objek, secara umum perhitungan metode ini didasarkan pada
vector space similarity measure. Jaccard Similarity atau Jaccard Coeficient
menghitung similaritas antara dua objek X dan Y yang dinyatakan dalam dua vector,
sebagai berikut:
X = (x1,x2,x3,….xP) Y = (y1,y2,y3,….yP), maka jaccard coefficient adalah
1
2 2
1 1 1
( , )
p
i i
i
p p p
i i i i
i i i
x y
J X Y
x y x y
dimana xiyi merupakan hasil dari perhitungan dot product dari X dan Y, hal ini akan
lebih mudah dideskripsikan sebagai ( )
( )
X Y
X Y
128
Untuk atribut yang bernilai biner ( 0 atau 1) yang bisa mengandung arti “ya” atau
“tidak”, “setuju” atau “Tidak Setuju”, “absen” atau “hadir”, “Positif” atau “negatif”
dan lain sebagainya yang hanya menghasilkan dua kemungkian, maka similaritas dan
dissimilarity bisa dilakukan dengan cara menghitung jumlah atau frekuensi dari
kombinasi seluruh atribut yang bernilai 1 (positif) dan 0 (negatif), jika kita
mempunyai dua objek A dan B dengan jumlah atribut/variable n dan masing-masing
variable mempunyai nilai biner maka kombinasi nilai variable-nya dinotasikan adalah
sebagai berikut :
M11 adalah representasi untuk total variable dimana A dan B mempunyai nilai 1
M01 adalah representasi untuk total variable dimana A mempunyai nilai 0 sedangkan
dan B mempunyai nilai 1
M10 adalah representasi untuk total variable dimana A mempunyai nilai 1 sedangkan
dan B mempunyai nilai 0
M00 adalah representasi untuk total variable dimana A dan B mempunyai nilai 0
dan M11 + M01 + M10 + M00 = n
Jaccard similarity diformulasikan sebagai berikut :
11
01 10 11
ij
MS
M M M
Jaccard Dissimilarity
129
∂ij= 1 - sij
11
01 10 11
1ij
M
M M M
11 01 10 11
01 10 11
ij
M M M M
M M M
01 10
01 10 11
ij
M M
M M M
Contoh misalkan kita mempunyai data sebagai berikut,
Objek X1 X2 X3 X4
i Yes Yes Yes Yes
J No Yes No No
Maka koordinat dari i adalah (1,1,1,1) sedangkan j adalah (0,1,0,0) sehingga
M11 = 1, M01 = 0, M10 = 3 dan M00 = 0
11
01 10 11
ij
MS
M M M
1 1
0 3 1 4ijS
dan
∂ij= 1 - sij ,
1 31
4 4ij
130
Dengan demikian maka nilai Jaccard Similarity sebesar 0,25 dan nilai dari Jaccard
Dissimilarity adalah 0,75.
3.3 Contoh Penerapan Algoritma Usulan
Untuk lebih memudahkan dalam memahami langkah-langkah algoritma k-
means cluster analysis untuk data berjenis biner maka berikut ini adalah contoh
penerapan algoritma tersebut, misalkan kita mempunyai data hasil observasi sebagai
berikut :
Item Observasi
X1 X2 X3 X4 X5
A 1 1 0 1 0
B 0 0 1 1 1
C 1 0 1 0 1
D 0 1 1 0 1
E 1 0 0 1 0
F 1 0 1 0 0
G 0 1 1 0 1
H 0 0 1 1 1
Tujuannya adalah membagi semua item menjadi 3 cluster ( k = 3) , dengan
menggunakan algoritma yang disebutkan diatas maka langkah-langkah yang
dikerjakan adalah sebagai berikut :
Tentukan k sebagai jumlah cluster yang akan di bentuk
k = 3
Urutkan data berdasarkan kriteria penentu cluster
131
Bangkitkan k Centroid (titik pusat cluster) awal secara selected
Misalkan kita tentukan A, B dan C sebagai centroid pertama, sehingga
diperoleh c1=(1,1,0,1,0), c2=(0,0,1,1,1) dan c3=(1,0,1,0,1)
Tentukan similaritas nilai jaccard similarity untuk kemudian diperoleh nilai
jaccard’s koefisien untuk masing-masing objek, sebagai berikut :
C1 1 1 0 1 0
A 1 1 0 1 0
M11 =3, M10 =0, M01=0, M00=2
11
10 01 11
31
0 0 3iC A
MS
M M M
C1 1 1 0 1 0
B 0 0 1 1 1
M11 =1, M10 =2, M01=2, M00=0
11
10 01 11
1 10,2
2 2 1 5iC B
MS
M M M
Demikian seterusnya sehingga koefisien similaritas antara setiap cluster
dengan semua Variable adalah sebagai berikut :
Cluster
Centroid
Jaccard Koefisien
A B C D E F G H
C1 1 0.20 0.20 0.20 0.67 0.25 0.20 0.20
C2 0.20 1 0.50 0.50 0.25 0.25 0.50 1
132
C3 0.20 0.50 1 0.50 0.25 0.67 0.50 0.50
Alokasikan masing-masing data ke dalam centroid yang nilai similaritasnya
paling besar. Maka diperoleh table group assigmentnya pada iterasi 1 adalah
sebagai berikut :
A B C D E F G H
C1 1 0 0 0 1 0 0 0
C2 0 1 0 1 0 0 1 1
C3 0 0 1 0 0 1 0 0
Item Observasi Cluster
X1 X2 X3 X4 X5
A 1 1 0 1 0 1
B 0 0 1 1 1 2
C 1 0 1 0 1 3
D 0 1 1 0 1 2
E 1 0 0 1 0 1
F 1 0 1 0 0 3
G 0 1 1 0 1 2
H 0 0 1 1 1 2
Lakukan iterasi-1, kemudian tentukan posisi centroid baru dengan cara
menghitung rata-rata dari data-data yang berada pada centroid yang sama
Dengan menggunakan rumus,
133
1
iN
k
ki
i
X
VN
Dengan nilai threshold = 0.5, Maka diperoleh centroid baru untuk kedua
cluster tersebut adalah
1
1 1 1 0 0 0 1 1 0 0( , , , , )
2 2 2 2 2C
1 (1,1,0,1,0)c
2
0 0 0 0 0 1 1 0 1 1 1 1 1 0 0 1 1 1 1 1( , , , , )
4 4 4 4 4C
2 (0,1,1,1,1)C
3
1 1 0 0 1 1 0 0 1 0( , , , , )
2 2 2 2 2C
3 (1,0,1,0,1)C
Ulangi langkah 3 jika posisi centroid baru dan centroid lama tidak sama,
karena nilai centroid-nya berbeda maka langkah no 3 diulangi, sehingga
diperoleh table koefisien similaritas sebagai berikut :
C1 1 1 0 1 0
A 1 1 0 1 0
M11 =3, M10 =0, M01=0, M00=2
11
10 01 11
31
0 0 3iC A
MS
M M M
134
C1 1 1 0 1 0
B 0 0 1 1 1
M11 =1, M10 =2, M01=2, M00=0
11
10 01 11
1 10,2
2 2 1 5iC B
MS
M M M
Demikian seterusnya sehingga koefisien similaritas antara setiap cluster
dengan semua Variable adalah sebagai berikut :
Cluster
Centroid
Jaccard Koefisien Similarity
A B C D E F G H
C1 1 0.20 0.20 0.67 0.67 0.25 0.20 0.20
C2 0.40 0.75 0.40 0.75 0.20 0.20 0.75 0.75
C3 0.20 0.50 1 0.50 0.25 0.67 0.50 0.5
Alokasikan masing-masing data ke dalam centroid yang nilai similaritasnya
paling kecil, Maka diperoleh table group assigmentnya pada iterasi 1 adalah
sebagai berikut :
A B C D E F G H
C1 1 0 0 0 1 0 0 0
C2 0 1 0 1 0 0 1 1
C3 0 0 1 0 0 1 0 0
135
Dari hasil table assignment pada iterasi 1 ternyata hasilnya sama dengan table group
assignment pada iterasi 0 artinya pada iterasi 1 ini sudah konvergen sehingga tidak
perlu dilakukan iterasi kembali, dan hasil akhir cluster yg diperoleh adalah :
Item Observasi Cluster
X1 X2 X3 X4 X5
A 1 1 0 1 0 1
B 0 0 1 1 1 2
C 1 0 1 0 1 3
D 0 1 1 0 1 2
E 1 0 0 1 0 1
F 1 0 1 0 0 3
G 0 1 1 0 1 2
H 0 0 1 1 1 2
Untuk mewujudkan maksud dan tujuan seperti yang disebutkan pada BAB I
maka metode analisis data mining yang akan dilakukan adalah sebagai berikut :
1. Pemahaman data (Data Understanding), yaitu proses memahami data
berdasarkan kebutuhan data (Data Requirement). Proses ini meliputi
pengumpulan data (initial data collection) dan pendeskripsian data (data
decription). Pada tahapan ini maka akan dilakukan analisis deskriptif terhadap
data yang akan dilakukan analisa, output yang diharapkan dari tahapan ini adalah
gambaran data secara jelas baik dari sisi struktur data, jenis data serta volume dari
data yang akan dianalisa.
2. Data Preparation, yaitu preprocessing yang terdiri dari Penyeleksian data (Data
Selection) dan pembersihan (cleansing) data, pada proses ini dilakukan pemilihan
data yang disesuaikan dengan kebutuhan dan pembersihan data dari data-data
136
yang sifatnya redundansi atau data dengan type data yang salah. Output dari
tahapan ini adalah terciptanya data yang siap untuk dilakukan analisa dan
transformasi jika diperlukan.
3. Data transformation, yaitu proses mengkonversikan data kedalam format lain
yang sesuai dengan kebutuhan analisa. Pada tahapan ini akan dilakukan
tranformasi data kedalam bentuk, format atau struktur data yang lain yang
disesuiakan dengan kebutuhan dari sisi analisa dan visualisasi atas hasil analisa.
4. Modeling data mining, yaitu proses untuk memperoleh pola dan karakteristik
data, dalam fase ini akan dilakukan cluster analysis dengan k-means cluster
analysis untuk memperoleh kelompok-kelompok berdasarkan karakteristik dari
data yang dianalisa. Pada tahapan ini maka algoritma K-means cluster analysis
akan dilakukan modifikasi pada proses perhitungan jarak antara data dengan
centroid diganti dengan menghitung similaritas mempergunakan Jaccard
Similarity, selain itu pada algoritma k-means cluster analysis juga akan
ditambahkan fungsi untuk mengidentifikasi dan melakukan penghapusan data-
data yang dikategorikan sebagai outlier
5. Interpretation/Evaluation, melakukan interpretasi dan evaluasi terhadap masalah
yang dihadapi berdasarkan data yang dianalisa. Output pada tahapan ini berupa
evaluasi atas hasil k-means cluster analysis yang telah dilakukan.
6. Kesimpulan, output pada tahapan ini adalah berupa rekomendasi yang
didihasilkan dari proses analisa yang telah dilakukan.
137
Skema alur metode penelitian yang dilakukan secara lengkap dapat dilihat dalam
gambar 3.2 dibawah ini,
Mulai
Pemahaman Data
(Data Understanding)
Penyiapan Data
(Data preparaition)
Data Transformation
Melakukan Analisis K-Means Cluster
Interpretasi hasil Analisis
Kesimpulan dan Saran
Selesai
Gambar 3.2 Diagram Alur Metoda Penelitian
Dalam melaksanakan metodologi diatas akan dipergunakan software SPSS 16,
STATISTICA 7 sebagai software untuk pengolahan data statistika dan SQL SERVER
2008 sebagai software untuk menyimpan data dan Microsoft Visual Studio 2008
sebagai software untuk membuat Aplikasi visualisasi hasil analisa. Pemilihan
software tersebut disebabkan karena selain keterbatasan penulis dalam menguasai
software-software untuk pengolahan data statistika juga disebabkan karena
138
kelengkapan feature (modul-modul) untuk melakukan pengolahan data, kemampuan
untuk mengolah dan menyimpan data dalam jumlah yang besar dari kedua software
statistik tersebut dianggap oleh penulis cukup untuk melakukan tujuan seperti yang
disebutkan diatas.
139
DAFTAR PUSTAKA
Badan Pemeriksa Keuangan Republik Indonesia (2009), Jaringan Dokument &
Informasi Hukum, ”Pemberian Dana Bantuan Langsung Tunai Plus”,
http://www.JDIH.BPK.go.id
Bezdek, J.C (1981). Pattern Recogniton with Fuzzy Objective Function Algoritms,
Plenum Press, New York.
Budi Santoso(2007), Data mining Teknis Pemanfaatan Data untuk Keperluan Bisnis,
Graha Ilmu, Jakarta.
David olson, Yong Shi (2007), Introduction to Business Data mining, International
Edition, Mc Graw Hill.
Departemen Sosial RI (2008), Petunjuk teknik Program penyaluran dana
BLT(Bantuan Langsung Tunai) Untuk Rumah Tangga Sasaran, Jakarta.
Fernando Lourenzo, Victor Lobo and Fernando Bacao (2004). “Binary-Base
Similarity Measure for Categorical Data and Their Application in Self-
Organization Maps”, Instituto Superior de Estatistica e Gestao de Informacao,
Universidade Nova de Lisboa
Hana Rezankova (2009). “Cluster Analysis and Categorical Data”, Profesional
Publishing, Vysoka Skola Ekonomicka v Praze, Praha.
Holmes Finch, Huynh Huynh (2000). “Comparison Of Similarity Measure in Cluster
Analysis with Binary Data”, Unpublished Presented at American Education
140
Research Association in New Orleans, Department of Statistics, University of
South Carolina Columbia.
Kardi Teknomo, PHD.”K-Means Clustering Tutorial”,
http://people.revoledo.com/kardi/tutorial/kmean/index.html
Laporan Kantor Kementrian Koordinator Bidang Kesejahteraan Rakyat (2009),
“Capaian Program BLT, Raskin, BOS, Jamkesmas dan PKH tahun 2008 dan
Awal Tahun 2009”, http://www.setneg.go.id
Nikolai Tatti(2009). “Approximation Bound for K-Means Clustering of Binary
Data”, HIIT, Departement of Information and Computer Science, Helsinki
University of Technology, Finland.
Paolo Giudici(2003). Applied Data mining Statistical Methods for Business and
Industry, Faculty of Economics University of Pavia Italy, John Wiley & Sons
Ltd.
Professor Anita Wasilewska. “Data mining Concepts and Technique”, Stony Brook
University
Richard A Johnson , Dean W. Wichern(2004). Applied Multivariate Statistical
Analysis, University of Wisconsin-Medison, Texas A&M University, Prentice
Hall, EagleWood Cliffs, New Jersey
Tao Lie(2005). “A General Model for Clustering Binary Data”. Research Track Paper
No:FL33199 Computer Science, Florida International University Miami.
141
Yudi Agusta, Phd. (2007) “K-Means Penerapan, Permasalahan dan Metode Terkait,”
Jurnal Sistem dan Informasi Vol.3 (Februari 2007), STMIK-STIKOM BALI,
Denpasar, Bali.