Modul clustering data mining modul clustering

download Modul clustering data mining modul clustering

If you can't read please download the document

Embed Size (px)

Transcript of Modul clustering data mining modul clustering

1. CLUSTERING1 Clustering ConceptAnalisis cluster merupakan salah satu teknik data mining yang bertujuan untukmengidentifikasi sekelompok obyek yang mempunyai kemiripan karakteristik tertentuyang dapat dipisahkan dengan kelompok obyek lainnya, sehingga obyek yang beradadalam kelompok yang sama relatif lebih homogen daripada obyek yang berada padakelompok yang berbeda. Jumlah kelompok yang dapat diidentifikasi tergantung padabanyak dan variasi data obyek. Tujuan dari pengelompokan sekumpulan data obyek kedalam beberapa kelompok yang mempunyai karakteristik tertentu dan dapat dibedakansatu sama lainnya adalah untuk analisis dan interpretasi lebih lanjut sesuai dengantujuan penelitian yang dilakukan. Model yang diambil diasumsikan bahwa data yangdapat digunakan adalah data yang berupa data interval, frekuensi dan biner. Set dataobyek harus mempunyai peubah dengan tipe yang sejenis tidak campur antara tipe yangsatu dengan lainnya.2.2 Tujuan Analisis ClusterAnalisis cluster dapat diterapkan pada bidang apa saja. Namun pemakaian teknikini lebih familiar pada bidang pemasaran karena memang salah satu kegiatan yang 2. dilakukan dalam pemasaran adalah pengelompokan, yang disebut segmentasi pasar.Tujuan analisis cluster di dalam pemasaran adalah sebagai berikut :1. Membuat segmen pasar (segmenting the market)Pelanggan atau pembeli sering diklasterkan berdasarkan manfaat atau keuntunganyang diperoleh dari pembelian barang. Setiap cluster akan terdiri daripelanggan/pembeli yang relatif homogen, dinyatakan dalam manfaat yang dicari.2. Memahami perilaku pembeliAnalisis cluster digunakan untuk mengenali/mengidentifikasi kelompok pembeliyang homogen/relatif homogen. Kemudian perilaku dalam untuk setiap kelompokperlu dikaji secara terpisah. Responden (pembeli) dikelompokkan didasarkan padaself-reported importance yang terkait pada setiap faktor pilihan yang digunakanuntuk memilih toko atau mall di mana para pembeli membeli barang yangdibutuhkan.3. Mengenali peluang produk baruDengan mengklasterkan merk dan produk, competitive set di dalam pasar bisaditentukan. Merek di dalam klaster yang sama bersaing sengit satu sama lain,daripada merek dari klaster lain.4. Mereduksi data. Analisis cluster digunakan sebagai suatu alat mereduksi data secaraumum, untuk mengembangkan klaster atau sub-group dari data yang mudah dikeloladari kumpulan data asli, secara individual.2.3 Prosedur Analisis ClusterRumuskan MasalahPilih Ukuran JarakPilih Prosedur Peng-cluster-anPenentuan Banyaknya ClusterProfilisasi CustomerMenentukan segmentasi Pasar 3. Secara umum proses dimulai dengan merumuskan masalah pengklasterandengan mendefinisikan variabel-variabel yang dipergunakan untuk dasarpengklasteran/pembentukan klaster. Kemudian pengambilan p pengukuran peubah padan obyek pengamatan. Data tersebut dijadikan matriks data mentah berukuran m x p.Matrik tersebut ditransformasikan ke dalam bentuk matriks similaritas (kemiripan)berupa n x n yang dihitung berdasarkan pasangan-pasangan obyek p peubah. Konsepdasar pengukuran analisis cluster adalah konsep pengukuran jarak (distance) dankesamaan (similarity). Distance adalah ukuran tentang jarak pisah antar obyeksedangkan similarity adalah ukuran kedekatan. Konsep ini penting karenapengelompokan pada analisis cluster didasarkan pada kedekatan. Pengukuran jarak(distance type measure) digunakan untuk data-data yang bersifat matriks, sedangkanpengukuran kesesuaian (matching type measure) digunakan untuk data-data yangbersifat kualitatif.2.4 Teknik Pengukuran Jarak1) Euclidean DistanceMerupakan ukuran jarak antara dua item X dan Y.D(X, Y) = (Xi - Yi) 22) Squared Euclidean DistanceMerupakan ukuran jarak antara dua item X dan Y.D(X, Y) = (Xi - Yi) 23) Pearson CorrelationKorelasi antara vektor nilai :S(X, Y) =ZxZi yi(N - 1)di mana Zxi adalah nilai x yang telah distandarkan untuk item ke-i dan N adalahjumlah itemnya.4) Chebychev5) BlockD(X, Y) = maxi Xi - YiD(X, Y) = Xi - Yi 4. k1,if2 26) Minkowski= [ - p ]1D(X, Y) pp = 1 (absolute metric)p = 2 (euclidian metric)7) Chi-Square Xi Yi8) Phi-SquareD(X, Y) = ( Xi -E( EX( iX)i )) + ( Yi -E( EY( iY)i )) 1 (Xi - E(Xi))2 (Yi - E(Yi))2 9) HammingD(X, Y) = n E(Xi)+ E(Yi) D(P,Q) = d (X pk .X qk )k =1Dimana : d (Xpk , Xqk)=X pk X qk0, lainnya2.5 Teknik Teknik dalam Analisis Cluster 5. M ETO D E H I R A R K ITeknik hirarki (hierarchical methods) adalah teknik clustering membentukkontruksi hirarki atau berdasarkan tingkatan tertentu seperti struktur pohon (strukturpertandingan). Dengan demikian proses pengelompokkannya dilakukan secarabertingkat atau bertahap. Hasil dari pengelompokan ini dapat disajikan dalam bentukdendogram. Metode-metode yang digunakan dalam teknik hirarki:1) Agglomerative MethodsMetode ini dimulai dengan kenyatan bahwa setiap obyek membentuk clusternyamasing-masing. Kemudian dua obyek dengan jarak terdekat bergabung. Selanjutnyaobyek ketiga akan bergabung dengan cluster yang ada atau bersama obyek lain danmembentuk cluster baru. Hal ini tetap memperhitungkan jarak kedekatan antarobyek. Proses akan berlanjut hingga akhirnya terbentuk satu cluster yang terdiri darikeseluruhan obyek. Ada beberapa teknik dalam Agglomerative methods yaitu:a) S in g le link a g e ( n ea r e st n e i g hbor m e thods)Metode ini menggunakan prinsip jarak minimum yang diawali dengan mencaridua obyek terdekat dan keduanya membentuk cluster yang pertama.Pada langkah selanjutnya terdapat dua kemungkinan, yaitu : obyek ketiga akan bergabung dengan cluster yang telah terbentuk, atau dua obyek lainnya akan membentu cluster baru.Proses ini akan berlanjut sampai akhirnya terbentuk cluster tunggal. Pada metodeini jarak antar cluster didefinisikan sebagai jarak terdekat antar anggotanya.Contoh : Terdapat matriks jarak antara 5 buah obyek, yaitu :A B C D EA 0.0 1.0 5.0 6.0 8.0B 1.0 0.0 3.0 8.0 7.0C 5.0 3.0 0.0 4.0 6.0D 6.0 8.0 4.0 0.0 2.0E 8.0 7.0 6.0 2.0 0.0Langkah penyelesaiannya :1. Mencari obyek dengan jarak minimumA dan B mempunyai jarak terdekat, yaitu 1.0 maka obyek A dan Abergabung menjadi satu cluster. 6. 2. Menghitung jarak antara cluster AB dengan obyek lainnya.D(AB)C = min {dAC, dBC}= dBC = 3.0D(AB)D = min {dAD, dBD}= dAD = 6.0D(AB)E = min {dAE, dBE}= dBE = 7.0Dengan demikian terbentu matriks jarak yang baruAB C D EAB 0.0 3.0 6.0 7.0C 3.0 0.0 4.0 6.0D 6.0 4.0 0.0 2.0E 7.0 6.0 2.0 0.03. Mencari obyek dengan jarak terdekatD dan E mempunyai jarak yang terdekat yaitu 2.0 maka obyek D dan Ebergabung menjadi satu cluster.4. menghitung jarak antara cluster dengan obyek lainnya.D(AB)C = 3.0D(AB)(DE) = min {dAD, dAE, dBD, dBE} = dAD = 6.0D(DE)C = min {dCD, dCE} = dCD = 4.05. Mencari jarak terdekat antara cluster dengan obyek dan diperoleh obyek Cbergabung dengan cluster AB6. Pada langkah yang terakhir, cluster ABC bergabung dengan DE sehinggaterbentuk cluster tunggal.b) Complete linkage (furthest neighbor methods)Metode ini merupakan kebalikan dari pendekatan yang digunakan pada singlelinkage. Prinsip jarak yang digunakan adalah jarak terjauh antar obyek.Contoh : Terdapat matriks jarak antara lima buah obyek yaitu :A B C D EA 0.0 1.0 5.0 6.0 8.0B 1.0 0.0 3.0 8.0 7.0C 5.0 3.0 0.0 4.0 6.0D 6.0 8.0 4.0 0.0 2.0E 8.0 7.0 6.0 2.0 0.0 7. Langkah penyelesaiannya :1. Mencari obyek dengan jarak minimumA dan B mempunyai jarak terdekat yaitu 1.0 maka obyek A dan B bergabungmenjadi satu cluster.2. Menghitung jarak antara cluster AB dengan obyek lainnya.D(AB)C = max {dAC, dBC}= dAC = 5.0D(AB)D = max {dAD, dBD}= dBD = 8.0D(AB)E = max {dAE, dBE}= dAE = 8.0Dengan demikian terbentuk matriks jarak yang baruAB C D EAB 0.0 5.0 8.0 8.0C 5.0 0.0 4.0 6.0D 8.0 4.0 0.0 2.0E 8.0 6.0 2.0 0.03. Mencari obyek dengan jarak terdekat.D dan E mempunyai jarak terdekat yaitu 2.0 maka obyek D dan E bergabungmenjadi satu cluster4. Menghitung jarak antar cluster dengan obyek lainnya.D(AB)C = 5.0D(AB)(DE) = max {dAD, dAE, dBD, dBE} = dAE = dBD = 8.0D(DE)C = max {dCD, dCE} = dCE = 6.05. Maka terbentuklah matriks jarak yang baru, yaitu :AB C DEAB 0.0 5.0 8.0C 5.0 0.0 6.0DE 8.0 6.0 0.06. Mencari jarak terdekat antara cluster dengan obyek dan diperoleh obyek Cbergabung dengan cluster AB 8. 7. Pada langkah yang terakhir cluster ABC bergabung dengan DE sehinggaterbentuk cluster tunggal.c) Average linkage methods ( between groups methods)Metode ini mengikuti prosedur yang sama dengan kedua metode sebelumnya.Prinsip ukuran jarak yang digunakan adalah jarak rata-rata antar tiap pasanganobyek yang mungkin.Contoh :Terdapat matriks jarak antara 5 buah obyek, yaitu :A B C D EA 0.0 1.0 5.0 6.0 8.0B 1.0 0.0 3.0 8.0 7.0C 5.0 3.0 0.0 4.0 6.0D 6.0 8.0 4.0 0.0 2.0E 8.0 7.0 6.0 2.0 0.0Langkah penyelesaiannya :1. Mencari obyek dengan jarak minimumA dan B mempunyai jarak terdekat, yaitu 1,0 maka obyek A dan Bbergabung menjadi satu cluster.2. Menghitung jarak antara cluster AB dengan obyek lainnyad(AB)C = max {dAC, dBC} = dAC = 5,0d(AB)D = max {dAD, dBD} = dBD = 8,0d(AB)E = max {dAE, dBE} = dAE = 8,0Dengan demikian terbentuk matriks jarak yang baru :AB C D EAB 0.0 5.0 8.0 8.0C 5.0 0.0 4.0 6.0D 8.0 4.0 0.0 2.0E 8.0 6.0 2.0 0.0 9. 3. Mencari obyek dengan jarak terdekat.D dan E mempunyai jarak terdekat, yaitu 2,0 maka obyek D dan Ebergabung menjadi satu cluster.4. Menghitung jarak antara cluster dengan obyek lainnya.d(AB)C = 4,0d(AB)(DE) = 1/2{dAD, dAE, dBD, dBE} = 7,25d(DE)C = 1/2{dCD, dCE,} = dCE = 5,00Maka terbentuklah matrik jarak yang baru, yaitu :AB 0.0 4.0 7.25C 4.0 0.0 5.00DE 7.25 5.0 0.005. Mencari jarak terdekat antara cluster dengan obyek dan diperoleh obyek Cbergabung dengan clster AB.6. Pada langkah yang terakhir, cluster ABC bergabung dengan DE sehinggaterbentuk cluster tunggal.d) Wards error sum of squares methodsWard mengajukan suatu metode pembentukan cluster yang didasari olehhilangnya informasi akibat penggabungan obyek menjadi cluster. Hal ini diukurdengan jumlah total dari deviasi kuadrat pada mean cluster untuk tiap observasi.Error sum of squares (ESS) digunakan sebagai fungsi obyektif. Dua obyek akand