Modul praktikum 3 cluster

26
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0 MATERI PRAKTIKUM Fakultas : Teknologi Industri Pertemuan ke : 3 Jurusan/Program Studi : Teknik Industri Modul ke : 3 Kode Mata Kuliah : 52224603 Jumlah Halaman : 26 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014 PRAKTIKUM 3 ANALISA CLUSTER Definisi Cluster Analisa Cluster adalah pengorganisasian kumpulan pola ke dalam kelompok-kelompok (Cluster) berdasar atas kesamaanya. Pola-pola dalam suatu Cluster akan memiliki kesamaan ciri/sifat daripada pola-pola dalam Cluster yang lainnya. Metodologi Clustering lebih cocok digunakan untuk eksplorasi hubungan antar data untuk membuat suatu penilaian terhadap strukturnya. Tujuan Praktikum Cluster 1. Mahasiswa mempunyai pengetahuan dan kemampuan dasar dalam melakukan dan menerapkan analisis Cluster 2. Mahasiswa dapat mengetahui dan memahami arti dan garis besar dari analisis Cluster dalam data mining, mulai dari pengambilan data, pengolahan data sampai dengan tahap pengelompokan, serta mengaplikasikannya dalam kasus yang dihadapi. Konsep Cluster Analisis Cluster merupakan salah satu teknik multivariat yang digunakan dalam data mining yang bertujuan untuk mengidentifikasi sekelompok obyek yang mempunyai kemiripan karakteristik tertentu yang dapat dipisahkan dengan kelompok obyek lainnya, sehingga obyek yang berada dalam kelompok yang sama relatif lebih homogen (sama) daripada obyek yang berada pada kelompok yang berbeda. Ada beberapa tahapan dalam malekukan Analisis Cluster, diantaranya yaitu: 1. Tujuan Analisis Cluster 2. Desain Penelitian dalam Analisis Cluster 3. Asumsi-asumsi dalam Analisis Cluster

Transcript of Modul praktikum 3 cluster

Page 1: Modul praktikum 3   cluster

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : Teknologi Industri Pertemuan ke : 3 Jurusan/Program Studi : Teknik Industri Modul ke : 3 Kode Mata Kuliah : 52224603 Jumlah Halaman : 26 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

PRAKTIKUM 3

ANALISA CLUSTER

Definisi Cluster

Analisa Cluster adalah pengorganisasian kumpulan pola ke dalam kelompok-kelompok (Cluster)

berdasar atas kesamaanya. Pola-pola dalam suatu Cluster akan memiliki kesamaan ciri/sifat

daripada pola-pola dalam Cluster yang lainnya. Metodologi Clustering lebih cocok digunakan

untuk eksplorasi hubungan antar data untuk membuat suatu penilaian terhadap strukturnya.

Tujuan Praktikum Cluster

1. Mahasiswa mempunyai pengetahuan dan kemampuan dasar dalam melakukan dan

menerapkan analisis Cluster

2. Mahasiswa dapat mengetahui dan memahami arti dan garis besar dari analisis Cluster

dalam data mining, mulai dari pengambilan data, pengolahan data sampai dengan tahap

pengelompokan, serta mengaplikasikannya dalam kasus yang dihadapi.

Konsep Cluster

Analisis Cluster merupakan salah satu teknik multivariat yang digunakan dalam data

mining yang bertujuan untuk mengidentifikasi sekelompok obyek yang mempunyai kemiripan

karakteristik tertentu yang dapat dipisahkan dengan kelompok obyek lainnya, sehingga obyek

yang berada dalam kelompok yang sama relatif lebih homogen (sama) daripada obyek yang

berada pada kelompok yang berbeda. Ada beberapa tahapan dalam malekukan Analisis Cluster,

diantaranya yaitu:

1. Tujuan Analisis Cluster

2. Desain Penelitian dalam Analisis Cluster

3. Asumsi-asumsi dalam Analisis Cluster

Page 2: Modul praktikum 3   cluster

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : Teknologi Industri Pertemuan ke : 3 Jurusan/Program Studi : Teknik Industri Modul ke : 3 Kode Mata Kuliah : 52224603 Jumlah Halaman : 26 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014 4. Proses Mendapatkan Cluster dan Menilai kelayakan secara keseluruhan (overall fit)

5. Interpretasi terhadap Cluster.

6. Proses Validasi dan Pembuatan Profil (profiling) Cluster

Penerapan analisis Cluster di dalam pemasaran adalah sebagai berikut :

1. Identifikasi obyek (Recognition) :

Dalam bidang image Processing , Computer Vision atau robot vision

2. Decission Support System dan data mining

• Membuat segmen pasar (segmenting the market).

• Memahami perilaku pembeli.

• Mengenali peluang produk baru

Tahap-tahap dalam Analisis Cluster

Ada beberapa tahapan dalam malekukan Analisis Cluster, diantaranya yaitu:

Tahap Pertama : Tujuan Analisis Cluster

Tujuan utama analisis Cluster adalah memisahkan suatu himpunan objek menjadi dua kelompok

atau lebih berdasarkan kesamaan karakteristik khusus yang dimilikinya.

Sedangkan tujuan analisis Cluster secara khusus, antara lain:

Penyederhanaan Data

Penyederhanaan data merupakan bagian dari suatu taksonomi. Dengan struktur yang terbatas

observasi/objek dapat dikelompokkan untuk analisis selanjutnya.

Identifikasi Hubungan (Relationship Identification)

Hubungan antar objek diidentifikasi secara empiris. Struktur analisis Cluster yang sederhana

dapat menggambarkan adanya hubungan atau kesamaan dan perbedaan yang tidak

dinyatakan sebelumnya.

Page 3: Modul praktikum 3   cluster

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : Teknologi Industri Pertemuan ke : 3 Jurusan/Program Studi : Teknik Industri Modul ke : 3 Kode Mata Kuliah : 52224603 Jumlah Halaman : 26 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014 Pemilihan pada Pengelompokan Variabel

Tujuan analisis Cluster tidak dapat dipisahkan dengan pemilihan variabel yang digunakan

untuk menggolongkan objek ke dalam clucter-Cluster. Cluster yang terbentuk merefleksikan

struktur yang melekat pada data seperti yang didefinisikan oleh variabel-variabel. Pemilihan

variabel harus sesuai dengan teori dan konsep yang umum digunakan dan harus rasional.

Rasionalitas ini didasarkan pada teori-teori eksplisit atau penelitian sebelumnya. Variabel-

variabel yang dipilih hanyalah variabel yang dapat mencirikan objek yang akan

dikelompokkan dan secara spesifik harus sesuai dengan tujuan analisis Cluster.

Tahap Kedua : Desain Penelitian dalam Analisis Cluster

2 hal penting dalam tahap ini adalah pendeteksian outlier dan mengukur kesamaan.

• Pendeteksian Outliers

Outlier adalah suatu objek yang sangat berbeda dengan objek lainnya. Outliers dapat terjadi

karena:

a. Observasi ‘menyimpang’ yang tidak mewakili populasi

b. Suatu undersampling kelompok-kelompok dalam populasi yang menyebabkan

underrepresentation kelompok-kelompok dalam sampel

Dalam kedua kasus tersebut, outliers dapat mengubah struktur sebenarnya dalam populasi

sehingga kita akan memperoleh Cluster-Cluster yang tidak sesuai dengan struktur

sebenarnya dari populasi tersebut dan tidak representatif.

• Mengukur Kesamaan antar Objek

Konsep kesamaan adalah hal yang sangat penting dalam analisis Cluster. Kesamaan antar

objek merupakan ukuran kedekatan antar objek. Kesamaan dapat diketahui dengan

melakukan pengukuran jarak antar setiap individu. Ukuran jarak merupakan ukuran

ketidakmiripan, dimana jarak yang besar menunjukkan sedikit kesamaan sebaliknya jarak

yang pendek/kecil menunjukkan bahwa suatu objek makin mirip dengan objek lain.

Page 4: Modul praktikum 3   cluster

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : Teknologi Industri Pertemuan ke : 3 Jurusan/Program Studi : Teknik Industri Modul ke : 3 Kode Mata Kuliah : 52224603 Jumlah Halaman : 26 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

Gambar 1. Ilustrasi Pengukuran jarak

Metode untuk mengukur kesamaan obyek antara lain :

1). Euclidean Distance

Jarak euclidean antara dua titik i dan j merupakan sisi miring (sisi terpanjang) dari segitiga

ABC.

𝐷𝐷(𝑖𝑖, 𝑗𝑗) = �𝐴𝐴2 + 𝐵𝐵2 = ��(𝑋𝑋𝑖𝑖 − 𝑌𝑌𝑖𝑖)2 = �(𝑋𝑋1𝑖𝑖 − 𝑋𝑋1𝑗𝑗 )2+(𝑋𝑋2𝑖𝑖 − 𝑋𝑋2𝑗𝑗 )2

2). Squared Euclidean Distance

Merupakan pengukuran kuadrat jarak euclidean antara dua titik i dan j.

𝐷𝐷(𝑖𝑖, 𝑗𝑗) = 𝐴𝐴2 + 𝐵𝐵2 = �(𝑋𝑋𝑖𝑖 − 𝑌𝑌𝑖𝑖)2 = (𝑋𝑋1𝑖𝑖 − 𝑋𝑋1𝑗𝑗 )2+(𝑋𝑋2𝑖𝑖 − 𝑋𝑋2𝑗𝑗 )2

3). Chebychev

D(X,Y)= 𝑚𝑚𝑚𝑚𝑚𝑚𝑖𝑖|𝑋𝑋𝑖𝑖 − 𝑌𝑌𝑖𝑖|

4). City Block Distance

D(X,Y)= ∑|𝑋𝑋𝑖𝑖 − 𝑌𝑌𝑖𝑖 |

D(I,j) = |𝐴𝐴| + |𝐵𝐵| = ∑|𝑋𝑋𝑖𝑖 − 𝑌𝑌𝑖𝑖| = �𝑋𝑋1𝑖𝑖 − 𝑋𝑋1𝑗𝑗 � + �𝑋𝑋2𝑖𝑖 − 𝑋𝑋2𝑗𝑗 �

Page 5: Modul praktikum 3   cluster

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : Teknologi Industri Pertemuan ke : 3 Jurusan/Program Studi : Teknik Industri Modul ke : 3 Kode Mata Kuliah : 52224603 Jumlah Halaman : 26 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014 Tahap Ketiga : Asumsi-asumsi dalam Analisis Cluster

Seperti hal teknik analisis lain,analisis Cluster juga menetapkan adanya suatu asumsi. Ada

dua asumsi dalam analisis Cluster, yaitu :

a. Kecukupan Sampel untuk merepresentasikan/mewakili Populasi

Biasanya suatu penelitian dilakukan terhadap populasi diwakili oleh sekelompok sampel.

Sampel yang digunakan dalam analisis ckuster harus dapat mewakili populasi yang ingin

dijelaskan, karena analisis ini baik jika sampel representatif. Jumlah sampel yang diambil

tergantung penelitinya, seorang peneliti harus yakin bahwa sampel yang diambil representatif

terhadap populasi.

b. Pengaruh Multikolinieritas

Ada atau tidaknya multikolinieritas antar variabel sangat diperhatikan dalam analisis

Cluster karena hal itu berpengaruh, sehingga variabel-variabel yang bersifat multikolinieritas

secara eksplisit dieprtimbangkan dengan lebih seksama.

Tahap Keempat : Proses Mendapatkan Cluster dan Menilai kelayakan secara keseluruhan

(overall fit)

Ada dua proses penting yaitu algoritma Cluster dalam pembentukan Clusterdan

menentukan jumlah Cluster yang akan dibentuk. Keduanya mempunyai implikasi substansial

tidak hanya pada hasil yang diperoleh tetapi juga pada interpretasi yang akan dilakukan terhadap

hasil tersebut.

Page 6: Modul praktikum 3   cluster

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : Teknologi Industri Pertemuan ke : 3 Jurusan/Program Studi : Teknik Industri Modul ke : 3 Kode Mata Kuliah : 52224603 Jumlah Halaman : 26 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

Gambar 2. Algoritma Analisa Kluster

Adapun metode pengelompokan dalam analisis Cluster meliputi :

1. Metode Non-Hirarkis.

dimulai dengan menentukan terlebih dahulu jumlah Cluster yang diinginkan (dua,tiga, atau

yang lain). Setelah jumlah Clusterditentukan, maka proses Cluster dilakukan dengan tanpa

mengikuti proses hirarki. Metode ini biasa disebut “K-Means Cluster”.

Berbeda dengan metode hirarkikal, prosedur non hirarkikal (K-means Clustering) dimulai

dengan memilih sejumlah nilai Cluster awal sesuai dengan jumlah yang diinginkan dan

kemudian obyek digabungkan ke dalam Cluster-Cluster tersebut.

Page 7: Modul praktikum 3   cluster

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : Teknologi Industri Pertemuan ke : 3 Jurusan/Program Studi : Teknik Industri Modul ke : 3 Kode Mata Kuliah : 52224603 Jumlah Halaman : 26 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

a. Sequential Threshold Procedure

Metode ini melakukan pengelompokan dengan terlebih dahulu memilih satu obyek

dasar yang akan dijadikan nilai awal Cluster, kemudian semua obyek yang ada didalam

jarak terdekat dengan Cluster ini akan bergabung lalu dipilih Cluster kedua dan semua

obyek yang mempunyai kemiripan dimasukkan dalam Cluster ini. Demikian seterusnya

hingga terbentuk beberapa Cluster dengan keseluruhan obyek didalamnya.

b. Parallel Threshold Prosedure

Secara prinsip sama dengan prosedur sequential threshold, hanya saja dilakukan

pemilihan terhadap beberapa obyek awal Cluster sekaligus dan kemudian melakukan

penggabungan obyek ke dalamnya secara bersamaan.

c. Optimizing

Merupakan pengembangan dari kedua metode diatas dengan melakukan optimasi pada

penempatan obyek yang ditukar untuk Cluster lainnya dengan pertimbangan krteria

optimasi.

2. Metode Hirarkis.

Memulai pengelompokan dengan dua atau lebih obyek yang mempunyai kesamaan

paling dekat. Kemudian dilanjutkan pada obyek yang lain danseterusnya hingga Cluster

akan membentuk semacam‘pohon’ dimana terdapat tingkatan (hirarki) yangjelas antar

obyek, dari yang paling mirip hinggayang paling tidak mirip. Teknik hirarki (hierarchical

methods) adalah teknik Clustering membentuk kontruksi hirarki atau berdasarkan tingkatan

tertentu seperti struktur pohon (struktur pertandingan). Alat yang membantu

untukmemperjelas proses hirarki ini disebut “dendogram”.

Page 8: Modul praktikum 3   cluster

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : Teknologi Industri Pertemuan ke : 3 Jurusan/Program Studi : Teknik Industri Modul ke : 3 Kode Mata Kuliah : 52224603 Jumlah Halaman : 26 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

Teknik hirarki (hierarchical methods) adalah teknik Clustering membentuk kontruksi

hirarki atau berdasarkan tingkatan tertentu seperti struktur pohon (struktur pertandingan).

Dengan demikian proses pengelompokkannya dilakukan secara bertingkat atau bertahap.

Hasil dari pengelompokan ini dapat disajikan dalam bentuk dendogram. Metode-metode

yang digunakan dalam teknik hirarki:

a. Agglomerative Methods

Metode ini dimulai dengan kenyatan bahwa setiap obyek membentuk Clusternya

masing-masing. Kemudian dua obyek dengan jarak terdekat bergabung. Selanjutnya

obyek ketiga akan bergabung dengan Cluster yang ada atau bersama obyek lain dan

membentuk Cluster baru. Hal ini tetap memperhitungkan jarak kedekatan antar obyek.

Proses akan berlanjut hingga akhirnya terbentuk satu Cluster yang terdiri dari

keseluruhan obyek. Ada beberapa teknik dalam Agglomerative methods yaitu:

• Single linkage (nearest neighbor methods)

Metode ini menggunakan prinsip jarak minimum yang diawali dengan mencari dua

obyek terdekat dan keduanya membentuk Cluster yang pertama. Pada langkah

selanjutnya terdapat dua kemungkinan, yaitu :

a. Obyek ketiga akan bergabung dengan Cluster yang telah terbentuk, atau

b. Dua obyek lainnya akan membentu Cluster baru.

Proses ini akan berlanjut sampai akhirnya terbentuk Cluster tunggal. Pada metode

ini jarak antar Cluster didefinisikan sebagai jarak terdekat antar anggotanya.

Page 9: Modul praktikum 3   cluster

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : Teknologi Industri Pertemuan ke : 3 Jurusan/Program Studi : Teknik Industri Modul ke : 3 Kode Mata Kuliah : 52224603 Jumlah Halaman : 26 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

Contoh : Terdapat matriks jarak antara 5 buah obyek, yaitu :

Gambar 3. Matriks Antara 5 Buah Objek.

Langkah penyelesaiannya :

a). Mencari obyek dengan jarak minimum

Menghitung jarak antara Cluster AB dengan obyek lainnya.

D(AB)C = min {dAC, dBC}= dBC = 3.0

D(AB)D = min {dAD, dBD}= dAD = 6.0

D(AB)E = min {dAE, dBE}= dBE = 7.0

Dengan demikian terbentuk matriks jarak yang baru

Gambar 4. Matriks 5 Buah Objek Dengan Jarak Baru

b). Mencari obyek dengan jarak terdekat.

D dan E mempunyai jarak terdekat, yaitu 2,0 maka obyek D dan E bergabung

menjadi satu Cluster.

c). Menghitung jarak antara Cluster dengan obyek lainnya.

D(AB)C = 3.0

Page 10: Modul praktikum 3   cluster

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : Teknologi Industri Pertemuan ke : 3 Jurusan/Program Studi : Teknik Industri Modul ke : 3 Kode Mata Kuliah : 52224603 Jumlah Halaman : 26 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

D(AB)(DE) = min {dAD, dAE, dBD, dBE} = dAD = 6.0

D(DE)C = min {dCD, dCE} = dCD = 4.0

d). Mencari jarak terdekat antara Cluster dengan obyek dan diperoleh obyek C

bergabung dengan Cluster AB

e). Pada langkah yang terakhir, Cluster ABC bergabung dengan DE sehingga

terbentuk Cluster tunggal.

• Complete linkage (furthest neighbor methods)

Metode ini merupakan kebalikan dari pendekatan yang digunakan pada single

linkage. Prinsip jarak yang digunakan adalah jarak terjauh antar obyek.

Contoh : Terdapat matriks jarak antara lima buah obyek yaitu :

Gambar 5. Matriks Antara 5 Buah Objek.

Langkah penyelesaiannya :

a) Mencari obyek dengan jarak minimum

A dan B mempunyai jarak terdekat yaitu 1.0 maka obyek A dan B bergabung

menjadi satu Cluster.

b) Menghitung jarak antara Cluster AB dengan obyek lainnya

d(AB)C = max {dAC, dBC} = dAC = 5,0

d(AB)D = max {dAD, dBD} = dBD = 8,0

d(AB)E = max {dAE, dBE} = dAE = 8,0

Dengan demikian terbentuk matriks jarak yang baru :

Page 11: Modul praktikum 3   cluster

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : Teknologi Industri Pertemuan ke : 3 Jurusan/Program Studi : Teknik Industri Modul ke : 3 Kode Mata Kuliah : 52224603 Jumlah Halaman : 26 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

Gambar 4. Matriks 5 Buah Objek Dengan Jarak Baru

c) Mencari obyek dengan jarak terdekat.

D dan E mempunyai jarak terdekat yaitu 2.0 maka obyek D dan E bergabung

menjadi satu Cluster

d) Menghitung jarak antara Cluster dengan obyek lainnya.

d(AB)C = 4,0

d(AB)(DE) = 1/2{dAD, dAE, dBD, dBE} = 7,25

d(DE)C = 1/2{dCD, dCE,} = dCE = 5,00

Maka terbentuklah matrik jarak yang baru, yaitu :

Gambar 5. Matriks Akhir

e) Mencari jarak terdekat antara Cluster dengan obyek dan diperoleh obyek C

bergabung dengan Cluster AB.

f) Pada langkah yang terakhir, Cluster ABC bergabung dengan DE sehingga

terbentuk Cluster tunggal

Page 12: Modul praktikum 3   cluster

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : Teknologi Industri Pertemuan ke : 3 Jurusan/Program Studi : Teknik Industri Modul ke : 3 Kode Mata Kuliah : 52224603 Jumlah Halaman : 26 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

• Ward’s error sum of squares methods

Ward mengajukan suatu metode pembentukan Cluster yang didasari oleh hilangnya

informasi akibat penggabungan obyek menjadi Cluster. Hal ini diukur dengan jumlah

total dari deviasi kuadrat pada mean Cluster untuk tiap observasi.

Error sum of squares (ESS) digunakan sebagai fungsi obyektif. Dua obyek akan

digabungkan apabila mempunyai fungsi obyektif terkecil diantara kemungkinan yang

ada.

ESS= ∑∑𝑋𝑋𝑖𝑖𝑗𝑗

2−1

𝑛𝑛𝑗𝑗 �∑𝑋𝑋𝑖𝑖𝑗𝑗 �2

Dengan Xij adalah nilai untuk obyek ke-i pada Cluster ke-j.

b. Divisive Methods

Metode divisive berlawanan dengan metode agglomerative. Metode ini pertama-tama

diawali dengan satu Cluster besar yang mencakup semua observasi (obyek).

Selanjutnya obyek yang mempunyai ketidakmiripan yang cukup besar akan dipisahkan

sehingga membentuk Cluster yang lebih kecil. Pemisahan ini dilanjutkan sehingga

mencapai sejumlah Cluster yang diinginkan.

• Splinter average distance methods

Metode ini didasarkan pada perhitungan jarak rata-rata masing-masing obyek dengan

obyek pada grup splinter dan jarak rata-rata obyek tersebut dengan obyek lain pada

grupnya. Proses tersebut dimulai dengan memisahkan obyek dengan jarak terjauh

sehingga terbentuklan dua group. Kemudian dibandingkan dengan jarak rata-rata

masing-masing obyek dengan group splinter dengan groupnya sendiri. Apabila suatu

obyek mempunyai jarak yang lebih dekat ke group splinter daripada ke groupnya

sendiri, maka obyek tersebut haruslah dikeluarkan dari groupnya dan dipisahkan ke

group splinter. Apabila komposisinya sudah stabil, yaitu jarak suatu obyek ke

Page 13: Modul praktikum 3   cluster

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : Teknologi Industri Pertemuan ke : 3 Jurusan/Program Studi : Teknik Industri Modul ke : 3 Kode Mata Kuliah : 52224603 Jumlah Halaman : 26 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

groupnya selalu lebih kecil daripada jarak obyek itu ke group splinter, maka proses

berhenti dan dilanjutkan dengan tahap pemisahan dalam group.

Contoh : Terdapat matriks jarak antara 5 buah obyek, yaitu :

Gambar 6. Matriks Perbandingan 5 buah Objek

Perhitungan :

a) Menghitung jarak rata-rata antar obyek

A = ¼ (12+9+32+31) = 21 D = ¼ (32+25+23+9) = 22.25

B = ¼ (12+9+25+27) = 18.25 E = ¼ (31+27+24+9) = 22.75

C = ¼ (9+9+23+24) = 16.25

Terlihat bahwa E mempunyai nilai jarak terjauh, yaitu 22.75, maka E dipisahkan

dari group utama dan membentuk group splinter.

b) Menghitung jarak rata-rata obyek dengan group utama dengan group splinter

Gambar 7. Perhitungan Rata-Rata Group Utama Dengan Group Splinter

Page 14: Modul praktikum 3   cluster

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : Teknologi Industri Pertemuan ke : 3 Jurusan/Program Studi : Teknik Industri Modul ke : 3 Kode Mata Kuliah : 52224603 Jumlah Halaman : 26 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

Pada D, jarak rata-rata dengan group splinter lebih dekat daripada dengan group

utama. Dengan demikian D harus dikeluarkan dari group utama dan masuk ke

group splinter.

c) Perhitungan jarak rata-rata

Gambar 7. Perhitungan Rata-Rata Group Utama Dengan Group Splinter

Karena jarak semua obyek ke group utama sudah lebih besar daripada jaraknya

ke group splinter, maka komposisinya sudah stabil.

Tahap Kelima : Interpretasi terhadap Cluster

Tahap interpretasi meliputi pengujian tiap Cluster dalam term untuk menamai dan menandai

dengan suatu label yang secara akurat dapat menjelaskan kealamian Cluster.

Membuat profil dan interpretasi Cluster tidak hanya untuk memperoleh suatu gambaran saja

melainkan pertama, menyediakan suatu rata-rata untuk menilai korespondensi pada Cluster yang

terbentuk, kedua, profil Cluster memberikan araha bagi penilainan terhadap signifikansi praktis.

Namun demikian yang perlu diperhatikan pada tahapan interpretasi adalah karakteristik yang

membedakan masing-masing Cluster sehingga kita dapat memberikan label pada masing-masing

Cluster tersebut.

Page 15: Modul praktikum 3   cluster

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : Teknologi Industri Pertemuan ke : 3 Jurusan/Program Studi : Teknik Industri Modul ke : 3 Kode Mata Kuliah : 52224603 Jumlah Halaman : 26 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014 Tahap Keenam: Proses Validasi dan Pembuatan Profil (profiling) Cluster

1. Proses validasi solusi Cluster

Proses validasi bertujuan menjamin bahwa solusi yang dihasilkan dari analisis Cluster

dapat mewakili populasi dan dapat digeneralisasi untuk objek lain. Pendekatan ini

membandingkan solusi Cluster dan menilai korespondensi hasil. Terkadang tidak dapat

dipraktekkan karena adanya kendala waktu dan biaya atau ketidaktersediaan objek untuk

analisis Cluster ganda.

2. Pembuatan Profil ( profiling) solusi Cluster

Tahap ini menggambarkan karakteristik tiap Cluster untuk menjelaskan Cluster-Cluster

tersebut dapat dapat berbeda pada dimensi yang relevan. Titik beratnta pada karakteristik

yang secara signifikan berbeda antar clustre dan memprediksi anggota dalam suatu Cluster

khusus.

Page 16: Modul praktikum 3   cluster

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : Teknologi Industri Pertemuan ke : 3 Jurusan/Program Studi : Teknik Industri Modul ke : 3 Kode Mata Kuliah : 52224603 Jumlah Halaman : 26 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014 Studi Kasus

Metode Hierarki

Fizi Shop merupakan toko yang bergerak dibidang retail. Pihak perusahaan ingin

meningkatkan pelayanan terhadap konsumen yang berkunjung melalui web mereka. Dengan

menyebarkan kuesioner, dan menggunakan Clustering, pihak perusahaan ingin mengetahui

selera konsumen dan faktor – faktor yang paling berpengaruh terhadap kemajuan bisnisnya.

Berikut adalah hasil kuesioner yang telah dibagikan kepada 100 konsumen yang telah

berkunjung ke toko.

Data Kuesioner 2 :

No Nama Perilaku Komunikasi Pelayanan Kelengkapan Harga 1 Rino 1 1 1 2 4 2 Abdul 2 2 2 2 1 3 Viant 3 4 3 2 1 4 Aan 2 3 2 2 1 5 Romi 2 2 2 2 2 6 Ririn 2 2 2 1 1 7 Rahmawati 1 2 2 2 2 8 Okta 2 2 1 1 2 9 Andre 3 2 1 2 4 10 Niko 3 2 3 2 1 11 Ayuk 1 1 1 2 1 12 Wanti 2 2 2 1 1 13 Mey 4 3 2 1 2 14 Farah 3 3 3 2 1 15 Maryana 2 2 2 1 1 16 Sifa 2 2 2 1 1 17 Wulan 1 1 1 1 2 18 Ulfa 1 2 1 2 2 19 Syahdan 1 2 3 3 2 20 Awan 2 2 2 2 2

Page 17: Modul praktikum 3   cluster

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : Teknologi Industri Pertemuan ke : 3 Jurusan/Program Studi : Teknik Industri Modul ke : 3 Kode Mata Kuliah : 52224603 Jumlah Halaman : 26 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014 Data Kuesioner 1 :

No Nama Jenis Kelamin Usia Profesi Intensitas Barang Biaya

1 Rino 1 2 1 2 3 5 2 Abdul 1 4 4 5 4 5 3 Viant 1 4 5 4 4 4 4 Aan 1 2 1 2 3 2 5 Romi 1 4 3 4 4 3 6 Ririn 2 3 1 5 2 5 7 Rahmawati 2 3 1 3 2 3 8 Okta 2 4 3 3 4 4 9 Andre 2 3 3 3 2 5 10 Niko 1 2 2 2 2 3 11 Ayuk 2 3 1 1 1 1 12 Wanti 2 4 5 5 5 5 13 Mey 2 4 5 5 5 5 14 Farah 2 4 4 4 4 4 15 Maryana 1 3 1 5 1 5 16 Sifa 2 2 5 1 5 1 17 Wulan 2 2 1 2 2 2 18 Ulfa 2 3 1 1 5 1 19 Syahdan 2 4 2 4 2 2 20 Awan 1 3 1 2 3 4

Page 18: Modul praktikum 3   cluster

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : Teknologi Industri Pertemuan ke : 3 Jurusan/Program Studi : Teknik Industri Modul ke : 3 Kode Mata Kuliah : 52224603 Jumlah Halaman : 26 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014 Lakukan prosedur pengClusteran dengan menggunakan metode hirarki dan non-hirarki!

Tentukan berapa jumlah Cluster yang terbentuk, dan analisislah hasil profilisasi customernya!

Langkah Penyelesaian :

1. Input Data

- Variable View

- Data View

Page 19: Modul praktikum 3   cluster

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : Teknologi Industri Pertemuan ke : 3 Jurusan/Program Studi : Teknik Industri Modul ke : 3 Kode Mata Kuliah : 52224603 Jumlah Halaman : 26 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014 2. Clustering – Metode Hirarki

a. Pilih analyze klik Clasify lalu pilih Hirarchical Cluster

Page 20: Modul praktikum 3   cluster

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : Teknologi Industri Pertemuan ke : 3 Jurusan/Program Studi : Teknik Industri Modul ke : 3 Kode Mata Kuliah : 52224603 Jumlah Halaman : 26 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

b. Variabel : Letakkan semua Variabel yang valid

Label case by : Letakkan nama responden

Cluster : Case

Display : statistic, plot

c. Statistik : agglomeration schedule

Page 21: Modul praktikum 3   cluster

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : Teknologi Industri Pertemuan ke : 3 Jurusan/Program Studi : Teknik Industri Modul ke : 3 Kode Mata Kuliah : 52224603 Jumlah Halaman : 26 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

d. Plots : klik Dendogram

Icicle : none

e. Method : Cluster Method Pilih nearest neighbor measure

Interval pilih Squared Euqliden Distance

Page 22: Modul praktikum 3   cluster

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : Teknologi Industri Pertemuan ke : 3 Jurusan/Program Studi : Teknik Industri Modul ke : 3 Kode Mata Kuliah : 52224603 Jumlah Halaman : 26 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

f. Klik save Cluster membership : none

3. Profilisasi Costumer

a. Input Data

- Variable View:

Page 23: Modul praktikum 3   cluster

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : Teknologi Industri Pertemuan ke : 3 Jurusan/Program Studi : Teknik Industri Modul ke : 3 Kode Mata Kuliah : 52224603 Jumlah Halaman : 26 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

- Data View

b. Pilih Analyze, klik Descriptive Statistic pilih crosstab

Page 24: Modul praktikum 3   cluster

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : Teknologi Industri Pertemuan ke : 3 Jurusan/Program Studi : Teknik Industri Modul ke : 3 Kode Mata Kuliah : 52224603 Jumlah Halaman : 26 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

c. Rows : Letakkan semua variabel profil ( variable Y )

d. Coloumns : Cluster member

e. Statistik : Correlation

Page 25: Modul praktikum 3   cluster

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : Teknologi Industri Pertemuan ke : 3 Jurusan/Program Studi : Teknik Industri Modul ke : 3 Kode Mata Kuliah : 52224603 Jumlah Halaman : 26 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

f. Cells Counts : observed , Percentage : total

g. Format Row order : ascending.

Page 26: Modul praktikum 3   cluster

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : Teknologi Industri Pertemuan ke : 3 Jurusan/Program Studi : Teknik Industri Modul ke : 3 Kode Mata Kuliah : 52224603 Jumlah Halaman : 26 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014 DAFTAR PUSTAKA

1. Han, Jiawei. ”Data Mining Concept and Technique”. Presentation.

http://www.cse.msu.edu/~cse980

2. Bertalya, ”Konsep Data Mining”. Universitas Gunadarma, 2009.

3. Walpole, Ronald E. Probability and Statistics for Engineers and Scientists.

4. http://www.wahana-statistika.com/analisis/analisis-multivariate/103-pengertian-analisis-

cluster.html

5. Tryfos,Peter, “Cluster Analysis”, 1997