5a IB Analisis Cluster

35
1 ANALISIS CLUSTER

description

materi perkuliahan

Transcript of 5a IB Analisis Cluster

Page 1: 5a IB Analisis Cluster

1

ANALISIS CLUSTER

Page 2: 5a IB Analisis Cluster

2

DEFINISI

Untuk mengidentifikasi sekelompok obyek (case atau variabel) yang memiliki kemiripan karakteristik tertentu yang dapat dipisahkan dari kelompok obyek lainnya.

Jumlah kelompok yang dapat diidentifikasi tergantung pada jumlah dan variasi data obyek.

Page 3: 5a IB Analisis Cluster

3

TUJUAN

Mengelompokkan sekumpulan obyek (case atau variabel) ke dalam beberapa kelompok (cluster) yang memiliki karakteristik tertentu dan dapat dibedakan satu sama lain untuk analisis dan interpretasi lebih lanjut sesuai dengan tujuan penelitian yang dilakukan.

Page 4: 5a IB Analisis Cluster

4

PRINSIP DASAR

Pengelompokkan/pemisahan dilakukan berdasarkan similarity (kesamaan) antar obyek.

Similarity (kesamaan) diperoleh dengan meminimalkan jarak antar obyek dalam kelompok (within cluster) dan memaksimalkan jarak antar kelompok (between cluster).

Pengukuran jarak (distance-type measure) digunakan untuk data-data yang bersifat metrik, sementara pengukuran kesesuaian (matching-type measure) digunakan untuk data-data yang bersifat kualitatif.

Page 5: 5a IB Analisis Cluster

5

INPUT DATA

Data yang menjadi input untuk proses cluster dapat berupa data nominal, ordinal, interval, maupun rasio.

Apabila data bersifat campuran, maka kita memperlakukan seluruh data sebagai data rasio.

Bila data berbentuk nominal atau ordinal saja, maka perhitungan kemiripan (similarity) tidak menggunakan jarak tetapi menggunakan metoda yang lain (misalnya matching-type measures)

Sebaiknya set data obyek memiliki variabel dengan tipe yang sejenis, tidak bercampur antara tipe yang satu dengan yang lainnya.

Page 6: 5a IB Analisis Cluster

6

TAHAPAN PEMBENTUKAN CLUSTER

Tahap-tahap pembentukan cluster secara umum sebagai berikut :

STEP 1 : Terdapat data mentah berupa matriks dengan n obyek dan p variabel (sebaiknya jumlah obyek > jumlah variabel).

STEP 2 : Mentransformasikan matriks data mentah (n x p) menjadi matriks jarak antar obyek (n x n) dengan menggunakan metode penghitungan jarak.

Page 7: 5a IB Analisis Cluster

7

TAHAPAN PEMBENTUKAN CLUSTER (Lanjutan……)

STEP 3 : Pembentukan cluster dilakukan dengan menggunakan metoda tertentu (hierarchical clusters atau mutually exclusive clusters).

STEP 4 : Mendiskripsikan profil cluster yang terbentuk.

Page 8: 5a IB Analisis Cluster

8

DIAGRAM PEMBENTUKAN CLUSTER (Lanjutan…)

Pengambilan p pengukuran variabelpada obyek

Pembentukan matriks data mentahberukuran n x p

Pembentukan matriks similaritasBerukuran n x n

Pemilihan algoritma pengelompokan

Cluster

Interpretasi dan deskripsi

Page 9: 5a IB Analisis Cluster

9

METODA PERHITUNGAN JARAK

Asumsikan data mentah yang telah diperoleh dari n obyek atau individu. Tiap obyek diwakili oleh sebuah vektor observasi x

, =

(x1, x2, ….., xp) pada p variabel. Untuk selanjutnya notasi x,

i = (xi1, xi2,….,xip) menunjukkan pengukuran pada obyek atau individu ke-i

Terdapat jenis ukuran jarak untuk tipe data interval, frekuensi dan biner.

1. Interval

Beberapa pengukuran jarak biasanya menggunakan jarak Minkowski yang didefinisikan :

Page 10: 5a IB Analisis Cluster

10

METODE PENGHITUNGAN JARAK (Lanjutan…..)

dij menunjukkan jarak antara dua obyek i dan j. Jika r = 2, maka diperoleh jarak euclidean yang dirumuskan sebagai berikut :

Jarak euclidian yang dikuadratkan akan menjadi square euclidian distance.

Jika r = 1, akan diperoleh jarak absolut atau jarak city-block yang dirumuskan sebagai berikut :

rp

k

r

jkikij XXd

1

1

2

1

1

2

p

kjkikij XXd

Page 11: 5a IB Analisis Cluster

11

METODE PERHITUNGAN JARAK (Lanjutan…….)

Penggunaan jarak city-block menghasilkan perhitungan jarak dua obyek sama tanpa memperhatikan apakah obyek tersebut berbeda dua satuan, misalnya pada dua variabel, atau berbeda satu satuan pada variabel pertama dan tiga satuan pada variabel yang keempat, dst. (tentunya dengan asumsi bahwa skala antar variabel sama).

Kekurangan dari metode jarak euclidean adalah bahwa hasil perhitungan dapat terdistorsi akibat perubahan atau perbedaan skala perhitungan.

p

kjkikij XXd

1

Page 12: 5a IB Analisis Cluster

12

METODE PERHITUNGAN JARAK (Lanjutan…..)

2. Frekuensi Metoda pengukuran jarak yang biasa digunakan adalah chi-

square Metoda lainnya adalah phi-square.

3. BinerMetoda pengukuran jarak untuk data biner antara lain adalah square euclidian distance, euclidian distance, size difference, pattern difference,variance shape, Lance and Williams serta Present and Absent.

Page 13: 5a IB Analisis Cluster

13

METODA PEMBENTUKAN CLUSTER

Secara garis besar, terdapat dua metoda pembentukan cluster, yakni :

Metoda hirarki (hierarchical methods)

Metoda partisi (partitioning methods)

Perbedaan antara kedua metoda tersebut adalah dalam pengalokasian obyek ke dalam cluster.

Pada metode hirarki, jika suatu obyek dikelompokkan ke dalam suatu cluster, maka obyek tersebut akan tetap berada di dalam cluster tersebut, sehingga ketika obyek tadi akan dikelompokkan dengan obyek lain, clusternya akan ikut dikelompokkan pula.

Page 14: 5a IB Analisis Cluster

14

METODA PEMBENTUKAN CLUSTER (Lanjutan….)

Pada metoda partisi, posisi obyek di dalam suatu cluster tidaklah tetap. Artinya meskipun suatu obyek telah masuk ke dalam suatu cluster, obyek tersebut dapat mengalami realokasi (pengelompokan kembali) ke dalam cluster lain apabila ternyata karakteristik awal pengelompokkan tidak akurat.

METODA HIRARKI Metoda hirarki adalah teknik pengelompokan yang membentuk konstruksi hirarki atau berdasarkan tingkatan tertentu seperti struktur pohon, sehingga proses pengelompokan dilakukan secara bertingkat dan bertahap.

Page 15: 5a IB Analisis Cluster

15

METODA PEMBENTUKKAN CLUSTER (Lanjutan…..)

Metoda hirarki terbagi lagi menjadi dua, yakni :A. Metoda aglomeratif ( agglomerative methods)B. Metoda divisif (divisive methods)

A. METODA AGLOMERASI Pada metoda aglomerasi, mula-mula setiap obyek membentuk

cluster masing-masing. Kemudian dua obyek dengan jarak terdekat bergabung menjadi

satu cluster. Selanjutnya obyek lain akan bergabung dengan cluster yang

ada atau obyek lain, membentuk cluster baru dengan tetap memperhitungkan jarak kedekatan antar obyek.

Page 16: 5a IB Analisis Cluster

16

METODE PEMBENTUKAN CLUSTER (Lanjutan…)

Proses berlangsung terus sampai akhirnya terbentuk satu cluster yang terdiri atas semua obyek.

Beberapa prinsip kemiripan (similarity) antara obyek dalam bentuk jarak (distance) yang digunakan adalah :

1. Single Linkage (Nearest Neighbor Method) Prinsip yang digunakan adalah aturan jarak minimum dalam

pembentukan cluster.2. Complete Linkage (Furthest Neighbor Method) Metoda ini merupakan kebalikan pendekatan yang digunakan

pada single linkage. Prinsip yang digunakan adalah aturan jarak terjauh antar obyek.

Page 17: 5a IB Analisis Cluster

17

METODA PEMBENTUKAN CLUSTER (Lanjutan….)

3. Average Linkage Between Group Method (UPGMA = Unweighted Pair-Group Method using Arithmetic Averages)

Jarak antara dua cluster yang digunakan pada metoda ini merupakan jarak rata-rata antara semua pasangan obyek yang mungkin dari dua buah cluster.

4. Average Linkage Within –Group Method. Merupakan variasi UPGMA. Perbedaannya terletak pada cara

pembentukan cluster sehingga rata-rata jarak antar cluster adalah yang terkecil.

Sebagaimana UPGMA, metoda ini memperhitungkan rata-rata jarak semua pasangan obyek yang terdapat dalam dua cluster.

Page 18: 5a IB Analisis Cluster

18

METODA PEMBENTUKAN CLUSTER (Lanjutan….)

5. Ward’s Error Sum of Squares Method Ward mengajukan suatu metoda pembentukan cluster yang

didasari oleh hilangnya informasi akibat penggabungan obyek antar cluster.

6. Centroid Method Metoda ini mendefinisikan jarak antara dua buah cluster sebagai

jarak antara rataan tiap cluster (centroid) terhadap variabel.

7. Median Method Metoda ini mirip dengan centroid method. Perbedaannya

terletak pada perhitungan centroid-nya yang tidak menggunakan bobot. Artinya bahwa perhitungan rataan tiap cluster tidak memperhitungkan ukuran suatu cluster.

Page 19: 5a IB Analisis Cluster

19

METODA PEMBENTUKAN CLUSTER (Lanjutan…..)

B. METODA DIVISIF Metoda divisif (divisive methods) merupakan kebalikan dari

agglomerative method. Langkah awalnya dilakukan dengan membagi n obyek menjadi

dua cluster. Lalu, tiap cluster tersebut dibagi atas dua kelompok lagi, dan seterusnya sehingga akan terdapat n buah cluster yang berisikan hanya satu obyek atau n buah cluster yang diinginkan.

Page 20: 5a IB Analisis Cluster

20

METODA PEMBENTUKAN CLUSTER (Lanjutan…..)

II. METODA PARTISI Berbeda dengan metoda hirarki, prosedur non-hirarki dimulai

dengan memilih sejumlah nilai cluster sesuai dengan jumlah yang diinginkan kemudian obyek digabungkan ke dalam cluster-cluster tersebut.

Prosedur analisis cluster k-means digunakan untuk mengelompokkan sejumlah kasus yang besar (>200 kasus) dengan lebih efisien.

Metoda ini berdasarkan nearest centroid sorting yaitu pengelompokan berdasarkan jarak terkecil antara kasus dan pusat dari cluster.

Page 21: 5a IB Analisis Cluster

21

INTERPRETASI

Pada tahap ini hasil pengelompokan berupa cluster-cluster diinterpretasikan sesuai nilai karakteristik yang terkandung dalam obyek-obyeknya.

Biasanya interpretasi berdasarkan nilai rata-rata dari karakteristik obyek dalam cluster.

Pada tahap ini yang perlu diperhatikan ialah karakteristik apa yang membedakan masing-masing cluster tersebut.

Interpretasi dapat dilakukan dari grafik dendogram maupun analisis koefisien aglomerasi. Dendogram merupakan suatu diagram pohon yang menggambarkan penggabungan atau pemisahan obyek menjadi cluster dalam tiap tahap pemrosesan.

Page 22: 5a IB Analisis Cluster

22

INTERPRETASI (Lanjutan……)

sedangkan jarak antar pengelompokan merupakan interpretasi dari beberapa nilai kedekatan penggabungan obyek ke dalam cluster.

Cluster yang telah terbentuk diuji dengan membandingkan hasil yang diperoleh dengan algoritma yang berbeda. Misalnya dengan membandingkan hasil yang diperoleh melalui metoda hirarki dengan hasil dari metoda non-hirarki. Apabila terdapat perbedaan hasil yang cukup signifikan maka cluster yang terbentuk masih belum dapat dikatakan valid karena tidak dapat diterapkan secara umum.

Page 23: 5a IB Analisis Cluster

23

Contoh :Data hasil survei dari sebuah penelitian mengenai produk minuman “beer” dari beberapa perusahaan. Atribut data yang disurvei meliputi nama produk, kadar kalori, kadar sodium, kadar alkohol, serta harga satuan produk.

Page 24: 5a IB Analisis Cluster

24

Data Dasarnama produk kadar kal kad sod kad alkh harga sat B/W 144 15 4.7 .43SCHIL 151 19 4.9 .43LOWEN 157 15 4.9 .48KBOURG 170 7 5.2 .73HEIN 152 11 5.0 .77OLD MIL 145 23 4.6 .03AUSBIR 175 24 5.5 .40STROHS 149 27 4.7 .42MILLER 99 10 4.3 .43B/W LIGHT 113 8 3.7 .44COORS 140 18 4.6 .44COORS LIGHT 102 15 4.1 .46MICH LIGT 135 11 4.2 .50BECKS 150 19 4.7 .76KIRIN 149 6 5.0 .79PAB EX 68 15 2.3 .38HAMMS 136 19 4.4 .43HEILMAN 144 24 4.9 .43OLYMPIA 72 6 2.9 .46SCHIL LIGHT 97 7 4.2 .47

Page 25: 5a IB Analisis Cluster

25

Entri data dalam SPSS

Page 26: 5a IB Analisis Cluster

26

Proses Perhitungan

Page 27: 5a IB Analisis Cluster

27

Proses Perhitungan

Klik save

Page 28: 5a IB Analisis Cluster

28

Proses Perhitungan

Klik options…

Page 29: 5a IB Analisis Cluster

29

Proses Perhitungan

Page 30: 5a IB Analisis Cluster

30

Hasil Perhitungan

Initial Cluster Centers

68 175

15 24

2.3 5.5

.38 .40

CALORIES

SODIUM

ALCOHOL

COST

1 2

Cluster

Iteration Historya

24.352 26.177

.000 .000

Iteration1

2

1 2

Change in ClusterCenters

Convergence achieved due to no or small distancechange. The maximum distance by which any centerhas changed is .000. The current iteration is 2. Theminimum distance between initial centers is 107.426.

a.

Cluster yang pertama kali

terbentuk

K-mean cluster akan menguji hasil dengan

iterasi

Page 31: 5a IB Analisis Cluster

31

Hasil Perhitungan (lanjutan)

Final Cluster Centers

92 150

10 17

3.6 4.8

.44 .50

CALORIES

SODIUM

ALCOHOL

COST

1 2

Cluster

Hasil Akhir nilai cluster

Page 32: 5a IB Analisis Cluster

32

Hasil Perhitungan (lanjutan)ANOVA

14105.610 1 182.733 18 77.193 .000

196.117 1 34.824 18 5.632 .029

6.290 1 .260 18 24.206 .000

.017 1 .030 18 .545 .470

CALORIES

SODIUM

ALCOHOL

COST

Mean Square df

Cluster

Mean Square df

Error

F Sig.

The F tests should be used only for descriptive purposes because the clusters have been chosento maximize the differences among cases in different clusters. The observed significance levelsare not corrected for this and thus cannot be interpreted as tests of the hypothesis that the clustermeans are equal.

•Sig>0,05 tdk ada perbedaan antara cluster 1 dan 2•Sig<0,05 kebalikannya

Yang berpengaruh hanya variabel:Calories, Sodium dan Alcohol

•Semakin besar F semakin besar perbedaan cluster 1 dan cluster 2

Page 33: 5a IB Analisis Cluster

33

Hasil Perhitungan (lanjutan)

Number of Cases in each Cluster

6.000

14.000

20.000

.000

1

2

Cluster

Valid

Missing

Jumlah masing-masing cluster

Page 34: 5a IB Analisis Cluster

34

Hasil Perhitungan (lanjutan)

Final Cluster Centers

92 150

10 17

3.6 4.8

.44 .50

CALORIES

SODIUM

ALCOHOL

COST

1 2

ClusterCalories:

membedakan produk yang

masuk di cluster 1 dan 2.

kandungan di cluster 2 lebih

besar dari pada di cluster 1

Page 35: 5a IB Analisis Cluster

35

Hasil Pengelompokkan AkhirKel cluster

22222222112122212211

nama produk kadar kal kad sod kad alkh harga sat

B/W 144 15 4.7 .43SCHIL 151 19 4.9 .43LOWEN 157 15 4.9 .48KBOURG 170 7 5.2 .73HEIN 152 11 5.0 .77OLD MIL 145 23 4.6 .03AUSBIR 175 24 5.5 .40STROHS 149 27 4.7 .42MILLER 99 10 4.3 .43B/W LIGHT 113 8 3.7 .44COORS 140 18 4.6 .44COORS LIGHT 102 15 4.1 .46MICH LIGT 135 11 4.2 .50BECKS 150 19 4.7 .76KIRIN 149 6 5.0 .79PAB EX 68 15 2.3 .38HAMMS 136 19 4.4 .43HEILMAN 144 24 4.9 .43OLYMPIA 72 6 2.9 .46SCHIL LIGHT 97 7 4.2 .47