analisis kluster

33
CLUSTER ANALYSIS KELOMPOK 5 1. GUSTI WIRA BAYUTAMA (2513204002) 2. NATHANIA NIWEDYA (2513201004) 3. SOFYAN MUZAKKI (2513204009) 4. NI PUTU WANSRI SEPTI DEWI (2513201010) 5. JAZILATUR RIZQIYAH DEVIABAHARI (2513203012) 1

Transcript of analisis kluster

Page 1: analisis kluster

CLUSTER ANALYSIS

KELOMPOK 5

1. GUSTI WIRA BAYUTAMA (2513204002)

2. NATHANIA NIWEDYA (2513201004)

3. SOFYAN MUZAKKI (2513204009)

4. NI PUTU WANSRI SEPTI DEWI (2513201010)

5. JAZILATUR RIZQIYAH DEVIABAHARI (2513203012)

1

Page 2: analisis kluster

WHAT IS CLUSTER ANALYSIS?

2

Analisis cluster adalah salah satu teknik multivariate untuk

mengelompokkan obyek berdasarkan kesamaan

karakteristik di antara obyek-obyek tersebut sehingga

obyek-obyek yang berada dalam satu cluster akan

mempunyai kemiripan satu sama lain.Ciri-ciri Cluster yang Baik

• Homogenitas internal (within cluster) : kesamaan

antar anggota dalam satu cluster.

• Heterogenitas external (between cluster): perbedaan

antara cluster yang satu dengan cluster yang lain.

• Representativeness of the sample : sampel yang

diambil dapat mewakili populasi yang ada.

• Multokolinieritas: Terdapat hubungan yang linier antar

variabel .

Asusmsi

Page 3: analisis kluster

CLUSTER ANALYSIS

3

MetodePengelompokan

HirarchicalClustering

Method

Single LinkageComplete Linkage

Average Linkage Ward’s Method Centroid Method

Non HirarchicalClustering

Method

K-Mean Method

Tidak baik

untuk

mengolah

sampel ukuran

besar

Untuk data sampel

ukuran besar

Page 4: analisis kluster

HIRARCHICAL CLUSTERING METHOD

4

Single Linkage Complete Linkage

Average Linkage Centroid Method

Page 5: analisis kluster

HIRARCHICAL CLUSTERING METHOD

5

1. Single Linkage didasarkan pada jarak minimum

(nearest neighbor ). Dimulai dengan dua objek yang

dipisahkan dengan jarak paling pendek maka keduanya

akan ditempatkan pada cluster pertama, dan seterusnya.

Example :

Jarak yang Paling

Minimum

Jarak antara

nearest neighbor

Page 6: analisis kluster

HIRARCHICAL CLUSTERING METHOD CONT…

6

Object 5 dan object 3 digabungkan, kemudian dicari terdekat

menuju object berikutnyaJarak yang

paling minimum

adalah dari

object (3,5) ke

object 1

Object (5,3) digabungkan

dengan object 1.

Page 7: analisis kluster

HIRARCHICAL CLUSTERING METHOD CONT…

7

Jarak yang

paling minimum

adalah dari

object (1,3,5) ke

object 4

Jarak yang

Paling

Minimum

Jarak

antar

cluster

Cluster 1 Cluster 2

DENDOGRAM

Page 8: analisis kluster

HIRARCHICAL CLUSTERING METHOD CONT…

2. Complete linkage dasarnya adalah jarak maksimum.

Dalam metode ini seluruh objek dalam suatu cluster dikaitkan

satu sama lain pada suatu jarak maksimuma atau dengan

kesamaan minimum.

8

Example :

Awalnya dicari Jarak

yang Paling Minimum

3 dan 5

didekatkan/digabungkan

Jarak antara most

distance members

dari cluster

Page 9: analisis kluster

HIRARCHICAL CLUSTERING METHOD CONT…

9

Jarak paling

minimum

adalah dari

object 4 ke 2

Jarak yang paling

minimum.

Sehingga (2,4)

didekatkan

dengan object 1

Cluster 1 Cluster 2

DENDOGRAM

Page 10: analisis kluster

HIRARCHICAL CLUSTERING METHOD CONT…

10

3. Average Linkage Dasarnya adalah jarak rata-rata

antar object. Dimana jarak antar cluster merupakan

jarak rata-rata antar object Jarak antara object ke i

dalam cluster (UV) dan

object ke j dalam cluster

(w)

Banyaknya item di cluster

(UV) dan W

Subject

Id

Income

($ thous.)

Educatio

n (years)

S1 5 5

S2 6 6

S3 15 14

S4 16 15

S5 25 20

S6 30 19

Example :

Page 11: analisis kluster

HIRARCHICAL CLUSTERING METHOD CONT…

11

Dengan menggunakan

euclidean distance

diperoleh jarak paling

minimum yaitu S1 dan

S2

Jarak paling

minimum selanjutnya

sehingga S3 dan S4

digabungkan

Page 12: analisis kluster

HIRARCHICAL CLUSTERING METHOD CONT…

12

4. Centroid Method mempertimbangkan jarak

centroid pada cluster.

dimana

nA dan nB masing-masing adalah

banyaknya data dalam set A dan B

Jarak antara

klaster A dan

klaster B adalah

jarak rata-rata

data x dan y dari

klaster A dan B

Example : Subject

Id

Income

($)

Educati

on

(years)

S1 5 5

S2 6 6

S3 15 14

S4 16 15

S5 25 20

S6 30 19

Page 13: analisis kluster

HIRARCHICAL CLUSTERING METHOD CONT…

13

Dengan

menggunakan

euclidean distance

dicari jarak paling

minimum yaitu (S1,

S2)

S1&S2 digabungkan

menjadi 1 klaster dengan

rata-rata income :

(5+6)/2 = 5,5 dan rata-

rata education : (5+6)/2 =

5,5

Page 14: analisis kluster

HIRARCHICAL CLUSTERING METHOD CONT…

14

Rata-rata income dan

education dari S3 dan

S4

Cluster 1 Cluster 2

DENDOGRAM

Page 15: analisis kluster

HIRARCHICAL CLUSTERING METHOD CONT…

15

5. Ward’s Method Dalam metode ini jarak antara dua

cluster adalah jumlah kuadrat antara dua cluster

untuk seluruh variabel.

dimana :

nA dan nB masing-masing adalah banyaknya data

dalam set A dan B

s2AB adalah jarak antara klaster A dan B menggunakan

centroid linkage

Metode ini bertujuan untuk meminimasi jumlah

kuadrat dalam cluster (within-cluster sum of square)

Page 16: analisis kluster

HIRARCHICAL CLUSTERING METHOD CONT…

16

Example : •ESS adalah error sum of square

ESS untuk S1 dan S2 :

(5-5,5)2+(6-5,5)2+(5-5,5)2+(6-5,5)2 = 1

Metode ward ini menghitung

kemungkinan tiap cluster

Cluster 1 Cluster 2

DENDOGRAM

Page 17: analisis kluster

NON HIRARCHICAL CLUSTERING METHOD

• K-MEAN CLUSTERING METHOD

: Dimulai dengan menentukan

terlebih dahulu jumlah cluster yang

diinginkan (dua, tiga, atau yang

lain). Setelah jumlah cluster

ditentukan, maka proses cluster

dilakukan tanpa mengikuti proses

hirarki.

• KELEBIHAN : Cukup efisien,

algoritma berhenti dalam kondisi

optimum.

• KELEMAHAN : Harus

menentukan jumlah cluster yang

dibentuk, tidak dapat menangani

data yang mengalami

penyimpangan (outlier).

17

Menentukan Banyaknya

cluster (K)

Menentukan pusat

(centroid )

Menghitung jarak object

ke pusat (centroid)

Mengelompokan object

berdasarkan jarak minimum

Terdapat object yang harus

dipindahkan

ya

Tidak

Selesai

Page 18: analisis kluster

K-MEAN CLUSTERING METHOD CONT ...

• ALGORITMA 1

• ALGORITMA 2

• ALGORITMA 3

18

DATA

Subject

Id

Income

($)

Educati

on

(years)

S1 5 5

S2 6 6

S3 15 14

S4 16 15

S5 25 20

S6 30 19

Page 19: analisis kluster

ALGORITMA 1

19

1. Tentukan jumlah cluster

(k) 2. Tentukan observasi yang menjadi centroid

sejumlah (k)

3. Menghitung jarak dari Cluster Centroids

D213= (5-15)2 + (5-14)2 = 181

Initial

Cluster

Centroid

S3, S4, S5, & S6

tergabung dalam

satu cluster

k = 3

Page 20: analisis kluster

ALGORITMA 1 CONT ...

• ITERASI 1

20

a. Mengubah Cluster Centroids

Rata-

rata

DATA

b. Menghitung jarak dari Cluster

Centroids

D213= (5-21,5)2 + (5-17)2 = 416,25

Iterasi selesai karena

Reassigment = Previous

Assigment

Page 21: analisis kluster

ALGORITMA 1 VS ALGORITMA 2

• ALGORITMA 1 : KITA BEBAS MENENTUKAN INITIAL

CLUSTER CENTROID

• ALGORITMA 2 : INITIAL CLUSTER CENTROID DIMODIFIKASI

• LANGKAH SELANJUTNYA SAMA

21

Page 22: analisis kluster

ALGORITMA 2

22

1. Tentukan jumlah cluster

(k) 2. Tentukan observasi yang menjadi centroid

sejumlah (k)

k = 3Initial

Cluster

Centroid

3. Modifikasi Initial Cluster Centroid

3.1 Tentukan jarak terkecil (selain nol) antar observasi

Jarak terkecil :

S1 & S2

Page 23: analisis kluster

23

3.2 Menetukan replacement seeds

S4 tidak dapat dijadikan replacement

seed karena jarak S1 dan S2 tidak

lebih kecil dari jarak S4 dengan seed

terdekat (S3).

S5 dijadikan replacement seed karena

jarak S1 dan S2 lebih kecil dari jarak

S5 dengan seed terdekat (S3).3.3 Cluster Centroid hasil modifikasi

S5 menggantikan seed S2

karena jarak S5 dan S2 lebih

kecil daripada S5 dan S1. 15

14 20

25

ALGORITMA 2 CONT...

Page 24: analisis kluster

ALGORITMA 2 CONT ...

• ITERASI 1

24

4. Menghitung jarak dari Cluster Centroids

D212= (5-15)2 + (5-14)2 = 181 D2

13= (5-25)2 + (5-20)2 = 625

a. Mengubah Cluster Centroids

S1 &

S2S3 & S4 S5 & S6

b. Menghitung jarak dari Cluster Centroids

D213= (5-27,5)2 + (5-19,5)2 = 716,5

Iterasi selesai karena

Reassigment = Previous

Assigment

Page 25: analisis kluster

ALGORITMA 3

• Initial seeds (Ci) ditentukan dengan rumus

25

• Reassigment berdasarkan minimum Error Sum of

Square (ESS)

• Sum(i) : total nilai semua variable tiap observasi

• Min : nilai terkecil sum(i) dari data

• Max : nilai terbesar sum(i) dari data

• K : jumlah cluster

Page 26: analisis kluster

26

1. Menentukan Initial Cluster melalui rumus

Ci

Sum (1) = income (1) + Education

(1)

= 5 + 5 = 10

𝐶4 =(31 − 10)(3 − 0,0001)

49 − 10+ 1 = 2,61 ≈ 2

𝐶2 =(12 − 10)(3 − 0,0001)

49 − 10+ 1 = 1,15 ≈ 1

ALGORITMA 3 CONT ...

Page 27: analisis kluster

27

2. Reassignment cluster melalui ESS

• S1 jika dipindah ke cluster 3

Subject berpindah cluster menuju cluster

dengan perubahan ESS yang paling

negatif

Cluster sudah

optimal karena

reassignment =

previous

assignment

ALGORITMA 3 CONT ...

Page 28: analisis kluster

SIMILARITY MEASURES

28

• Similarity measures dapat

diklasifikasikan menjadi tiga

bentuk :

1. Distance measures

2. Association coefficient

3. Correlation coefficientDistance Measures

Terdapat beberapa metode dalam

mengukur jarak, seperti

Euclidean; Minkowski; City-

block; Mahalanobis; dan lain

sebagainya.

1. Euclidean Distance untukmengukur similarity Jarak euclidean antara titik i dengan j dalam dimensi p :

2. Minkowski Metric general

metric dari Euclidean

distance.

Dij adalah jarak antara titik i dengan j dan p adalah jumlah

variable

Jika n = 2 akan menghasilkan

euclidean distance, maka n = 1

akan menghasilkan city-block

distance

Page 29: analisis kluster

29

3. City-block or manhattan

distance bentuk khusus dari

minkowski metric dengan n = 1.

Menghitung Jarak Dengan

menggunakan euclidean

distance :

D122 = (5-6)2 + (5-6)2 = 2

D12 = 1,41Dengan menggunakan city-block

distance :

D12 = I5-6I + I5-6I = 2

SIMILARITY MEASURES CONT...

Example

:

Page 30: analisis kluster

SIMILARITY MEASURES CONT...

30

4. Mahalanobis Distance

menghitung korelasi diantara

variabel.

dimana Σ adalah covariance

matrix

Dalam hal Σ = 1, maka jarak ini

menjadi Euclidean

variable yang tidak berkorelasi

mahalanobis distance mengurangi

euclidean distance untuk

unstandardized data.

sehingga euclidean distance untuk

standardized data merupakan bentuk

khusus dari mahalanobis distance.

Page 31: analisis kluster

31

CORRELATION COEFFICIENT

• Untuk mengukur similarity juga

dapat menggunakan pearson

product moment correlation

coefficient.

• Baik correlation coefficient

maupun association coefficient

merupakan bentuk dissimilarity,

dimana nilai tertinggi

menunjukkan similarity dan

kebalikannya.

• Koefisien korelasi dapat dengan

mudah dirubah ke bentuk

similarity dengan menambahkan

variabel satu dengan yang lain,

namun tidak bisa untuk beberapa

properti dari true metric yang lain.

Association Coefficient

digunakan untuk menunjukkan

similarity untuk variabel biner.

Untuk data biner dapat

menggunakan ukuran seperti

polychoric correlation atau

simple matching coefficients

atau variasi untuk

menunjukkan similarity antar

observasi. 1 0

1 a b

0 c d

a, b, c, d adalah frekuensi

kejadian, similarity antara 2

variabel tersebut adalah :

dcba

da

Example

:

Page 32: analisis kluster

RELIABILITY AND EXTERNAL VALIDITY

32

Reliability

Salah satu indikator reliability adalah degree of

agreement antara assignment dengan analisis klaster.

External Validity diperoleh dengan

membandingkan hasil dari analisis klaster dengan

kriteria eksternal.

Misalnya mengelompokkan perusahaan berdasarkan

rasio keuangan sehingga diperoleh 2 klaster, yaitu

perusahaan yang sehat secara finansial dan

perusahaan yang tidak sehat secara finansial.

Page 33: analisis kluster

33

Thank you

for

your attention