ANALISIS PENGELOMPOKAN OBJEK DENGAN METODE … · Clustering dan Diskriminan Linear untuk Kasus Dua...

ANALISIS PENGELOMPOKAN OBJEK DENGAN METODE SINGLE LINKAGE CLUSTERING

DAN DISKRIMINAN LINEAR UNTUK KASUS DUA KELOMPOK

MELINDA

DEPARTEMEN MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR BOGOR

2006

ANALISIS PENGELOMPOKAN OBJEK DENGAN METODE SINGLE LINKAGE CLUSTERING

DAN DISKRIMINAN LINEAR UNTUK KASUS DUA KELOMPOK

MELINDA

Skripsi Sebagai salah satu syarat untuk memperoleh gelar

Sarjana Sains pada Departemen Matematika

DEPARTEMEN MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR BOGOR

2006

ABSTRAK

MELINDA. Analisis Pengelompokan Objek dengan Metode Single Linkage Clustering dan Diskriminan Linear untuk Kasus Dua Kelompok. Dibimbing oleh MUHAMMAD NUR AIDI dan RETNO BUDIARTI.

Banyak keragaman yang dapat dijumpai pada kehidupan ini sehingga pengelompokan suatu objek yang relatif homogen selalu menjadi permasalahan yang menarik. Analisis cluster merupakan teknik multivariat yang tujuan utamanya mengelompokkan objek-objek berdasarkan kesamaan karakteristik di antara objek-objek tersebut. Ciri pengelompokan yang baik, pertama terdapat kesamaan yang tinggi antar anggota dalam satu kelompok. Kedua, antar kelompok yang satu dengan kelompok lainnya memiliki perbedaan yang tinggi.

Terdapat beberapa metode dalam analisis cluster, salah satu diantaranya adalah metode hierarki yang akan mengelompokkan objek-objek secara bertingkat. Metode agglomeratif merupakan metode hierarki yang sering dipakai untuk suatu data metrik. Metode ini secara algoritma akan mengelompokkan objek-objek berdasarkan tingkat kesamaan antar objek-objek dari yang terdekat sampai akhirnya semua objek berada dalam sebuah kelompok. Jarak antara suatu kelompok terhadap kelompok lainnya dihitung sebagai jarak minimum antara anggota kelompok pertama dengan anggota kelompok lainnya, metode pengukuran ini disebut sebagai single linkage clustering merupakan metode yang paling sederhana.

Kevalidan hasil pengelompokan dengan metode yang digunakan perlu agar tidak terjadi kesalahan (misklasifikasi) yang cukup besar terutama pada saat menentukan strategi dari tujuan dilakukannya analisis cluster. Analisis diskriminan merupakan metode yang dapat digunakan untuk menguji kevalidan hasil dari metode yang digunakan pada analisis cluster dan juga merupakan analisis lanjutan untuk menentukan fungsi setiap kelompok yang terbentuk (fungsi diskriminan). Dari fungsi diskriminan dapat dengan mudah menentukan kelompok untuk suatu objek baru. Fungsi ini dapat diperoleh dari persamaan yang akan meminimumkan nilai expected cost of misclassification (ECM).

Pengelompokan tujuh belas kabupaten/kota di Jawa Barat berdasarkan tiga indikator sosial ekonomi pada tahun 2002, yaitu upah minimum kabupaten/kota (UMK), persentase tingkat pengangguran, dan laju pertumbuhan ekonomi ke dalam dua kelompok menghasilkan fungsi diskriminan 321 5153,00993,20694,6 xxxy ++= . Fungsi diskriminan yang diperoleh mempunyai ketepatan mengklasifikasikan kasus sebesar 94,12%. Maka, fungsi ini dapat digunakan untuk mengelompokkan sebuah kabupaten/kota berdasarkan ketiga indikator tersebut ke dalam kelompok dengan tingkat sosial ekonomi menengah ke bawah atau menengah ke atas.

Judul Skripsi : Analisis Pengelompokan Objek dengan Metode Single Linkage

Clustering dan Diskriminan Linear untuk Kasus Dua Kelompok Nama : Melinda NIM : G54101010

Menyetujui:

Pembimbing I Pembimbing II

Dr. Ir. Muhammad Nur Aidi, MS. Ir. Retno Budiarti, MS. NIP. 131842408 NIP. 131842409

Mengetahui:

Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor

Prof. Dr. Ir. Yonny Koesmaryono, MS. NIP. 131473999

Tanggal Lulus : 27 September 2006

PRAKATA

Alhamdulillah, puji dan syukur penulis panjatkan kepada Allah SWT atas segala limpahan rahmatNya sehingga karya ilmiah ini berhasil diselesaikan. Shalawat dan salam semoga tercurah kepada Rasulullah SAW.

Selama menyusun karya ilmiah, penulis banyak mendapatkan bimbingan dan bantuan dari berbagai pihak. Dalam kesempatan ini, penulis mengucapkan terima kasih kepada Bapak Dr. Ir. Muhammad Nur Aidi, MS., dan Ibu Ir. Retno Budiarti, MS. selaku pembimbing serta Bapak Dr. Ir. I Gusti Putu Purnaba, DEA. selaku penguji. Ungkapan terima kasih juga disampaikan kepada kedua orang tua dan seluruh keluarga tercinta atas do’a dan kasih sayangnya. Selain itu, penulis juga menghaturkan terima kasih kepada seluruh staf dan dosen Departemen Matematika IPB. Terima kasih kepada semua teman Matematika 38, kost-an Al-Mardhiyah, dan semua pihak yang telah membantu kelancaran karya ilmiah ini atas do’a, perhatian, dan dukungan yang diberikan.

Semoga karya ilmiah ini bermanfaat dalam bidang ilmu pengetahuan.

Bogor, September 2006

Melinda

RIWAYAT HIDUP

Penulis dilahirkan di Sumedang, 20 Oktober 1983 sebagai anak pertama dari 3 bersaudara dari pasangan Iman Arfiman dan Euis Suharyati.

Pada tahun 1995 penulis menyelesaikan sekolah di SDN Gudang Kopi 2 Sumedang dan tahun 1998 penulis menyelesaikan sekolahnya di SMPN 8 Sumedang. Pada tahun sama, penulis melanjutkan sekolah ke SMUN 2 Sumedang dan lulus pada tahun 2001. Pada tahun tersebut penulis diterima di IPB Departemen Matematika melalui jalur USMI.

Selama perkuliahan, penulis terlibat sebagai pengurus Himpro Departemen Matematika (GUMATIKA) dan TKA Al-Fikri. Selain itu penulis pernah bekerja sebagai staf administrasi pada Yayasan Kirana Indonesia.

DAFTAR ISI

Halaman

DAFTAR TABEL......................................................................................................................... viii

DAFTAR GAMBAR .................................................................................................................... viii

DAFTAR LAMPIRAN..................................................................................................................viii PENDAHULUAN

Latar Belakang .......................................................................................................................1 Tujuan .............................................................................................................. 1

LANDASAN TEORI ................................................................................................. 1 METODE DAN PEMBAHASAN

Analisis Cluster .......................................................................................................................5 Analisis Diskriminan ..............................................................................................................7 Contoh Kasus .........................................................................................................................11

SIMPULAN ..................................................................................................................................14

DAFTAR PUSTAKA ....................................................................................................................15 LAMPIRAN...................................................................................................................................16

DAFTAR TABEL

Halaman

1 Pengelompokan objek berdasarkan jumlah kelompok yang diinginkan.................................... 6 2 Upah minimum kabupaten/kota (UMK), persentase tingkat pengangguran, dan laju

pertumbuhan ekonomi (LPE) 14 kabupaten/kota di Jawa Barat pada tahun 2002 ....................11 3 Upah minimum kabupaten/kota (UMK), persentase tingkat pengangguran, dan laju

pertumbuhan ekonomi (LPE) Kab. Sumedang, Kab. Bogor, dan Kab. Purwakarta pada tahun 2002 .................................................................................................................................13

4 Nilai diskriminan masing-masing kabupaten/kota.....................................................................14

DAFTAR GAMBAR

Halaman

1 Jarak antar kelompok untuk single linkage clustering .............................................................. 5 2 Contoh Dendogram .................................................................................................................. 6

DAFTAR LAMPIRAN

Halaman

1 ANALISIS CLUSTER

1.1 Nilai standarisasi upah minimum kabupaten/kota (UMK), persentase tingkat pengangguran, dan laju pertumbuhan ekonomi (LPE) pada tahun 2002........................16

1.2 Matriks jarak euclid antar kabupaten/kota ( matriks kasamaan).....................................17 1.3 Tabel tahap agglomeratif dengan single linkage clustering ...........................................19 1.4 Tabel anggota kelompok untuk 4, 3, dan 2 pengelompokan ..........................................20 1.5 Gambar dendogram single linkage clustering untuk jarak antar kabupaten/kota ...........21 1.6 Diagram pencar UMK, tingkat pengangguran, dan LPE................................................22

2 ANALISIS DISKRIMINAN 2.1 Nilai standarisasi upah minimum kabupaten/kota (UMK), persentase tingkat

pengangguran, dan laju pertumbuhan ekonomi (LPE) kelompok pertama dan kelompok kedua .............................................................................................................23

2.2 Hasil uji beda vektor rataan antar kelompok ..................................................................24 2.3 Hasil uji asumsi kenormalan variabel UMK, tingkat pengangguran, dan LPE ..............25 2.4 Hasil uji asumsi kehomogenan matriks kovarian kelompok pertama dengan

kelompok kedua LPE .....................................................................................................27

PENDAHULUAN Latar Belakang

Banyak keragaman yang dapat dijumpai pada kehidupan ini sehingga pengelompokan suatu objek yang relatif homogen selalu menjadi permasalahan yang menarik. Salah satu alasan pengelompokan adalah untuk memperoleh contoh data yang dapat mewakili populasi atau dapat menggambarkan karakteristik objek dalam populasi yang dikelompokkan.

Analisis cluster merupakan teknik multivariat yang tujuan utamanya mengelompokkan objek-objek berdasarkan kesamaan karakteristik di antara objek-objek tersebut. Analisis ini dapat bermanfaat dan diterapkan pada berbagai bidang ilmu, seperti : geografi, psikologi, biologi, manajemen dan lain sebagainya. Objek yang diamati dapat berupa produk (barang dan jasa), benda (tumbuhan atau lainnya) serta orang (responden, konsumen atau yang lain).

Ciri pengelompokan yang baik, pertama terdapat kesamaan yang tinggi antar anggota dalam satu kelompok (intra kelompok). Kedua, antar kelompok yang satu dengan kelompok lainnya (inter kelompok) memiliki perbedaan yang tinggi. Salah satu metode analisis cluster adalah dengan metode

hierarki. Metode hierarki yang banyak dipakai untuk suatu data metrik adalah metode agglomeratif. Adapun, setelah diperoleh hasil pengelompokan perlu dilakukan validasi dengan membandingkan hasil yang diperoleh terhadap metode lainnya ataupun dapat dilakukan suatu analisis lanjutan seperti analisis diskriminan. Analisis diskriminan selain itu berguna untuk memperoleh fungsi yang dapat menunjukkan perbedaan (diskriminasi) antar kelompok.

Pada tulisan ini akan dibahas proses pengelompokan objek secara agglomeratif dengan menggunakan metode paling sederhana yaitu, single linkage clustering serta menguraikan analisis diskriminan untuk mengevaluasi objek pada kasus dua kelompok. Contoh pengolahan data pada tulisan ini menggunakan software SPSS. Tujuan

Tujuan dari penulisan ini adalah menguraikan dan mempelajari proses pengelompokan suatu objek dengan menggunakan single linkage clustering. Serta bagaimana proses mengevalusi suatu objek pada kelompok yang terbentuk dengan analisis diskriminan.

LANDASAN TEORI

Berikut ini beberapa pokok bahasan

berupa definisi dan teorema yang dijadikan landasan dalam penyusunan tulisan ini. Definisi 1 (Analisis Cluster) Analisis cluster merupakan alat untuk membangun kelompok-kelompok (cluster) dari objek data multivariat.

(Härdle & Simar 2003) Definisi 2 (Analisis Diskriminan) Analisis diskriminan merupakan metode dan alat yang digunakan untuk membedakan antar kelompok serta berguna untuk menentukan proses mengalokasikan objek baru ke dalam kelompok.

(Härdle & Simar 2003) Definisi 3 (Single Linkage Clustering) Single linkage clustering mendefinisikan bahwa jarak antar kelompok merupakan jarak terdekat dari anggota kelompok pertama dengan anggota kelompok lainnya.

(Hair, Anderson, Tatham, & Black 1998)

Definisi 4 (Ruang Contoh) Ruang contoh adalah himpunan dari semua kemungkinan hasil suatu percobaan, dinotasikan Ω .

(Hogg & Craig 1995) Definisi 5 (Peubah Acak) Peubah acak X adalah suatu fungsi yang memetakan masing-masing elemen pada ruang contoh tepat satu ke bilangan real, dinotasikan X: R→Ω .

(Hogg & Craig 1995) Definisi 6 (Jarak Euclid) Jarak euclid untuk n objek dapat didefinisikan,

2...

222

211 ⎟

⎠⎞⎜

⎝⎛ −++⎟

⎠⎞⎜

⎝⎛ −+⎟

⎠⎞⎜

⎝⎛ −= jkxikxjxixjxixdij

dimana: i, j= 1, 2, ..., n dij = jarak euclid antara objek ke-i dengan objek ke-j xik = objek ke-i untuk variabel ke-k xjk = objek ke-j untuk variabel ke-k

(Johnson & Wichern 1998)

Definisi 7 ( Rataan) Misalkan x1, x2, ..., xn, objek pengamatan, rataannya

n

n

iix

µ∑== 1

dimana: µ = rataan untuk n objek pengamatan xi = objek pengamatan ke-i n = jumlah objek yang diamati

(Moore 1994) Definisi 8 (Ragam) Ragam untuk n objek pengamatan x1, x2, ..., xn didefinisikan sebagai

( )1

1

2

2

−

∑=

µ−

=n

n

iix

S

dimana: S2 = ragam untuk n objek pengamatan

S = 2S = simpangan baku untuk n objek pengamatan µ = rataan untuk n objek pengamatan xi = objek pengamatan ke-i

(Moore 1994) Definisi 9 (Koefisien Korelasi) Korelasi antara variabel xl dan xk,

⎟⎟⎠

⎞⎜⎜⎝

⎛ µ−∑ ⎟⎟

⎠

⎞⎜⎜⎝

⎛ µ−−

== k

kikn

i l

lillk S

xS

xn

r11

1

dimana: rlk = korelasi antara variabel ke-l dan ke-k Sl = simpangan baku untuk variabel ke-l Sk = simpangan baku untuk variabel ke-k

lµ = rataan untuk variabel ke-l

kµ = rataan untuk variabel ke-k xil = objek ke i untuk variabel ke-l xik = objek ke i untuk variabel ke-k

(Moore 1994) Definisi 10 (Kovarian) Kovarian antara variabel xl dan xk,

( ) kllkkl SSrx,x =cov dimana: cov(xl ,xk) = kovarian antara variabel ke-l dan ke-k rlk = korelasi antara variabel ke-l dan ke-k Sl = simpangan baku untuk variabel ke-l Sk = simpangan baku untuk variabel ke-k

(Hogg & Craig 1995)

Definisi 11 (z-skor) Suatu pengamatan x dari suatu populasi yang mempunyai nilai tengah µ dan simpangan baku S, mempunyai nilai z yang didefinisikan sebagai

Sx µ−

=z

(Walpole 1995) Definisi 12 (Fungsi Kepekatan Peluang) Misalkan X peubah acak dengan ruang contoh Ω berdimensi satu, terdiri dari sebuah interval atau gabungan interval. Fungsi f(x) non negatif maka

( )∫ =Ω

1dxxf

Fungsi peluang P(R), Ω⊂R , dapat ditulis P(R) = Pr(X∈R) = ( )∫

RX dxxf

X disebut peubah acak kontinu dan fX(x) disebut fungsi kepekatan peluang bagi X.

(Hogg & Craig 1995) Definisi 13 (Fungsi Likelihood) Misalkan ( )θ,xf fungsi kepekatan peluang dengan parameter θ , fungsi likelihood adalah ( ) ( ) ( ) ( ).,,, 321 θθθθ xfxfxfL K=

(Hogg & Craig 1995) Definisi 14 (Aturan Diskriminan

Maksimum Likelihood) Aturan maksimum likelihood untuk mengalokasikan sebuah objek x ke salah satu kelompok Πg, dimana g = 1, 2,…,ng adalah mengalokasikan x ke kelompok yang memberikan likelihood terbesar ke x.

(Mardia, Kent & Bibby 1989) Definisi 15 (Peluang Suatu Kejadian) Peluang suatu kejadian A adalah jumlah peluang semua titik contoh dalam A. Apabila suatu percobaan mempunyai N hasil percobaan yang berbeda dan masing-masing mempunyai kemungkinan yang sama untuk terjadi, dan bila tepat n di antara hasil percobaan itu menyusun kejadian A, maka peluang kejadian A adalah

( )NnAP =

(Walpole 1995) Definisi 16 (Peluang Bersyarat) Peluang bersyarat B, bila A diketahui dilambangkan dengan P(B|A), didefinisikan sebagai

( ) ( )( )AP

BAPA|BP ∩= jika P(A) > 0

(Walpole 1995) Definisi 17 (Distribusi Multinormal) Misalkan X = [X1, X2, ..., Xk]' vektor acak kontinu memiliki fungsi kepekatan peluang fX(x), X berdistribusi normal dengan vektor rataan µ dan matriks kovarian Σ > 0. X ~ Nk( µ , Σ ),

( ) ( ) ( )⎥⎦⎤

⎢⎣⎡ −−−= −− µxΣµxΣx 1'

21exp2 2/k

Xf π

(Härdle & Simar 2003)

Definisi 18 (Distribusi Khi-kuadrat) Fungsi kepekatan peluang untuk peubah acak kontinu X berdistribusi khi-kuadrat dengan derajat bebas r, X~ 2

rχ ,

( )( )

212222

1 xrrX ex

rxf −−

Γ= , ∞<< x0 .

dimana:

( ) ∫=αΓ∞

−−α

0

1 dyey y , 0>α .

(Hogg & Craig 1995)

Definisi 19 (Distribusi F) Misalkan X1 dan X2 peubah acak bebas masing-masing berdistribusi khi-kuadrat dengan derajat bebas r1 dan r2. Fungsí kepekatan peluang bersama untuk X1 dan X2 berdistribusi F,

( )

( ) ( ) ( )( ) 2/21122

2121

12/2121

2121

22/2/1

,

xxrrrr

XX

exxrr

xxf

+−−−+ΓΓ

=

.x,x ∞<<∞<< 21 00 (Hogg & Craig 1995)

Definisi 20 (Modus) Modus segugus pengamatan adalah nilai tengah yang terjadi paling sering atau yang mempunyai frekuensi paling tinggi.

(Walpole 1995) Definisi 21 (Skewness) Skewness adalah nilai ukuran kecondongan grafik. Nilai skewness = (rataan-modus)/simpangan baku

(Santoso 2000) Definisi 22 (Kurtosis) Kurtosis menunjukkan tinggi rendahnya atau runcing datarnya bentuk kurva model normal

atau distribusi normal. Koefisien kurtosis a4 dirumuskan

( )2244 / mma =

dimana: ( )

nxx

mr

ir

∑ −= , r = 0, 1, 2, ...

mr = momen ke r xi = objek pengamatan ke-i x = rataan variabel untuk n objek pengamatan

(Sudjana 2000) Uji beda 2 vektor rataan (T2 Hotelling) H0: 21 µµ = H1: 21 µµ ≠ T2 Hotelling didefinisikan,

( ) ( ) ( )211

gabungan2121

212 ' µµΣµµ −−+

= −

nnnnT

( )( )1,

21

212211

2~ −−+−−+−+

knnkFknn

knnT

dimana: n1 = jumlah anggota kelompok pertama n2 = jumlah anggota kelompok kedua k = banyaknya variabel bebas H0 diterima jika: ( )

( )1,2

21

21211

2−−+≤

−−+−+

knnkFTknn

knn

(Mardia, Kent & Bibby 1989)

Uji Kenormalan Multivariat (Skewness dan Kurtosis) Misalkan X = [X1, X2, ..., Xk]' vektor acak dan Σ matriks kovarian untuk contoh,

( )( ) ''n

n

iii HHDxxxxΣ u=−−

−= ∑

=111

dimana: H = (h1, h2, ..., hk) matriks ortogonal Du = diag(u1, u2, ..., uk) Skewness dan kurtosis untuk contoh data, didefinisikan

( )∑ ∑= =

−

⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧

−=k

r

n

irrirk nyyu

kb

1

2

1

323

11

dan

( )∑∑==

− −=n

iiri

k

rrk yyu

nkb

1

4

1

22

1

dimana: r = 1, 2, ..., k i = 1, 2, ..., n

i'rri xhy =

∑=

=k

irir y

ny

1

1

Data pengamatan tidak berdistribusi normal , jika

2,16 αχ≥⎟

⎠⎞

⎜⎝⎛

kkbnk

Tes kurtosis menolak normality, jika

( ) 2221

324 αzbnk

k ≥−⎟⎠⎞

⎜⎝⎛

(Srivastava 2002)

Uji kehomogenan kovarian (Uji Box’s M) H0: gn... ΣΣΣ === 21

H1: ji ΣΣ ≠ , i ≠ j. Box’s M dirumuskan sebagai berikut,

( ) uu ΣΣ 1log1 −∑ −γ= ggnM ,

dimana:

( )( ) ⎟⎟⎠

⎞⎜⎜⎝

⎛∑

−−

−−+−+

−=γgnngk

kk

g

11

11161321

2

ΣΣgn

nu −=

gg

gug n

nΣΣ

1−=

Box’s M mempunyai distribusi khi-kuadrat asimtotik dengan derajat bebas

( )( )1121

−+ gkk .

dimana: g = 1, 2, ..., ng. ng = jumlah objek dalam kelompok ke-g Σ = matriks kovarian gabungan

gΣ = matriks kovarian kelompok ke-g

H0 diterima jika ( )( )2211 −+≤

gnkkM χ

(Mardia, Kent & Bibby 1989) Teorema Neyman-Pearson Misalkan X1, X2,..., Xn, dimana n bilangan bulat positif, merupakan contoh acak kontinu dari fungsi kepekatan peluang ( )θ;xf . Maka fungsi kepekatan peluang bagi X1, X2,..., Xn adalah ( ) ( ) ( ) ( )θθθθ ;;;,,,; 2121 nn xfxfxfxxxL KK =

Misalkan θ' dan θ" nilai tetap nyata bagi θ sehingga ",': θθθθ ==Ω , dan k bilangan positif. Misalkan C himpunan bagian dari ruang contoh Ω dan C* komplemen dari C sehingga,

(a) ( )( ) k

xxxLxxxL

n

n ≤,,,;",,,;'

21

21

K

K

θθ

,

dimana (x1, x2, ...., xn) ∈C.

(b) ( )( ) k

xxxLxxxL

n

n ≥,,,;",,,;'

21

21

K

K

θθ

,

dimana (x1, x2, ...., xn) ∈C*. (c) ( )[ ]021 H*;,,,Pr CXXX n ∈= Kα Maka C daerah kritis terbaik dengan ukuran α untuk menguji hipotesis H0: θ = θ' dan H1: θ = θ". Bukti: Jika α ukuran daerah kritis C, dan terdapat daerah kritis lainnya berukuran α yaitu A. Maka,

( )∫ ∫ nnRdxdxxxxL LKL 121 ,,,;θ dinotasikan

oleh ( )∫R L θ . Akan ditunjukkan bahwa, ( ) ( )∫ ∫ ≥−C A LL 0"" θθ .

Jika C gabungan dari irisan C∩A dan C∩A* dan A gabungan A∩C dan A ∩C*, maka

( ) ( )∫−∫ AC LL "" θθ ( ) ( ) ( ) ( )∫ ∫ ∫ ∫−−+= ∩ ∩ ∩ ∩AC AC CA CA LLLL * * """" θθθθ( ) ( )∫−∫= ∩∩ ** "" CAAC LL θθ (1)

Karena ( ) ( ) ( )'1" θθ LkL ≥ pada setiap titik di C, dan setiap titik di C∩A*, maka

( ) ( )∫ ∫≥∩ ∩* * '1"AC AC Lk

L θθ (2)

Tetapi, ( ) ( ) ( )'1" θθ LkL ≤ pada setiap titik di C*, dan setiap titik di A∩C*, maka

( ) ( )∫ ∫≤∩ ∩* * '1"CA CA Lk

L θθ (3)

Dari persamaan (2) dan (3) dapat diperoleh suatu pertidaksamaan berikut,

( ) ( ) ( ) ( )∫ ∫ ∫−≥∫−∩ ∩ ∩∩* * ** '1'1""AC AC CACA Lk

Lk

LL θθθθ

dan dari persamaan (1), diperoleh

( ) ( ) ( ) ( )∫ ∫ ∫−≥∫− ∩ ∩C AC CAA Lk

Lk

LL * * '1'1"" θθθθ (4)

Sehingga, ( ) ( )∫−∫ ∩∩ ** '' CAAC LL θθ ( ) ( ) ( ) ( )∫−∫ ∫−∫+= ∩∩ ∩∩ ** '''' CAAC CAAC LLLL θθθθ

( ) ( )∫ ∫−= C A LL '' θθ .0=α−α=

Jika hasil disubstitusi ke persamaan (4), diperoleh

( ) ( ) .0"" ≥∫−∫ AC θLθL (Hogg & Craig 1995)

METODE DAN PEMBAHASAN

Analisis Cluster

Proses pengelompokan melalui analisis cluster dapat dibagi ke dalam enam tahap:

Tahap pertama, memilih ataupun mengambil data yang akan digunakan sebagai objek pada analisis cluster. Misalkan, terdapat suatu data dengan n objek dan memiliki k variabel. Matriks data:

⎟⎟⎟⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜⎜⎜⎜

⎝

⎛

nknn

k

xxx

xxxx

LLL

MOMM

MOMM

MOMM

MM

LLL

21

22

11211

Tahap kedua, memperhatikan apakah nilai

variabel dari data mempunyai perbedaan yang besar. Jika terdapat perbedaan maka data harus dibakukan dengan mengubahnya ke nilai z.

( )l

lilil S

x µ−=z

dimana: zil = nilai z untuk objek ke-i variabel ke-l xil = objek ke-i variabel ke-l

lµ = rataan untuk semua nilai variabel ke-l Sl = simpangan baku untuk variabel ke-l

Tahap ketiga, apabila data yang diambil berupa contoh maka harus diasumsikan bahwa contoh yang diambil benar-benar mewakili populasi yang ada. Asumsi lainnya yaitu, kemungkinan adanya korelasi antar variabel bebas sebaiknya tidak ada jika ada harus tidak besar (angka korelasi tidak mencapai 0,90). Asumsi ini harus dipenuhi agar hasil analisis yang diperoleh representatif, menggambarkan karakteristik dari populasi.

Tahap keempat, memilih algoritma pengelompokan yang akan dipakai. Metode hierarki tepat digunakan untuk suatu data metrik. Metode hierarki dengan menggunakan metode agglomeratif, mengalokasikan objek-objek yang terpisah ke suatu kelompok menurut tingkatan kesamaan sehingga akhirnya semua objek berada dalam satu kelompok. Jika ng menunjukkan banyaknya kelompok, maka nng ≤ . Algoritma agglomeratif untuk n objek :

Langkah pertama, membentuk matriks jarak simetri berukuran n x n,

⎟⎟⎟⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜⎜⎜⎜

⎝

⎛

==

nnnn

n

ij

ddd

dddd

d

LLL

MOMM

MOMM

MOMM

MM

LLL

21

22

11211

D

dimana: i = 1, 2, ..., n j = 1, 2, ..., n dij jarak antara objek ke-i dan ke-j menunjukkan tingkat kesamaan atau ketidaksamaan antara n objek. Jarak antar objek tersebut menggunakan persamaan jarak euclid. Langkah kedua, menentukan pasangan objek yang memiliki kesamaan paling besar, misalkan jarak objek U dan V paling minimum (dUV = mindij). Langkah ketiga, menggabungkan objek U dan V sebagai kelompok baru (UV). Membentuk kembali matriks baru berukuran (n-1)x(n-1) dengan menghapus baris dan kolom yang bersesuaian dengan objek U dan V dan menambah sebuah baris dan kolom yang terdiri dari elemen jarak antara kelompok (UV) dengan objek lain. Misalkan terdapat objek lain W, fungsi jarak antara kelompok (UV) dengan objek W yang didefinisikan oleh metode single linkage clustering adalah

( ) VWUWVWUWWUV ddddd −−+=21

21

21 (5)

Single linkage clustering merupakan salah satu metode pengukuran jarak antar kelompok dimana jarak antara satu kelompok dengan kelompok lain merupakan jarak terpendek dari anggota kelompok yang satu terhadap anggota kelompok lainnya (lihat Gambar 1).

Gambar 1 Jarak antar kelompok untuk single linkage clustering..

Jarak minimum di antara jarak U ke W dengan jarak V ke W, dinotasikan sebagai d(UV)W = min dUW, dVW (6) Maka dapat ditunjukkan bahwa,

d(UV)W = VWUWVWUW dddd −−+21

21

21

= min dUW, dVW Bukti : Misalkan dUW > dVW,

VWUWVWUW dddd −=− substitusi ke persamaan (5), diperoleh d(UV)W = dVW (7) Misalkan dUW < dVW,

UWVWVWUW dddd −=− substitusi ke persamaan (5), diperoleh d(UV)W = dUW (8) Dari (7) dan (8) diperoleh bahwa d(UV)W = min dUW, dVW. Selanjutnya, ulangi langkah-langkah di atas sampai terbentuk satu kelompok yang terdiri dari semua objek yang dikelompokkan. Namun, pengelompokan dapat pula dihentikan pada saat mindij ≤ do, dimana do nilai batas jarak intra kelompok yang sudah ditentukan.

Tahapan metode hierarki ini dapat ditampilkan sebagai graf ataupun diagram pohon seperti gambar 2. Graf hierarki disebut juga dendogram.

Gambar 2 Contoh Dendogram.

Pada dendogram di atas terlihat jelas

adanya tingkatan yang menunjukkan tahap pengelompokan. Jika dilihat pada Gambar 2, proses agglomeratif berjalan ke arah kanan menghasilkan beberapa kelompok sampai akhirnya semua objek bergabung menjadi satu kelompok. Jarak antar objek untuk setiap tahap pengelompokan secara hieraki akan semakin membesar atau jauh. Semakin besar jarak antar objek menunjukkan semakin besar perbedaan antar objek tersebut.

Dendogram dapat berfungsi untuk menunjukkan anggota kelompok yang sesuai dengan jumlah kelompok yang diinginkan.

Berdasarkan Gambar 2, dapat ditunjukkan anggota yang terdapat pada setiap kelompok berdasarkan jumlah kelompok yang diinginkan seperti yang ditampilkan pada Tabel 1.

Penentuan berapa jumlah kelompok biasanya berdasarkan pada tujuan dari dilakukannya proses analisis cluster (penelitian). Dalam hal ini, tidak ada ketentuan khusus berapa jumlah cluster yang ideal harus dibentuk. Adapun penentuan dari anggota untuk setiap kelompok berdasarkan pada tingkat kesamaan, dengan memperhatikan jarak antar objek. Setiap objek dalam satu kelompok harus memiliki tingkat kesamaan yang besar dan memiliki tingkat perbedaan yang jauh dengan kelompok lainnya. Dengan memperhatikan hal ini maka jumlah pengelompokan optimal dari Gambar 2 sebanyak tiga kelompok, dimana anggota kelompok pertama terdiri dari objek 6, 12, 1, 8, 5, dan 3. Sedangkan kelompok kedua terdiri dari objek 11, 2, 4, 13, 7, dan 9, serta objek 10 sebagai anggota kelompok ketiga. Tabel 1 Pengelompokan objek berdasarkan jumlah kelompok yang diinginkan.

Jumlah kelompok Objek

4 3 2 1 2 1 1 2 3 2 2 3 2 1 1 4 3 2 2 5 2 1 1 6 1 1 1 7 3 2 2 8 2 1 1 9 3 2 2

10 4 3 1/2 11 3 2 2 12 1 1 1 13 3 2 2

Tahap kelima, setelah kelompok terbentuk

maka tahap selanjutnya menginterpretasikan kelompok yang terbentuk, yaitu memberi nama spesifik untuk menggambarkan objek yang terdapat dalam kelompok tersebut. Pemberian nama terhadap kelompok sama halnya dengan penentuan jumlah kelompok yaitu, berdasarkan pada tujuan dilakukan analisis cluster.

Tahap keenam, melakukan profiling kelompok dan validasi. Profiling adalah menjelaskan karakteristik setiap kelompok berdasarkan variabel yang membentuk

kelompok. Pada saat profiling ditentukan persentase atas jumlah objek yang membentuk kelompok serta melihat perbedaan komposisi yang mencolok antar anggota kelompok. Perbedaan komposisi dapat dijelaskan secara lanjut melalui analisis diskriminan. Dari analisis diskriminan dapat ditemukan fungsi untuk kelompok yang terbentuk. Selain itu, dari fungsi yang dibuat dapat mempermudah pengelompokan objek yang baru. Kevalidan dari hasil dapat dilakukan dengan menggunakan analisis diskriminan. Apabila hasil dari evalusi objek terhadap diskriminan diperoleh nilai ketepatan lebih dari 50% maka dapat dikatakan bahwa model diskriminan yang diperoleh valid dan hasil dari pengelompokan analisis cluster juga valid.

Analisis Diskriminan

Analisis diskriminan digunakan sebagai

metode dan alat untuk memisahkan objek-objek ke dalam kelompok secara tepat atau mengevaluasi apakah objek-objek yang telah dikelompokkan sudah tepat atau belum berada dalam kelompok yang diduga, dari fungsi diskriminan yang dicari. Fungsi diskriminan dapat berguna pula untuk mengalokasikan objek baru ke dalam kelompok yang sudah terbentuk sebelumnya saat analisis cluster. Dari fungsi diskriminan yang diperoleh, maka dapat diketahui hubungan antara variabel-variabel bebas yang bersifat metrik terhadap variabel terkait (kelompok) yang bersifat kategori. Fungsi diskriminan yang bersifat linear secara umum dituliskan,

kk x...xxy λλλ +++= 2211 dimana: y = nilai diskriminan (variabel terkait)

kλ = nilai pembobot diskriminan untuk variabel ke-k xk = variabel bebas ke-k

Asumsi yang diambil pada analisis

diskriminan untuk memperoleh fungsi diskriminan linear yaitu: matriks kovarian dari semua variabel bebas dalam setiap kelompok sama (homogen). Apabila kehomogenan matriks kovarian tidak terpenuhi, akan menyebabkan fungsi atau model yang diperoleh menunjukkan hubungan yang kurang tepat antara variabel bebas dengan variabel terkait. Variabel bebas boleh diasumsikan atau tidak berdistribusi normal, namun akan lebih baik apabila diasumsikan berdistribusi normal sehingga dapat diperoleh

fungsi diskriminan yang memiliki ketepatan mengelompokkan lebih baik.

Sebelum melakukan analisis diskriminan lanjutan, dilakukan terlebih dahulu uji asumsi. Salah satu uji asumsi terhadap kenormalan data adalah dengan menggunakan statistik skewness dan kurtosis. Sedangkan untuk menguji asumsi kehomogenan matriks kovarian salah satunya dengan uji Box’s M. Selain melakukan kedua uji asumsi dapat pula diuji beda 2 vektor rataan salah satunya dengan menggunakan T2 Hotelling yang berguna untuk melihat apakah terdapat perbedaan yang nyata antara kelompok yang terbentuk dari masing-masing variabel bebas.

Misalkan terdapat kelompok Πg, g = 1, 2, ..., ng dan x sebagai objek yang akan dialokasikan ke salah satu kelompok sedangkan x0 merupakan objek baru. Aturan diskriminan, memisahkan ruang contoh Ω menjadi Rg sehingga jika gR∈x , x diidentifikasikan sebagai anggota dari kelompok Πg dengan aturan diskriminan maksimum likelihood. Aturan maksimum likelihood mengalokasikan x ke Πg, dimana

( ) ( ) ( )xxx gg

gg LfL maks* == (9)

Sehingga diperoleh bahwa, ( ) ( )hg

ngLLR ghgg

≠

=>= ,,,2,1untuk: Kxxx

Jika Lg(x) = Lh(x), g ≠ h maka x dapat dialokasikan ke salah satu kelompok baik Πg atau Πh karena peluang mengelompokkan x misklasifikasi ke salah satu kelompok baik ke Πg atau Πh adalah P(Lg(x) = Lh(x), g ≠ h| Πg) = 0.

Misalkan g = 2, f1(x) dan f2(x) masing-masing merupakan fungsi kepekatan peluang vektor acak X berdistribusi normal untuk kelompok Π1 dan Π2, ruang contoh Ω = R1∪R2. Setiap objek hanya boleh dikelompokkan ke dalam salah satu dari kedua kelompok.

Pada saat pengelompokan akan mungkin menemukan kesalahan pengelompokan (misklasifikasi). Peluang mengelompokkan sebuah objek x yang terdiri dari peubah acak kontinu yang berasal dari Π1 ke Π2, dapat dihitung sebagai peluang bersyarat P(2|1) sebagai berikut, ( ) ( ) ( )∫=∈=

2 112 .|1|2 R dfΠRPP xxX (10) Hal sama, peluang mengelompokkan sebuah objek yang berasal dari Π2 ke Π1 adalah ( ) ( ) ( )∫=∈=

1 221 .|2|1 R dfΠRPP xxX (11)

Peluang pengelompokan objek-objek secara tepat atau tidak tepat dapat dirumuskan sebagai hasil kali peluang prior dengan peluang bersyarat : P(objek tepat dikelompokkan sebagai Π1) = P(objek berasal dari Π1 dan tepat diklasifikasikan sebagai Π1) = ( ) ( ) ( ) 1111 11 p|PP|RP =∈ ΠΠX (12)

P(objek tidak tepat dikelompokkan sebagai Π1) = P(objek berasal dari Π2 dan tidak tepat diklasifikasikan sebagai Π1) = ( ) ( ) ( ) 2221 21 p|PP|RP =∈ ΠΠX (13)

P(objek tepat dikelompokkan sebagai Π2) = P(objek berasal dari Π2 dan tepat diklasifikasikan sebagai Π2) = ( ) ( ) ( ) 2222 22 p|PP|RP =∈ ΠΠX (14)

P(objek tidak tepat dikelompokkan sebagai Π2) = P(objek berasal dari Π1 dan tidak tepat diklasifikasikan sebagai Π2) = ( ) ( ) ( ) 1112 12 p|PP|RP =∈ ΠΠX (15) Jumlah misklasifikasi objek pada setiap

kelompok dapat ditampilkan berupa tabel berikut Kelompok yang diduga Π1 Π2

Π1 n1c n1m

= n1-n1c Kelompok seharusnya Π2

n2m = n2-n2c

n2c

Ketepatan prediksi pengelompokan secara

tepat = 100%21

21 ×++

nnnn cc

Besar misklasifikasi pengelompokan

= 100%21

21 ×++

nnnn mm

dimana: n1c = jumlah objek Π1 tepat dikelompokkan sebagai anggota Π1 n1m = jumlah objek Π1 misklasifikasi sebagai anggota Π2 n2c = jumlah objek Π2 tepat dikelompokkan sebagai anggota Π2 n2m = jumlah objek Π2 misklasifikasi sebagai anggota Π1 n1 = n1c + n1m n2 = n2c + n2m

Misklasifikasi akan membuat biaya sebesar C(i | j). Matriks biaya tersebut : Kelompok yang diduga Π1 Π2

Π1 0 C(2|1) Kelompok seharusnya Π2 C(1|2) 0

Biaya sebesar nol terjadi apabila pengelompokan tepat, C(1|2) ketika objek dari Π2 tidak tepat dikelompokkan sebagai Π1, dan C(2|1) ketika objek dari Π1 tidak tepat dikelompokkan sebagai Π2.

Biaya yang diduga akibat misklasifikasi dirumuskan sebagai nilai expected cost of misclassification (ECM) yaitu,

( ) ( ) ( ) ( ) 21 21211212 p|P|Cp|P|CECM += (16)

Dengan mensubstitusi persamaan (10) dan (11) ke persamaan (16) diperoleh,

( ) ( ) ( ) ( )∫+∫=12 2211 2|11|2 RR dfpCdfpCECM xxxx

karena Ω = R1 ∪ R2 , dimana ( ) ( ) ( ) 1

1 211

Ω1 =∫ ∫+=∫

R Rdfdfdf xxxxxx

maka ECM dapat ditulis, ( ) ( )[ ] ( ) ( )( ) ( ) ( ) ( )[ ] ( ) 11122

2211

1|21|22|1

2|111|2

1

11

pCdfpCfpC

dfpCdfpCECM

R

RR

+∫ −=

∫+∫−=

xxx

xxxx (17)

p1, p2 , C(1/2), C(2|1) nilainya diketahui dan non negatif. f1(x) dan f2(x) juga diketahui dan bernilai non negatif untuk semua nilai x. Pengelompokan dikatakan tepat apabila ECM minimum atau kecil. ECM bernilai minimum apabila memenuhi aturan berikut :

( )( )

( )( ) ⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧

⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛≥=

1

2

2

11 1|2

2|1:pp

CC

ffR

xxx (18)

( )( )

( )( ) ⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧

⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛<=

1

2

2

12 1|2

2|1:pp

CC

ffR

xxx (19)

Lemma Neyman-Pearson Bukti persamaan (18) dan (19): Misalkan X = [X1, X2, ..., Xk]′ vektor acak, dan ( )x1φ dan ( )x2φ fungsi kontinu. Misalkan

21~~ RR ∪ ruang contoh vektor acak X dan 1

~R dan 2~R disjoint. Misalkan R1∪R2 ruang contoh X,

dimana R1=x| ( ) ( )xx 21 φ≥φ dan R2=x| ( ) ( )xx 21 φ<φ . Jika diberikan bahwa,

( ) ( ) xxxx ddI RR ∫ φ+∫ φ=21

~ 2~ 1~ , ( ) ( ) xxxx ddI RR ∫ φ+∫ φ=

21 21 maka selisih keduanya

( ) ( ) ( ) ( ) xxxxxxxx ddddII RRRR ∫ φ−∫ φ−∫ φ+∫ φ=−2121

~ 2~ 121~ .

Jika ( ) ( )21111~~ RRRRR ∩∪∩= , ( ) ( )22122

~~ RRRRR ∩∪∩= , ( ) ( )21111~~~ RRRRR ∩∪∩= ,

( ) ( )22122~~~ RRRRR ∩∪∩=

Maka selisih dapat ditulis ( ) ( ) ( ) ( ) ( ) ( )( ) ( ) xxxx

xxxxxxxxxxxx

dd

ddddddII

RRRR

RRRRRRRRRRRR

∫ φ−∫ φ−

∫ φ−∫ φ−∫ φ+∫ φ+∫ φ+∫ φ=−

∩∩

∩∩∩∩∩∩

2212

211122122111

~ 2~ 2

~ 1~ 1~ 2~ 2~ 1~ 1~

( ) ( ) ( ) ( ) xxxxxxxx dddd RRRRRRRR ∫ φ−∫ φ+∫ φ−∫ φ= ∩∩∩∩ 21121221~ 1~ 2~ 2~ 1

( ) ( )[ ] ( ) ( )[ ] xxxxxx dd RRRR ∫ φ−φ+∫ φ−φ= ∩∩ 1221~ 12~ 21

Karena ( ) 121~ RRR ⊂∩ dan ( ) ( )xx 21 φ≥φ dalam R1 mengakibatkan ( ) ( )[ ] 0

21~ 21 ≥∫ φ−φ∩ xxx dRR .

Sedangkan untuk ( ) 212~ RRR ⊂∩ dan ( ) ( )xx 21 φ<φ dalam R2 mengakibatkan

( ) ( )[ ] 012

~ 12 ≥∫ φ−φ∩ xxx dRR . Sehingga, 0~≥− II . Jika ( ) ( ) ( )xx 111 1|2 fpC=φ dan

( ) ( ) ( )xx 222 2|1 fpC=φ , maka persamaan (17) bernilai minimum untuk II ~≥ apabila memilih R1

dimana x memenuhi pertidaksamaan berikut

( ) ( ) ( ) ( )[ ] 01221 1121 ≤− xx fp|Cfp|C ( )( )

( )( ) ⎟⎟

⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛≥⇔

1

2

2

1

1|22|1

pp

CC

ff

xx

untuk R2 = R1* komplemen dari R1 apabila x memenuhi pertidaksamaan berikut ( ) ( ) ( ) ( )[ ] 01221 1121 >− xx fp|Cfp|C

( )( )

( )( ) ⎟⎟

⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛<⇔

1

2

2

1

1|22|1

pp

CC

ff

xx

Terbukti.ٱ Dari kedua persamaan diatas (18) dan (19) dapat diperoleh ECM untuk beberapa kasus khusus. Untuk p2/p1 = 1 (nilai peluang sama)

( )( )

( )( )

( )( )

( )( )12

211221

2

12

2

11 |C

|Cff

:R|C|C

ff

:R <≥xx

x x

Untuk C(1|2)/C(2|1) = 1 (biaya akibat kesalahan pengelompokan sama)

( )( )

( )( ) 1

2

2

12

1

2

2

11 p

pff

:Rpp

ff

:R <≥xx

xx

Untuk p2/p1 = C(1|2)/C(2|1) =1 atau p2/p1 = 1/(C(1|2)/C(2|1)) (nilai peluang sama dan biaya akibat kesalahan pengelompokan sama)

( )( )

( )( ) 11

2

12

2

11 <≥

xx

xx

ff

:Rff

:R

Jika x0 sebagai objek baru yang ingin dikelompokkan sedangkan nilai peluang dan biaya akibat kesalahan tidak diketahui maka x0 dikelompokkan ke Π1, jika ( ) ( ) 121 ≥00 xx f/f ⇔ ( ) ( )00 xx 21 ff ≥ x0 dikelompokkan ke Π2, jika

( ) ( ) 121 <00 xx f/f ⇔ ( ) ( )00 xx 21 ff <

Kasus kelompok normal dan nilai 1µ , 2µ , dan Σ = Σ1 = Σ2 diketahui

Misalkan fg(x) fungsi kepekatan normal dengan vektor rataan gµ dan matriks kovarian Σ dimana g = 1, 2. Maka fungsi kepekatan normal bersama, dimana Πg ~ Nk( gµ ,Σ) adalah

( )( )

( ) ( )⎥⎦⎤

⎢⎣⎡ −−−

π= −

iikgf µxΣµxΣ

x 12/12/

'21exp

2

1 (20)

Dari persamaan (20), jika 1µ , 2µ dan Σ = Σ1 = Σ2 nilainya sudah diketahui. Maka, hasil

substitusi terhadap persamaan (18) dan (19) akan diperoleh persamaan ECM sebagai berikut :

( ) ( ) ( ) ( ) ( ) ⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛≥⎥⎦

⎤−−+⎢⎣⎡ −−− −−

1

22

121

111 1|2

)2|1('21'

21exp:

pp

CCR µxΣµxµxΣµx (21)

( ) ( ) ( ) ( ) ( ) ⎟⎟

⎠

⎞

⎜⎜

⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛<⎥⎦

⎤−−−+⎢⎣⎡ −−−−

12

1|2)2|1(

21'22

11

1'121exp:2 p

pCCR µxΣµxµxΣµx (22)

Sehingga, x0 sebagai objek baru dialokasikan ke Π1 jika

( ) ( ) ( ) ( )( ) ⎥

⎥⎦

⎤

⎢⎢⎣

⎡⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛≥+−−− −−

1

221

1210

121 1|2

2|1ln'21'

pp

CCµµΣµµxΣµµ (23)

x0 dialokasikan ke Π2 jika selainnya.

( ) ( ) ( ) ( ) ( ) ( ) ( )211

211

2121

211

1 '21''

21'

21 µµΣµµxΣµµµxΣµxµxΣµx +−−−=−−+−−− −−−− (24)

Bukti persamaan (24):

( ) ( ) ( ) ( )21

211

1 21

21 µxΣµxµxΣµx −−+−−− −− ''

( )( )[ ( )( )]21

21

11

11

21 µxΣµΣxµxΣµΣx −−−−−−= −−−− '' ''

[ ]21'

21'

2211

11'

1111'

11 ''''

21 µΣµxΣµµΣxxΣxµΣµµΣxxΣµxΣx −−−−−−−− −++−+−−−=

( ) ( )[ ]( ) ( ) ( )21

121

121

211

21211'

1

'21'

''2221

µµΣµµxΣµµ

µµΣµµµΣxxΣµ

+−−−=

+−−−=

−−

−−−

Terbukti.ٱ Kasus kelompok normal dan nilai 1µ , 2µ , dan Σ = Σ1 = Σ2 belum diketahui

Misalkan X= [X1, X2, ...., Xk ]' vektor acak, jumlah objek pada Π1 sebanyak n1 dan jumlah objek pada Π2 sebanyak n2, dengan n1+ n2 – 2 ≥ k. Dan jika dari persamaan (21) dan (22)

1µ , 2µ dan Σ1 , Σ2 nilainya belum diketahui. Matriks data adalah

( )

⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢

⎣

⎡

′

′′

=×

11

12

11

1

x

xx

X

n

Mkn1

(25)

( )

⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢

⎣

⎡

′

′′

=×

22

22

21

2

x

xx

X

n

Mkn2

(26)

dimana: X1 = matriks yang berisi nilai objek untuk kelompok pertama (Π1) X2 = matriks yang berisi nilai objek untuk kelompok kedua (Π2)

'1 1

x n = vektor yang berisi nilai objek ke-n1 pada kelompok 1

'2 2

x n = vektor yang berisi nilai objek ke-n2 pada kelompok 2 Dari matriks data, rataan dan mariks kovarian dihitung dengan rumus

( )∑=×

=1

11

11

1 n

ii

k nxx1 (27)

( )( )( )∑

=×−−

−=

1

111

1 11 n

iii

kk'

n 111 xxxxΣ (28)

( )∑=×

=2

12

21

1 n

ii

k nxx2 (29)

( )( )( )∑

=×−−

−=

2

122

2 11 n

iii

kk'

n 222 xxxxΣ (30)

dimana: 1x = vektor yang terdiri dari nilai rataan

variabel Π1

2x = vektor yang terdiri dari nilai rataan variabel Π2 Σ1 = matriks kovarian Π1 Σ2 = matriks kovarian Π2 Dengan asumsi yang sama dimana Σ = Σ1 = Σ2, matriks kovarian Σgabungan adalah gabungan matriks kovarian Σ1 dan Σ2,

( ) ( )

( ) ( ) 2

1

Σ

ΣΣ

⎥⎦

⎤⎢⎣

⎡−+−

−

+⎥⎦

⎤⎢⎣

⎡−+−

−=

111

111

21

2

21

1gabungan

nnn

nnn

(31)

Substitusi 1x untuk 1µ , 2x untuk 2µ , gabunganΣ untuk Σ ke dalam persamaan (23), x0 sebagai objek baru dialokasikan ke Π1 jika ( )

( ) ( )

( )( ) ⎥

⎥⎦

⎤

⎢⎢⎣

⎡⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛≥

+−

−−

−

−

1

2

211

gabungan21

01

gabungan21

1|22|1ln

'21

'

pp

CC

xxΣxx

xΣxx

(32)

x0 dialokasikan ke Π2 jika selainnya.

Jika ( )( ) 1

1|22|1

1

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛pp

CC ,maka persamaan

(32) menjadi

( )

( ) ( ) 0'21

'

211

gabungan21

01

gabungan21

≥+−

−−

−

−

xxΣxx

xΣxx (33)

Misalkan dari persamaan (32) didefinisikan nilai diskriminan objek sebagai berikut

( ) x'axΣxx 21 ˆ'y =−= −1gabungan (34)

Maka selanjutnya x0 dievaluasi dengan nilai tengah antara nilai diskriminan Π1 dan Π2,

( ) ( )2121 xxΣxx +−= −1gabungan2

1 'm

( )21 yy +=21 (35)

dimana: ( ) 1x'axΣxx ˆ'y =−= −

11

gabungan211

( ) 2221 x'axΣxx ˆ'y =−= −1gabungan2

1y = nilai diskriminan untuk kelompok pertama

2y = nilai diskriminan untuk kelompok kedua

Aturan minimum ECM untuk dua kelompok normal, yaitu alokasikan x0 ke Π1 jika mˆy ≥= x'a0 , dan x0 dialokasikan ke Π2 jika mˆy <= x'a0 .

Tabel 2 Upah minimum kabupaten/kota (UMK), persentase tingkat pengangguran, dan laju pertumbuhan ekonomi (LPE) 14 kabupaten/kota di Jawa Barat pada tahun 2002.

i Kota/Kabupaten UMK % Tingkat Pengangguran LPE 1 Kab. Sukabumi Rp281.000 6,15 3,78 2 Kab. Cianjur Rp310.000 7,29 3,23 3 Kab. Bandung Rp470.500 12,49 5,16 4 Kab. Garut Rp385.000 6,82 3,89 5 Kab. Tasikmalaya Rp290.000 7,99 2,36 6 Kab. Ciamis Rp283.500 4,53 3,32 7 Kab. Kuningan Rp281.000 8,24 2,8 8 Kab. Cirebon Rp487.827 11,87 4,83 9 Kab. Majalengka Rp315.000 6,25 4,34 10 Kab. Subang Rp350.000 4,33 4,11 11 Kab. Karawang Rp530.015 13,02 6,04 12 Kab. Bekasi Rp575.000 12,81 5,58 13 Kota Bogor Rp576.169 9,88 4,73 14 Kota Bandung Rp471.000 10,06 5,41 Rataan Rp400429,3571 8,6950 4,2557 Standar Deviasi Rp113791,6172 3,0184 1,0979

Sumber: Badan Pusat Statistik Propinsi Jawa Barat, 2003.

Contoh Kasus

Tabel 2 menyajikan data 14 kabupaten/kota di Jawa Barat yang terdiri dari tiga variabel bebas, yaitu upah minimum kabupaten/kota (UMK), persentase tingkat pengangguran, dan laju pertumbuhan ekonomi (LPE) masing-masing kabupaten/kota. Tujuan yang ingin diperoleh adalah mengelompokkan keempatbelas kabupaten/kota kedalam dua kelompok sehingga dapat dibedakan kelompok dengan tingkat sosial ekonomi menengah ke bawah dan menengah ke atas diukur berdasarkan ketiga variabel bebas tersebut. Analisis Cluster Diketahui: n =14 objek

k = 3 variabel bebas Misalkan: x1 = upah minimum kabupaten/kota (Rupiah) x2 = tingkat pengangguran (persen) x3 = laju pertumbuhan ekonomi

Tahap kedua, standarisasi data dapat dilihat pada Lampiran 1.1.

Nilai z UMK Kabupaten Sukabumi:

0495,16172,113791

3571,400429281000

1

11111 −=

−=

−=

Sxx

z

Nilai z tingkat pengangguran Kabupaten Sukabumi:

8432,00184,3

6950,815,6

2

21212 −=

−=

−=

Sxx

z

Nilai z LPE Sukabumi:

4333,00979,1

2557,478,3

3

31313 −=

−=

−=

Sxx

z

Tahap ketiga, asumsi bahwa contoh yang

diambil mewakili populasi yang ada, dan korelasi antara variabel bebas tidak besar.

Tahap keempat, membuat matriks jarak antar objek (Lampiran 1.2). Jarak antara Kabupaten Sukabumi dengan Kabupaten Cianjur sebesar 0,677 merupakan hasil perhitungan sebagai berikut:

2

23132

22122

211112 zzzzzzd −+−+−=

677,0

29342,04333,024655,08432,027947,00495,112

=

+−++−++−=d

Pada matriks kesamaan, jarak terkecil antar objek sebesar 0,395 yaitu jarak antara Kabupaten Bandung dengan Kabupaten Cirebon. mindij= d38 = dA = 0,395 Berikutnya membentuk matriks baru dengan menghilangkan baris dan kolom Kabupaten Bandung dan Kabupaten Cirebon, kemudian menambah baris dan kolom baru yang terdiri dari elemen jarak antara Kabupaten Bandung dan Kabupaten Cirebon dengan kabupaten/kota lainnya dengan menggunakan rumus jarak single linkage clustering. Sehingga terbentuk matriks berukuran 13× 13. Tahap agglomeratif dapat dilihat pada Lampiran 1.3 dan dendogram pada Lampiran 1.5, sedangkan Lampiran 1.6 memperlihatkan diagram pencar data.

Pada langkah kesepuluh agglomeratif Kabupaten Bandung dan Kabupaten Cirebon dikelompokkan dengan Kota Bandung, seperti pada Lampiran 1.3 dengan koefisien jaraknya antara lain,

( ) ( ) ( ) ( ) ( )14814314814314 21

21

21 ddddd A −−+=

( ) ( ) ( )813,0

813,0837,021813,0

21837,0

21

14

=

−−+=Ad

Cara kedua:

( ) ( ) 813,0

;0,8130,837min,min 1481431

=

== ddd A

Hasil pengelompokan dapat dilihat pada Lampiran 1.4. Diperoleh hasil pengelompokan kabupaten/kota ke dalam dua kelompok , kelompok pertama terdiri dari, Kab.Sukabumi, Kab.Cianjur, Kab.Garut, Kab.Tasikmalaya, Kab.Ciamis, Kab.Kuningan, Kab.Majalengka, dan Kab.Subang. Kelompok kedua terdiri dari Kab.Bandung, Kab.Cirebon, Kab.Karawang, Kab.Bekasi, Kota Bogor dan Kota Bandung.

Tahap kelima, UMK dan LPE setiap kabupaten/kota pada kelompok pertama seperti pada Tabel 2 berada di bawah rata-rata keempatbelas kabupaten/kota, kecuali tingkat pengangguran. Kelompok pertama dapat dikatakan kelompok dengan tingkat sosial ekonomi menengah ke bawah. Sedangkan untuk kelompok kedua sebaliknya.

Tahap keenam, profiling, menguji kevalidan pengelompokan, dan mengetahui hubungan antara UMK, tingkat pengangguran, dan LPE dengan tingkat sosial ekonomi suatu kabupaten/kota menengah ke atas atau menengah ke bawah dilakukan melalui analisis diskriminan. Analisis Diskriminan Misalkan, terdapat tiga kabupaten sebagai objek baru yang ingin dievaluasi, yaitu Kab. Sumedang yang diduga termasuk ke dalam kelompok pertama, sedangkan Kab. Bogor, dan Kab. Purwakarta diduga termasuk kelompok kedua. Tabel 3 menampilkan data ketiga kabupaten tersebut. Standarisasi untuk data yang telah ditambahkan objek baru dapat dilihat pada Lampiran 2.1.

Hasil uji beda rataan dapat dilihat pada Lampiran 2.2, menunjukkan bahwa terdapat

perbedaan antara kelompok pertama dengan kelompok kedua. Besar kecilnya UMK, tingkat pengangguran, dan LPE mempengaruhi tingkat sosial ekonomi suatu kabupaten/kota. Pada Lampiran 2.2 ditunjukkan pula nilai F untuk ketiga variabel. UMK memiliki nilai F paling besar sehingga dapat dikatakan bahwa variabel ini paling besar mempengaruhi tingkat sosial ekonomi masyarakat suatu kabupaten/kota dibandingkan dengan pengaruh tingkat pengangguran. Sementara LPE pengaruhnya paling kecil.

Pada Lampiran 2.3 diperoleh bahwa data berdistribusi normal dengan melihat rasio skewness dan kurtosis diantara 2 dan -2. Lampiran 2.4 matriks kovarian kelompok cenderung homogen.

Tabel 3 Upah minimum kabupaten/kota (UMK), persentase tingkat pengangguran, dan laju

pertumbuhan ekonomi (LPE) Kab. Sumedang, Kab. Bogor, dan Kab. Purwakarta pada tahun 2002.

i Kota/Kabupaten UMK % Tingkat Pengangguran LPE 1 Kab. Sumedang Rp470.000 9,25 4,08 2 Kab. Bogor Rp576.169 9,69 2,93 3 Kab. Purwakarta Rp485.000 9,29 3,02

Sumber: Badan Pusat Statistik Propinsi Jawa Barat, 2003.

Apabila asumsi telah terpenuhi, maka dapat dicari fungsi diskriminan. Dengan asumsi lain

bahwa: ( )( ) 1

1|22|1

1

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛pp

CC

Diketahui : n1 = 9, n2 = 8 Vektor rataan kelompok pertama dan kelompok kedua,

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

−−−

=5101,07528,07984,0

1x ,⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡=

5738,08469,08982,0

2x

Matriks kovarian kelompok pertama,

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

−−=

3797,01054,11664,01054,13622,01120,0

1664,01120,03146,0

1Σ

Matriks kovarian kelompok kedua,

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

−−

−−=

1410,14062,00400,04062,07951,00057,00400,00057,01845,0

2Σ

Matriks kovarian gabungan ,

21gabungan 157

158 ΣΣΣ +=

Invers matriks kovarian gabungan,

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

−−−−−−

=−

4482,13089,03302,03089,08795,13374,03302,03374,01063,4

1gabunganΣ

Fungsi diskriminan adalah [ ] xΣxxxa 1

gabungan21−−== ''ˆy

[ ]⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

−−−−−−

=

3

2

1

4482,13089,03302,03089,08795,13374,03302,03374,01063,4

0893,15997,16967,1xxx

321 5153,00993,20694,6 xxx ++=

Nilai diskriminan kelompok pertama,

[ ] 5253,75101,07528,07984,0

0893,15997,16967,1'ˆ 11 =⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

−−−

== xay

Nilai diskriminan kelompok kedua,

[ ] 6891,65738,08469,08982,0

0893,15997,16967,1x'a 22 −=⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡==y

Nilai tengah antara 1y dan 2y ,

( ) ( ) 4181,06891,65253,721yy

21ˆ 21 =−=+=m

Selanjutnya evaluasi objek dengan

menghitung nilai diskriminan, y dari masing-masing kabupaten/kota, Tabel 4 berikut menampilkan hasil perhitungan nilai y untuk masing-masing kabupaten/kota. Dari Tabel 4 dapat diperkirakan terdapat satu misklasifikasi kabupaten/kota, Kab. Sumedang mempunyai nilai y > m = 0,4181 maka seharusnya kabupaten ini dikelompokkan ke kelompok kedua.

Ketepatan pengklasifikasian dari fungsi diskriminan yang diperoleh adalah

%12,94%10017

88=×

+

Maka, hasil pengelompokan dapat dikatakan valid dengan fungsi diskriminan berikut,

321 5153,00993,20694,6ˆ xxxy ++= . Begitu pula hasil pengelompokan melalui

analisis cluster valid karena setiap anggota tepat dikelompokkan sebagai kelompoknya. Berdasarkan Tabel 4 diperoleh bahwa dari ketujuhbelas kabupaten/kota di Jawa Barat 47,06% berada pada tingkat sosial ekonomi menengah ke bawah.

Tabel 4 Nilai diskriminan masing-masing

kabupaten/kota. Kabupaten/Kota y

Kelompok 1 Kab.Sukabumi -9,6476 Kab.Cianjur -7,4806 Kab.Garut -3,5019 Kab.Tasikmalaya -8,4329 Kab.Ciamis -10,9765 Kab.Kuningan -8,5133 Kab.Majalengka -7,4789 Kab.Subang -7,1843 Kab. Sumedang* 3,0131 Kelompok 2 Kab.Bandung 6,0423 Kab.Cirebon 6,3383 Kab.Karawang 10,0629 Kab.Bekasi 12,0948 Kota Bogor 9,5030 Kota Bandung 4,3247 Kab. Bogor 8,4957 Kab. Purwakarta 3,3411

SIMPULAN

Secara umum, analisis cluster

mengelompokkan objek-objek yang memiliki kemiripan, dan setiap anggota kelompok akan berbeda dengan anggota kelompok yang lain. Salah satu cara mengukur tingkat kemiripannya yaitu dengan menghitung jarak antar objek dengan jarak euclid.

Metode agglomeratif akan mengelompokkan dua atau lebih kelompok dari yang memiliki kesamaan terdekat secara bertingkat sampai akhirnya diperoleh hanya satu kelompok. Setiap tahap algoritma agglomeratif jarak antar kelompok akan

semakin membesar. Semakin besar jarak antar kelompok menunjukkan semakin jauh tingkat kesamaan antar kelompok tersebut. Penentuan objek yang akan dikelompokkan sangat bergantung pada pendefinisian jarak antar kelompok. Single linkage clustering merupakan teknik agglomeratif yang paling sederhana untuk menentukan jarak antar kelompok dimana jarak antar kelompok sama dengan jarak terpendek antara anggota kelompok yang satu dengan anggota kelompok lainnya.

Analisis diskriminan dapat digunakan untuk menguji kevalidan hasil analisis cluster karena hasil dapat berbeda berdasarkan metode yang dipilih pada analisis tersebut. Uji kevalidan dilakukan setelah menemukan fungsi diskriminan. Apabila fungsi kepekatan untuk kedua kelompok diketahui maka fungsi diskriminan dapat diperoleh melalui proses meminimumkan nilai expected cost of misclassification (ECM).

Dari hasil analisis diskriminan, pengelompokan tujuh belas kabupaten/kota di Jawa Barat berdasarkan tiga indikator sosial ekonomi pada tahun 2002, yaitu upah minimum kabupaten/kota (UMK), persentase tingkat pengangguran, dan laju pertumbuhan

ekonomi ke dalam dua kelompok diperoleh fungsi 321 5153,00993,20694,6 xxxy ++= . Ketepatan pengklasifikasian kasus fungsi adalah sebesar 94,12%. Maka, fungsi ini dapat dianggap valid untuk mengelompokkan sebuah kabupaten/kota berdasarkan ketiga indikator tersebut ke dalam kelompok dengan tingkat sosial ekonomi menengah ke bawah atau menengah ke atas. Dengan membandingkan hasil pengelompokan analisis cluster dengan analisis diskriminan, hasil yang diperoleh melalui analisis cluster dapat dikatakan sudah tepat.

DAFTAR PUSTAKA

Badan Pusat Statistik Propinsi Jawa Barat.

2003. Indikator Sosial Ekonomi Masyarakat Jawa Barat Tahun 2002. Bandung: BPS.

Hair JF, Anderson RE, Tatham RL &

Black WC. 1998. Multivariate Data Analysis with Reading. Edisi ke-5. New Jersey: Prentice-Hall International.

Härdle, Wolfgang & Simar L. 2003. Applied

Multivariate Statistical Analysis. Berlin: Springer-Verlag.

Hogg RV & Craigg AT. 1995. Introduction

to Mathematical Statistics. Edisi ke-5. New Jersey: Prentice Hall.

Johnson RA & Dean WW. 1998. Applied

Multivariate Stastistical Analysis. Edisi ke-4. Canada: Prentice-Hall Internasional.

Johnston RJ. 1976. Classification in

Geography. Concepts and Techniques in Modern Geography No. 6.

Karson MJ. 1983. Multivariate Statistical

Method. Edisi ke-1. The Lowa State University Press.

Mardia KV, Kent JT & Bibby JM. 1989. Multivariate Analysis. London: Academic Press.

Moore DS. 1994. The Basic Practice of Statistics. New York: W. H. Freeman and Company.

Santoso S. 2000. Buku Latihan SPSS Statistik

Parametrik. Jakarta: Elex Media Komputindo.

Santoso S. 2002. Buku Latihan SPSS Statistik

Multivariat. Jakarta: Elex Media Komputindo.

Srivastava MS. 2002. Methods of

Multivariate Statistics. Canada: A. John Wiley & Sons, Inc.

Stewart J. 2001. Kalkulus. Edisi ke-4.

Jakarta: Erlangga. Sudjana. 1996. Metoda Statistika. Edisi ke-6.

Bandung: Tarsito. Walpole RE. 1995. Pengantar Statistika.

Edisi ke-3. Jakarta: Gramedia Pustaka Utama.

Lampiran 1 Analisis Cluster Lampiran 1.1 Nilai standarisasi upah minimum kabupaten/kota (UMK), persentase tingkat pengangguran, dan laju pertumbuhan ekonomi (LPE) pada tahun 2002

i Kabupaten/Kota z_UMK z_Tingkat Pengangguran z_LPE 1 Kab. Sukabumi -1,0495 -0,8432 -0,4333 2 Kab. Cianjur -0,7947 -0,4655 -0,9342 3 Kab. Bandung 0,6158 1,2573 0,8236 4 Kab. Garut -0,1356 -0,6212 -0,3331 5 Kab. Tasikmalaya -0,9705 -0,2336 -1,7266 6 Kab. Ciamis -1,0276 -1,3799 -0,8523 7 Kab. Kuningan -1,0495 -0,1507 -1,3259 8 Kab. Cirebon 0,7681 1,0519 0,5231 9 Kab. Majalengka -0,7508 -0,8100 0,0768

10 Kab. Subang -0,4432 -1,4461 -0,1327 11 Kab. Karawang 1,1388 1,4329 1,6251 12 Kab. Bekasi 1,5341 1,3633 1,2062 13 Kota Bogor 1,5444 0,3926 0,4320 14 Kota Bandung 0,6202 0,4522 1,0513

Lampiran 1.2 Matriks jarak euclid antar kabupaten/kota ( matriks kasamaan)

Proximity Matrix

Euclidean Distance

Case 1:Sukabumi 2:Cianjur 3:Bandung 4:Garut 5:Tasikmalaya 6:Ciamis 7:Kuningan 8:Cirebon 1:Sukabumi ,000 ,677 2,961 ,946 1,432 ,681 1,130 2,7952:Cianjur ,677 ,000 2,837 ,906 ,844 ,947 ,563 2,6213:Bandung 2,961 2,837 ,000 2,331 3,353 3,530 3,062 ,3954:Garut ,946 ,906 2,331 ,000 1,670 1,281 1,429 2,0855:Tasikmalaya 1,432 ,844 3,353 1,670 ,000 1,443 ,417 3,1206:Ciamis ,681 ,947 3,530 1,281 1,443 ,000 1,317 3,3217:Kuningan 1,130 ,563 3,062 1,429 ,417 1,317 ,000 2,8588:Cirebon 2,795 2,621 ,395 2,085 3,120 3,321 2,858 ,0009:Majalengka ,592 1,069 2,588 ,763 1,906 1,124 1,578 2,44410:Subang ,906 1,314 3,057 ,903 2,071 ,929 1,863 2,85311:Karawang 3,769 3,727 ,973 3,111 4,297 4,329 4,001 1,22412:Bekasi 3,772 3,654 1,000 3,016 4,174 4,281 3,922 1,07313:Kota Bogor 3,001 2,842 1,328 2,106 3,373 3,377 3,180 1,02314:Kota Bandung 2,583 2,605 ,837 1,908 3,274 3,114 2,967 ,813

This is a dissimilarity matrix

Proximity Matrix

Euclidean Distance

Case 9:Majalengka 10:Subang 11:Karawang 12:Bekasi 13:Kota Bogor 14:Kota Bandung1:Sukabumi ,592 ,906 3,769 3,772 3,001 2,5832:Cianjur 1,069 1,314 3,727 3,654 2,842 2,6053:Bandung 2,588 3,057 ,973 1,000 1,328 ,8374:Garut ,763 ,903 3,111 3,016 2,106 1,9085:Tasikmalaya 1,906 2,071 4,297 4,174 3,373 3,2746:Ciamis 1,124 ,929 4,329 4,281 3,377 3,1147:Kuningan 1,578 1,863 4,001 3,922 3,180 2,9678:Cirebon 2,444 2,853 1,224 1,073 1,023 ,8139:Majalengka ,000 ,737 3,316 3,350 2,615 2,10310:Subang ,737 ,000 3,726 3,687 2,766 2,47711:Karawang 3,316 3,726 ,000 ,580 1,634 1,24912:Bekasi 3,350 3,687 ,580 ,000 1,242 1,30013:Kota Bogor 2,615 2,766 1,634 1,242 ,000 1,11414:Kota Bandung 2,103 2,477 1,249 1,300 1,114 ,000

This is a dissimilarity matrix

Lampiran 1.3 Tabel tahap agglomeratif dengan single linkage clustering

Agglomeration Schedule

Cluster Combined

Stage Cluster First Appears

Stage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next

Stage 1 3 8 ,395 0 0 102 5 7 ,417 0 0 33 2 5 ,563 0 2 64 11 12 ,580 0 0 115 1 9 ,592 0 0 66 1 2 ,677 5 3 77 1 6 ,681 6 0 88 1 10 ,737 7 0 99 1 4 ,763 8 0 1310 3 14 ,813 1 0 1111 3 11 ,973 10 4 1212 3 13 1,023 11 0 1313 1 3 1,908 9 12 0

Lampiran 1.4 Tabel anggota kelompok untuk 4, 3, dan 2 pengelompokan

Cluster Membership

Case 4 Clusters 3 Clusters 2 Clusters 1:Sukabumi 1 1 12:Cianjur 1 1 13:Bandung 2 2 24:Garut 1 1 15:Tasikmalaya 1 1 16:Ciamis 1 1 17:Kuningan 1 1 18:Cirebon 2 2 29:Majalengka 1 1 110:Subang 1 1 111:Karawang 3 2 212:Bekasi 3 2 213:Kota Bogor 4 3 214:Kota Bandung 2 2 2

Lampiran 1.5 Gambar dendogram single linkage clustering untuk jarak antar kabupaten/kota * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Single Linkage Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ Bandung 3 òûòòòòòòòòòòòø Cirebon 8 ò÷ ùòòòòòø Kota Bandung 14 òòòòòòòòòòòòò÷ ùòø Karawang 11 òòòòòòòûòòòòòòòòòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòø Bekasi 12 òòòòòòò÷ ó ó Kota Bogor 13 òòòòòòòòòòòòòòòòòòòòò÷ ó Tasikmalaya 5 òûòòòø ó Kuningan 7 ò÷ ùòòòø ó Cianjur 2 òòòòò÷ ó ó Sukabumi 1 òòòòòòòûòôòø ó Majalengka 9 òòòòòòò÷ ó ùòø ó Ciamis 6 òòòòòòòòò÷ ó ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ Subang 10 òòòòòòòòòòò÷ ó Garut 4 òòòòòòòòòòòòò÷

Lampiran 1.6 Diagram pencar UMK, tingkat pengangguran, dan LPE

714

300000

12

400000

6

500000

10

600000

5

TP LPE8 46 34

Lampiran 2 Analisis Diskriminan Lampiran 2.1 Nilai standarisasi upah minimum kabupaten/kota (UMK), persentase tingkat pengangguran, dan laju pertumbuhan ekonomi (LPE) kelompok pertama dan kelompok kedua

Kabupaten/Kota z_UMK z_Tingkat Pengangguran z_LPE Kelompok dengan tingkat sosial ekonomi menengah ke bawah Kab. Sukabumi -1,22711 -0,97611 -0,29231 Kab. Cianjur -0,97079 -0,55953 -0,80317 Kab. Garut -0,30789 -0,73128 -0,19014 Kab. Tasikmalaya -1,14756 -0,30373 -1,61125 Kab. Ciamis -1,20502 -1,5681 -0,71957 Kab. Kuningan -1,22711 -0,21238 -1,20256 Kab. Majalengka -0,9266 -0,93957 0,22784 Kab. Subang -0,61724 -1,64118 0,01421 Kab. Sumedang* 0,4434 0,1567 -0,01366 Rataan -0,7984 -0,7528 -0,5101 Standar Deviasi 0,5609 0,6018 0,6162 Kelompok dengan tingkat sosial ekonomi menengah ke atas Kab. Bandung 0,44782 1,34067 0,98948 Kab. Cirebon 0,60097 1,11411 0,68296 Kab. Karawang 0,97386 1,53435 1,80685 Kab. Bekasi 1,37146 1,45761 1,37959 Kota Bogor 1,3818 0,38692 0,59008 Kota Bandung 0,45224 0,45269 1,22169 Kab. Bogor* 1,3818 0,31749 -1,08182 Kab. Purwakarta* 0,57598 0,17132 -0,99822 Rataan 0,8982 0,8469 0,5738 Standar Deviasi 0,4295 0,5688 1,0682

Lampiran 2.2 Hasil uji asumsi kehomogenan matriks kovarian kelompok pertama dengan kelompok kedua

Tests of Equality of Group Means

Wilks'

Lambda F df1 df2 Sig. UMK ,238 48,028 1 15 ,000TP ,323 31,495 1 15 ,000LPE ,689 6,770 1 15 ,020

Keterangan : Apabila nilai signifikan dengan uji F lebih besar dari 0,05, berarti tidak ada perbedaan antar kelompok (Santoso, 2000)

Lampiran 2.3 Hasil uji asumsi kenormalan variabel UMK, tingkat pengangguran, dan LPE

Descriptives

Statistic Std. Error UMK Mean 419834,12 27,440,199 95% Confidence Interval Lower Bound 361663,49 for Mean Upper Bound 478004,74 5% Trimmed Mean 418861,85 Median 470000,00 Variance 1,28E+10 Std. Deviation 113138.84 Minimum 281000 Maximum 576169 Range 295169 Interquartile Range 208921,00 Skewness ,037 ,550 Kurtosis -1,631 1,063

Descriptives Statistic Std. ErrorTP Mean 88,212 ,66371 95% Confidence Interval Lower Bound 74,142 for Mean Upper Bound 102,282 5% Trimmed Mean 88,374 Median 92,500 Variance 7,489 Std. Deviation 273,655 Minimum 4,33 Maximum 13,02 Range 8,69 Interquartile Range 44,300 Skewness ,004 ,550 Kurtosis -,899 1,063LPE Mean 40,947 ,26112 95% Confidence Interval Lower Bound 35,412 for Mean Upper Bound 46,483 5% Trimmed Mean 40,830 Median 40,800 Variance 1,159 Std. Deviation 107,662 Minimum 2,36 Maximum 6,04 Range 3,68 Interquartile Range 18,700 Skewness ,195 ,550 Kurtosis -,953 1,063

Keterangan : Data dikatakan berdistribusi normal apabila nilai rasio skewness dan nilai rasio kurtosis berada di antara nilai -2 dan 2. Rasio skewness adalah nilai skewness/standar error skewness. Rasio kurtosis adalah nilai kurtosis/standar error kurtosis (Santoso, 2000)

Lampiran 2.4 Hasil uji asumsi kehomogenan matriks kovarian kelompok pertama dengan kelompok kedua

Test Results Box's M 15,310 F Approx. 1,986 df1 6 df2 1,555,544 Sig. ,065

Tests null hypothesis of equal population covariance matrices. Keterangan : Matriks kovarian dikatakan homogen apabila nilai signifikan pada tabel diatas lebih besar dari 0,05 (Santoso, 2000)

ANALISIS PENGELOMPOKAN OBJEK DENGAN METODE … · Clustering dan Diskriminan Linear untuk Kasus Dua...

Documents

Transcript of ANALISIS PENGELOMPOKAN OBJEK DENGAN METODE … · Clustering dan Diskriminan Linear untuk Kasus Dua...