5-22-1-PB

1

PERBANDINGAN REDUKSI DATA MENGGUNAKAN TRANSFORMASI COSINUS DISKRIT DAN

ANALISIS KOMPONEN UTAMA

Laila Isyriyah, Evy Poerbaningtyas Program Studi : Teknik Informatika,

Sekolah Tinggi Informatika & Komputer Indonesia (STIKI) Malang Email: [email protected], [email protected]

ABSTRAK

Reduksi dimensi adalah suatu pendekatan yang menjanjikan karena metode tersebut mengekstrak komponen yang paling penting dan menghasilkan kompleksitas yang lebih rendah pada analisis data mikroarray. Discret Cosine Transform (DCT) adalah teknik transformasi data yang telah sukses diaplikasikan secara intensif dalam bidang pemrosesan suara dan image untuk tujuan dekorelasi pada pengolahan citra dan kompresi data. DCT akan diaplikasikan untuk reduksi dimensi data dan membandingkannya dengan metode Principle Component Analysis (PCA).

Data yang digunakan adalah data ekspresi gen dari pembiakan ragi. Data set terdiri dari 6400 gen, tahap preprosesing diperlukan sebelum data dilakukan reduksi. Pada awalnya set data mentah dikluster menggunakan empat metode klustering data mining yaitu metode K-Mean, Kohonen, Fuzzy K-Mean dan Fuzzy Subtractive.

Secara deskripsi metode klustering K-Mean dan Fuzzy K-Mean mempunyai penyebaran anggota kluster relatif homogen dengan rentang relatif rendah. Metode Kohonen mempunyai penyebaran jumlah anggota kluster paling heterogen dengan kisaran jumlah anggota kluster relatif tinggi, sedangkan metode Fuzzy Subtractive mempunyai penyebaran jumlah anggota kluster yang berubah-ubah. Nilai CTM untuk metode K-Mean, Kohonen dan Fuzzy K-Mean meningkat secara konsisten seiring dengan bertambahnya dimensi data transformasi yang digunakan, sedangkan nilai CTM untuk metode Kohonen tidak teratur.

Kata Kunci :Reduksi data , PCA, DCT, Klustering, CTM

I. PENDAHULUAN

Masalah yang penting dalam bidang analisis mikroarray adalah pengorganisasian data ekspresi gen dengan dimensi yang besar dan representasinya dalam format yang dapat menekankan kesamaan, dan perbedaan antara ekspresi gen yang berbeda, juga memberi fasilitas interpretasi biologisnya.

Literatur pada bidang ini meliputi teknik-teknik klustering seperti algoritma K-mean (Datta, 2003), Self Organising Maps (Toronen et al,1999), Sellular neural network (zhang et al, 2003), dan tehnik-tehnik visualisasi seperti pemetaan image dan dendrogram (Iyer et al, 1998), algorima Sammon (Toronen et al, 1999) dan skatter plot 2D (Datta, 2003). Metode-metode berikut memiliki banyak sumbangan dalam proyeksi dan reduksi dimensi data microarray, seperti penerapan analisis komponen utama (Datta, 2003), analisis komponen independent (Liao et al, 2002) dan penguraian nilai singular (Wall, 2003).

Pendapat yang lain, reduksi dimensi muncul dari kenyataan bahwa beberapa database mikroarray memiliki dimensi p yang amat besar dibandingkan n jumlah observasi gen yang dikluster. Penelitian sebelumnya (McLachlan et al,

2002) telah menemukan bahwa masalah p > n sering dapat menyebabkan estimasi singular dari pada matrik kovarian dalam kluster. Dengan pengurangan dimensi p berarti dapat mengurangi masalah tersebut pada klustering microarray.

Dalam penelitian ini, diusulkan pengunaan DCT untuk reduksi jumlah dimensi dalam data mikroarray. Motivasi untuk menggunakan DCT muncul karena penerapannya yang intensif dan sukses dalam bidang pemrosesan suara dan image untuk tujuan dekorelasi, pengurutan dan reduksi data. Selain dengan DCT reduksi data juga dilakukan dengan analisis komponen utama, yang mana metode ini merupakan salah satu metode popular yang banyak diaplikasikan untuk reduksi data multivariable. Data hasil pre-processing dengan kedua metode reduksi di atas selanjutnya dikluster dengan menggunakan beberapa teknik klustering data mining untuk dapat membedakan keandalan di antara teknik reduksi itu.

Berbeda dengan yang dilakukan oleh Epps, J. et al (2004) metode klustering data mining yang digunakan dalam penelitian ini adalah metode K-mean, metode Kohonen dan metode klustering berbasis fuzzy yaitu fuzzy K-mean dan fuzzy

Subtractive. Dengan menggunakan teknik klustering yang metode pendekatanya bervariatif dimaksudkan untuk dapat membandingkan secara obyektif keandalan kedua metode reduksi data di atas. Ukuran keketatan kluster akan digunakan dalam penelitian ini untuk menilai performa dari masing-masing teknik klustering pada setiap teknik reduksi data.

2. TINJAUAN PUSTAKA Principle Component Analysis Principle Component Analysis (analisis komponen utama) berawal dari tulisan Karl Pearson pada tahun 1901 untuk variabel non-stokastik. Analisis ini kemudian dirampatkan untuk variabel stokastik oleh Hotelling pada tahun 1933. Analisis komponen utama biasanya digunakan untuk : • Identifikasi variabel baru yang mendasari data

multivariabel. • Mengurangi banyaknya dimensi himpunan data

dengan cara memilih variabel baru yang bermakna, secara umum jumlahnya lebih sedikit bila dibandingkan dengan variabel asal, dengan mempertahankan sebanyak mungkin keragaman dalam kumpulan data tersebut.

Variabel baru yang dimaksud di atas disebut komponen utama yang berciri : • Merupakan kombinasi linier dari variabel-

variabel asal. • Jumlah kuadrat koefisien dalam kombinasi

linier tersebut bernilai 1. • Antar variabel baru tidak saling berkorelasi. • Antar variabel baru mempunyai ragam terurut

dari yang terbesar ke yang terkecil. Variabel baru yang disebut komponen utama ini bersifat unobservable variable dan disebut variabel laten, sedangkan variabel asal (X) yang membentuk komponen utama tersebut bersifat observable variable dan disebut variabel manifest (indikator). Berikut dijelaskan konsep-konsep yang berkaitan dengan pembentukan skor komponen utama pada analisis komponen utama. Misal terdapat p variabel X, yaitu X1, X2, . . .,Xp, maka dapat dibuat kombinasi linier:

K1= a11 X1�a21 X2�. ..�ap1 X pK2= a12 X1�a22 X 2�. ..�a p2 X p..K p= a1p X1�a2p X2�.. .�app X p

bi

la dinyatakan dalam bentuk matrik menjadi K= AX besar varian komponen utama adalah

Var− Cov�Y �= A S A'

S= 1n− 1 ∑h= 1

n

�Xh− �X ��Xh− �X �

selanjutnya

K1= a11 X1�a21 X2�. ..�ap1 X p disebut komponen utama pertama, dengan ragam

S y12 = a

'1 S a1 Ada tiga metode yang digunakan untuk menetukan banyaknya komponen utama, salah satunya adalah : proporsi kumulatif dari keragaman total. Kriteria ini paling banyak dipakai dan dapat menggunakan matriks kovariansi atau korelasi pada analiasis Komponen utama. Kriteria dalam metode ini adalah menspesifikasikan sebelumnya persentase minimum dari keragaman total yang sesuai (kira-kira 90%) dan jumlah komponen utama yang terkecil yang memenuhi spesifikasi tersebut

yang dipilih. Jika λ1≥ λ2≥ .. .≥ λ p adalah nilai eigen dari matriks kovariansi (korelasi), maka proporsi kumulatif dari k nilai eigen pertama adalah: ∑

i= 1

k

λi

∑i= 1

p

λi

, k= 1, . .. , p

dan untuk matriks korelasi : ∑i= 1

k

λi

p, k= 1,. .. , p

Transformasi Cosinus Diskrit Discrete Cosine Transform (DCT) muncul

secara defacto sebagai transformasi image dalam kebanyakan sistem visual. DCT secara luas disebarkan oleh standart pengkodean video modern, sebagai contoh, MPEG, JVT dan sebagainya. Seperti metode transformasi yang lain, DCT berusaha untuk mendekorelasi data image. Setelah dekorelasi setiap koefisien transformasi dapat dikodekan secara independent tanpa kehilangan efisiensi kompresi. Umumnya DCT didefinisikan sebagai barisan 1 dimensi yang panjangnya N, yaitu :

C �u�= α�u�∑x= 0

N− 1

f �x�cos[π�2x�1�u2N ]

(1) untuk u= 0,1,2,. .. , N− 1 . Dengan cara yang sama transformasi invers didefinisikan sebagai :

f �x �= ∑u= 0

N− 1

α�u�C �u�cos[π�2x�1�u2N ](2)

untuk x= 0,1,2, .. . , N− 1. pada kedua persamaan di atas α�u�didefinisikan sebagai

α�u�= {�1N

untuk u= 0

�2N

untuk u≠ 0

(3) cukup jelas dari persamaan (1) bahwa untuk

u= 0 , C �u= 0�= �1N ∑

x= 0

N− 1

f �x�. Jadi

koefisien transformasi pertama merupakan nilai rata-rata barisan sampel. Dalam literatur nilai ini dirujuk sebagai koefisien DC (arus searah), sedangkan semua koefisien transformasi yang lain disebut sebagai koefisien AC(arus bolak-balik). Untuk memperbaiki gagasan, abaikan komponen f(x) dan α�u�dalam persamaan (1). Plot dari

∑x= 0

N− 1

cos[π�2x�1�u2N ] untuk N=8 dan nilai u

divariasi ditunjukan dalam gambar 1. Sesuai dengan hasil sebelumnya, gambar untuk u=0 menyatakan nilai DC yang konstan, sedangkan semua gambar yang untuk u = 1,2,…,7 memberikan bentuk gelombang pada frekuensi yang semakin meningkat. Bentuk gelombang ini disebut fungsi dasar kosinus.

Gambar 1. Fungsi dasar kosinus satu dimensi (N=8)

Dapat dilihat pada gambar 2 bahwa fungsi-

fungsi basis ini orthogonal, dimana bentuk gelombang yang orthogonal adalah saling bebas karena tidak ada satupun fungsi basis yang dapat dinyatakan sebagai kombinasi linier dari fungsi basis yang lainnya.

Jika barisan input memiliki lebih dari N titik sample maka dilakukan pembagian ke dalam sub

barisan dengan panjang N dan DCT dapat diaplikasikan pada kelompok ini secara independent. Harus dicatat bahwa dalam setiap proses komputasi nilai dari titik fungsi basis tidak berubah. Hanya nilai dari f(x) akan berubah dalam setiap sub barisan. Hal ini merupakan sifat yang sangat penting karena memperlihatkan bahwa fungsi basis dapat dihitung terlebih dahulu, kemudian dikalikan dengan sub barisan. Hal ini mengurangi jumlah operasi matematika dengan demikian dapat menggambarkan komputasi yang efisien. Secara khas, beberapa koefisien DCT yang pertama mengandung sebagian besar energi dari barisan data, oleh karena itu DCT sering digunakan untuk aplikasi kompresi data seperti pengkodean suara dan image. Seperti nampak dalam gambar 2 barisan data (diperoleh pada variasi waktu tertentu), seperti suatu profil ekspresi gen dapat dimodelkan dengan akurasi layak mengunakan hanya dua atau tiga koefisien DCT yang pertama. Oleh karena itu DCT merupakan sebuah alat yang baik untuk reduksi dimensi dalam konteks ini.

.

Gambar 2 Gambar 2. Contoh profil ekspresi gen dari data

sporulasi ragi (garis padat) dan rekontruksi menggunakan a) satu, b) dua dan c) tiga

koefisien DCT yang pertama (putus-putus)

Dua koefisien DCT yang pertama secara khusus mempunyai interpretasi sebagai berikut : • C0 adalah rataan aritmetika dari barisan data

x�n� , dan berkorespondensi dengan rataan ratio ekspresi gen.

• C1 adalah amplitudo dari gelombang kosinus pada periode 2K, dan secara praktis bertindak sebagai pendekatan terhadap kemiringan dari barisan data x�n� . Jadi C1 memberikan pendekatan yang kasar terhadap bentuk keseluruhan dari pola ekspresi untuk sebuah gen.

Klustering data adalah suatu metode dimana suatu himpunan data yang sangat besar dikelompokan menjadi himpunan kluster yang lebih kecil berdasarkan kemiripannya. Klustering berarti pengelompokan data atau pembagian himpunan data yang besar menjadi himpunan data yang lebih kecil berdasarkan kemiripan.

Secara umum jarak antara dua titik dinyatakan dalam ukuran umum untuk menafsirkan kemiripan di antara instant dari suatu populasi. Ukuran jarak yang umum digunakan adalah ukuran Euclide yang mendefinisikan jarak antara dua titik P= [ x1�P �, x2�P �, x3�P �, .. . ] dan Q= [ x1�Q �, x2�Q �, x3�Q �, .. . ] diberikan

oleh :

d �P ,Q�= �∑j= 1

p

�x j�P�− x j�Q ��2

Pusat suatu kluster adalah suatu titik yang koordinatnya merupakan rata-rata koordinat dari semua titik di dalam kluster.

Jarak yang digeneralisasi dan ukuran kemiripan adalah : • Ukuran jarak merupakan ukuran

ketidakmiripan. • Dua titik dikatakan mirip jika keduanya dekat

atau jaraknya mendekati nol. • Kemiripan dapat dinyatakan dalam bentuk

fungsi jarak sebagai berikut :

s �P , Q�= 11�d�P , Q�

• Definisi dari fungsi jarak biasanya sangat berbeda tergantung pada jenis data.

• Bobot sebaiknya disesuaikan dengan perbedaan dimensi koordinat, yang didasarkan pada aplikasi dan makna data.

• Sangat sulit untuk menyatakan “cukup mirip” atau “cukup baik”, hal ini biasanya sangat subyektive.

Klustering K-Mean K-Mean adalah salah satu algoritma

pembelajaran unsupervised yang paling sederhana yang digunakan untuk menyelesaikan masalah klustering.. Langkah-langkah Algoritma Klustering K-Mean sebagi berikut : 1 Menentukan banyaknya kluster, misalnya K. 2 Memilih K instant sebagai pusat kluster,

sering kali dipilih titik-titik yang memiliki jarak berjauhan.

3. Selanjutnya mempertimbang kan setiap instant dan menugaskannya ke kluster terdekat.

4. Pusat kluster dihitung ulang setelah penugasan setiap instant atau setelah penugasan seluruh instant.

5. Kembali ke langkah 3, sampai tidak ada instant yang berpindah.

Klustering Fuzzy K-Mean Fuzzy K-Mean adalah suatu metode klustering yang memperboleh-kan satu data menjadi milik dua atau lebih kluster. Berikut adalah langkah-langkah dalam algoritma Fuzzy K-Mean sebagai berikut:

1. Inisialisai U= matrik [uij] , sebut sebagai U(0)

2. pada langkah ke-k , hitunglah pusat vektor C�k�= [c j] menggunakan Uk

cj=∑i= 1

N

uijm xi

∑i= 1

N

uijm

3. Update Uk dengan Uk+1

uij=1

∑k= 1

c ��xi− c j��xi− ck��

2m−1

4. Jika {�uij�k�1�− uij

k�}�ε maka berhenti, jika tidak kembali ke langkah 2.

Klustering Self Organising Maps (Kohonen) Teknik Kohonen membuat sebuah jaringan yang menyimpan informasi dengan cara memelihara beberapa relasi berdasarkan tempat dalam himpunan pembelajaran. Langkah-langkah Algoritma SOM sebagai berikut : 1. Inisialisasi bobot wij , aturlah parameter

kedekatan berdasarkan topologi, kemudian atur parameter tingkat pembelajaran.

2. Periksa kondisi berhenti, selama kondisi berhenti false, kerjakan langkah 3-9.

3. untuk setiap vektor input x kerjakan langkah 4-6.

4. untuk setiap j, hitunglah :

D�j �=∑i

�wij− xi�2 .

5. Dapatkan indeks j sedemikian hingga D(j)

minimum

6. untuk semua unit j dalam suatu tetangga khusus J, dan untuk semua i hitunglah wij�new �= wij�old ��α [xi− wij�old �]

7. update tingkat pembelajaran 8. Kurangi jari-jari kedekatan secara topologi pada

waktu tertentu. 9. ujilah kondisi berhenti (kembali ke langkah 2)

Klustering Fuzzy Subtractive Konsep dasar dari Fuzzy Subtractive klustering adalah menentukan daerah-daerah dalam suatu variabel yang memiliki densitas tinggi terhadap titik-titik di sekitarnya. Titik dengan jumlah tetangga terbanyak akan dipilih sebagai pusat kluster. Titik yang sudah terpilih sebagai pusat kluster ini kemudian akan dikurangi densitasnya. Kemudian algoritma akan memilih titik lain yang memiliki tetangga terbanyak untuk dijadikan pusat kluster yang lain. Hal ini dilakukan berulang-ulang hingga semua titik diuji.

Langkah-langkah algoritma Fuzzy Subtractive klustering adalah sebagai berikut :

1. Input data yang akan dikluster : Xij dengan i= 1,2, .. . ,n dan j= 1,2,. .. , m

2. Tetapkan nilai : a. rj (jari-jari setiap atribut data); j =

1,2,…, m b. q (squash faktor) c. accept_ratio d. reject_ratio e. Xmin(minimum data yang diperbolehkan) f. Xmax(maksimum data yang

diperbolehkan) 3. Normalisasi :

Xij=X ij− X min j

X max j− X min j

4. Tentukan potensi awal tiap titik-titik data : a. i=1 b. kerjakan hingga i=n, • Tj = Xij ;

• Hitung: Distkj= [T j− Xkj

r ]

• Potensi awal: jika m=1, maka;

Di=∑k= 1

n

e− 4�Distk1

2 �

jika m > 1, maka;

Di=∑k= 1

n

e− 4�∑j= 1

mDistkj

2�

• i= i�1

5. Cari titik dengan potensi tertinggi :

a. M= max [Di�i= 1,2, . .. , n] b. h = i, sedemikian hingga Di = M.

6. Tentukan pusat kluster dan kurangi potensinya terhadap titik-titik disekitarnya. a. pusat =[] b. Vj=Xhj c. C=0 (jumlah kluster) d. Kondisi = 1 e. Z = m f. Kerjakan jika (kondisi tidak nol) dan (z tidak

nol) : • Kondisi = 0 (sudah tidak ada calon pusat

baru lagi) • Rasio Z/M • Jika rasio > accept_rasio, maka kondisi =1;

ada calon pusat baru) • Jika tidak Jika rasio > reject_rasio, (calon baru akan

diterima sebagai pusat ji keberadaannya akan memberikan keseimbangan terhadap data-data yang letaknya cukup jauh dengan pusat kluster yang telah ada), maka kerjakan:

• Md = -1 • Kerjakan untuk i = 1 sampai i = c

i. Gij=V j− Centerij

r, j= 1,2, .. . , m

ii. Sdi=∑j= 1

m

�Gij�2

iii. Jika (Md<0) atau (Sd<Md), maka Md=Sd

• Smd = �Md • Jika (rasio + Smd) >= 1 , maka kondisi =1

(data diterima sebagai pusat kluster) • Jika (rasio + Smd) < 1 , maka kondisi =2

(data tidak akan dipertimbangkan kembali sebagai pusat kluster)

Jika kondisi =1 (calon pusat kluster baru diterima sebagai pusat baru) maka kerjakan

• C = C +1 • Centerc = V • Kurangi potensi dari titik-titik di dekat pusat

kluster.

- Sij=V j− Xij

r j�q

- Dci = M* e− 4[∑j= 1

m�Sij �

2]

- D = D – Dc

- Jika Di≤ 0 , maka Di = 0;

- Z= max [Di�i= 1,2, ..n]

- Pilih h=1, sedemikian hingga Di =Z Jika kondisi = 2 (calon pusat baru tidak diterima sebagai pusat baru ), maka • Dh = 0

• Z = max [Di�i= 1,2, .. . , n] • Pilih h = i, sedemikian hingga Di = Zi

7. Kembalikan pusat kluster dari bentuk ternomalisasi ke bentuk semula Centerij = Centerij *(Xmaxj – Xminj) + Xminj

8. Hitung nilai sigma kluster σ j= r��X max j− X min j �/�8

Mengukur Keketatan Kluster Untuk mengukur kehandalan teknik

reduksi data digunakan sebuah ukuran yang didasarkan pada deviasi baku setiap kluster sepanjang setiap dimensi. Karena data akan mempunyai jangkauan yang berbeda tergantung pada jenis tehnik reduksi dimensi yang digunakan, ukuran ini dinormalisasikan menurut deviasi standart global sepanjang setiap dimensi. Yaitu :

CTM= 1M ∑

m= 1

M [1K ∑k= 1

K σKm

σkG ] , yang mana

σ km

deviasi standar kluster ke m sepanjang dimensi

ke k , σ kG

adalah deviasi standar seluruh data sepanjang dimensi K, K adalah panjang dimensi barisan input dan M adalah jumlah kluster. 3. METODOLOGI

Penelitian ini termasuk penelitian kualitatif, karena dengan penelitian kualitatif akan lebih menekankan pada proses pencarian dan pengungkapan makna dibalik fenomena yang muncul dalam penelitian, dengan tujuan agar masalah yang akan dikaji lebih bersifat komprehensif, mendalam dan alamiah.

Adapun metode penelitian yang digunakan menggunakan tahapan sebagai berikut :

1. Studi Sistem dengan cara meentukan data set penelitian yang akan dilakukan terhadap obyek penelitian. Data yang digunakan dalam Penelitian ini adalah data set yang dikumpulkan dari penelitian pemeriksaan sporulasi pembiakan ragi. Data set lengkap dapat diperoleh dari web site Omnibius Ekspresi Gen yaitu: http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi? acc=GSE28. Data set yang digunakan dalam Penelitian ini terdiri dari N=310 gen dengan profil sementara diukur pada 7 waktu yang berbeda, yaitu dimensinya adalah K=7.

2. Studi Pustaka yaitu melakukan kajian teoritis tentang penelitian yang akan dilakukan tentang metode reduksi dan beberapa teknik klustering.

3. Studi Pengembangan Sistem yaitu melakukan perancangan dan pembuatan aplikasi teknik reduksi data dengan PCA dan DCT, serta teknik klustering K-Mean, Kohonen, Fuzzy K-Mean dan Fuzzy Subtractive, kemudian menghitung ukuran keketatan kluster dari metode-metode klustering tersebut. Setelah semua rancangan aplikasi tersedia maka diimplementasikan dalam source code dengan menggunakan bahasa pemrograman Borland Delphi 7.

4. HASIL DAN PEMBAHASAN

Tahap 1. Data Sporulasi Ragi Data yang digunakan dalam penelitian ini adalah data set yang dikumpulkan dari penelitian pemeriksaan sporulasi pembiakan ragi oleh DeRisi, JL, Iyer, VR, and Brown, PO.; "Exploring the metabolic and genetic control of gene expression on a genomic scale"; Science, 1997, Oct 24;278(5338):680-6, PMID: 9381177. Mikroarray DNA digunakan untuk mempelajari ekspresi gen temporal hampir pada semua gen dalam Saccharomyces cerevisiae selama pergeseran metabolisme dari fermentasi ke respirasi. Tingkat ekspresi diukur pada 7 titik waktu (0 ; 9.5 ; 11.5 ; 13.5 ; 15.5 ; 18.5 ; 20.5 jam) selama pergeseran diauxic. Data set lengkap dapat diperoleh dari web site Omnibius Ekspresi Gen yaitu: http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE28 Data set terdiri dari 6400 gen dan 7 dimensi ( waktu pengukuran). Nilai dari data ini merupakan logaritma basis 2 dari rasio sinyal merah : hijau. yaitu rasio sinyal eksperimen : control. Dalam hal

ini adalah ln �CH 2 DNMEAN

CH 1 DNMEAN� dari 7 dimensi

pengukuran.

Tahap 2. Filtering Data Adapun langkah-langkah dalam filtering adalah 1. Dalam daftar profil gen ada titik yang berisi

“EMPTY”, anggaplah titik ini sebagai noise dan hilangkan dari daftar. Perintah dalam Matlab menggunakan :

emptySpots=strcmp('EMPTY',genes); yeastvalues(emptySpots,:) = []; genes(emptySpots) = []; numel(genes) Jumlah gen menjadi 6314 2. Hilangkan titik data ekspresi yang bernilai NaN,

hal ini menunjukan tidak ada data yang terkumpul pada titik ini pada waktu tertentu.

Fungsi isnan dalam Matlab dapat digunakan untuk melakukan hal ini. Perintah yang dikerjakan adalah :

nanIndices=any(isnan(yeastvalues, 2); yeastvalues(nanIndices,:) = []; genes(nanIndices) = []; numel(genes) Jumlah gen menjadi 6276 3. Ada beberapa profile gen yang tidak

mempunyai beda yang signifikan satu dengan yang lainnya. Gen-gen ini tidak menyediakan informasi yang berguna tentang gen akibat perubahan metabolisme. Gen yang mempunyai variasi kecil ini harus dihilangkan. Sintaks berikut untuk melakukan hal ini adalah :

mask = genevarfilter(yeastvalues); % Use the mask as an index into the values to

remove the % filtered genes. yeastvalues = yeastvalues(mask,:); genes = genes(mask); numel(genes) Jumlah gen menjadi 5648 4. Hilangkan gen yang mempunyai nilai ekspresi

absolute sangat rendah, dengan menjalankan sintaks berikut :

[mask,yeastvalues, genes] = genelowvalfilter (yeastvalues,genes, 'absval',log2(4));

umel(genes) jumlah gen menjadi 423 5. Hilangkan gen yang mempunyai nilai entropi

rendah dengan menjalankan perintah berikut : mask, yeastvalues, genes] =

geneentropyfilter(yeastvalues,genes,... 'prctile',15); numel(genes) output dari perintah ini menghasilkan jumlah

gen sebesar 310, data terakhir ini yang akan digunakan dalam penelitian ini.

Tahap 3. Klustering Data Mentah Metode K-Mean, Kohonen dan Fuzzy K-mean mempunyai jumlah anggota kluster hampir sama, sedangkan Metode Fuzzy Subtractive pada kedua kluster tersebut anggota klusternya lebih banyak dibandingkan pada kluster-kluster yang lain. Jumlah anggota kluster terendah untuk metode K-Mean terjadi pada kluster 3, metode Kohonen dan Fuzzy Subtractive pada kluster 4, sedangkan metode Fuzzy K-mean pada kluster 1. Metode Kohonen dan Fuzzy K-Mean mempunyai penyebaran anggota kluster dengan range yang relatif rendah, sedangkan metode K-mean dan Fuzzy Subtractive penyebaran anggota klusternya dengan range yang tinggi.

Tahap 4. Reduksi Data dengan PCA Hasil 7 komponen utama dengan jumlah data sebanyak 310 gen, akan digunakan untuk menggantikan data asal dalam proses klustering yang akan diperbandingkan. Komponen Utama yang pertama (Y1), mampu menjelaskan 50.8% keragaman data yang berarti apabila data asal dengan 7 demensi itu digantikan dengan Yl, maka keragaman dari data asal itu hanya terjelaskan sebesar 50.8%. Demikian juga jika data asal digantikan dengan dua komponen utama yang pertama yakni Y1 dan Y2, maka kedua komponen ini mampu menjelaskan keragaman data asal 77.6%. Jika digunakan Y1,Y2, dan Y3 untuk menggantikan data asal maka keragaman yang dapat dijelaskan sebesar 87.6% dan seterusnya. Biasanya para pengguna PCA sudah cukup puas apabila k komponen utama yang pertama dapat menjelaskan minimal 75% keragaman data, kemudian menggantikan data asal dengan k komponen utama itu untuk analisis selanjutnya. Jadi untuk data asal dalam tesis ini, cukup diwakili oleh Y1 dan Y2, sudah dapat menjelaskan keragaman data 77.6%. Untuk lebih memperluas dan menyakinkan aplikasi reduksi data dengan PCA, dalam tesis ini dibangun suatu perangkat lunak untuk aplikasi metode klustering K-Mean, Kohonen, Fuzzy K-Mean, dan Fuzzy Subtractive pada 2,3, sampai 7 komponen utama yang pertama. Tahap 5. Reduksi Data dengan DCT Hasil reduksi dengan DCT diperoleh suatu data yang baru yang akan digunakan untuk menggantikan data asal. Banyak data yang dihasilkan sebanyak 310 gen, tabel di atas diperoleh dengan menghitung koefisien C0 terlebih dahulu, setelah itu secara independent menghitung koefisien C1, kemudian koefisien C2 dan seterusnya. Pada prinsipnya koefisien-koefisien DCT satu dan lainnya dihitung secara independent. Proses komputasi untuk mendapatkan koefisien DCT ini sangat sederhana, tidak melibatkan terlalu banyak operasi matrik sebagaimana cara mendapatkan komponen utama, sehingga sangat efisien dalam pemakaian memory dan prosesor. Tahap 6. Klustering Data Set 2 komponen utama sampai semua komponen utama pertama. Tampak bahwa pada kluster 3 dan kluster 7, keempat metode klustering mempunyai jumlah anggota kluster yang hampir seimbang yakni pada kisaran 15 sampai 56 untuk kluster 3 dan pada kisaran 31 sampai 73 untuk kluster 7. Metode Fuzzy

K-Mean mempunyai penyebaran jumlah anggota kluster yang paling homogen dengan kisaran 21 sampai 65, sedangkam teknik klustering K-Mean mempunyai penyebaran anggota kluster yang paling bervariasi dengan kisaran 10 sampai 111. Tahap 7. Klustering Data Set Koefisi-en C0 sampai semua koefisien. Dari tabel 4.14 tampak bahwa kluster 6 masing-masing teknik klustering mempunyai anggota kluster yang relatif kecil dan seragam dengan kisaran 12 sampai 42. Pada kluster 2 penyebaran anggota kluster sangat heterogen dan bervariasi tinggi dengan range 13 sampai 95. Metode klustering Fuzzy Subtractive mempunyai sebaran anggota kluster yang paling heterogen dengan kisaran 1 sampai 95. Teknik klustering Fuzzy K-Mean mempunyai sebaran anggota kluster paling hogen dan bervariasi kecil yaitu berkisar 27 sampai 68. Tahap 8. Klustering K-Mean, Fuzzy K-Mean, Kohonen dan Fuzzy Subtractive untuk semua Set Data. Klustering K-Means Hasil klustering K-Mean bahwa pada kluster 6, jumlah anggota kluster dari setiap data set relatif homogen dengan kisaran 27 sampai 41 untuk data set PCA dan pada kisaran 20 sampai 42 untuk data set DCT, sedangkan dari raw data set dihasilkan jumlah anggota 40. Pada kluster 5, jumlah anggota kluster dari semua data set relatif lebih tinggi dibandingkan kluster-kluster yang lain yaitu pada kisaran 81 sampai 111 untuk data PCA dan pada kisaran 49 sampai 92 untuk data DCT sedangkan dari raw data dihasilkan jumlah anggota kluster 66. Data set PCA(1-4) dan DCT(0-3) menghasilkan jumlah anggota kluster yang hampir sama dengan jumlah anggota kluster yang dihasilkan oleh row data. Hal ini merupakan indikasi bahwa data set PCA(1-4) dan data set DCT(0-3) paling cocok di antara data set yang lainnya untuk menggantikan row data set. Klustering Kohonen Hasil klustering Kohonen bahwa pada kluster 7, jumlah anggota kluster dari setiap data set relatif homogen dengan kisaran 31 sampai 79 untuk data set PCA dan pada kisaran 17 sampai 98 untuk data set DCT, sedangkan dari raw data dihasilkan jumlah anggota 36. Pada kluster 1 jumlah anggota kluster dari semua data set relatif lebih heterogen dibandingkan kluster-kluster yang lain yaitu pada kisaran 1 sampai 121 untuk data PCA dan pada kisaran 8 sampai 64 untuk data DCT sedangkan dari raw data dihasilkan jumlah anggota kluster 46.

Pada metode klustering Kohonen ini jumlah anggota kluster dari semua data set hasil reduksi dimensi dibandingkan dengan jumlah anggota kluster raw data set memiliki kemiripan yang sangat rendah, tetapi secara keseluruhan jumlah anggota kluster untuk data DCT pada setiap kluster relatif stabil. Klustering Fuzzy K-Mean Hasil klustering Fuzzy K-Mean bahwa pada semua kluster , jumlah anggota kluster dari setiap data set relatif homogen dengan kisaran yang relative rendah, baik pada data PCA maupun pada data DCT. Pada data set PCA kisaran jumlah anggota kluster 20 sampai 76 dan pada data set DCT mempunyai kisaran jumlah anggota kluster 18 sampai 74. Pada raw data set kisaran untuk jumlah anggota kluster 27 sampai 68. Untuk data set PCA (1-3) dan data set DCT(0-2)masing-masing mempunyai kisaran 21 sampai 71 dan kisaran 19 sampai 68, hal ini memperlihatkan data hasil reduksi PCA dan DCT menghasilkan kluster–kluster dengan jumlah anggota kluster yang relatig homogen jika dikluster menggunakan teknik klustering Fuzzy K-Mean. Klustering Fuzzy Subtractive Hasil klustering Fuzzy Subtractive bahwa pada kluster 4, jumlah anggota kluster dari setiap data set relatif homogen dengan kisaran 30 sampai 65 untuk data set PCA dan pada kisaran 29 sampai 85 untuk data set DCT, sedangkan dari raw data dihasilkan jumlah anggota 24. Pada kluster 1 jumlah anggota kluster dari semua data set relatif lebih bervariasi dibandingkan kluster-kluster yang lain yaitu pada kisaran 1 sampai 68 untuk data PCA dan pada kisaran 1 sampai 67 untuk data DCT sedangkan dari raw data dihasilkan jumlah anggota kluster 26. Data set PCA(1-4) dan DCT(0-3) menghasilkan jumlah anggota kluster yang hampir sama dengan jumlah anggota kluster yang dihasilkan oleh raw data. Hal ini merupakan indikasi bahwa data set PCA(1-4) dan data set DCT(0-3) paling cocok di antara data set yang lainnya untuk menggantikan row data. Uji Coba Suatu ukuran keketatan kluster di bawah ini digunakan untuk menjustifikasi keandalan dari metode reduksi dimensi dan membandingkan beberapa teknik klustering. Sebagai pembanding dihitung nilai ukuran keketatan kluster untuk raw data set pada setiap metode klusterng yang digunakan. Demikian juga ukuran keketatan kluster dihitung untuk semua data set hasil reduksi dimensi dengan PCA dan juga DCT pada semua teknik klustering yang diaplikasikan. Adapun hasil

ukuran keketatan kluster untuk masing-masing teknik klustering dapat dilihat pada tabel 1.

Tabel 1. Ukuran Keketatan Kluster

Metode K-Mean Kohonen FCM FSC

Raw Data 0.544 0.719 0.527 0.541

DCT(0) 0.161 0.224 0.157 0.971

DCT(0-1) 0.251 0.344 0.248 0.911

DCT(0-2) 0.411 0.489 0.419 0.764

DCT(0-3) 0.506 0.615 0.528 0.682

DCT(0-4) 0.584 0.786 0.599 0.808

DCT(0-5) 0.599 0.786 0.611 0.594

DCT(0-6) 0.653 0.758 0.631 0.556

PCA(1-2) 0.331 0.451 0.316 0.783

PCA(1-3) 0.397 0.454 0.388 0.896

PCA(1-4) 0.509 0.538 0.517 0.599

PCA(1-5) 0.562 0.587 0.532 0.544

PCA(1-6) 0.562 0.695 0.566 0.555

PCA(1-7) 0.594 0.601 0.599 0.620 Bila tabel 1 dicermati, maka untuk data set

PCA, ukuran keketatan kluster untuk K-Mean, Kohonen dan Fuzzy K-Mean mengalami kenaikan yang konsisten, kecuali pada data set PCA(1-7) dengan klustering Kohonen mengalami penurunan,. Metode klustering Fuzzy subtractive nilai CTM mengalami kenaikan dan penurunan yang tidak teratur untuk data set PCA. Pada semua data set DCT, ketiga metode klustering yaitu K-Mean , Kohonen dan Fuzzy K-Mean juga secara konsisten mempunyai nilai CTM yang meningkat sedangkan pada metode Fuzzy Subtractif juga terjadi hal yang sama seperti pada data set PCA, yaitu nilai CTM naik turun tidak teratur.

Pada metode klustering K-Mean nilai CTM untuk raw data set adalah 0.544. Nilai CTM pada data set PCA(1-4) dan DCT (0-3) berturut-turut adalah 0.509 dan 0.506 yang mana nilai-nilai ini adalah nilai CTM yang paling mendekati terhadap nilai CTM raw data set. Dalam metode klustering K-Mean nilai CTM ini konsisten naik dengan bertambahnya jumlah variabel data tereduksi, dengan demikian terbukti bahwa dengan menggunakan 4 komponen utama yang pertama dan 4 koefisien DCT yang petama diperoleh nilai CTM yang hampir sama dan mendekati nilai CTM raw data set. Hal ini menunjukkan bahwa reduksi data dengan DCT mampu menghasilkan data hasil reduksi yang berkualitas hampir sama dengan data hasil reduksi komponen utama. Berdasarkan hasil ragam yang terjelaskan bila reduksi data dengan PCA untuk 4 komponen utama adalah 93%, tentunya metode reduksi data DCT untuk 4

koefisien DCT yang pertama juga mampu menjelaskan keragaman total sekitar 93%. Dalam hal ini bila pemakai cukup puas dengan besarnya ragam yang terjelaskan di atas 75%, maka dua koefisien DCT yang pertama dapat menggantikan raw data set itu, tetapi dalam kasus ini kurang menyakinkan karena nilai CTM untuk DCT(0-1) = 0.251 yang lebih rendah dari nilai CTM untuk PCA(1-2) = 0.331. Hal yang lebih menyakinkan bila pemakai menggunakan 3 koefisien DCT yang pertama dipastikan mempunyai ragam total yang terjelaskan lebih besar dari 88% karena nilai CTM untuk DCT(0-2) = 0.411 yang lebih besar dari nilai CTM untuk PCA(1-3) = 0.397.

Pada metode klustering Kohonen nilai CTM untuk raw data set adalah 0.719. Nilai CTM pada data set PCA(1-6) dan DCT (0-3) berturut-turut adalah 0.695 dan 0.615 dimana nilai-nilai ini adalah nilai CTM yang paling mendekati terhadap nilai CTM raw data set. Karena dalam metode klustering Kohonen nilai–nilai CTM ini konsisten naik dengan bertambahnya jumlah variabel data tereduksi maka terbukti bahwa metode reduksi DCT untuk 4 koefisien yang pertama akan mampu menggantikan metode reduksi data 6 komponen utama yang petama, dalam hal ini bila pemakai cukup puas dengan besarnya ragam yang terjelaskan di atas 88%, maka empat koefisien DCT yang pertama dapat menggantikan raw data set itu, dan dalam kasus ini cukup memuaskan karena nilai CTM untuk DCT(0-3) = 0.615 yang paling dekat dengan nilai CTM raw data set yakni sebesar 0.719.

Pada metode klustering Fuzzy K-Mean nilai CTM untuk raw data set adalah 0.527. Nilai CTM pada data set PCA(1-4) dan DCT (0-3) berturut-turut adalah 0.517 dan 0.528 yang mana nilai-nilai ini adalah nilai CTM yang paling mendekati terhadap nilai CTM raw data set. Dalam metode klustering Fuzzy K-Mean nilai CTM ini konsisten naik dengan bertambahnya jumlah variabel data tereduksi, dengan demikian terbukti bahwa dengan menggunakan 4 komponen utama yang pertama dan 4 koefisien DCT yang petama diperoleh nilai CTM yang hampir sama dan sangat dekat dengan nilai CTM raw data set. Hal ini menunjukkan bahwa reduksi data dengan DCT mampu menghasilkan data hasil reduksi yang berkualitas hampir sama dengan data hasil reduksi komponen utama. Berdasarkan hasil ragam yang terjelaskan bila reduksi data dengan PCA untuk 4 komponen utama adalah 93%, tentunya metode reduksi data DCT untuk 4 koefisien DCT yang pertama juga mampu menjelaskan keragaman total sekitar 93%. Dalam hal ini bila pemakai cukup puas dengan besarnya ragam yang terjelaskan di atas 75%, maka dua koefisien DCT yang pertama dapat menggantikan raw data set itu, tetapi dalam kasus

ini kurang menyakinkan karena nilai CTM untuk DCT(0-1) = 0.248 yang lebih rendah dari nilai CTM untuk PCA(1-2) = 0.316. Hal yang lebih menyakinkan bila pemakai menggunakan 3 koefisien DCT yang pertama dipastikan mempunyai ragam total yang terjelaskan lebih besar dari 88% karena nilai CTM untuk DCT(0-2) = 0.419 yang lebih besar dari nilai CTM untuk PCA(1-3) = 0.388.

Pada metode fuzzy subtractive diperoleh nilai CTM yang tidak teratur baik untuk data set PCA maupun data set DCT, sehingga nilai-nilai CTM yang dihasilkan dengan menggunakan metode ini tidak dapat digunakan untuk mengeneraliasi dan membandingkan kedua teknik reduksi data ini.

5. KESIMPULAN DAN SARAN Dari hasil pengamatan dan uji coba yang telah dilakukan dalam penelitian ini, dapat diambil beberapa kesimpulan sebagai berikut: 1. Metode Discret Cosine Transfroms (DCT)

dapat diaplikasikan untuk reduksi dimensi data menggantikan metode Principal Component Analysis (PCA), dengan menggantikan raw data set dengan 2 atau 3 koefisien DCT yang sudah berkemampuan hampir sama dengan 2 atau 3 komponen utama yaitu mampu menjelaskan lebih dari 75% keragaman total raw data set.

2. Pada metode klustering K-Mean untuk PCA(1-4) dan DCT(0-3) yaitu raw data set sama-sama digantikan oleh 4 dimensi data yang baru menghasilkan penyebaran anggota kluster yang hampir sama dengan yang dihasilkan oleh raw data set pada masing-masing klusternya.

3. Pada metode klustering Kohonen, perubahan jumlah anggota kluster, pada data set PCA(1-4) ke data set PCA yang lebih tinggi relatif stabil pada setiap klusternya. Hal yang sama juga terjadi pada data set DCT(0-3) yaitu mengalami perubahan jumlah anggota kluster yang relatif kecil untuk data set koefisien DCT yang lebih banyak.

4. Pada metode klustering Fuzzy K-Mean, untuk data set PCA(1-3) dan data set DCT(0-2) sama-sama mempunyai penyebaran jumlah anggota kluster yang relatif merata dan jangkauan yang sempit.

5. Pada Metode Klustering Fuzzy Subtraktif, dihasilkan sebaran jumlah anggota kluster untuk semua data set hasil reduksi yang tidak teratur dan tidak mendekati bila dibandingkan penyebaran jumlah anggota kluster dari raw data set.

6. Nilai CTM untuk data set PCA(1-4) dan DCT(0-3) pada metode klustering K-Mean dan Fuzzy K-Mean bernilai hampir sama dengan

nilai CTM untuk raw data set pada metode klustering yang sama. Sedangkan nilai CTM untuk metode Fuzzy Subtraktif sangat tidak teratur bila dibandingkan dengan nilai CTM raw data set.

Berdasarkan kesimpulan tersebut di atas, maka berikut ini dikemukakan beberapa saran untuk pengembangan lebih lanjut. 1. Perlu ditentukan jumlah kluster optimal dari

masing-masing metode klustering yang digunakan dan baru semua data set dikluster sesuai jumlah kluster optimal masing-masing metode tersebut.

2. Perlu diteliti algoritma yang paling optimal dari masing-masing metode klustering yang digunakan.

3. Metode Fuzzy Subtraktif mempunyai beberapa parameter untuk menghasilkan suatu jumlah kluster tertentu, sehingga untuk penerapannya pada masalah ini perlu pengkajian yang lebih mendalam.

6. DAFTAR PUSTAKA 1. Datta, S. (2003): Statistical techniques for

microarray data: A partial overview. Communications in Statistics - Theory and Methods, 32:263-280.

2. Epps, J., and Ambikairajah, E. (2004): Use of the discrete cosine transform for gene expression data analysis.In Proc. Workshop on Genomic Signal Processing and Statistics, Baltimore, USA, I-13.

3. http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE28

4. Kohonen, T. (1984): Self-organization and associative memory. Berlin, Springer-Verlag.

5. McLachlan, G. J., Bean, R. W. and Peel, D. (2002): AMixture Model-based Approach to the Clustering of Microarray Expression Data. Bioinformatics,18(3):413-422.

6. Törönen, P., Kolehmainen, M., Wong, G., and Castrén, E.(1999): Analysis of gene expression data using selforganising maps. FEBS Letters, 451:142-146.

VII. BIOGRAFI PENULIS Peneliti I Nama : Laila Isyriyah, M.Kom Jenis Kelamin : Perempuan Alamat : Jl. Arjuna 11 Batu – Malang Tempat/Tgl Lahir : Malang, 24 Pebuari 1972 Pendidikan : Strata-1 Lulus Tahun 1997 Teknik Informatika STIKI Malang

Magister Lulus Tahun 2008 Teknik Informatika STTS Surabaya Pengalaman Penelitian yang dipublikasikan : - Peneliti II Nama : Evy Poerbaningtyas,S.Si,M.T Jenis Kelamin : Perempuan Alamat : Perum Sukun Tirtasari Estate Blok I Kav 7 Malang Tempat/Tgl Lahir : Bojonegoro / 12 Agustus 1971 Pendidikan : Strata-1 : lulus thn 1995

Universitas Brawijaya Malang Fakultas Mipa Jurusan Fisika Bidang Instrumentasi.

Magister : lulus thn 2004 ITS Surabaya Jurusan Teknik Elektro Bidang Jaringan Cerdas Multimedia Pengalaman Penelitian yang dipublikasikan : Thn 2004 : Implemetasi watermaking pada Image dengan metode RSPPMC dipublikasikan di Jurnal Nasional Terakreditasi : “Proceedings Industrial Electronics”, IES, EEPIS-ITS-Surabaya, Oktober 2004 Thn 2006 : Logika Fuzzy Dalam Pengolahan Gambar dipublikasi-kan di jurnal Nasional Terakreditas : TMI – Universitas Merdeka Malang, Desember 2006

5-22-1-PB

Documents

Transcript of 5-22-1-PB