Post on 06-Feb-2020
PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA
MENGGUNAKAN METODE SUPPORT VECTOR MACHINE RECURSIVE
FEATURE ELIMINATION
SKRIPSI
Oleh
Heryanti Dewi Febriyaningtyas
11150940000025
PROGRAM STUDI MATEMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UIN SYARIF HIDAYATULLAH JAKARTA
2019 M / 1441 H
i
PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA
MENGGUNAKAN METODE SUPPORT VECTOR MACHINE RECURSIVE
FEATURE ELIMINATION
Skripsi
Diajukan kepada
Universitas Islam Negeri Syarif Hidayatullah Jakarta
Fakultas Sains dan Teknologi
Untuk Memenuhi Salah Satu Persyaratan Dalam
Memperoleh Gelar Sarjana Matematika (S.Mat)
Oleh
Heryanti Dewi Febriyaningtyas
11150940000025
PROGRAM STUDI MATEMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UIN SYARIF HIDAYATULLAH JAKARTA
2019 M / 1441 H
Scanned with CamScanner
Scanned with CamScanner
iv
PERSEMBAHAN DAN MOTTO
PERSEMBAHAN
MOTTO
“Sebaik-baik manusia adalah yang paling bermanfaat bagi manusia” (HR. Ahmad,
ath-Thabrani, ad-Daruqutni)
v
KATA PENGANTAR
Puji beserta syukur penulis ucapkan kehadirat Allah Yang Maha Esa atas
segala rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan skripsi
yang berjudul “Penentuan Gen Data Microarray Kanker Payudara
menggunakan Metode Support Vector Machine Recursive Feature
Elimination”.
Skripsi ini merupakan persyaratan bagi penulis untuk bisa memperoleh gelar
sarjana. Dalam penulisan skripsi ini penulis memperoleh pembelajaran berharga
seperti kerja keras, pantang menyerah dalam mencapai tujuan, dan melatih
kesabaran.
Dalam penyusunan skripsi ini, penulis memperoleh banyak motivasi,
dukungan, inspirasi, bimbingan, do’a, serta saran dan kritikan dari berbagai pihak
sehingga skripsi ini dapat terselesaikan dengan baik. Oleh karena itu, penulis
ingin menyampaikan rasa terima kasih penulis kepada :
1. Ibu Prof. Dr. Lily Surayya Eka Putri, M.Env.Stud, selaku Dekan Fakultas
Sains dan Teknologi Universitas Islam Negeri Syarif Hidayatullah
Jakarta.
2. Ibu Dr. Suma’inna, M.Si, selaku Ketua Program Studi Matematika
Fakultas Sains dan Teknologi UIN Jakarta.
3. Ibu Irma Fauziah, M.Sc, selaku Sekretaris Program Studi Matematika
Fakultas Sains dan Teknologi UIN Jakarta yang telah membantu penulis
dalam mengurus administrasi.
4. Bapak Dr. Taufik Edy Sutanto, MscTech, sebagai pembimbing I yang
telah membantu, mengarahkan, mendukung, dan memberi motivasi
kepada penulis dalam menyelesaikan skripsi ini.
vi
5. Bapak Muhammad Manaqib, M.Sc, sebagai pembimbing II yang telah
memberikan motivasi dan semangat kepada penulis dalam menyelesaikan
skripsi ini.
6. Ibu Dr. Nina Fitriyati, M.Kom, sebagai penguji I dan Bapak Muhaza
Liebenlito, M.Si, sebagai penguji II, terimakasih atas kritik dan saran
yang telah diberikan kepada penulis dalam menyelesaikan skripsi ini.
7. Bapak Irvan Septiar Musti, M.Si, terima kasih atas topik skripsi dan saran
yang telah diberikan kepada penulis.
8. Kedua orang tua penulis, Bapak Hermawan Yulianto, S.T dan Mama Jati
Widayanti, juga Nenek penulis, Mbah Sri Winarti, yang tidak pernah
berhenti berdo’a untuk kesuksesan penulis, memberikan kasih sayang,
semangat, serta dukungan sehingga penulis dapat menyelesaikan skripsi
ini dengan baik.
9. Adik-adik penulis, Mba Ghifa, Mas Gibran dan Dek Annizar, yang telah
memberikan do’a, dukungan dan semangat kepada penulis dalam
menyelesaikan skripsi ini.
10. Seluruh teman Matematika 2015, terutama Hamid dan Aldo yang telah
banyak membantu penulis dalam memahami program python dan
memberi banyak masukan dalam menyusun skripsi ini. Wina, teman
seperjuangan skripsi bioinformatika, teman diskusi yang selalu memberi
semangat kepada penulis. Dino, terimakasih telah membantu penulisan
dalam menyusun skripsi ini dan selalu memberi semangat kepada penulis.
Khusnul, Fitria, Shinta, Ayu, Auli, Intan, Vika dan Tanjung yang telah
memotivasi penulis.
11. Kak Nadya, terimakasih telah membantu penulis memahami python dan
bioinformatika terutama mengenai analisis data microarray ini. Kak Ika,
terima kasih atas motivasi dan bantuan selama perkuliahan. Putri, terima
kasih telah memberikan semangat dan bantuan dalam menyusun skripsi
ini. Ahyar, terima kasih telah memberikan bantuan fasilitas kepada
penulis sehingga skripsi ini terselesaikan dengan baik.
vii
12. Ilsyar Ridwan dan Astri, terima kasih telah memberikan warna kehidupan
kepada penulis selama perkuliahan.
13. Seluruh pihak yang telah membantu penulis dalam menyelesaikan skripsi
ini yang tidak bisa penulis sebutkan satu-persatu tanpa mengurangi rasa
hormat.
Penulis menyadari bahwa dalam penyusunan skripsi ini masih terdapat
banyak kekurangan. Penulis mengharapkan kritik dan saran yang membangun dari
pembaca untuk perbaikan di masa yang akan datang. Terakhir, semoga skripsi ini
bermanfaat bagi penulis dan pembaca sekalian.
Ciputat, September 2019
Penulis
Scanned with CamScanner
ix
ABSTRAK
Heryanti Dewi Febriyaningtyas, Penentuan Gen Data Microarray Kanker
Payudara menggunakan Metode Support Vector Machines-Recursive Feature
Elimination (SVM-RFE), di bawah bimbingan Dr. Taufik Edy Sutanto,
MScTech dan Muhammad Manaqib, M.Sc.
Kanker payudara adalah salah satu penyakit kanker mematikan di dunia.
Diagnosa dini penyakit kanker payudara diperlukan agar penyakit kanker dapat
ditangani dengan baik. Penelitian ini menggunakan data microarray untuk
mendiagnosa penyakit kanker payudara. Sebelum proses analisa data dilakukan
normalisasi data menggunakan min-max normalization. Data microarray kanker
payudara yang digunakan memiliki 22283 fitur. Fitur tersebut terdiri dari gen-gen
yang terdapat dalam tubuh manusia. Semua fitur memungkinkan tidak memberi
pengaruh signifikan terhadap data sehingga perlu dilakukan proses seleksi fitur.
Proses seleksi fitur menggunakan metode Support Vector Machine-Recursive
Elimination (SVM-RFE) dan digunakan sebagai masukan untuk membangun
sebuah model menggunakan metode Support Vector Machine (SVM). Dalam
penelitian ini juga membandingkan evaluasi hasil klasifikasi kanker payudara
menggunakan semua fitur dan menggunakan fitur yang telah terseleksi.
Kompleksitas algoritma SVM-RFE adalah 𝑂(𝐹(𝑁3)). Hasil dari penelitian ini
menunjukkan bahwa klasifikasi kanker payudara menggunakan semua fitur
menghasilkan akurasi sebesar 87.2% tetapi dengan adanya proses seleksi fitur
sebelum membangun model, dengan menggunakan 128 fitur terseleksi akurasi
yang dihasilkan lebih tinggi mencapai 90.6%.
Kata Kunci : Data Microarray, Gen Kanker Payudara, Seleksi Fitur, Support
Vector Machine Recursive Feature Elimination (SVM-RFE).
x
ABSTRACT
Heryanti Dewi Febriyaningtyas, Determination of Breast Cancer Microarray
Data Gene Using Support Vector Machines Recursive Feature Elimination
Method. Supervised by Dr. Taufik Edy Sutanto, MScTech and Muhammad
Manaqib, M.Sc.
Breast cancer is one of the deadliest cancers in the world. Early diagnosis of
breast cancer is needed so that cancer can be treated properly. This study uses
microarrays data to diagnose breast cancer. Before the process of data analysis,
the data is normalized by using min-max normalization. The breast cancer
microarrays data used has 22283 features. This feature consists of genes contained
in the human body. All possible features do not have a significant influence on the
data so a selection process is needed. The feature selection process uses the
Support Vector Machine-Recursive Elimination (SVM-RFE) method and is used
as input to build a model using the Support Vector Machine (SVM) method. In
this study also compared the evaluation of breast cancer classification results
using all features and using features that have been selected. The complexity of
algorithm is 𝑂(𝐹(𝑁3)). The results of this study indicate that the classification of
breast cancer using all features produces an accuracy of 87.2% but with the
feature selection process before building the model, by using 128 selected features
the resulting accuracy is higher at 90.6%.
Keywords : Microarray Data, Breast Cancer Gene, Feature Selection, Support
Vector Machine Recursive Feature Elimination (SVM-RFE).
xi
DAFTAR ISI
PENENTUAN GEN DATA MICROARRAY KANKER PAYUDARA
MENGGUNAKAN METODE SUPPORT VECTOR MACHINE RECURSIVE
FEATURE ELIMINATION ................................................................................ i
PERNYATAAN ................................................................................................. ii
LEMBAR PENGESAHAN ...............................................................................iii
LEMBAR PERNYATAAN PERSETUJUAN................................................ viii
ABSTRAK ......................................................................................................... ix
ABSTRACT ....................................................................................................... x
DAFTAR ISI ..................................................................................................... xi
DAFTAR TABEL ........................................................................................... xiii
DAFTAR GAMBAR ....................................................................................... xiv
DAFTAR SIMBOL .......................................................................................... xv
BAB I PENDAHULUAN ................................................................................... 1
1.1. Latar Belakang .......................................................................................... 1
1.2. Rumusan Masalah ..................................................................................... 3
1.3. Batasan Masalah ........................................................................................ 4
1.4. Tujuan Penelitian ....................................................................................... 4
1.5. Manfaat Penelitian ..................................................................................... 4
BAB II LANDASAN TEORI ............................................................................. 5
2.1. Kanker Payudara ....................................................................................... 5
2.2. Data Microarray ........................................................................................ 6
2.3. Normalisasi Data ....................................................................................... 7
2.4. Curse of Dimensionality ............................................................................ 8
2.5. Seleksi Fitur .............................................................................................. 9
2.6. Klasifikasi ............................................................................................... 11
2.7. Norm dan Dot Product ............................................................................. 12
2.8. Teori Pengali Lagrange dan Kondisi Karush-Kuhn-Tucker (KKT) ........... 13
2.9. Leave One Out Cross Validation.............................................................. 13
2.10.Evaluasi Model ....................................................................................... 14
xii
BAB III METODOLOGI PENELITIAN ....................................................... 16
3.1. SVM ........................................................................................................ 16
3.2. SVM-RFE ............................................................................................... 21
3.3. Alur Penelitian......................................................................................... 24
BAB IV HASIL DAN PEMBAHASAN........................................................... 25
4.1. Deskripsi Data ......................................................................................... 25
4.2. Hasil Normalisasi Data ............................................................................ 26
4.3. Analisa Numerik SVM dan SVM-RFE .................................................... 28
4.4. Hasil SVM tanpa Seleksi Fitur ................................................................. 32
4.5. Hasil Seleksi Fitur menggunakan SVM-RFE ........................................... 33
BAB V KESIMPULAN DAN SARAN ............................................................ 38
5.1. Kesimpulan ............................................................................................. 38
5.2. Saran ....................................................................................................... 38
REFERENSI .................................................................................................... 40
LAMPIRAN ..................................................................................................... 43
xiii
DAFTAR TABEL
Tabel 2.1. Confusion Matrix............................................................................... 14
Tabel 4.1. Data Microarray Kanker Payudara. ................................................... 25
Tabel 4.2. Statistika Deskriptif Data Microarray Kanker Payudara. ................... 26
Tabel 4.3. Hasil Normalisasi Data Microarray Kanker Payudara. ...................... 27
Tabel 4.4. Statistika Deskriptif Data Microarray Kanker Payudara yang telah
dinormalisasi. ..................................................................................... 27
Tabel 4.5. Contoh Data Manual Metode SVM-RFE. .......................................... 30
Tabel 4.6. Confusion Matrix Model SVM tanpa Seleksi Fitur. ........................... 33
Tabel 4.7. Confusion Matrix Model SVM dengan Seleksi Fitur menggunakan
SVM-RFE. ......................................................................................... 34
Tabel 4.8. Rangkuman Rata-Rata Akurasi SVM-RFE. ....................................... 34
Tabel 4.9. Deskripsi 5 Fitur dari 128 Fitur yang terseleksi. ................................. 37
xiv
DAFTAR GAMBAR
Gambar 2.1. Microarray Experiment.................................................................... 7
Gambar 2.2. Metode Filter ................................................................................. 10
Gambar 2.3. Metode Wrapper ............................................................................ 10
Gambar 2.4. Metode Embedded. ........................................................................ 11
Gambar 2.5. Leave One Out Cross Validation. ................................................... 14
Gambar 3.1. Contoh Hyperplane Dua Dimensi. ................................................. 17
Gambar 3.2. Flowchart Algoritma SVM-RFE. ................................................... 23
Gambar 3.3. Alur Penelitian. .............................................................................. 24
Gambar 4.1. Grafik Nilai Akurasi dari SVM-RFE pada fitur terseleksi. ............. 35
Gambar 4.2. Skor Feature Importance. .............................................................. 35
xv
DAFTAR SIMBOL
𝒙 : Data input
𝒙𝒊 : Vektor baris fitur ke-𝑖
𝑦𝑖 : Label kelas dari 𝑥𝑖
𝒘 : Vektor parameter bobot
𝑏 : bias
d : Jarak antar setiap data ke hyperplane
𝐿𝑝 : Fungsi lagrange (primal problem)
𝐿𝐷 : Fungsi lagrange (dual problem)
𝛼 : Nilai dari koefisien lagrange
S : Himpunan indeks support vector
𝑁𝑆 : Jumlah support vector
𝑐 : Nilai peringkat data
𝑿𝟎 : Vektor data latih
𝐹 : Fitur data
𝑓 : Fitur indeks dari peringkat terkecil data
𝑅 : Himpunan peringkat fitur
𝑣′ : Nilai hasil normalisasi data
𝑣 : Nilai awal data sebelum dinormalisasi
𝑚𝑖𝑛𝑎 : Nilai minimum data pada variabel ke-𝑎
𝑚𝑎𝑥𝑎 : Nilai maksimum data pada variabel ke-𝑎
𝑛𝑚𝑎𝑥𝑎: rentang nilai maksimum pada variabel ke-𝑎
𝑛𝑚𝑖𝑛𝑎: rentang nilai minimum pada variabel ke-𝑎
1
BAB I
PENDAHULUAN
Bab ini menjelaskan tentang gambaran gambaran umum pelaksanaan
penelitian yang mencangkup latar belakang, rumusan masalah, batasan masalah,
tujuan penelitian dan manfaat penelitian.
1.1. Latar Belakang
Manusia diciptakan oleh Allah Subhanallahu wa Ta’ala dengan anggota
tubuh yang sempurna. Seperti firman Allah Subhanallahu wa Ta’ala dalam kitab
suci Al-Qur’an, surat At-tin ayat 4, yaitu :
نسان فى احسن تقو يم لقد خلقنا ال
“Sesungguhnya Kami telah menciptakan manusia dalam bentuk yang sebaik-
baiknya.”
Tubuh manusia terdiri dari jaringan yang merupakan kumpulan dari sel. Sel-
sel jaringan tubuh manusia tumbuh dengan cepat. Jika pertumbuhan sel-sel
jaringan tubuh manusia tidak normal maka akan mengakibatkan penyakit, salah
satunya yaitu penyakit kanker. Sel-sel kanker akan berkembang dengan cepat,
terus membelah diri dan tidak terkendali, hingga masuk ke jaringan sekitarnya dan
menyerang organ penting. Berdasarkan data Global Burden Cancer
(GLOBOCAN), beban penyakit kanker di dunia meningkat, yaitu terdapat 18,1
juta kasus baru yang didiagnosis kanker dengan angka kematian sebesar 9,6 juta
kematian di tahun 2018. Pada tahun 2030, diperkirakan angka kejadian kanker
meningkat menjadi 21,7 juta penderita. Menurut Kementrian Kesehatan Republik
Indonesia, Penyakit kanker terbanyak di Indonesia adalah kanker serviks dan
kanker payudara pada perempuan, dan kanker paru-paru pada laki-laki [1].
Kanker payudara umumnya terjadi pada wanita, tetapi bisa juga terjadi pada
pria. Saat ini penyebab kanker payudara belum diketahui secara pasti. Gejala awal
pada kanker payudara tidak disadari sehingga banyak penderita yang menyadari
saat kanker tersebut sudah memasuki stadium lanjut. Akibat dari terlambatnya
penanganan penderita kanker payudara sangat fatal dan menyebabkan kematian,
2
sehingga perlu dilakukan diagnosa kanker sejak dini agar penyakit kanker
payudara dapat ditangani dengan baik.
Beberapa penelitian telah dikembangkan untuk membantu diagnosa kanker.
Salah satu penelitian dalam bioinformatika menggunakan data microarray.
Microarray adalah teknologi yang mampu menyimpan ribuan ekspresi gen yang
diambil dari beberapa sel sekaligus dalam suatu percobaan. Informasi yang
diperoleh dari microarray dapat digunakan untuk diagnosa kanker. Data
microarray mengekspresikan gen-gen yang terdapat dibagian tubuh tertentu
secara numerik. Mengolah data microarray dengan fitur yang banyak sangat sulit
dilakukan dengan cara konvensional, maka diperlukan suatu metode machine
learning untuk mempermudah analisis [2].
Salah satu pemasalahan dalam machine learning dalam diagnosa kanker
menggunakan data microarray adalah permasalahan klasifikasi. Klasifikasi yang
dimaksud adalah mendiagnosa apakah pasien terkena kanker atau tidak melalui
pola ekspresi gen dari sejumlah pasien yang telah diketahui mengidap kanker dari
data microarray. Terdapat berbagai macam metode klasifikasi pada machine
learning. Beberapa metode klasifikasi yang telah digunakan dalam penelitian
untuk diagnosa kanker diantaranya Random Forest [3], Hierarchical Naïve Bayes
[4], Neural Network [5], dan Support Vector Machines [6].
Pada umumnya, data microarray adalah data yang memiliki dimensi besar
(high dimensional data), dimana data microarray memiliki banyak fitur berjumlah
ratusan hingga puluhan ribu fitur, sehingga memungkinkan bahwa tidak semua
fitur gen memberikan pengaruh yang signifikan terhadap data. Fitur yang tidak
memberikan pengaruh signifikan dapat menurunkan kinerja machine learning
dalam mengklasifikasi. Untuk menyelesaikannya dengan cara seleksi fitur untuk
melihat gen mana saja yang sangat berperan dalam diagnosa kanker. Sehingga
sebelum proses klasifikasi dilakukan seleksi fitur terlebih dahulu.
Pada tahun 2017, Zhong [7] membandingkan beberapa seleksi fitur dengan
SVM sebagai metode klasifikasi. Data yang digunakan beberapa dataset kanker.
Pada penelitiannya, SVM-RFE memberikan hasil akurasi tinggi mencapai 94.1%.
Zifa [8] mengatakan dalam penelitiannya mengenai seleksi fitur dan klasifikasi
3
data microarray bahwa SVM-RFE merupakan salah satu metode seleksi fitur
terbaik.
Pada penelitian ini dilakukan dua proses dimana proses pertama dilakukan
klasifikasi data microarray tanpa seleksi fitur menggunakan metode SVM dan
proses kedua dilakukan seleksi fitur terlebih dahulu sebelum proses klasifikasi.
Metode pemilihan fitur yang digunakan pada penelitian ini adalah metode SVM-
RFE dan SVM sebagai metode klasifikasinya dengan tujuan mengetahui
bagaimana kinerjanya dalam mengklasifikasi seseorang terkena kanker. SVM-
RFE pertama kali dikenalkan oleh Guyon [9] pada tahun 2002. Prinsip kerja
SVM-RFE adalah menghilangkan fitur yang memiliki nilai kuadrat bobot SVM
paling rendah pada setiap iterasinya. Hasil yang diperoleh adalah urutan fitur yang
memiliki pengaruh signifikan hingga fitur yang tidak memiliki pengaruh
signifikan terhadap data. Dari urutan-urutan tersebut dapat dipilih sejumlah fitur
terbaik. Jumlah fitur terpilih yang digunakan dalam penelitian ini adalah 2𝑛
dimana 𝑛 = 1, 2, 3,… , 14. Pemilihan jumlah fitur terpilih tersebut berdasarkan
penelitian yang telah dilakukan oleh Guyon, sehingga dapat dilihat bagaimana
hasil akurasi yang diperoleh jika menggunakan jumlah sedikit dari fitur, setengah
dari fitur, atau seluruh fitur dari nilai akurasi.
1.2. Rumusan Masalah
Adapun rumusan masalah berdasarkan latar belakang di atas, yaitu:
1. Bagaimana kemampuan atau kinerja SVM dalam mengklasifikasikan
seseorang terkena kanker payudara dari nilai akurasi menggunakan semua
fitur?
2. Bagaimana kemampuan atau kinerja SVM dalam mengklasifikasikan
seseorang terkena kanker payudara dari nilai akurasi menggunakan fitur
yang telah terseleksi dari metode SVM-RFE?
3. Bagaimana perbandingan ketepatan klasifikasi seseorang terkena kanker
payudara menggunakan metode SVM dan SVM-RFE?
4
1.3. Batasan Masalah
Batasan masalah dari penelitian ini, yaitu :
1. Data yang digunakan adalah data microarray kanker payudara.
2. Jumlah seleksi fitur yang digunakan adalah 2, 4, 8, 16, 32, 64, 128, 256,
512, 1024, 2048, 4096, 8192, dan 16384.
1.4. Tujuan Penelitian
Tujuan penelitian dari skripsi ini, yaitu :
1. Mengetahui kemampuan atau kinerja SVM dalam mengklasifikasikan
seseorang terkena kanker payudara dari nilai akurasi menggunakan semua
fitur.
2. Mengetahui kemampuan atau kinerja SVM dalam mengklasifikasikan
seseorang terkena kanker payudara dari nilai akurasi menggunakan fitur
yang telah terseleksi dari metode SVM-RFE.
3. Mengetahui perbandingan ketepatan klasifikasi seseorang terkena kanker
payudara menggunakan metode SVM dan SVM-RFE.
1.5. Manfaat Penelitian
Manfaat dari penelitian ini, yaitu:
1. Secara umum dapat membantu menyelesaikan permasalahan klasfikasi
high dimensional data berupa data microarray kanker payudara.
2. Secara khusus mendapatkan hasil klasifikasi menggunakan metode SVM
menggunakan seleksi fitur SVM-RFE yang dapat digunakan untuk
mendeteksi kanker payudara sejak dini di Indonesia.
5
BAB II
LANDASAN TEORI
Bab ini menjelaskan definisi dan teori-teori yang digunakan sebagai landasan
pelaksanaan penelitian yaitu penjelasan tentang kanker payudara, data
microarray, normalisasi data, seleksi fitur, klasifikasi, norm dan dot product, teori
pengali lagrange dan Karush-Kuhn-Tucker (KKT), leave one out cross validation,
dan evaluasi model. Teori-teori tersebut dijelaskan secara berurutan pada bab ini.
2.1. Kanker Payudara
Kanker adalah penyakit mematikan di dunia, penyebabnya terdapat
sekelompok sel yang tumbuh tidak normal dan berkembang pada bagian tubuh
yang normal. Sel kanker yang tumbuh membentuk benjolan disebut tumor.
Sedangkan tumor yang bersifat ganas disebut kanker. Kanker yang tumbuh pada
payudara disebut kanker payudara. Kanker payudara bisa mulai tumbuh di
jaringan payudara yang berisi kelenjar untuk produksi susu (lobulus), saluran
duktus yang menghubungkan lobulus ke puting, jaringan lemak dan jaringan ikat
pada payudara [10]. Kanker payudara merupakan salah satu jenis kanker yang
mempunyai prevalensi cukup tinggi. Kanker payudara dapat terjadi pada pria dan
wanita, hanya saja prevalensi pada wanita jauh lebih tinggi.
Berdasarkan karakteristiknya, kanker payudara dikelompokkan menjadi dua,
yaitu invasive carcinoma dan in situ carcinoma [10]. Invasive carcinoma yaitu sel
abnormal yang tumbuh baik didalam duktus atau lobulus dan mampu menyebar
ke jaringan sekitarnya. Sedangkan in situ carcinoma yaitu sel abnormal yang
tumbuh baik di dalam duktus atau lobulus dan tidak menyebar ke jaringan
sekitarnya.
Kanker payudara sering terjadi pada pria berusia lebih dari 50 tahun dan
wanita berusia lebih dari 40 tahun. Beberapa orang tidak memiliki gejala kanker
selama rontgen payudara atau pemeriksaan fisik oleh dokter. Namun sebagian
besar kanker ditandai dengan benjolan di payudara, perubahan bentuk atau ukuran
6
pada payudara, perubahan pada puting seperti perubahan bentuk, pengerasan kulit,
luka, kemerahan, keluarnya cairan bening atau berdarah, perubahan pada kulit
payudara, pembengkakan pada ketiak, dan nyeri yang tidak biasa di satu payudara
[11].
2.2. Data Microarray
Microarray adalah teknologi yang mampu menyimpan ribuan ekspresi gen
yang diambil dalam beberapa sel sekaligus dalam suatu percobaan. Dalam bidang
penelitian seperti bioinformatik, biostatistik, kedokteran dan penelitian bidang
kesehatan lainnya, analisis ekspresi gen diperlukan dan sangat penting. Data
microarray digunakan untuk mengumpulkan informasi dari sampel jaringan dan
sel mengenai perbedaan ekspresi gen yang dapat berguna untuk diagnosis
penyakit atau prognosis penyakit. Untuk memperoleh data microarray dapat
dilakukan microarray experiment dengan langkah-langkah sebagai berikut [12]:
1. Mendapatkan dua sampel mRNA dari jaringan pada sampel dalam dua
kondisi yang berbeda. Misalkan pada kasus kanker, sampel sel diamati
dari sel pasien yang terkena kanker dan sel pasien normal.
2. Mengkonversi mRNA menjadi cDNA menggunakan enzim reverse
transciptase.
3. Dua sampel diberi label menggunakan dua pewarna fluourescent yang
berbeda. Warna merah untuk sel kanker dan warna hijau untuk sel normal.
4. Sampel mengalami hibridisasi, yaitu cDNA saling mengikat terhadap
DNA.
5. Microarray disinari laser dan hasil warna setiap spot diukur.
6. Terdapat 4 reaksi spot warna, yaitu spot yang bersinar merah terang adalah
gen yang sangat diekspresikan dalam sel kanker, sedangkan titik yang
bersinar hijau terang adalah gen yang sangat diekspresikan dalam sel
normal. Jika gen yang diekspresikan pada kedua sampel (kanker dan
normal) maka warna yang dihasilkan adalah kuning terang, dan gen yang
tidak mengekspresikan kedua sampel (kanker dan normal) maka warna
yang dihasilkan adalah hitam.
7
Gambar 2.1. Microarray Experiment [12].
Pada gambar 2.1 terlihat dalam proses microarray experiment diperoleh
ribuan spot titik-titik yang memiliki warna berbeda. Untuk melakukan analisis
lebih lanjut titik-titik warna tersebut diinterpretasikan ke dalam bentuk nilai
angka. Langkah analisis yang dilakukan dengan mengkonversi setiap spot ke
dalam bentuk angka berdasarkan perbandingan rasio intensitas warna merah
dengan warna hijau [12].
𝑅𝑎𝑠𝑖𝑜 =𝑖𝑛𝑡𝑒𝑛𝑠𝑖𝑡𝑎𝑠 𝑤𝑎𝑟𝑛𝑎 𝑚𝑒𝑟𝑎ℎ
𝑖𝑛𝑡𝑒𝑛𝑠𝑖𝑡𝑎𝑠 𝑤𝑎𝑟𝑛𝑎 ℎ𝑖𝑗𝑎𝑢
Apabila nilai rasio lebih dari satu, mengindikasikan bahwa gen tersebut
tersimulasi untuk memproduksi lebih banyak mRNA akibat sel kanker, tetapi
apabila nilai rasio kurang dari satu, mengindikasikan bahwa gen tersebut
tersimulasi untuk memproduksi lebih sedikit mRNA akibat sel kanker dan apabila
nilai rasio sama dengan satu maka tidak ada pengaruh yang terjadi [12].
2.3. Normalisasi Data
Data mentah yang diperoleh perlu dilakukan preprocessing data terlebih
dahulu sebelum dianalisis lebih lanjut. Salah satu cara preprocessing data adalah
transformasi data. Transformasi data adalah mengubah data lama mejadi data baru
dengan menggunakan metode tertentu sehingga lebih efisien dalam menganalisis
8
data dan pola yang diperoleh mudah dipahami [13]. Ada beberapa cara dalam
mentransformasi data. Dalam penelitian ini, transformasi data dilakukan dengan
normalisasi data menggunakan metode Min-Max Normalization. Normalisasi data
bertujuan untuk menghindari fitur yang memiliki nilai lebih besar mendominasi
fitur yang memiliki nilai lebih kecil. Nilai yang dihasilkan setelah ditransformasi
berada pada rentang (0,1). Normalisasi dengan metode Min-Max Normalization
dilakukan menggunakan persamaan berikut [13].
𝑣′ =𝑣−𝑚𝑖𝑛𝑎
𝑚𝑎𝑥𝑎−𝑚𝑖𝑛𝑎(𝑛𝑚𝑎𝑥𝑎 − 𝑛𝑚𝑖𝑛𝑎) + 𝑛𝑚𝑖𝑛𝑎 , (2.1)
dengan:
𝑣′ ∶ nilai hasil transformasi.
𝑣 ∶ nilai awal.
𝑚𝑖𝑛𝑎 ∶ nilai minimum pada variabel ke-𝑎.
𝑚𝑎𝑥𝑎 ∶ nilai maksimum pada variabel ke-𝑎.
𝑛𝑚𝑎𝑥𝑎: rentang nilai maksimum pada variabel ke-𝑎.
𝑛𝑚𝑖𝑛𝑎: rentang nilai minimum pada variabel ke-𝑎.
2.4. Curse of Dimensionality
Curse of dimensionality didefinisikan sebagai masalah yang dihadapi suatu
metode pattern recognition dalam mengestimasikan parameter dikarenakan
jumlah sampel data yang relatif sedikit dibandingkan dimensi data tersebut. Curse
of dimensionality biasanya terjadi pada algoritma machine learning berbasis jarak.
Algoritma kehilangan keefektifannya karena dimensi data meningkat. Jumlah
memori dan waktu lebih banyak diperlukan oleh algoritma untuk mempelajari
model, sehingga menyebabkan penurunan kinerja algoritma tersebut dan semakin
besar eror yang dihasilkan [14]. Curse of dimensionality sering terjadi dalam
pengaplikasian di bidang bioinformatika, karena biasanya data biologi yang
tersedia sangat terbatas dan penyediaannya memerlukan biaya mahal.
Berikut ini merupakan teorema mengenai curse of dimensionality pada
algoritma machine learning berbasis jarak [15].
9
Teorema 2.4.1
Jika lim𝑑→∞
𝑣𝑎𝑟 (‖𝑋𝑑‖
𝐸‖𝑋𝑑‖) = 0, maka lim
𝑑→∞
𝐷𝑚𝑎𝑥𝑑 −𝐷𝑚𝑖𝑛𝑑𝐷𝑚𝑖𝑛𝑑
= 0.
Saat dimensi meningkat menuju takhingga maka 𝐷𝑚𝑖𝑛𝑑 akan cepat meningkat
dibandingkan 𝐷𝑚𝑎𝑥𝑑 − 𝐷𝑚𝑖𝑛𝑑. Hal ini mengakibatkan limitnya menuju nol,
sehingga akan semakin sulit mencari pola untuk memisahkan data. Pembuktian
teorema dapat dilihat pada jurnal curse of dimensionality [15].
2.5. Seleksi Fitur
Proses analisis data microarray terdapat fitur yang sangat banyak tetapi
seringkali data yang tersedia sedikit. Fitur yang sangat banyak tersebut disebut
high dimensional data. Data dengan dimensi yang besar membawa beberapa
masalah pada pembelajaran mesin. Masalah tersebut diantaranya model
pembelajaran sulit untuk memiliki kinerja yang optimal pada data berdimensi
tinggi. Semakin banyak fitur yang digunakan maka semakin kompleks suatu
model pembelajaran mesin harus memodelkan permasalahan. Selain itu,
permasalahan high dimensional data juga menyebabkan mudah terjadi overfitting
dan juga sulit untuk diproses secara komputasi, baik dari segi memori maupun
waktu. Masalah-masalah high dimensional data dapat diselesaikan menggunakan
metode seleksi fitur. Metode seleksi fitur dapat membantu memilih fitur yang
informatif dan relevan. Berdasarkan tekniknya, seleksi fitur dibagi menjadi tiga,
yaitu filter, wrapper, dan embedded [16].
Metode filter adalah metode seleksi fitur yang tidak bergantung pada
algoritma machine learning, tetapi membutuhkan hitungan statistika untuk
meranking fitur [16]. Contoh metode filter antara lain Chi-squared test,
information gain, fast correlation-based filter (FCBF), dan spectral feature
selection [17]. Metode ini mengevaluasi secara bebas dari metode klasifikasi lalu
memberikan peringkat dan mengambil peringkat yang unggul. Metode filter
menggunakan kriteria penilaian yang tepat yang mencangkup jarak, informasi,
ketergantungan dan konsistensi. Metode ini dapat memproses dataset
10
menghasilkan fitur yang relevan dengan sederhana dan cepat secara komputasi,
tetapi metode ini hanya mempertimbangkan fitur secara sendiri-sendiri tanpa
mempertimbangkan interaksi antar fitur, sehingga dapat menurunkan kemampuan
dalam mengklasifikasi suatu masalah. Gambar 2.2 mengilustrasikan metode filter.
Gambar 2.2. Metode Filter
Metode wrapper membutuhkan satu algoritma machine learning dan
mengevaluasi kinerjanya [16]. Contoh metode wrapper diantaranya forward
feature selection, backward feature selection dan genetic algorithm [17]. Metode
ini melakukan seleksi fitur bersamaan dengan membuat model. Metode ini
bekerja lebih baik daripada metode filter karena mengevaluasi semua
kemungkinan kombinasi fitur dan memilih kombinasi yang menghasilkan hasil
terbaik untuk algoritma machine learning. Fitur-fitur dipilih berdasarkan
kontribusinya terhadap akurasi klasifikasi. Namun metode ini membutuhkan
waktu komputasi yang lama dan juga mahal. Gambar 2.3 mengilustrasikan
metode filter.
Gambar 2.3. Metode Wrapper
Metode embedded adalah metode penggabungan metode filter dan metode
wrapper. Contoh metode embedded adalah decision tree, random forest, dan
support vector machine recursive feature elimination [17]. Metode embedded
menghilangkan fitur apabila algoritma machine learning menganggap fitur
11
tersebut tidak berpengaruh. Metode embedded memiliki kecepatan komputasi
lebih cepat, sederhana dan tidak mudah overfitting berdasarkan algoritma machine
learning yang digunakan [16]. Gambar 2.3 mengilustrasikan metode filter.
Gambar 2.4. Metode Embedded.
2.6. Klasifikasi
Klasifikasi adalah proses pembagian data berdasarkan karakteristik atau kelas
tertentu. Tujuan klasifikasi adalah mencari model dari kumpulan data yang sudah
ditentukan labelnya berdasarkan karakteristik atau kelas data tersebut. Proses
klasifikasi data adalah melatih suatu data yang diklasifikasikan berdasarkan kelas
label yang ditentukan sehingga membentuk model dari hasil klasifikasi. Lalu
model tersebut diuji ke dalam data baru yang belum diketahui labelnya. Setelah
model diuji, dihitung akurasi model yang menjelaskan seberapa akurat data
tersebut terklasifikasi dengan baik [13].
Contoh dalam klasifikasi buah, misalkan buah pisang adalah buah yang
tumbuh di daerah tropis dengan ciri-ciri berbuah sepanjang tahun, memiliki rasa
manis, tekstur kulitnya halus. Buah salak adalah buah yang tumbuh di daerah
tropis dengan ciri-ciri berbuah sepanjang tahun, memiliki rasa manis-asam,
tekstur kulitnya kasar. Buah matoa adalah buah yang tumbuh di daerah tropis
dengan ciri-ciri berbuah dua kali dalam satu tahun, memiliki rasa manis, tekstur
kulitnya halus. Buah rambutan adalah buah yang tumbuh di daerah tropis dengan
ciri-ciri berbuah dua kali dalam satu tahun, memiliki rasa manis-asam, tekstur
kulitnya kasar. Dari contoh tersebut, terdapat perbedaan ciri-ciri buah meskipun
setiap buah memiliki label buah yang sama. Buah tersebut diklasifikasikan
berdasarkan ciri-ciri yang telah diketahui.
12
Dalam machine learning, proses klasifikasi termasuk dalam supervised
learning. Supervised learning adalah proses pembelajaran label data dari suatu
data latih. Terdapat berbagai algoritma machine learning dalam proses klasifikasi,
diantaranya Support Vector Machine (SVM), K-Nearest Neighbors (KNN),
Random Forest, dan Naïve Bayes [13].
2.7. Norm dan Dot Product
Panjang dari sebuah vektor 𝒗 = [𝑣1, 𝑣2, … , 𝑣𝑛] pada ℝ𝑛, atau disebut juga
sebagai norm didefinisikan sebagai berikut [18]:
‖𝒗‖ = √𝑣12 + 𝑣22 + …+ 𝑣𝑛2 .
Jika 𝒖 = [𝑢1, 𝑢2, … , 𝑢𝑛] dan 𝒗 = 𝑣1, 𝑣2, … , 𝑣𝑛 merupakan vektor di ℝ𝑛,
maka dot product didefinisikan sebagai berikut [18]:
𝒖 ∙ 𝒗 = 𝑢1𝑣1 + 𝑢2𝑣2 +⋯+ 𝑢𝑛𝑣𝑛 .
Vektor 𝒖 = (𝑢1, 𝑢2, … , 𝑢𝑛) dan 𝒗 = (𝑣1, 𝑣2, … , 𝑣𝑛) pada ℝ𝑛 dapat
direpresentasikan ke dalam matriks berukuran 𝑛 × 1 sebagai berikut:
𝒖 = [
𝑢1𝑢2⋮𝑢𝑛
] dan 𝒗 = [
𝑣1𝑣2⋮𝑣𝑛
].
Dot product dari vektor 𝑢 dan 𝑣 dapat direpresentasikan sebagai perkalian
matriks transpose 𝑢 dengan matriks 𝑣 sebagai berikut:
𝒖 ∙ 𝒗 = 𝒖𝑻𝒗 = [𝑢1 𝑢2 ⋯ 𝑢𝑛] [
𝑣1𝑣2⋮𝑣𝑛
] = [𝑢1𝑣1 𝑢2𝑣2 ⋯ 𝑢𝑛𝑣𝑛].
Sifat-sifat dot product adalah sebagai berikut [18]:
Jika 𝒖, 𝒗 dan 𝒘 adalah vektor-vektor pada ruang berdimensi 2 atau
berdimensi 3 dan 𝑘 adalah skalar, maka:
1. 𝒖 ∙ 𝒗 = 𝒗 ∙ 𝒖.
2. 𝒖 ∙ (𝒗 + 𝒘) = 𝒖 ∙ 𝒗 + 𝒖 ∙ 𝒘.
3. 𝑘(𝒖 ∙ 𝒗) = (𝑘𝒖) ∙ 𝒗 = 𝒖 ∙ (𝑘𝒗).
4. 𝒗 ∙ 𝒗 > 0 jika 𝒗 ≠ 0, dan 𝒗 ∙ 𝒗 = 0 jika 𝒗 = 0.
13
2.8. Teori Pengali Lagrange dan Kondisi Karush-Kuhn-Tucker (KKT)
Metode pengali lagrange dapat menyelesaikan masalah optimasi berkendala
dengan menentukan titik ekstrim dari fungsi yang dibatasi oleh suatu kondisi
(constrain conditions). Misalkan 𝑓(𝑥) adalah fungsi objektif dari permasalahan
optimisasi dengan kendala 𝑔(𝑥) = 𝑐, dimana 𝑐 adalah konstanta.
Fungsi lagrange dapat ditulis sebagai persamaan berikut:
𝐿(𝑥, 𝜆) = 𝑓(𝑥) − 𝜆(𝑔(𝑥) − 𝑐),
dimana 𝜆 adalah konstanta pengali lagrange [19].
Suatu kondisi optimal dari fungsi objektif akan terpenuhi jika memenuhi
kondisi:
𝜆 ≥ 0,
𝑔(𝑥) − 𝑐 ≥ 0,
𝜆(𝑔(𝑥) − 𝑐) = 0.
Kondisi tersebut yang dinamakan kondisi Karush-Kuhn-Tucker (KKT) [20].
2.9. Leave One Out Cross Validation
Leave One Out Cross Validation adalah teknik validasi model khusus dari k-
fold dimana k sama dengan banyak jumlah data [21]. Metode validasi ini biasa
digunakan untuk data yang sedikit seperti dalam bidang bioinformatika.
Penerapan metode ini dengan cara membagi 𝑘 = 𝑁, dimana 𝑁 adalah banyaknya
data. Dimana 𝑁 − 1 observasi digunakan menjadi data latih dan 1 observasi
digunakan menjadi data uji sehingga semua data berkesempatan untuk menjadi
data latih dan data uji. Prakiraan akurasi yang didapatkan dari metode validasi ini
hampir tidak bias tetapi memiliki varians yang sangat tinggi [21].
14
Gambar 2.5. Leave One Out Cross Validation.
Gambar 2.5 mengilustrasikan penerapan Leave One Out Cross Validation,
dimana percobaan dilakukan sebanyak 𝑁 observasi dengan setiap observasi
terdapat 1 data uji dan sisanya menjadi data latih.
2.10.Evaluasi Model
Evaluasi model dilakukan untuk mengetahui seberapa baik model dalam
mengklasifikasi sebuah kelas. Data yang terklasifikasikan dengan benar atau salah
dapat dilihat menggunakan confusion matrix. Tabel confusion matrix dalam
mengklasifikasi dua kelas kanker dan normal adalah:
Tabel 2.1. Confusion Matrix
Kelas Sebenarnya Kelas Prediksi
Normal Kanker
Normal True Negative (TN) False Positive (FP)
Kanker False Negative (FN) True Positive (TP)
Pada tabel 2.1 terdapat empat istilah representasi hasil proses klasifikasi,
yaitu True Negative (TN), True Positive (TP), False Negative (FN) dan False
Positive (FP). True Negative (TN) adalah jumlah data uji kelas normal yang
didiagnosis dengan benar, sedangkan True Positive (TP) adalah jumlah data uji
kelas kanker yang didiagnosis dengan benar. Selanjutnya False Negative (FN)
Percobaan ke-1
Percobaan ke-2
Percobaan ke-3
Percobaan ke-4
Percobaan ke-5
⋮
⋮
⋮
Percobaan ke-N
Observasi 1 Observasi 2 Observasi 3 Observasi 4 Observasi 5 ⋯⋯⋯ Observasi N ⋯⋯⋯ ⋯⋯⋯
: Data Uji
: Data Latih
15
adalah jumlah data uji kelas normal yang didiagnosis dengan salah dan False
Positive (FP) adalah jumlah data uji kelas kanker yang didoagnosis dengan salah.
Berdasarkan confusion matrix dapat dihasilkan nilai akurasi [22]. Nilai
akurasi digunakan untuk mengukur seberapa akurat dan tepat klasifikasi yang
diperoleh. Formula menghitung nilai akurasi adalah:
Akurasi = 𝑇𝑁+𝑇𝑃
𝑇𝑁+𝐹𝑃+𝑇𝑃+𝐹𝑁 (2.2)
16
BAB III
METODOLOGI PENELITIAN
Bab ini menjelaskan metode-metode yang digunakan dalam penelitian secara
teori dan contoh penerapannya. Metode yang digunakan antara lain SVM sebagai
metode klasifikasi dan SVM-RFE sebagai metode seleksi fitur. Pada bab ini juga
akan dijelaskan bagaimana alur penelitian klasifikasi data microarray.
3.1. SVM
Pada tahun 1992, Vladimir Vapnik, Boser dan Guyon mengenalkan sebuah
metode pembelajaran untuk menganalisis data dan mengenal pola yang digunakan
untuk klasifikasi dan analisis regresi. Metode tersebut adalah SVM. Konsep dasar
SVM adalah mentransformasi data ke ruang yang berdimensi lebih tinggi dan
menemukan hyperplane terbaik [6]. Hyperplane adalah bidang datar penentu yang
memisahkan dua buah kelas di dimensi 𝑛. Untuk menemukan hyperplane terbaik
adalah dengan cara mengukur margin hyperplane tersebut. Margin adalah jarak
antara hyperplane dengan pattern terdekat dari masing-masing kelas. Pattern yang
paling dekat dengan hyperplane disebut support vector [23].
Misalkan data latih dinyatakan sebagai (𝒙𝒊, 𝑦𝑖) dimana 𝑖 = 1,2,… , 𝑛. 𝒙𝒊 =
[𝑥𝑖1, 𝑥𝑖2, … , 𝑥𝑖𝑗] adalah vektor baris dari fitur ke- 𝑖 di ruang dimensi ke- 𝑗 dan
𝑦𝑖 adalah label dari 𝒙𝒊 yang didefinisikan sebagai 𝑦𝑖 ∈ {+1,−1}. Diasumsikan
kedua kelas -1 dan +1 dapat dipisah secara linear oleh hyperplane. Pada gambar
3.1 hyperplane ditunjukkan dengan garis lurus berwarna merah. Data yang berada
di atas hyperplane adalah kelas +1 dan data yang berada di bawah hyperplane
adalah kelas -1.
17
Gambar 3.1. Contoh Hyperplane Dua Dimensi [23].
Persamaan hyperplane didefinisikan sebagai berikut:
𝑓(𝑥) = 𝒘 ∙ 𝒙 + 𝑏, (3.1)
dimana:
𝒘 = parameter bobot,
𝒙 = vektor input,
𝑏 = bias.
Vektor 𝒘 memiliki arah tegak lurus dengan hyperplane. Jika nilai 𝑏 berubah
maka hyperplane akan berubah juga. Hyperplane terbaik adalah hyperplane yang
terletak di tengah-tengah antara dua set obyek dari dua kelas. Untuk itu, perlu
menemukan hyperplane terbaik dengan mendapatkan nilai margin terbesar.
Margin terbesar dapat ditemukan dengan memaksimalkan nilai jarak antara
hyperplane dan titik terdekatnya. Pattern yang memenuhi kelas -1 adalah pattern
yang memenuhi persamaan 𝒘 ∙ 𝒙𝒊 + 𝑏 = −1 dan pattern yang memenuhi kelas +1
adalah pattern yang memenuhi persamaan 𝒘 ∙ 𝒙𝒊 + 𝑏 = 1.
Support vektor direpresentasikan sebagai titik (𝑥, 𝑦). Hyperplane sebagai
berikut:
𝐴𝑥 + 𝐵𝑦 + 𝐶 = 0, (3.2)
dengan rumus jarak sebagai berikut:
d = |𝐴𝑥+𝐵𝑦+𝐶|
√𝐴2+𝐵2.
Persamaan (3.2) diubah dalam bentuk dot product pada vektor sehingga menjadi:
[𝐴 𝐵] [𝑥
𝑦] + 𝐶 = 0.
18
Misalkan 𝒘 = [𝐴 𝐵] dan 𝒙 = [𝑥𝑦] dan b = C, maka diperoleh:
𝑑 =|𝐴𝑥 + 𝐵𝑦 + 𝐶|
√𝐴2 + 𝐵2=|𝒘 ∙ 𝒙 + 𝑏|
√𝒘2 + 𝐶2=|𝒘 ∙ 𝒙 + 𝑏|
√𝒘2=|𝒘 ∙ 𝒙 + 𝑏|
‖𝒘‖.
Nilai margin dapat dicari menggunakan nilai tengah antara jarak kedua kelas
sebagai berikut:
margin = 1
2(𝑑+ − 𝑑−)
= 1
2(|𝒘∙𝒙𝟏+𝑏|
‖𝒘‖−|𝒘∙𝒙𝟐+𝑏|
‖𝒘‖)
= 1
2(1
‖𝒘‖−(−1)
‖𝒘‖)
= 1
‖𝒘‖ , ‖𝒘‖ ≠ 0,
dimana:
𝑑+ : jarak antara hyperplane terhadap kelas +1,
𝑑− : jarak antara hyperplane terhadap kelas -1.
Setiap kelas harus ditambahkan batasan pada data dari masing-masing kelas
agar tidak masuk ke dalam margin, batasannya sebagai berikut:
𝒘 ∙ 𝒙𝒊 + 𝑏 ≤ −1, jika 𝑦 = −1,
𝒘 ∙ 𝒙𝒊 + 𝑏 ≥ +1, jika 𝑦 = +1,
atau dapat ditulis sebagai berikut:
𝑦𝑖(𝒘 ∙ 𝒙𝒊 + 𝑏) − 1 ≥ 0, ∀1 ≤ 𝑖 ≤ 𝑛, 𝑖 ∈ 𝑁.
Memaksimalkan nilai margin ekuivalen dengan meminimumkan ‖𝒘‖2. Maka
pencarian hyperplane terbaik dengan nilai margin terbesar dapat dirumuskan
menjadi masalah optimasi pemograman kuadratik sebagai berikut:
max margin = min 1
2 ‖𝒘‖2,
dengan kendala:
𝑦𝑖(𝒘 ∙ 𝒙𝒊 + 𝑏) − 1 ≥ 0, ∀1 ≤ 𝑖 ≤ 𝑛, 𝑖 ∈ 𝑁.
Masalah ini dapat diselesaikan dengan mengubah persamaan ke dalam fungsi
lagrange:
min 𝐿𝑝(𝒘, 𝑏, 𝛼) = 1
2 ‖𝒘‖2 −∑𝛼𝑖[𝑦𝑖(𝒘 ∙ 𝒙𝒊 + 𝑏) − 1]
𝑛
𝑖=1
,
dimana:
19
𝐿𝑝: fungsi lagrange (primal problem),
𝛼𝑖 : nilai dari koefisien lagrange, 𝛼𝑖 ≥ 0 dengan 𝑖 = 1,2,… , 𝑛.
Fungsi 𝐿𝑝 diminimumkan terhadap 𝒘 dan 𝑏 dan dimaksimalkan terhadap 𝛼,
sehingga akan dicari turunan pertama dari fungsi 𝐿𝑝 terhadap 𝒘 dan 𝑏, maka
didapat:
1. Turunan pertama fungsi 𝐿𝑝 terhadap 𝒘
𝜕
𝜕𝒘𝐿𝑝(𝒘, 𝑏, 𝛼) = 0.
Maka akan didapatkan:
min 𝐿𝑝(𝒘, 𝑏, 𝛼) = 1
2 ‖𝒘‖2 −∑𝛼𝑖[𝑦𝑖(𝒘 ∙ 𝒙𝒊 + 𝑏)]
𝑛
𝑖=1
+∑𝛼𝑖
𝑛
𝑖=1
,
𝜕
𝜕𝒘𝐿𝑝(𝒘, 𝑏, 𝛼) = 𝒘−∑𝛼𝑖𝑦𝑖𝒙𝒊
𝑛
𝑖=1
⟺ 0 = 𝒘−∑𝛼𝑖𝑦𝑖𝒙𝒊
𝑛
𝑖=1
⟺ 𝒘 = ∑𝛼𝑖𝑦𝑖𝒙𝒊
𝑛
𝑖=1
. (3.3)
2. Turunan pertama fungsi 𝐿𝑝 terhadap 𝑏
𝜕
𝜕𝑏𝐿𝑝(𝒘, 𝑏, 𝛼) = 0.
Maka akan didapatkan:
min 𝐿𝑝(𝒘, 𝑏, 𝛼) = 1
2 ‖𝒘‖2 −∑𝛼𝑖[𝑦𝑖(𝒘 ∙ 𝒙𝒊 + 𝑏)]
𝑛
𝑖=1
+∑𝛼𝑖
𝑛
𝑖=1
,
𝜕
𝜕𝑏𝐿𝑝(𝒘, 𝑏, 𝛼) =∑𝛼𝑖𝑦𝑖𝒙𝒊
𝑛
𝑖=1
⟺ 0 =∑𝛼𝑖𝑦𝑖
𝑛
𝑖=1
.
Formula langrange 𝐿𝑝 (primal problem) diubah menjadi 𝐿𝐷 (dual problem).
20
𝑚𝑎𝑘𝑠 𝐿𝐷(𝛼) =1
2( ∑𝛼𝑖𝑦𝑖𝒙𝒊
𝑛
𝑖=1
)(∑𝛼𝑖𝑦𝑖𝒙𝒊
𝑛
𝑖=1
) −∑𝛼𝑖𝑦𝑖
𝑛
𝑖=1
((∑𝛼𝑖𝑦𝑖𝒙𝒊
𝑛
𝑖=1
)𝒙𝒊 + 𝑏)
+𝛼𝑖
= ∑∑𝛼𝑖𝑦𝑖𝛼𝑗𝑦𝑗(𝒙𝒊 ∙ 𝒙𝒋)
𝑛
𝑗=1
𝑛
𝑖=1
−∑∑𝛼𝑖𝑦𝑖𝛼𝑗𝑦𝑗(𝒙𝒊 ∙ 𝒙𝒋)
𝑛
𝑗=1
𝑛
𝑖=1
− 𝑏
= ∑𝛼𝑖 −1
2∑∑𝛼𝑖𝑦𝑖𝛼𝑗𝑦𝑗(𝒙𝒊 ∙ 𝒙𝒋)
𝑛
𝑗=1
𝑛
𝑖=1
𝑛
𝑖=1
, (3.4)
dengan kendala,
∑𝛼𝑖𝑦𝑖 = 0, 𝛼𝑖 ≥ 0.
𝑛
𝑖=1
Nilai 𝛼𝑖 diperoleh dari hasil perhitungan substitusi kendala pada persamaan
(3.4). Nilai 𝛼𝑖 akan digunakan untuk menemukan nilai 𝒘. Setiap titik data selalu
terjadi 𝛼𝑖 = 0. Titik-titik data dimana 𝛼𝑖 = 0 tidak akan muncul dalam
perhitungan mencari nilai 𝒘 sehingga tidak berperan dalam memprediksi data
baru. Data lain dimana 𝛼𝑖 > 0 disebut support vector.
Dilakukan 𝑠𝑖𝑔𝑛{𝑓(𝑥)} untuk menguji data baru menggunakan model yang
sudah dilatih. Substitusikan persaman (3.3) ke persamaan (3.1) dan menggunakan
kernel linear 𝐾(𝒙𝒊, 𝒙𝒋) = 𝒙 ∙ 𝒙𝑻 sehingga diperoleh:
𝑓(𝑥) = ∑𝛼𝑖𝑦𝑖(𝒙𝒊𝑇 ∙ 𝒙)
𝑛
𝑖=1
+ 𝑏. (3.5)
Mensubstitusikan persamaan (3.5) ke dalam 𝑦𝑖𝑓(𝒙𝒊) = 1 diperoleh:
𝑦𝑖∑𝛼𝑚𝑦𝑚𝒙𝒎𝑇
𝑚𝜖𝑆
∙ 𝒙𝒊 + 𝑏 = 1,
dimana S adalah himpunan indeks support vector.
Nilai 𝑏 diperoleh sebagai berikut:
𝑦𝑖 (∑ 𝛼𝑚𝑦𝑚𝒙𝒎𝑇
𝑆
𝑖=𝑚
∙ 𝒙𝒊 + 𝑏) = 1
21
⟺ 𝑦𝑖𝑦𝑖 (∑𝛼𝑚𝑦𝑚𝒙𝒎𝑇
𝑆
𝑖=𝑚
∙ 𝒙𝒊 + 𝑏) = 𝑦𝑖
⟺ (∑ 𝛼𝑚𝑦𝑚𝒙𝒎𝑇
𝑆
𝑖=𝑚
∙ 𝒙𝑖 + 𝑏) = 𝑦𝑖
⟺ 𝑏 = 𝑦𝑖 −∑ 𝛼𝑚𝑦𝑚𝒙𝒎𝑇
𝑆
𝑖=𝑚
∙ 𝒙𝒊
⟺ 𝑏 =1
𝑁𝑆∑(𝑦𝑖 −∑ 𝛼𝑚𝑦𝑚𝒙𝒎
𝑇
𝑆
𝑖=𝑚
∙ 𝒙𝒊)
𝑖∈𝑆
(3.6)
dimana 𝑁𝑆 adalah jumlah support vector.
3.2. SVM-RFE
Support Vector Machine-Recursive Feature Elimination atau biasa disebut
SVM-RFE adalah sebuah algoritma pemilihan fitur dan juga algoritma klasifikasi
yang diperkenalkan oleh Guyon [9]. Algoritma ini sangat efisien digunakan dalam
studi bioinformatika seperti analisis data microarray untuk menjauhkan dari
overfitting saat jumlah fitur tinggi mencapai puluhan ribu hingga ratusan ribu
[24].
Pada studi analisis data microarray, SVM-RFE bekerja dengan cara eliminasi
fitur yang berlebihan yang tidak mempunyai pengaruh terhadap suatu penyakit.
Tujuan eliminasi fitur yang dilakukan secara berulang adalah untuk mendapatkan
fitur gen dengan jumlah sedikit tetapi gen tersebut sangat berpengaruh terhadap
penyakit. Gen diranking untuk mengukur signifikansi gen yang akan
diklasifikasikan. Untuk menentukan nilai peringkat gen dengan menghitung
kuadrat bobot vektor 𝑤 dari SVM, dan nilai 𝑤 dihitung sebagai berikut [25]:
𝒘 = ∑ 𝛼𝑖𝑦𝑖𝒙𝒊𝑘𝑖=1 . (3.7)
Sehingga,
𝑐𝑖 = 𝒘𝒊2, 𝑖 = 1,2,… , 𝑛, (3.8)
dimana:
𝛼𝑖 = hasil klasifikasi SVM dari data latih,
𝑦𝑖 = kelas label,
22
𝑥𝑖 = data latih.
Algoritma SVM-RFE akan dijelaskan sebagai berikut [9]:
Input:
Data latih: 𝑿𝟎 = [𝑥1, 𝑥2, 𝑥3, … , 𝑥𝑘, … , 𝑥𝑙]𝑇
Label kelas: 𝒚 = [𝑦1, 𝑦2, 𝑦3, … , 𝑦𝑘 , … , 𝑦𝑙]𝑇
Inisialisasi:
Fitur: 𝐹 = {1, 2, 3,… , 𝑛}
List peringkat fitur: 𝑅 = { }
Batasi fitur terhadap 𝐹: 𝑋 = 𝑋0(: , 𝐹)
While 𝐹 = ∅ do:
1. Latih SVM
𝛼 = SVM-train (𝑋, 𝑦).
2. Menghitung bobot vektor 𝒘 menggunakan rumus (3.7).
3. Menghitung nilai peringkat 𝑐𝑖 dengan rumus (3.8).
4. Mencari fitur dengan peringkat 𝑐𝑖 terkecil
𝑓 = 𝑎𝑟𝑔𝑚𝑖𝑛(𝑐).
5. Perbarui peringkat fitur
𝑅 = {𝐹(𝑓), 𝑅}.
6. Eliminasi fitur yang memiliki peringkat 𝑐𝑖 terkecil
𝐹 = 𝐹{1: 𝑓 − 1, 𝑓 + 1: 𝑙𝑒𝑛𝑔𝑡ℎ(𝒔)}.
End.
Output:
List peringkat fitur R.
Lebih jelasnya diberikan flowchart dari algoritma SVM-RFE tersebut pada
Gambar 3.2.
23
Gambar 3.2. Flowchart Algoritma SVM-RFE.
24
3.3. Alur Penelitian
Gambar 3.3. Alur Penelitian.
25
BAB IV
HASIL DAN PEMBAHASAN
Bab ini menjelaskan deskripsi data yang digunakan dan hasil penelitian yang
telah dilakukan mulai dari preprocessing data hingga evaluasi model. Pada bab
ini dijelaskan berapa banyak fitur yang informatif dan relevan untuk mendiagnosa
seseorang terkena kanker payudara dan seberapa akurat model yang
didapatkannya.
4.1. Deskripsi Data
Data yang digunakan dalam penelitian ini adalah data sekunder yang
merupakan data microarray kanker payudara dari jurnal yang berjudul “Gene
expression patterns distinguish breast carcinomas from normal breast tissues:
The Malaysian context” pada tahun 2008. Data diambil dari National Center for
Biotechnology Information (NCBI) yang dapat diakses pada website
www.ncbi.nlm.nih.gov.
Tabel 4.1. Data Microarray Kanker Payudara.
Pengamatan
Ke-
Y 𝑿𝟏 𝑿𝟐 ⋯ 𝑿𝟐𝟐.𝟐𝟖𝟐 𝑿𝟐𝟐.𝟐𝟖𝟑
1 0 1881.8 78.0658 ⋯ 27.9838 130.756
2 1 2317.51 61.354 ⋯ 19.4840 35.2956
3 0 1553.86 80.0525 ⋯ 35.8309 85.5188
4 1 1915.57 79.8518 ⋯ 38.6235 65.0371
5 0 1240.13 104.9330 ⋯ 52.1979 84.5100
⋮ ⋮ ⋮ ⋮ ⋯ ⋮ ⋮ 82 1 2993.61 68.1142 ⋯ 61.3352 173.2770
83 0 1467.17 104.3090 ⋯ 44.8726 93.3868
84 1 5501.41 69.8169 ⋯ 186.7580 64.3201
85 0 2387.61 113.436 ⋯ 83.3411 114.7210
86 1 4809.98 189.753 ⋯ 51.9849 149.5330
Berdasarkan tabel 4.1 data dipresentasikan dalam suatu matriks. Jumlah fitur
yang digunakan untuk mengklasifikasikan seseorang terkena kanker payudara
sebanyak 22283 fitur. Fitur yang dimaksud adalah gen kanker payudara yang
26
diteliti. Setiap fitur memiliki nilai yang disebut nilai ekspresi gen. Sedangkan
jumlah kelasnya sebanyak 2 kelas yaitu 1 dan 0. Dimana kelas 1 menunjukkan
seseorang terkena kanker dan kelas 0 menunjukkan seseorang tidak terkena
kanker.
Adapun hasil statistika deskriptif dari data microarray kanker payudara
adalah:
Tabel 4.2. Statistika Deskriptif Data Microarray Kanker Payudara.
Statistika
deskriptif
𝑿𝟏 𝑿𝟐 ⋯ 𝑿𝟐𝟐.𝟐𝟖𝟐 𝑿𝟐𝟐.𝟐𝟖𝟑
Jumlah
data
86 86 ⋯ 86 86
Rata-rata 2152.667721 98.103267 ⋯ 49.230853 91.758915
Standar
Deviasi
950.185378 48.672374 ⋯ 26.946304 52.220395
Min 786.355000 36.048100 ⋯ 16.739300 24.542500
Q1 1582.102500 67.434250 ⋯ 29.283875 53.522275
Q2 1979.39000 83.952650 ⋯ 44.713750 83.281850
Q3 2499.257500 123.283000 ⋯ 61.383275 114.109500
Max 5501.41000 371.654000 ⋯ 186.758000 289.005
4.2. Hasil Normalisasi Data
Pada tahapan ini, normalisasi data dilakukan menggunakan metode Min-Max
Normalization. Nilai hasil normalisasi terdapat pada range (0,1) dimana nilai
minimal yang diperoleh adalah 0 dan nilai maksimal yang diperoleh adalah 1
dengan tujuan data yang memiliki nilai besar ataupun kecil tidak mempengaruhi
hasil klasifikasi.
Contoh perhitungan nilai normalisasi data menggunakan persaman (2.1)
adalah sebagai berikut:
𝑋11 =1881.8 − 786.355000
5501.41000− 786.355000(1 − 0) + 0 = 0.232329,
𝑋12 =2317.51 − 786.355000
5501.41000 − 786.355000(1 − 0) + 0 = 0.324737,
𝑋21 =78.0658− 36.048100
371.654000 − 36.048100(1 − 0) + 0 = 0.1252,
27
𝑋22 =61.354 − 36.048100
371.654000 − 36.048100(1 − 0) + 0 = 0.075404.
Menggunakan bantuan software python diperoleh hasil normalisasi seluruh
data sebagai berikut:
Tabel 4.3. Hasil Normalisasi Data Microarray Kanker Payudara.
Pengamatan
Ke-
Y 𝑿𝟏 𝑿𝟐 ⋯ 𝑿𝟐𝟐.𝟐𝟖𝟐 𝑿𝟐𝟐.𝟐𝟖𝟑
1 0 0.232329 0.125200 ⋯ 0.066137 0.401620
2 1 0.324737 0.075404 ⋯ 0.016144 0.040660
3 0 0.162778 0.131119 ⋯ 0.112291 0.230567
4 1 0.239491 0.130521 ⋯ 0.128716 0.153120
5 0 0.096240 0.205255 ⋯ 0.208557 0.226752
⋮ ⋮ ⋮ ⋮ ⋯ ⋮ ⋮
82 1 0.468129 0.095547 ⋯ 0.262300 0.562403
83 0 0.144392 0.203396 ⋯ 0.165472 0.260318
84 1 1.000000 0.100620 ⋯ 1.000000 0.150409
85 0 0.339605 0.230592 ⋯ 0.391732 0.340988
86 1 0.853357 0.457992 ⋯ 0.207304 0.472621
Berdasarkan hasil normalisasi, terlihat bahwa dengan menggunakan metode
min-max normalization data yang dihasilkan bernilai di range antara 0 sampai 1,
sehingga tidak ada nilai yang lebih besar atau lebih kecil yang mendominasi.
Hasil statistika deskriptif dari data yang telah dinormalisasi tertera pada tabel 4.4.
Tabel 4.4. Statistika Deskriptif Data Microarray Kanker Payudara yang telah
dinormalisasi.
Statistika
deskriptif
𝑿𝟏 𝑿𝟐 ⋯ 𝑿𝟐𝟐.𝟐𝟖𝟐 𝑿𝟐𝟐.𝟐𝟖𝟑
Jumlah data 86 86 ⋯ 86 86
Rata-rata 0.289777 0.184905 ⋯ 0.191106 0.254162
Standar Deviasi 0.201522 0.145028 ⋯ 0.158490 0.197459
Min 0.000000 0.000000 ⋯ 0.000000 0.000000
Q1 0.168767 0.093521 ⋯ 0.073784 0.109580
Q2 0.253027 0.142740 ⋯ 0.164537 0.222108
Q3 0.363284 0.259933 ⋯ 0.101320 0.338676
Max 1.000000 1.000000 ⋯ 1.000000 1.000000
28
4.3. Analisa Numerik SVM dan SVM-RFE
Diberikan contoh data penerapan metode SVM linear:
Misalkan terdapat data (2,2) pada kelas +1 dan data (4,3) pada kelas -1. Dengan
menggunakan kedua kelas tersebut dibuat model yang memprediksi kelas (1,0).
Menggunakan persamaan (3.4) diperoleh:
𝐿𝐷(𝛼) =∑𝛼𝑖 −1
2∑∑𝛼𝑖𝑦𝑖𝛼𝑗𝑦𝑗(𝒙𝒊 ∙ 𝒙𝒋)
𝑛
𝑗=1
𝑛
𝑖=1
𝑛
𝑖=1
= ∑𝛼𝑖 −1
2∑∑𝛼𝑖𝑦𝑖𝛼𝑗𝑦𝑗(𝒙𝒊 ∙ 𝒙𝒋)
2
𝑗=1
2
𝑖=1
2
𝑖=1
= 𝛼1 + 𝛼2 −1
2(𝛼1𝛼1𝑦1𝑦1(𝒙𝟏 ∙ 𝒙𝟏) + 𝛼1𝛼2𝑦1𝑦2(𝒙𝟏 ∙ 𝒙𝟐)
+𝛼2𝛼1𝑦2𝑦1(𝒙𝟐 ∙ 𝒙𝟏) + 𝛼2𝛼2𝑦2𝑦2(𝒙𝟐 ∙ 𝒙𝟐)
= 𝛼1 + 𝛼2 −1
2(𝛼1
2(1)(1) (2
2) ∙ (
2
2) + 𝛼1𝛼2(1)(−1)(
2
2) ∙ (
4
3)
+𝛼2𝛼1(−1)(1)(43) ∙ (2
2) +𝛼2
2(−1)(−1)(43) ∙ (4
3)
= 𝛼1 + 𝛼2 −1
2(8𝛼1
2 − 14𝛼1𝛼2 − 14𝛼2𝛼1 + 25𝛼22)
= 𝛼1 + 𝛼2 − 4𝛼12 + 14𝛼1𝛼2 −
25
2𝛼2
2,
dengan ∑𝛼𝑖𝑦𝑖
2
𝑖=1
= 0
⟺ 𝛼1𝑦1 + 𝛼2𝑦2 = 0
⟺ 𝛼1(1) + 𝛼2(−1) = 0
⟺ 𝛼1 = 𝛼2.
Substitusi 𝛼1 = 𝛼2 ke persamaan 𝐿𝐷(𝛼) sehingga:
𝐿𝐷(𝛼) = 𝛼1 + 𝛼1 − 4𝛼12 + 14𝛼1𝛼1 −
25
2𝛼12
= 2𝛼1 − 4𝛼12 + 14𝛼1
2 −25
2𝛼12
= 2𝛼1 −5
2𝛼12.
Lalu 𝐿𝐷(𝛼) diturunkan terhadap 𝛼1 diperoleh:
𝜕𝐿
𝜕𝛼1𝐿𝐷(𝛼) = 0
29
⟺𝜕𝐿
𝜕𝛼1(2𝛼1 −
5
2𝛼12) = 0
⟺ 2 − 5 𝛼1 = 0
⟺ 𝛼1 =2
5.
Karena 𝛼1 = 𝛼2 dan 𝛼1 =2
5 maka 𝛼2 =
2
5 sehingga menggunakan persamaan (3.3)
diperoleh nilai 𝑤 sebagai berikut:
𝒘 = ∑ 𝛼𝑖𝑦𝑖𝒙𝒊2𝑖=1 = 𝛼1𝑦1𝒙𝟏 + 𝛼2𝑦2𝒙𝟐 =
2
5(1)(2
2) +
2
5(−1)(4
3) = (
−4
5
−2
5
).
Mencari nilai 𝑏 menggunakan persamaan (3.6) sehingga diperoleh:
𝑏 = 1
2∑(𝑦𝑗 −∑𝛼𝑖𝑦𝑖(𝒙𝒊
𝑻 ∙ 𝒙𝒋)
2
𝑖=1
)
2
𝑗=1
=1
2∑(𝑦𝑗 − (𝛼1𝑦1(𝒙𝟏
𝑻 ∙ 𝒙𝒋) + 𝛼2𝑦2(𝒙𝟐𝑻 ∙ 𝒙𝒋)))
2
𝑗=1
=1
2(𝑦1 − (𝛼1𝑦1(𝒙𝟏
𝑻 ∙ 𝒙𝟏) + 𝛼2𝑦2(𝒙𝟐𝑻 ∙ 𝒙𝟏)) + 𝑦2 − (𝛼1𝑦1(𝒙𝟏
𝑻 ∙ 𝒙𝟐) +
𝛼2𝑦2(𝒙𝟐𝑻 ∙ 𝒙𝟐)))
=1
2(1 − (
2
5(1)(2 2) ∙ (2
2) +
2
5(−1)(4 3) ∙ (2
2)) + (−1) − (
2
5(1)(2 2) ∙ (4
3) +
2
5(−1)(4 3)(4
3)))
=17
5,
sehingga 𝑓(𝒙) = 𝒘 ∙ 𝒙 + 𝑏 = (−4
5 −
2
5) 𝒙 +
17
5,
maka 𝑠𝑖𝑔𝑛(𝑓(𝒙)) = 𝑠𝑖𝑔𝑛 ((−4
5 −
2
5) (1
0) +
17
5) = 𝑠𝑖𝑔𝑛 (
13
5) = +1,
dengan mengevaluasi tanda dari 𝑓(𝒙) diperoleh kelas dari (1,0) adalah +1.
Penerapan metode SVM-RFE menggunakan contoh data pada tabel 3.1.
Berdasarkan data terdapat 3 fitur, yaitu 𝑓1, 𝑓2, dan 𝑓3, dan 4 sampel data dengan 2
kelas berbeda.
30
Tabel 4.5. Contoh Data Manual Metode SVM-RFE.
Sampel 𝒇𝟏 𝒇𝟐 𝒇𝟑 Kelas
𝑥1 4 3 6 1
𝑥2 2 1 3 1
𝑥3 5 7 4 -1
𝑥4 2 5 2 -1
𝑅 = { }
𝐹 = [𝑓1, 𝑓2, 𝑓3].
Akan dilakukan pemilihan fitur hingga menjadi 2 fitur menggunakan metode
SVM-RFE.
1. Hitung bobot vektor 𝒘
Menggunakan rumus (3.7) untuk memperoleh bobot vektor, SVM dilatih
terlebih dahulu. Pada contoh ini akan digunakan fungsi kernel linear sehingga
diperoleh matriks kernel 𝐾 sebagai berikut:
𝐾(𝒙𝒊, 𝒙𝒋) = 𝑿 ∙ 𝑿𝑻 = (
4 3 62 1 35 7 42 5 2
)(4 23 16 3
5 27 54 2
) = (
61 2929 1465 19
65 3529 1590 53
35 15 53 33
)
Maka diperoleh masalah dual lagrange menggunakan persamaan (3.3) sebagai
berikut:
𝐿𝐷(𝛼) =∑𝛼𝑖 −1
2∑∑𝛼𝑖𝑦𝑖𝛼𝑗𝑦𝑗𝐾(𝒙𝒊 ∙ 𝒙𝒋)
4
𝑗=1
4
𝑖=1
4
𝑖=1
= 𝛼1 + 𝛼2 + 𝛼3 + 𝛼4 −1
2(61𝛼1
2 + 29𝛼1𝛼2 − 65𝛼1𝛼3 − 35𝛼1𝛼4
+29𝛼2𝛼1 + 14𝛼22 − 29𝛼2𝛼3 − 15𝛼2𝛼4 − 65𝛼3𝛼1 − 29𝛼3𝛼2
+90𝛼32 + 53𝛼3𝛼4 − 35𝛼4𝛼1 − 15𝛼4𝛼2 + 53𝛼4𝛼3 + 33𝛼4
2
= 𝛼1 + 𝛼2 + 𝛼3 + 𝛼4 −1
2(61𝛼1
2 + 58𝛼1𝛼2 − 130𝛼1𝛼3 − 70𝛼1𝛼4
+14𝛼22 − 58𝛼2𝛼3 − 30𝛼2𝛼4 + 90𝛼3
2 + 106𝛼3𝛼4 + 33𝛼42
31
= 𝛼1 + 𝛼2 + 𝛼3 + 𝛼4 −61
2𝛼12 − 29𝛼1𝛼2 + 65𝛼1𝛼3 + 35𝛼1𝛼4 − 7𝛼2
2
+29𝛼2𝛼3 + 15𝛼2𝛼4 − 45𝛼32 − 58𝛼3𝛼4 −
33
2𝛼42
Turunkan fungsi 𝐿𝐷(𝛼) terhadap 𝛼𝑖 dimana 𝑖 = 1,2,3,4.
𝜕𝐿
𝜕𝛼1= 0 ⟺ −61𝛼1 − 29𝛼2 + 65𝛼3 + 35𝛼4 = −1 (4.1)
𝜕𝐿
𝜕𝛼2= 0 ⟺ −29𝛼1 −
7
2𝛼2 + 29𝛼3 + 15𝛼4 = −1 (4.2)
𝜕𝐿
𝜕𝛼3= 0 ⟺ 65𝛼1 + 29𝛼2 −
45
2𝛼3 − 58𝛼4 = −1 (4.3)
𝜕𝐿
𝜕𝛼4= 0 ⟺ 35𝛼1 + 15𝛼2 − 58𝛼3 − 33𝛼4 = −1 (4.4)
Berdasarkan persamaan (4.1), (4.2), (4.3) dan (4.4) diperoleh:
(
−61 −29
−29 −7
265 29
65 3529 15
−45
2−58
35 15 −58 −33)
(
𝛼1𝛼2𝛼3𝛼4
) = (
−1−1−1−1
)
Solusi dari persamaan di atas adalah:
𝛼1 = 0,10436781
𝛼2 = −0,0313702
𝛼3 = 0,0059992
𝛼4 = 0,11619293
Fungsi yang dihasilkan adalah fungsi yang hanya dipengaruhi oleh support vector.
Support vector adalah data yang memiliki nilai 𝛼 > 0, maka nilai yang
berpengaruh adalah 𝛼1, 𝛼3, dan 𝛼4, sehingga diperoleh:
32
𝒘 = 𝛼1𝑦1𝒙𝟏 + 𝛼3𝑦3𝒙𝟑 + 𝛼4𝑦4𝒙𝟒
= (0,10436781)(1)(436) + (0,0059992)(−1)(
574
) (0,11619293)(−1)(252)
= (0,15513538−0,309791220,369861
).
2. Menghitung nilai peringkat 𝑐𝑖
Menggunakan rumus (3.8), diperoleh nilai peringkat untuk fitur 𝑓𝑖 sebagai
berikut:
𝑐𝑖 = 𝑤𝑖2 = (
0,155135382
−0,309791222
0,3698612) = (
0,0240,0950,1367
).
3. Cari fitur dengan nilai 𝑐𝑖 terkecil
Berdasarkan hasil nilai 𝑐𝑖 pada proses kedua diperoleh peringkat terendah
yaitu 𝑓1.
4. Tambahkan fitur 𝑓1 ke dalam 𝑅
𝑅 = {𝑓1}
5. Eliminasi 𝑓1 dari 𝐹
𝐹 = {𝑓2, 𝑓3}
Didapatkan fitur yang tersisa 𝑆 = {𝑓2, 𝑓3}, lakukan kembali langkah 1-5
hingga 𝐹 = { }. Setelah semua fitur diurutkan berdasarkan nilai 𝑐𝑖 yang diperoleh,
maka didapatkan 𝑅 = {𝑓1 , 𝑓3, 𝑓2}. Dengan demikian fitur dengan peringkat
tertinggi adalah 𝑓2.
4.4. Hasil SVM tanpa Seleksi Fitur
Dalam proses ini, setelah menormalisasikan data dilakukan pembangunan
model menggunakan SVM. Dengan menggunakan leave one out cross validation,
data dibagi menjadi sebanyak data yaitu 86 bagian dimana setiap data
berkesempatan menjadi data uji. Hasil rata-rata evaluasi model dapat
diilustrasikan dalam bentuk confusion matrix sehingga menghasilkan nilai
33
akurasi. Adapun hasil rata-rata evaluasi model menggunakan SVM tanpa seleksi
fitur adalah sebagai berikut.
Tabel 4.6. Confusion Matrix Model SVM tanpa Seleksi Fitur.
Kelas Sebenarnya Kelas Prediksi
Normal Kanker
Normal 37 6
Kanker 5 38
Berdasarkan hasil tabel confusion matrix diperoleh nilai akurasi dengan
menggunakan rumus (2.2) sebagai berikut:
Akurasi = 𝑇𝑁+𝑇𝑃
𝑇𝑁+𝐹𝑃+𝑇𝑃+𝐹𝑁=
37+38
37+6+38+5= 0.872.
Artinya sebesar 87.2% model dapat memprediksi masalah klasifikasi kanker
payudara dengan benar.
4.5. Hasil Seleksi Fitur menggunakan SVM-RFE
Dalam proses ini, setelah menormalisasikan data dilakukan proses seleksi
fitur menggunakan SVM-RFE sebelum membangun model menggunakan SVM.
Seleksi fitur dilakukan setelah membagi data menjadi data latih dan data uji,
seluruh data berkesempatan menjadi data latih dan data uji dimana metode cross
validation yang digunakan adalah leave one out cross validation. Data latih
digunakan untuk menseleksi fitur sehingga hasil seleksi fitur sama sekali tidak
mengandung informasi mengenai data uji. Banyak fitur yang digunakan dalam
penelitian ini adalah 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024, 2048, 4096, 8192,
dan 16384. Setelah mendapatkan fitur yang terseleksi, dilakukan pembangunan
model. Fitur yang telah terseleksi diuji ke dalam data uji. Hasil pengujian
diilustrasikan dalam bentuk tabel confusion matrix seperti contoh saat
menggunakan 128 fitur terseleksi berikut.
34
Tabel 4.7. Confusion Matrix Model SVM dengan Seleksi Fitur menggunakan
SVM-RFE.
Kelas Sebenarnya Kelas Prediksi
Normal Kanker
Normal 38 5
Kanker 3 40
Berdasarkan tabel 4.6 hasil confusion matrix, diperoleh nilai akurasi dengan
menggunakan formula (2.2) sebagai berikut:
Akurasi = 𝑇𝑁+𝑇𝑃
𝑇𝑁+𝐹𝑃+𝑇𝑃+𝐹𝑁=
38+40
38+5+40+3= 0.906.
Artinya sebesar 90.6% model dapat memprediksi masalah klasifikasi kanker
payudara dengan benar.
Berikut tabel rangkuman rata-rata akurasi berdasarkan banyak fitur yang
digunakan.
Tabel 4.8. Rangkuman Rata-Rata Akurasi SVM-RFE.
Banyak Fitur Rata-Rata Akurasi
2 0.813
4 0.825
8 0.837
16 0.848
32 0.872
64 0.883
128 0.906
256 0.895
512 0.883
1024 0.883
2048 0.883
4096 0.883
8192 0.872
16384 0.872
35
Hasil rata-rata akurasi dapat digambarkan melalui grafik sebagai berikut:
Gambar 4.1. Grafik Nilai Akurasi dari SVM-RFE pada fitur terseleksi.
Berdasarkan hasil rata-rata akurasi yang didapatkan, terlihat dalam rangkuman
tabel ataupun grafik dengan menggunakan percobaan fitur yang ditentukan bahwa
128 fitur mencapai akurasi tertinggi pada data kanker payudara ini.
Adapun grafik hasil 10 nilai skor setiap fitur dari 128 fitur yang telah
terseleksi.
Gambar 4.2. Skor Feature Importance.
36
Berdasarkan percobaan yang telah dilakukan dengan seleksi fitur yang telah
dicoba, 128 fitur memiliki skor nilai untuk setiap fiturnya. Terlihat pada Gambar
4.2, dari 128 fitur yang telah terseleksi diperlihatkan 10 fitur nilai skor tertinggi.
Grafiknya sedikit turun lalu landai sehingga 10 fitur tersebut adalah fitur-fitur
penting. Studi literatur 5 fitur dari 128 fitur dapat dilihat pada tabel 4.8. 5 fitur
tersebut fitur yang memiliki skor nilai tertinggi dari 128 fitur terseleksi.
37
Tabel 4.9. Deskripsi 5 Fitur dari 128 Fitur yang terseleksi.
No Fitur GenBank Acession
Number Gen Title Description
Literatur Biologi
1 𝑋992 NM_006755 transaldolase 1
Gen protein yang berfungsi menyeimbangkan
metabolisme dalam pantose phosphate pathway
[26].
2 𝑋10341 AB007457 TP53 target 1 (non-protein coding)
Tumor Protein p53 target 1adalah isoform dari
protein apa pun yang dikodekan oleh gen
homolog dalam berbagai organisme. Homolog
ini sangat penting dalam organisme multiseluler
yang berperan mencegah pembentukan kanker
dan sebagai penekan tumor [27].
3 𝑋13102 L07335 SRY (sex determining region Y)-box 2
Gen SOX didefinisikan sebagai kandungan box
HMG dan gen yang terlibat dalam penentuan
jenis kelamin yang disebut SRY (SOX stands
for Sry-related HMG box). Gen SOX menjadi
faktor transkripsi yang terlibat dalam keputusan
nasib sel penting selama pengembangan [28].
4 𝑋14233 AL050035 RPARP antisense RNA 1
RPARP-AS 1 adalah gen RNA yang berafiliasi
dengan kelas RNA non-coding [29].
5 𝑋11558 H95344 vascular endothelial growth factor A
Gen ini adalah anggota dari faktor pertumbuhan
turunan trombosit (PGDF) yang menjadi faktor
pertumbuhan dan pembelahan sel. PGDF
berperan dalam pembentukan pembuluh darah
[30].
38
BAB V
KESIMPULAN DAN SARAN
5.1. Kesimpulan
Berdasarkan analisis yang telah dilakukan, masalah high dimensional data
dapat diselesaikan menggunakan machine learning. Dalam penelitian ini telah
dilakukan klasifikasi data microarray kanker payudara dengan semua fitur dan
dengan fitur terseleksi. Seleksi fitur dilakukan menggunakan metode SVM-RFE
dan metode SVM sebagai metode klasifikasinya. Kompleksitas dari algoritma
SVM-RFE yang digunakan adalah 𝑂(𝐹(𝑁3)).
Klasifikasi data microarray kanker payudara menggunakan metode SVM
dengan kernel linear untuk semua fitur menghasilkan akurasi sebesar 87.2%.
Adanya proses seleksi fitur menggunakan metode SVM-RFE dan metode
SVM sebagai metode klasifikasinya dengan kernel linear terjadi peningkatan
akurasi. Akurasi yang dihasilkan sebesar 90.6% dengan jumlah fitur sebanyak 128
fitur.
Hasil penelitian ini, klasifikasi data microarray kanker payudara dengan
seleksi fitur menggunakan metode SVM-RFE menghasilkan nilai akurasi lebih
tinggi dibandingkan klasifikasi tanpa seleksi fitur. Sehingga memungkinkan
bahwa tidak semua fitur gen memberikan pengaruh yang signifikan terhadap data.
5.2. Saran
Berdasarkan penelitian yang telah dilakukan, penulis menyarankan untuk
menentukan nilai parameter yang optimum yang memungkinkan menghasilkan
nilai akurasi lebih baik, algoritma SVM-RFE memiliki kelemahan yaitu lambat
dalam menseleksi fiturnya maka untuk penelitian selanjutnya dapat menggunakan
metode seleksi fitur lainnya seperti fast correlation-based filter (FCBF) atau
genetic algorithm dan metode klasifikasi lainnya seperti Neural Network atau K-
Nearest Neighbors dalam menyelesaikan masalah data microarray kanker
payudara.
39
Dataset microarray yang digunakan sangat sedikit sehingga evaluasi model
yang digunakan adalah metode leave one out cross validation. Metode evaluasi
tersebut membutuhkan waktu komputasi yang sangat besar, oleh karena itu
metode Support Vector Machine-Recursive Feature Elimination (SVM-RFE)
dapat digunakan pada data dataset yang lebih banyak dengan menggunakan
metode evaluasi model lainnya.
40
REFERENSI
[1] B. K. d. P. Masyarakat, "Kementerian Kesehatan Republik Indonesia," 9
Januari 2019. [Online]. Available:
http://www.depkes.go.id/article/view/19020100003/hari-kanker-sedunia-
2019.html. [Accessed 1 Agustus 2019].
[2] A. Bhola and A. K. Tiwari, "Machine Learning Based Approaches for
Cancer Classification using Gene Expression Data," Machine Learning and
Application: An International Journal (MLAIJ), vol. 2, no. 3/4, pp. 1-12,
2015.
[3] R. D. Uriarte and S. A. d. Andres, "Gene Selection and Classification of
Microarray Data using Random Forest," BMC Bioinformatics, pp. 1-13,
2006.
[4] F. Demichelis, P. Magni, P. Piergiorgi, M. A. Rubin and R. Bellazzi, "A
hierarchical Naive Bayes Model for Handling Sample Heterogenity in
Classification Problem: An Application to Tissue Microarray," BMC
Bioinformatics, pp. 1-12, 2006.
[5] M. C. O'Neill and L. Song, "Neural Network Analysis of Lymphoma
Microarray Data: Prognosis and Diagnosis Near-Perfect," BMC
Bioinformatics, pp. 1-12, 2003.
[6] T. S. Furey, N. Cristianini, N. Duffy, D. W. Bednarsky, M. Schummer and
D. Haussler, "Support Vector Machine Classification and Validation of
Cancer Tissue Samples using Microarray Expression Data," Bioinformatics,
vol. 16, pp. 906-914, 2000.
[7] W. Zhong, X. Lu and J. Wu, "Feature Selection for Cancer Classification
Using Microarray Gene Expression Data," Biostatistics and Biometrics, vol.
1, no. 2, pp. 01-07, 2017.
[8] Z. Li, W. Xie and T. Liu, "Efficient Feature Selection and Classification for
Microarray Data," Plos One, pp. 1-21, 2018.
[9] I. Guyon and V. Vapnik, "Gene Selection for Cancer Classification using
Support Vector Machines," Kluwer Academic Publishers. Manufactured in
41
The Netherlands, no. 46, pp. 389-422, 2002.
[10] A. M. Elsharkawy, "Breast Cancer," OMICS Group Ebook, 2014.
[11] Understanding Breast Cancer, Australia: Cancer Council Australia, 2016.
[12] M. M. Babu, "An Introduction to Microarray Data Analysis," MRC
Laboratory of Molecular Biology, 2004.
[13] J. Han, M. Kamber and J. Pei, Data Mining Concepts and Techniques Third
Edition, USA: Morgan Kaufmann, 2012.
[14] M. Verleysen and D. Francois, "The Curse of Dimensionality in Data
Mining and Time Series Prediction," Springer, pp. 758-770, 2005.
[15] A. Hinneburg, C. C. Aggarwal and D. A. Keim, "What is The Nearest
Neighbor in High Dimensional Spaces," in VLDB, Cairo, 2000.
[16] Z. M. Hira and D. F. Gillies, "A Review of Feature Selection and Feature
Extraction Methods Applied on Microarray Data," Advances in
Bioinformatics, pp. 1-13, 015.
[17] A. Jovic, K. Brkic and N. Bogunovuc, "A Review of Feature Selection
Methods with Applications," in IEEE, Croatia, 2015.
[18] H. Anton and C. Rorres, Elementary Linear Algebra 11th Edition, Canada:
Wiley, 2014.
[19] D. P. Bertsekas and A. E. Ozdaglar, "Pseudonormality and a Lagrange
Multiplier Theory for Constrained Optimization," Journal of Optimization
Theory and Applications, vol. 114, pp. 287-343, 2002.
[20] C. M. Bioshop, Pattern Recognition and Machine Learning, Cambridge:
Springer, 2006.
[21] P. Refaeilzadeh, L. Tang and H. Liu, "Cross Validation," Springer, 2009.
[22] L. Rokach and O. Maimon, Data Mining with Decision Tree Theory and
Application 2nd Edition, Singapore: World Scientific, 2015.
[23] A. S. Nugroho, A. B. Witarto and D. Handoko, "Kuliah Umum Ilmu
Komputer," 2003. [Online]. Available: http://ilmukomputer.com. [Accessed
42
10 juli 2019].
[24] R. K. K, S. Rajendran and V. J, "A Correlation Based SVM-Recursive
Multiple Feature Elimination Classifier for Breast Cancer Disease using
Microarray," in Intl. Conference on Advances in Computing,
Communications and Informatics (ICACCI), Jaipur, 2016.
[25] X. Li, S. Peng, J. Chen, B. Lu, H. Zhang and M. Lai, "SVM-T-RFE: A
Novel Gene Selection Algorithm for Identifying Metastasis-Related Genes
in Colorectal Cancer using Gene Expression Profiles," Elsevier, pp. 148-
153, 2012.
[26] Y. Ding, C. W. Gong, D. Huang, R. Chen, P. Sui, K. H.-Y. Lin, G. Liang,
L. Yuan, H. Xiang, J. Chen, T. Yin, P. B. Alexander, Q.-F. Wang, E.-W.
Song, Q.-J. Li, K. C. Wood and X.-F. Wang, "Synthetic Lethality between
HER2 and Transaldolase in Intrinsically Resistant HER2-Positive Breast
Cancer," Nature Communication, pp. 1-11, 2018.
[27] P. Y. Suyanto, A. R. Utomo and F. Sandra, "Mutasi Gen p53; Faktor
Prediktif Kanker Payudara?," Indonesian Journal of Cancer, no. 4, pp. 138-
143, 2008.
[28] P. Jay, Iman, Sahly, C. Goze, S. Taviaux, F. Poulat, G. Couly, M. Abitbol
and P. Berta, "SOX22 is a New Member of The SOX Gene Family, Mainly
Expressed in Human Nervous Tissue," Human Molecular Genetics, vol. VI,
no. 7, pp. 1069-1077, 1997.
[29] NCBI, "National Center for Biotechnology Information," 12 Oktober 2019.
[Online]. Available:
https://www.ncbi.nlm.nih.gov/gene/?term=RPARP+antisense+RNA+1#gen
e-expression. [Accessed 31 Oktober 2019].
[30] NCBI, "National Center for Biotechnology Information," 28 Oktober 2019.
[Online]. Available:
https://www.ncbi.nlm.nih.gov/gene?Db=gene&Cmd=ShowDetailView&Te
rmToSearch=7422. [Accessed 31 Oktober 2019].
43
LAMPIRAN
Lampiran I. Data Microarray Kanker Payudara.
Pengamatan
Ke-
Kelas 𝑿𝟏 𝑿𝟐 ⋯ 𝑿𝟐𝟐.𝟐𝟖𝟐 𝑿𝟐𝟐.𝟐𝟖𝟑
1 Normal 1881.8 78.0658 ⋯ 27.9838 130.756
2 Kanker 2317.51 61.354 ⋯ 19.4840 35.2956
3 Normal 1553.86 80.0525 ⋯ 35.8309 85.5188
4 Kanker 1915.57 79.8518 ⋯ 38.6235 65.0371
5 Normal 1240.13 104.9330 ⋯ 52.1979 84.5100
6 Kanker 2448.16 78.429 ⋯ 37.7262 76.8022
7 Normal 1007.43 152.432 ⋯ 50.8079 76.2715
8 Kanker 1827.95 72.7092 ⋯ 24.4856 73.4246
9 Normal 956.965 134.47 ⋯ 41.2545 154.718
10 Kanker 1973.05 48.4393 ⋯ 31.766 49.0741
11 Normal 882.229 93.5228 ⋯ 22.2703 86.0076
12 Kanker 1902.96 84.3622 ⋯ 40.8126 56.5296
13 Normal 2081.36 71.0835 ⋯ 23.2067 60.3867
14 Kanker 1872.11 78.4025 ⋯ 29.0189 53.3214
15 Normal 1235.31 117.263 ⋯ 24.2845 75.3205
16 Kanker 1516.65 77.589 ⋯ 33.5032 64.5949
17 Normal 1017.24 69.1435 ⋯ 32.7593 46.5276
18 Kanker 2225.59 65.1867 ⋯ 27.2118 46.4419
19 Normal 958.413 126.787 ⋯ 31.1072 77.7777
20 Kanker 1691.01 66.0304 ⋯ 26.4924 54.05
21 Normal 810.677 59.2485 ⋯ 16.7393 93.0559
22 Kanker 2518.29 57.4177 ⋯ 25.6084 42.8628
23 Normal 1749.15 65.1338 ⋯ 31.9268 53.8039
24 Kanker 2311.18 74.9848 ⋯ 33.372 47.996
25 Normal 2458.09 73.5661 ⋯ 38.8703 29.841
26 Kanker 3407.77 67.2076 ⋯ 54.8672 67.0647
27 Normal 1984.38 371.654 ⋯ 92.4856 60.0872
28 Kanker 2017.13 52.4098 ⋯ 31.9386 82.9476
29 Normal 786.355 70.6604 ⋯ 28.4626 128.508
30 Kanker 1795.35 49.4813 ⋯ 33.0839 33.2025
31 Normal 2058.78 123.172 ⋯ 41.1412 53.4284
32 Kanker 1983.03 53.0219 ⋯ 18.361 37.4705
33 Normal 2022.29 97.4185 ⋯ 56.2379 144.595
34 Kanker 2313.88 59.2167 ⋯ 18.1205 24.5425
35 Normal 1640.25 66.7657 ⋯ 32.3327 60.5228
36 Kanker 963.085 54.0823 ⋯ 28.7724 67.7675
37 Normal 2038.92 138.709 ⋯ 60.3902 102.099
44
Pengamatan
Ke-
Kelas 𝑿𝟏 𝑿𝟐 ⋯ 𝑿𝟐𝟐.𝟐𝟖𝟐 𝑿𝟐𝟐.𝟐𝟖𝟑
38 Kanker 2030.19 36.0481 ⋯ 46.4155 27.3133
39 Normal 1150.76 37.4476 ⋯ 26.0693 47.6413
40 Kanker 1959.98 46.5972 ⋯ 26.8274 47.3912
41 Normal 903.648 55.2745 ⋯ 23.6905 32.9342
42 Kanker 1860.15 45.0863 ⋯ 20.0246 48.7259
43 Normal 3063.61 50.9969 ⋯ 36.7085 46.9881
44 Kanker 3000.23 124.668 ⋯ 50.8171 104.53
45 Normal 2509.38 147.142 ⋯ 46.2531 85.2358
46 Kanker 1568.49 93.5223 ⋯ 61.3993 95.3678
47 Normal 801.992 42.8506 ⋯ 23.023 33.6936
48 Kanker 2504.98 48.0842 ⋯ 21.2497 32.6328
49 Normal 1744.35 77.9707 ⋯ 23.833 35.003
50 Kanker 1975.75 83.5431 ⋯ 56.4656 106.272
51 Normal 1082.51 70.3011 ⋯ 30.0788 67.6716
52 Kanker 2608.79 76.8818 ⋯ 40.4907 41.0845
53 Normal 1162.58 97.0026 ⋯ 43.5276 71.7611
54 Kanker 3823.97 94.471 ⋯ 55.8134 100.647
55 Normal 1690.34 72.6695 ⋯ 64.0712 124.502
56 Kanker 2953.64 114.075 ⋯ 52.1498 83.6161
57 Normal 2482.09 104.623 ⋯ 75.6664 112.275
58 Kanker 4196.65 81.5676 ⋯ 70.9146 289.005
59 Normal 1704.36 83.5266 ⋯ 52.9521 122.952
60 Kanker 3469.26 134.42 ⋯ 44.5549 101.545
61 Normal 1882.39 91.4913 ⋯ 50.6183 90.1815
62 Kanker 2313.58 101.481 ⋯ 67.5472 104.732
63 Normal 1405.02 141.32 ⋯ 64.5501 84.253
64 Kanker 3509.75 126.298 ⋯ 66.9987 75.4201
65 Normal 1852.28 105.911 ⋯ 79.8493 196.262
66 Kanker 3144.43 237.316 ⋯ 128.277 101.471
67 Normal 1622.94 120.977 ⋯ 56.9934 146.472
68 Kanker 3216.91 129.507 ⋯ 46.1948 115.887
69 Normal 2179.56 181.677 ⋯ 52.7318 164.1
70 Kanker 3008.71 111.075 ⋯ 110.908 163.813
71 Normal 2242.76 98.7473 ⋯ 74.2612 100.936
72 Kanker 3001.39 144.524 ⋯ 70.1436 126.281
73 Normal 1391.47 156.098 ⋯ 76.3601 106.164
74 Kanker 2187.33 123.32 ⋯ 86.6711 218.612
75 Normal 2343.89 87.0273 ⋯ 47.4935 99.5516
76 Kanker 3875.9 150.474 ⋯ 85.2973 71.8082
77 Normal 1434.71 144.179 ⋯ 59.017 118.175
78 Kanker 5158.85 134.313 ⋯ 70.8883 286.319
79 Normal 1753.98 168.42 ⋯ 69.3947 159.167
45
Pengamatan
Ke-
Kelas 𝑿𝟏 𝑿𝟐 ⋯ 𝑿𝟐𝟐.𝟐𝟖𝟐 𝑿𝟐𝟐.𝟐𝟖𝟑
80 Kanker 2876.29 117.656 ⋯ 64.8027 143.366
81 Normal 1955.95 126.613 ⋯ 90.0296 182.108
82 Kanker 2993.61 68.1142 ⋯ 61.3352 173.2770
83 Normal 1467.17 104.3090 ⋯ 44.8726 93.3868
84 Kanker 5501.41 69.8169 ⋯ 186.7580 64.3201
85 Normal 2387.61 113.436 ⋯ 83.3411 114.7210
86 Kanker 4809.98 189.753 ⋯ 51.9849 149.5330
46
Lampiran II. 128 Fitur Terseleksi.
No Fitur GenBank
Acession Number Gen Title Description
1 𝑋133 M18468 protein kinase, cAMP-dependent,
regulatory, type I, alpha
2 𝑋751 AL527365 RAD23 homolog B (S. cerevisiae)
3 𝑋992 NM_006755 transaldolase 1
4 𝑋1266 NM_005885
membrane-associated ring finger
(C3HC4) 6, E3 ubiquitin protein
ligase
5 𝑋1353 AB022663 ring finger protein 14
6 𝑋1438 NM_001008 ribosomal protein S4, Y-linked 1
7 𝑋1737 BC001051 ADP-ribosylation factor-like 4C
8 𝑋1917 NM_002923 regulator of G-protein signaling 2
9 𝑋1987 NM_007173 protease, serine, 23
10 𝑋2516 NM_014862 aryl-hydrocarbon receptor nuclear
translocator 2
11 𝑋3075 U47924 CD4 molecule
12 𝑋3241 NM_004524 lethal giant larvae homolog 2
(Drosophila)
13 𝑋3506 NM_002484 nucleotide binding protein 1
14 𝑋3626 NM_016024 RNA binding motif protein, X-linked
2
15 𝑋3677 NM_000850 glutathione S-transferase mu 4
16 𝑋3797 NM_006875 Pim-2 proto-oncogene,
serine/threonine kinase
17 𝑋3856 NM_007267 transmembrane channel-like 6
18 𝑋3914 BF303597 mitochondrial ribosomal protein L57
19 𝑋3948 NM_000184 hemoglobin, gamma A ///
hemoglobin, gamma G
20 𝑋4063 AI978576 RE1-silencing transcription factor
21 𝑋4096 NM_014924 autophagy related 14
22 𝑋4194 NM_025073 suppressor of IKBKE 1
23 𝑋4307 NM_004502 homeobox B7
24 𝑋4690 NM_000082 excision repair cross-
complementation group 8
25 𝑋4825 NM_000626 CD79b molecule, immunoglobulin-
associated beta
26 𝑋4865 AL139318 dopachrome tautomerase
27 𝑋4876 NM_004411 dynein, cytoplasmic 1, intermediate
chain 1
47
No Fitur GenBank
Acession Number Gen Title Description
28 𝑋4908 NM_002614 PDZ domain containing 1
29 𝑋5084 NM_002449 msh homeobox 2
30 𝑋5350 NM_002130 3-hydroxy-3-methylglutaryl-CoA
synthase 1 (soluble)
31 𝑋5389 NM_003121 Spi-B transcription factor (Spi-
1/PU.1 related)
32 𝑋5439 NM_000316 parathyroid hormone 1 receptor
33 𝑋5933 NM_030663 sperm mitochondria-associated
cysteine-rich protein
34 𝑋6120 NM_006752 mediator complex subunit 22
35 𝑋6208 NM_003447 zinc finger protein 165
36 𝑋6617 NM_014898 ZFP30 zinc finger protein
37 𝑋6737 AF079564 ubiquitin specific peptidase 2
38 𝑋7043 AF068220 ATPase, Ca++ transporting,
ubiquitous
39 𝑋7497 NM_014355 enolase alpha, lung-specific
(ENO1B), mRNA
40 𝑋7595 NM_006125 Rho GTPase activating protein 6
41 𝑋7678 NM_007028 tripartite motif containing 31
42 𝑋8022 NM_003525
histone cluster 1, H2bc /// histone
cluster 1, H2be /// histone cluster 1,
H2bf /// histone cluster 1, H2bg ///
histone cluster 1, H2bi
43 𝑋8065 NM_002244 ATP-sensitive inward rectifier
potassium channel 12-like
44 𝑋8361 BG534245 casein kinase 1, alpha 1
45 𝑋8389 BC005047 dual specificity phosphatase 6
46 𝑋8653 BC004361 cytohesin 2
47 𝑋8843 U63139 RAD50 homolog (S. cerevisiae)
48 𝑋8985 AA919119 adenosine monophosphate deaminase
3 /// uncharacterized LOC100130460
49 𝑋8988 AI807017 POZ (BTB) and AT hook containing
zinc finger 1
50 𝑋9093 AI796169 GATA binding protein 3
51 𝑋9173 AL136924 Ras and Rab interactor 2
52 𝑋9186 BC004864 Homo sapiens cDNA FLJ43872 fis,
clone TESTI4008417
53 𝑋9214 AF072718
UTP20, small subunit (SSU)
processome component, homolog
(yeast)
48
No Fitur GenBank
Acession Number Gen Title Description
54 𝑋9250 AA969194 SP110 nuclear body protein
55 𝑋9262 BC001886 ribonucleotide reductase M2
56 𝑋9301 BC004421 zinc finger protein 330
57 𝑋9386 AF217197 poly-U binding splicing factor
60KDa
58 𝑋9677 AB013452
ATPase, aminophospholipid
transporter (APLT), class I, type 8A,
member 1
59 𝑋9684 U66584 crystallin, alpha A
60 𝑋9686 AF001383 bridging integrator 1
61 𝑋9890 U90278 glutamate receptor, ionotropic, N-
methyl D-aspartate 2B
62 𝑋10032 U97075 CASP8 and FADD-like apoptosis
regulator
63 𝑋10341 AB007457 TP53 target 1 (non-protein coding)
64 𝑋10367 AF130097 PH domain and leucine rich repeat
protein phosphatase 1
65 𝑋10382 BC004473 BLK proto-oncogene, Src family
tyrosine kinase
66 𝑋10431 AF279900 minichromosome maintenance
complex component 7
67 𝑋11202 AF108389
solute carrier family 8
(sodium/calcium exchanger),
member 1
68 𝑋11558 H95344 vascular endothelial growth factor A
69 𝑋11610 AI926544 iduronate 2-sulfatase
70 𝑋11803 BF058944 secretory carrier membrane protein 1
71 𝑋12125 AL523860 NME/NM23 nucleoside diphosphate
kinase 4
72 𝑋12220 BE963238 DEAD (Asp-Glu-Ala-Asp) box
polypeptide 52
73 𝑋12304 AV715578 decapping mRNA 2
74 𝑋12409 AL134904 THUMP domain containing 1
75 𝑋12607 AK025724 BBSome interacting protein 1
76 𝑋12634 AV712064
SWI/SNF related, matrix associated,
actin dependent regulator of
chromatin, subfamily a, member 5
77 𝑋12655 BF112171 teneurin transmembrane protein 4
78 𝑋12904 AA527578 casein kinase 1, delta
79 𝑋12918 AA910614
ubiquitin-conjugating enzyme E2I
(homologous to yeast UBC9)
49
No Fitur GenBank
Acession Number Gen Title Description
80 𝑋13102 L07335 SRY (sex determining region Y)-box
2
81 𝑋13107 AA515698 tubulin, beta 4B class IVb
82 𝑋13297 BE465829 paired box 8
83 𝑋13411 AI920979 keratin 7
84 𝑋13481 BG153399 aminopeptidase puromycin sensitive
85 𝑋13626 AI859060 misshapen-like kinase 1
86 𝑋13817 NM_005412 serine hydroxymethyltransferase 2
(mitochondrial)
87 𝑋13834 NM_014244 ADAM metallopeptidase with
thrombospondin type 1 motif, 2
88 𝑋13862 NM_006977 zinc finger and BTB domain
containing 25
89 𝑋14233 AL050035 RPARP antisense RNA 1
90 𝑋14248 AL080129 uncharacterized LOC101929336 ///
replication timing regulatory factor 1
91 𝑋14394 AW474158 zinc finger protein 528
92 𝑋14666 AL022238 megakaryoblastic leukemia
(translocation) 1
93 𝑋15040 U70544 major histocompatibility complex,
class II, DR beta 4
94 𝑋15067 AL512707 DEAD (Asp-Glu-Ala-Asp) box
polypeptide 27
95 𝑋15230 AK025833 sialic acid binding Ig-like lectin 15
96 𝑋15289 AK023668 GULP, engulfment adaptor PTB
domain containing 1
97 𝑋15570 AK021569 Homo sapiens cDNA FLJ11507 fis,
clone HEMBA1002160
98 𝑋16079 D84143
Human immunoglobulin (mAb59)
light chain V region mRNA, partial
sequence
99 𝑋16203 AF018283 runt-related transcription factor 1;
translocated to, 1 (cyclin D-related)
100 𝑋16397 M96936
cystic fibrosis transmembrane
conductance regulator (ATP-binding
cassette sub-family C, member 7)
101 𝑋16483 Z70200
U5 small nuclear ribonucleoprotein
200 kDa helicase-like /// small
nuclear ribonucleoprotein 200kDa
(U5)
102 𝑋16969 AW444520 ATPase, H+ transporting, lysosomal
V0 subunit a2
50
No Fitur GenBank
Acession Number Gen Title Description
103 𝑋17046 BG151284 ribosomal protein L10 /// small
nucleolar RNA, H/ACA box 70
104 𝑋17866 NM_016647 thioesterase superfamily member 6
105 𝑋18389 NM_021622
pleckstrin homology domain
containing, family A
(phosphoinositide binding specific)
member 1
106 𝑋18427 NM_017742 zinc finger, CCHC
107 𝑋18558 NM_018034 WD repeat domain 70
108 𝑋18933 NM_018419 SRY (sex determining region Y)-box
18
109 𝑋18987 NM_017817 RAB20, member RAS oncogene
family
110 𝑋19090 NM_018965 triggering receptor expressed on
myeloid cells 2
111 𝑋19189 NM_012450
solute carrier family 13
(sodium/sulfate symporter), member
4
112 𝑋19243 NM_015995 Kruppel-like factor 13
113 𝑋19520 NM_023924 bromodomain containing 9
114 𝑋19569 NM_024732 bone morphogenetic protein 8a
115 𝑋19656 NM_017711
glycerophosphodiester
phosphodiesterase domain containing
2
116 𝑋19751 NM_019063 echinoderm microtubule associated
protein like 4
117 𝑋20083 NM_025005 HEXA antisense RNA 1
118 𝑋20267 NM_024995 Homo sapiens hypothetical protein
FLJ12616 (FLJ12616), mRNA
119 𝑋20372 NM_030917 factor interacting with PAPOLA and
CPSF1
120 𝑋20553 NM_025150
microRNA 6878 /// threonyl-tRNA
synthetase 2, mitochondrial
(putative)
121 𝑋20776 NM_020633 vomeronasal 1 receptor 1
122 𝑋21231 AI417917 EH-domain containing 2
123 𝑋21658 AA129909
HUMAN ALU SUBFAMILY SQ
SEQUENCE CONTAMINATION
WARNING ENTRY H.sapiens
124 𝑋21659 AW301937 Hs.138036 ESTs
125 𝑋21675 AW972855 uncharacterized LOC100996756
51
No Fitur GenBank
Acession Number Gen Title Description
126 𝑋21820 AC005954 tight junction protein 3
127 𝑋21832 U02619 general transcription factor IIIC,
polypeptide 1, alpha 220kDa
128 𝑋22037 AA004757 zinc finger protein 236