IMPLEMENTASI HYBRID SAMPLING TECHNIQUE UNTUK …
Transcript of IMPLEMENTASI HYBRID SAMPLING TECHNIQUE UNTUK …
IMPLEMENTASI HYBRID SAMPLING TECHNIQUE UNTUK
PREDIKSI INTERAKSI SENYAWA AKTIF DAN PROTEIN
PADA DATA YANG TIDAK SEIMBANG
ANGGUN SULIA RAHMI
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2018
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Implementasi Hybrid
Sampling Technique untuk Prediksi Interaksi Senyawa Aktif dan Protein pada Data
yang Tidak Seimbang adalah benar karya saya dengan arahan dari komisi
pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi
mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan
maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan
dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Juli 2018
Anggun Sulia Rahmi
NIM G64140018
ABSTRAK
ANGGUN SULIA RAHMI. Implementasi Hybrid Sampling Technique untuk
Prediksi Interaksi Senyawa Aktif dan Protein pada Data yang Tidak Seimbang.
Dibimbing oleh WISNU ANANTA KUSUMA dan RUDI HERYANTO.
Sistem prediksi formula jamu (Indonesia Jamu Herbs-Ijah) dikembangkan
untuk memprediksi khasiat jamu berdasarkan hubungan interaksi senyawa aktif dan
protein penyakit. Data hubungan interaksi senyawa aktif dan protein merupakan
jenis data tidak seimbang karena banyak data senyawa aktif yang belum diketahui
interaksinya dengan protein target, sehingga menyebabkan hasil prediksi yang
kurang optimal. Pada penelitian ini, hybrid sampling technique dengan
mengombinasikan complementary fuzzy support vector machine (CMTFSVM) dan
sytnthetic minority oversampling technique (SMOTE) digunakan untuk menangani
data interaksi senyawa aktif dan protein yang tidak seimbang pada data Ijah.
Pengujian dilakukan menggunakan geometric mean (Gmean), area under curve
(AUC), dan akurasi. Hasil penelitian menunjukkan bahwa hybrid sampling
technique pada senyawa aktif dan protein pada Ijah berhasil meningkatkan kelas
data minoritas mecapai tiga kali lipat dari data sampel yang digunakan. Model
prediksi yang dihasilkan memiliki akurasi, Gmean, dan AUC secara berurutan
sebesar 0.8346, 0.6812, dan 0.5319.
Kata kunci: CMTFSVM, data tidak seimbang, hybrid sampling technique
ABSTRACT
ANGGUN SULIA RAHMI. Implementation of Hybrid Sampling Technique for
Predicting Active Compound and Protein Interaction in Unbalanced Data.
Supervised by WISNU ANANTA KUSUMA dan RUDI HERYANTO.
Indonesia Jamu Herbs (Ijah) web server aims to predict Jamu efficacy based
on its active compound and disease’s protein interaction. However, the interaction
between compound and protein data is unbalanced since there are many unknown
interactions between active compounds and protein target. Thus, the prediction
result is still not optimal. In this research, the hybrid sampling technique,
combining complementary fuzzy support vector machine (CMTFSVM) and
synthetic minority oversampling technique (SMOTE) was used to handle
imbalanced data interaction between active compound and protein for Ijah.
Performance was measured using geometric mean (Gmean), area under curve
(AUC), and accuracy. The evaluation result show that the hybrid sampling
technique could increase the instance of minority class three times. Moreover, the
prediction model could obtain the value of 0.8346, 0.6812, and 0.5319 for accuracy,
Gmean, and AUC, respectively.
Keywords: CMTFSVM, hybrid sampling technique, unbalanced data
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Komputer
IMPLEMENTASI HYBRID SAMPLING TECHNIQUE UNTUK
PREDIKSI INTERAKSI SENYAWA AKTIF DAN PROTEIN
PADA DATA YANG TIDAK SEIMBANG
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2018
ANGGUN SULIA RAHMI
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Penelitian ini
berjudul Implementasi Hybrid Sampling Technique untuk Prediksi Interaksi
Senyawa Aktif dan Protein pada Data yang Tidak Seimbang telah dilaksanakan
sejak bulan Februari 2018.
Terima kasih penulis ucapkan kepada Bapak DrEng. Wisnu Ananta Kusuma,
ST MT dan Bapak Rudi Heryanto, SSi MSi selaku pembimbing. Terima kasih
kepada Ibu Husnul Khotimah, SKomp Mkom sebagai penguji yang telah
memberikan masukan dan saran yang sangat berharga. Terima kasih kepada pihak
Biofarmaka yang telah memberikan dukungan sarana dan dana. Terima kasih
kepada semua pihak yang tidak dapat disebutkan satu persatu namanya karena telah
menyumbangkan pendapat serta memberi dukungan moril maupun materil dalam
penyelesaian penelitian ini. Terima kasih khusus penulis ungkapkan kepada ayah,
ibu, serta keluarga atas dukungan doa, kasih sayang dan kesabaran yang luar biasa.
Semoga karya ilmiah ini bermanfaat.
Bogor, Juli 2018
Anggun Sulia Rahmi
DAFTAR ISI
DAFTAR TABEL viii
DAFTAR GAMBAR viii
DAFTAR LAMPIRAN viii
PENDAHULUAN 1
Latar Belakang 1
Perumusan Masalah 2
Tujuan Penelitian 2
Manfaat Penelitian 2
Ruang Lingkup Penelitian 2
TINJAUAN PUSTAKA 3
Data Tidak Seimbang 3
Complementary Fuzzy Support Vector Machine (CMTFSVM) 3
Synthetic Minority Oversampling Technique (SMOTE) 4
METODE 5
Data Penelitian 5
Tahapan Penelitian 5
Implementasi Hybrid Sampling Technique 6
Pengujian 8
Lingkungan Pengembangan 8
HASIL DAN PEMBAHASAN 9
Pengumpulan Data 9
Praproses Data 9
Pengujian 10
SIMPULAN DAN SARAN 13
Simpulan 13
Saran 14
DAFTAR PUSTAKA 14
LAMPIRAN 13
RIWAYAT HIDUP 15
DAFTAR TABEL
1 Statistik dataset Preuengkarn et al. (2017) 5
2 Deskripsi data penelitian 9
3 Pengujian dataset tidak seimbang menggunakan SVM dan FSVM 10
4 Hasil uji hasil implementasi hybrid sampling technique 11
5 Perbandingan Gmean hasil implementasi dan Pruengkarn et al. (2017) 12
6 Perbandingan AUC hasil implementasi dan Pruengkarn et al. (2017) 12
7 Hasil pengujian menggunakan SVM 13
8 Hasil pengujian hybrid sampling technique pada CPI 13
DAFTAR GAMBAR
1 Ilustrasi CMTFSVM (Pruengkarn et al. 2017) 4 2 Tahapan Penelitian 6 3 Implementasi hybrid sampling technique 7
DAFTAR LAMPIRAN
1 Data compound descriptor dan protein descriptor 16 2 Data Compound Protein Interaction Ijah (Kurnia 2017) 17 3 Dataset Pruengkarn et al. (2017) 18
4 Compound Protein Interaction dataset Ijah 21
1
PENDAHULUAN
Latar Belakang
Jamu merupakan obat herbal tradisional Indonesia yang dipercaya dapat
menjaga kesehatan dan mengatasi penyakit (Torri 2013). Beberapa tanaman
dicampur dan diracik untuk mengatasi masalah kesehatan tertentu. Menurut WHO
(2008) racikan jamu diwariskan secara turun-temurun berlandaskan pengalaman
dan budaya masyarakat.
Penelitian mengenai hubungan antara isi racikan jamu dan khasiat jamu
dalam penyembuhan penyakit dilakukan oleh Afendi et al. (2010) dengan
menganalisis interaksi antara efikasi, jamu, dan komposisi jamu. Khasiat jamu
dimodelkan berdasarkan komposisi dan racikan tanaman dengan menggunakan
partial least square discriminant analysis (PLS-DA). Pemodelan dilakukan
menggunakan data tanaman komposisi jamu dan hubungannya dalam
menyembuhkan penyakit (Afendi et al. 2012). Selain penelitian yang dilakukan
untuk melihat asosiasi tanaman dan penyakit, pencarian formula jamu atau obat
dapat lebih presisi dilakukan dengan melihat hubungan antara senyawa aktif
tanaman dan protein yang terkait dengan penyakit tertentu (Amir 2016).
Terkait dengan penelitian mengenai interaksi antara senyawa dan protein ini,
Kurnia (2017) mengimplementasikan metode bipartite local model network–based
interaction–profile inferring (BLMNII) untuk memprediksi hubungan senyawa aktif
dan protein untuk menyusun formula jamu yang diimpelementasikan ke dalam
aplikasi berbasis web Indonesia Jamu Herbs (Ijah). BLMNII diimplementasikan
dengan menggunakan model kemiripan senyawa dan model kemiripan protein
dengan klasifikasi support vector machine (SVM) untuk memprediksi interaksi
antara senyawa dan protein. Jika protein dan senyawa tidak memiliki informasi
interaksi, maka label kelas dihitung berdasarkan nilai kemiripan dan interaksi dari
data lain. Proses prediksi tanpa data interaksi senyawa dan protein merupakan kasus
terburuk pada perhitungan label kelas interaksi algoritme BLMNII yaitu dengan
kompleksitas O(n2). Penelitian Kurnia (2017) menggunakan data yang tidak
seimbang yaitu hubungan antar senyawa dan protein dengan rasio data positif (data
yang memiliki interaksi) berjumlah 0.0001%. Sifat data yang tidak seimbang
menunjukkan bahwa sebagian besar klasifikasi dilakukan berdasarkan nilai
kemiripan dan interaksi data lain. Sifat data tidak seimbang tidak dapat diatasi pada
implementasi BLMNII sehingga dibutuhkan metode untuk meningkatkan rasio data
minoritas untuk mengatasi data tidak seimbang pada data interaksi senyawa aktif
dan protein dalam Ijah.
Resampling menjadi pendekatan yang dapat digunakan untuk mengatasi data
tidak seimbang, terknik resampling meliputi undersampling dan oversampling.
Teknik oversampling digunakan untuk mengurangi kelas mayoritas sedangkan
teknik undersampling digunakan untuk membuat sampel positif yang baru. Hybrid
sampling merupakan kombinasi antara teknik undersampling dan oversampling.
complementary fuzzy support vector machine (CMTFSVM) dan synthetic minority
oversampling technique (SMOTE) efektif digunakan sebagai teknik hybrid
sampling untuk mengatasi data tidak seimbang pada berbagai dataset (Pruengkarn
et al. 2017). CMTFSVM memanfaatkan konsep komplementer (CMT)
2
menggunakan truth model dan falsity model. Proses identifikasi data yang tidak
pasti dari hasil keluaran model diatasi menggunakan fuzzy support vector machine
(FSVM) berdasarkan pada nilai keanggotaan fuzzy. Teknik oversampling SMOTE
selanjutnya digunakan, sebagai kombinasi hybrid sampling technique, untuk
meningkatkan data minoritas atau data positif sehingga didapatkan data yang
seimbang.
Penelitian ini bertujuan untuk mengimplementasi ulang metode hybrid
sampling CMTFSVM dan SMOTE untuk mengatasi data interaksi protein dan
senyawa aktif yang tidak seimbang pada Ijah. Implementasi metode hybrid
sampling merujuk pada penelitian dilakukan Pruengkarn et al. (2017).
Perumusan Masalah
Berdasarkan latar belakang yang didefinisikan, didapatkan rumusan masalah
yaitu bagaimana mengurangi bias dalam memprediksi interaksi senyawa aktif dan
protein pada data yang tidak seimbang dengan menggunakan hybrid sampling
technique. Selain itu, penelitian ini bertujuan untuk memvalidasi hasil implementasi
hybrid sampling technique yang telah dibuat.
Tujuan Penelitian
Tujuan dari penelitian ini adalah:
1 Mengombinasikan complementary fuzzy support vector machine (CMTFSVM)
dan sytnthetic minority oversampling technique (SMOTE) untuk menangani
masalah data tidak seimbang pada kasus prediksi interaksi senyawa aktif dan
protein
2 Memvalidasi hasil implementasi hybrid sampling technique.
Manfaat Penelitian
Hasil penelitian ini diharapkan dapat meningkatkan akurasi dari prediksi
khasiat jamu pada server web Ijah dan mempercepat waktu eksekusi prediksi.
Ruang Lingkup Penelitian
Ruang lingkup penelitian ini, yaitu:
1 Data yang digunakan adalah dataset Pruengkarn et al. (2017) yang bersumber
dari KEEL dan UCI, data penelitian Kurnia (2017) yang bersumber dari data
web server Ijah, PubChem dan UniProt, serta data protein descriptor dan
compound descriptor dari PubChem dan protein feature server (Profeat).
2 Implementasi data Pruengkarn et al. (2017) digunakan untuk validasi hasil
implementasi hybrid sampling technique.
3 Data protein descriptor yang digunakan adalah fitur amino acid composition
(AAC) dan data compound desciptor adalah semua fitur deskriptor senyawa
dari pangkalan data PubChem.
3
TINJAUAN PUSTAKA
Data Tidak Seimbang
Distribusi data tidak seimbang terjadi jika suatu kelas memiliki anggota yang
jauh lebih banyak dibandingkan anggota kelas lainnya (minoritas). Data minoritas
cenderung diklasifikasikan sebagai noise ataupun outlier yang dapat merusak data
sehingga cenderung dihilangkan. Kebanyakan data yang menjadi fokus penelitian
biasanya merupakan data minoritas. Kesalahan pengelompokkan yang disebabkan
sedikitnya data latih pada kelas minoritas dapat meningkatkan kesalahan dalam
penarikan informasi (Ali et al. 2015).
Data tidak seimbang dapat diatasi melalui dua pendekatan. Pendekatan
pertama yaitu teknik sampling pada level data dengan melakukan resampling
sehingga terbentuk kelas data seimbang. Pendekatan kedua adalah memodifikasi
pada algoritme klasifikasi. Teknik sampling pada level data dapat digunakan pada
banyak kasus data tidak seimbang (Ali et al. 2015). Teknik sampling dikategorisasi
sebagai undersampling, oversampling dan hybrid sampling (Pruengkarn et al.
2017).
Undersampling merupakan upaya untuk menurunkan jumlah data pada kelas
mayoritas sedangkan oversampling bertujuan untuk meningkatkan jumlah data
pada kelas minoritas. Contoh teknik undersampling yaitu inverse random under
sampling (IRUS) di mana algoritme menurunkan jumlah sampel mayor dengan
membuat sejumlah batasan data latih yang selanjutnya dapat digunakan untuk
menentukan wilayah keputusan (Tahir et al. 2012). Teknik oversampling dapat
diimplementasikan menggunakan algoritme synthetic minority oversampling
technique (SMOTE) yaitu dengan membuat “data sintetis” untuk memperluas
jangkauan wilayah kelas minoritas. Teknik hybrid sampling merupakan kombinasi
undersampling dan oversampling dengan berbagai classifier. Pruengkarn et al.
(2017) menguji teknik undersampling, oversampling dan hybrid sampling
menggunakan berbagai classifier. Hasil penelitian Pruengkarn et al. (2017)
menunjukkan kombinasi undersampling menggunakan complementary fuzzy
support vector machine (CMTFSVM) dan oversampling menggunakan SMOTE
memiliki performa Gmean yang baik yaitu 95.9% dalam mengatasi masalah data
tidak seimbang.
Complementary Fuzzy Support Vector Machine (CMTFSVM)
CMTFSVM menerapkan konsep komplementer (CMT) dari keluaran truth
target dengan memanfaatkan fuzzy support vector machine (FSVM) sebagai
classifier dalam mengidentifikasi ketidakpastian data. FSVM digunakan untuk
menghilangkan noise dan nilai yang tidak normal (Fan dan He 2010). CTMFSVM
memiliki dua model data, yaitu truth model dan falsity model (komplemen truth
model). Kedua model dilatih sesuai dengan keanggotaan fuzzy masing-masing
model. Hasil data latih yang dibandingkan sebagai indikasi ketidakpastian data
yang kemudian dapat diadaptasi untuk menghilangkan klasifikasi yang tidak benar
(Pruengkarn et al. 2017). Gambar 1 merupakan ilustrasi teknik CMTFSVM.
4
Gambar 1 Ilustrasi CMTFSVM (Pruengkarn et al. 2017).
Pruengkarn et al. (2017) memaparkan bahwa terdapat dua tipe undersampling
technique yaitu CMTFSVM1 dan CMTFSVM2. CMTFSVM1 membuat data latih
dengan membuang data yang tidak terklasifikasi dengan benar berdasarkan falsity
model dan truth model. Hasil data uji CMTFVSM1 merupakan hasil data latih yang
dikurangi data latih yang tidak terklasifikasi dengan benar (CMTFSVM1 = T – (FP
∪ FN)). Hasil data uji CMTFSVM2 merupakan hasil data latih dikurangi data yang
muncul pada truth model dan falsity model (CMTFSVM2 = T – (FP ∩ FN)).
Synthetic Minority Oversampling Technique (SMOTE)
SMOTE dikenalkan oleh Chawla et al. (2002) yang merupakan pendekatan
oversampling dengan membuat data “sintetis” sebagai data latih ekstra dengan
operasi tertentu. Data sintetis merupakan data minoritas “baru” yang dibuat dengan
mengoperasikan ruang fitur. Peningkatan jumlah data minoritas karena data sintetis
membuat wilayah keputusan menjadi besar namun bersifat kurang spesifik. Hal ini
menyebabkan wilayah keputusan yang umum sehingga classifier memiliki
jangkauan wilayah minoritas yang lebih baik (Chawla et al. 2002).
Pseudocode SMOTE
1 If data minoritas SMOTEd<100:
2 Random (T)
3 Hitung k tetangga terdekat untuk data minoritas terpilih
4 If data yang ingin di SMOTE >0:
5 Bangkitkan data sintetis
5
METODE
Data Penelitian
Data pada penelitian ini merujuk pada data penelitian Pruengkarn et al.
(2017), data penelitian Kurnia (2017), dan webcrawling dari situs PubChem. Data
penelitian Pruengkarn terdiri atas tiga dataset yaitu dataset German, Yeast3, dan
Glass5. Semua dataset memiliki kelas biner yaitu positif atau negatif. Dataset
German merupakan dataset untuk mengidentifikasi fraud pada kartu kredit. Kelas
positif menunjukkan terjadinya fraud. Dataset Yeast3 merupakan pengelompokan
ragi menjadi dua kelompok yaitu kelompok ME3 (kelas positif) atau kelompok lain
(kelas negatif). Dataset Glass5 merupakan identifikasi forensik sumber kaca
berdasarkan informasi kimia. Kelas terbagi menjadi kaca yang berasal dari pecahan
selain kontainer (kelas negatif) dan pecahan kaca kontainer (kelas positif). Tabel 1
merupakan ringkasan karakteristik dari dataset yang digunakan. Stastistik dataset
meliputi jumlah data (#instance), persentase kelas mayoritas (%mayor), dan
persentase kelas minoritas (%minor).
Tabel 1 Statistik dataset Preuengkarn et al. (2017)
Dataset #instance %mayor %minor
German 1 000 70 30
Yeast3 1 484 89.02 10.98
Glass5 214 95.79 4.21
Data dari penelitian Kurnia (2017) adalah daftar senyawa, daftar protein, data
interaksi senyawa dan protein, serta data sekuens asam-amino protein yang berasal
dari Uniprot. Daftar senyawa digunakan untuk mendapatkan compound descriptor
yang diperoleh dari hasil web crawling pangkalan data PubChem. Daftar senyawa
yang digunakan adalah senyawa pada basis data Ijah yang memiliki compound ID
(CID) PubChem. Protein descriptor menggunakan fitur amino acid composition
(AAC) yang didapat dari server protein feature (Profeat) (Zhang et al. 2016)
dengan menggunakan data sekuens asam-amino.
Tahapan Penelitian
Tahapan penelitian diilustrasikan pada Gambar 3. Proses penelitian dibagi
menjadi dua tahapan (a) dan (b). Tahapan (a) menggunakan data penelitian
Pruengkarn et al. (2017) dengan pengujian menggunakan FSVM sebagai classifier.
Metode evaluasi yaitu geometric mean (Gmean), area under curve (AUC), dan
akurasi. Hasil pengujian yang diperoleh dengan hasil pengujian penelitian
Pruengkarn et al. (2017) untuk validasi implementasi algoritme hybrid sampling
technique yang telah dibuat.
6
Gambar 2 Tahapan Penelitian
Tahapan penelitian (b) adalah implementasi pada Ijah di mana penelitian
menggunakan data compound descriptor dan data protein descriptor. Selanjutnya
dibuat persilangan matriks tiap data compound descriptor terhadap data protein
descriptor dengan kelas didasarkan pada compound protein interaction (CPI) yang
mengacu pada penelitian Kurnia (2017). Matriks ini yang digunakan sebagai
dataset Ijah. Pengujian dilakukan dengan mengklasifikasi data tes menggunakan
SVM yang merupakan classifier pada BLMNII. Data kelas yang seimbang setelah
implementasi hybrid sampling technique akan disaring sesuai dengan kemiripan
CPI yang tersedia yang selanjutnya digunakan sebagai data CPI baru yang dapat
diterapkan pada BLMNII.
Implementasi Hybrid Sampling Technique
Implementasi hybrid sampling technique yang dilakukan sesuai ilustrasi pada
Gambar 4. Secara garis besar, terdapat 2 tahapan pada implementasi hybrid
sampling technique, yaitu CMTFSVM dan SMOTE. Urutan implementasi mengacu
pada penelitian Pruengkarn et al. (2017). Penelitian tersebut, Pruengkarn
membandingkan nilai Gmean dan AUC menggunakan pendekatan CMT, SMOTE,
CMT kombinasi SMOTE, dan SMOTE kombinasi CMT dengan berbagai classifier
untuk mengatasi data tidak seimbang. Hasil penelitian menunjukkan CMT yang
dilanjutkan dengan SMOTE (CMTSMT) mengunakan classifier FSVM
menghasilkan nilai terbaik.
7
Gambar 3 Implementasi hybrid sampling technique
Tahap pertama adalah undersampling menggunakan CMTFSVM pada kelas
mayoritas menggunakan dua model yaitu truth model dan falsity model
(komplemen truth model). Training pada truth model menggunakan truth
membership, sedangkan training falsity model menggunakan falsity membership.
Nilai keanggotaan merepresentasikan kepentingan data bagi kelasnya. Fungsi
membership didefinisikan pada Persamaan (1a) dan (1b). Nilai keanggotaan pada
kelas positif direpresentasikan sebagai mi+ dengan contoh data berupa xi
+,
sedangkan mi− merupakan nilai keanggotaan pada kelas negatif dengan contoh
berupa xi−. Kepentingan data bagi kelas masing-masing direpresentasikan oleh f(xi)
yang berkisar [0,1]. Refleksi ketidakseimbangan data direpresentasikan oleh r- dan
r+ di mana r+ > r-. Membership value merupakan interval dari [0, ri] di mana r < 1
menunjukkan kelas negatif. Karena kelas data yang tidak seimbang, pada training
example fuzzy membership digunakan nilai r- = r dan r+= 1.
mi+ = f(xi
+) × r+ (1a)
mi- = f(xi
-) × r- (1b)
Kepentingan data didefinisikan pada persamaan (1c). Variabel β merupakan
kemiringan penurunan dengan kenaikan 0.1 pada interval [0,1]. Adapun variabel
dihyp
merupakan margin fungsional tiap contoh xi yang sebanding dengan nilai
absolut dari nilai keputusan SVM yang didefinisikan melalui persamaan (1d).
Variasi β menyebabkan terdapat sepuluh kemungkinan fuzzy membership value
yang nilai optimumnya dipilih berdasarkan Gmean tertinggi.
fexphyp
(xi) = 2
1 + exp(βdihyp
) (1c)
dihyp
= yi(ω × Φ(xi) + b) (1d)
Tahap kedua pada implementsai hybrid sampling technique adalah
menyeimbangkan data hasil undersampling pada kelas minoritas dengan
8
implementasi oversampling menggunakan SMOTE. Data minoritas akan dipilih
untuk acuan pembuatan data sintetis. Pada data minoritas yang terpilih disimpan
sejumlah dua tetangga terdekatnya. Selanjutnya dilakukan pembuatan sampel
sintetis dengan mengikuti tahapan berikut, yaitu pertama menghitung perbedaan
fitur sampel dan tetangga dari sampel terpilih (dif), kedua mengambil nilai acak
[0,1] (gap), ketiga mengalikan dif dan gap, dan terakhir menambahkan hasil tahap
perkalian dif dan gap dengan nilai fitur sampel yang dipilih. Sampel sintetis
membentuk area menjadi lebih umum sehingga daerah klasifikai menjadi lebih luas.
Pengujian
Pengujian pada penelitian ini dibagi menjadi dua bagian. Kedua pengujian
dilakukan dengan metode10-folds stratified cross validation dengan 20% data uji.
Pengujian pertama dilakukan untuk memvalidasi hasil implementasi CMTFSVM-
SMOTE pada data Pruengkarn et al. (2017) dan pengujian kedua dilakukan dengan
menggunakan data Ijah.
Rincian pengujian tersebut dideskripsikan sebagai berikut. Dataset yang
digunakan merupakan dataset yang berasal dari penelitian Pruengkarn et al. (2017),
yaitu German, Yeast3, dan Glass5. Pengujian kedua dilakukan pada dataset Ijah
yang berupa compound protein interaction (CPI). Metode evaluasi yang digunakan
pada kedua pengujian adalah pengukuran Gmean, AUC, dan akurasi. Pengukuran
Gmean dan AUC dipilih karena pengukuran dapat mengatasi permasalahan kelas
data tidak seimbang (Pruengkarn et al. 2017).
Gmean digunakan untuk mengukur akurasi klasifikasi penggolongan data
tidak seimbang dan didefinisikan sebagai akar dari pengalian true positive rate dan
true negative rate yang diilustrasikan pada Persamaan (2). Adapun AUC adalah
evaluasi menggunakan trade off benefit (TPrate = TP / (TP + FN)) dan cost (FPrate =
FP / (FP + TN)) sebagai pendekatan evaluasi performa. True Positive (TP) dan True
Negative (TN) merupakan jumlah hasil klasifikasi yang tepat pada kelas positif dan
kelas negatif, sedangkan False Positive (FP) dan False Negative (FN) adalah
jumlah hasil klasifikasi yang tidak sesuai dengan kelas seharusnya.
Gmean = √TP
TP+FN×
TN
TN+FP (2)
Lingkungan Pengembangan
Penelitian ini dilakukan menggunakan perangkat keras dan perangkat lunak
dengan spesifikasi sebagai beriku:
1 Perangkat keras berupa personal computer dengan spesifikasi:
Laptop Asus A456U
Processor Inter Core i5-7200U 2.5 GHz
RAM 4 GB
2 Perangkat lunak yang digunakan yaitu:
Windows 10 sebagai sistem operasi
Anaconda Navigator sebagar IDE Python
Sublime Text 3 sebagai text editor
Python 2.7 sebagai bahasa pemrograman
9
Package ‘mlfromscratch’ (Noren 2017) untuk implementasi SVM
Package ‘imblearn’ (Nogueira dan Aridas 2017) untuk implementasi
SMOTE
HASIL DAN PEMBAHASAN
Pengumpulan Data
Pengumpulan data penelitian Pruengkarn et al. (2017) dilakukan dengan
mengunduh dataset German melalui situs UCI serta dataset Glass5 dan dataset
Yeast3 melalui situs KEEL. Pengumpulan data compound descriptor dilakukan
dengan crawling deskriptor senyawa menggunakan compound ID (CID) PubChem
dari daftar senyawa pada penelitian Kurnia (2017) menggunakan API yang tersedia.
Data protein descriptor didapatkan dengan mengunduh fitur amino acid
composition (AAC) melalui protein feature (Profeat) server berdasarkan sekuens
amino protein dalam bentuk fasta yang didapat dari penelitian Kurnia (2017).
Compound descriptor memiliki empat belas variabel yang mendeskripsikan
seyawa secara numerik dari pangkalan data PubChem. Protein descriptor memiliki
dua puluh variabel yang merupakan deskripsi numerik protein didasarkan pada
komposisi asam aminonya. Contoh data compound descriptor dan protein
descriptor hasil pengumpulan data dapat dilihat pada Lampiran 1.
Pengumpulan data compound protein interaction (CPI) adalah data CPI yang
tersedia pada Ijah dan bersumber dari penelitian Kurnia (2017). CPI merupakan
informasi senyawa aktif dan protein yang memiliki interaksi (kelas positif).
Lampiran 2 memuat contoh data CPI penelitian Kurnia (2017) yang digunakan pada
penelitian ini. Tabel 2 menunjukkan daftar deskripsi data penelitian.
Tabel 2 Deskripsi data penelitian
Data Sumber Data Deskripsi
Protein Profeat 3 335 data protein descriptor
Senyawa PubChem 7 119 data compound descriptor
CPI Ijah 3 693 interaksi senyawa-protein
Sekuens asam
amino protein
Uniprot 3 335 sekuens asam amino dalam format
*.fasta
Praproses Data
Praproses data dilakukan pada tiap dataset pada penelitian Pruengkarn.
Praproses pada dataset Glass5 dan Yeast3 dilakukan normalisasi data karena data
yang bersifat numerik. Tidak ada data yang dikategorikan sebagai noise dan outlier
pada semua dataset. Praproses yang dilakukan pada dataset German adalah
transformasi data nominal menggunakan label encoding, transformasi skala pada
data ordinal, dan melakukan normalisasi data numerik.
Pada dataset German, beberapa nilai yang merepresentasikan maksud yang
sama dalam atribut pada data dijadikan satu nilai yang sama. Hal ini dapat dilihat
pada atribut purpose yang merupakan tujuan dari kredit di mana terdapat nilai car
(used) dan car (new) yang kemudian dijadikan atribut car. Atribut car dianggap
10
merepresentasikan tujuan kredit untuk membeli mobil. Hasil label encoding pada
dataset german berupa data biner 0,1 kemudian diubah menjadi -1,1 karena sifat
library classifier SVM yang digunakan mengklasifikasikan data menjadi data
positif (kelas data minoritas) dan negatif (kelas data mayoritas). Lampiran 3
memuat contoh dataset Pruengkarn et al. (2017) sebelum dan sesudah praproses
data.
Dataset Ijah pada penelitian ini memuat informasi protein descriptor,
compound descriptor, dan informasi CPI. Data protein descriptor dan compound
descriptor dijadikan sebuah matriks CPI. Matriks CPI merupakan hasil persilangan
antara tiap protein descriptor dengan compound descriptor yang kemudian diberi
label kelas berdasarkan informasi CPI dari penelitian Kurnia (2017). Matriks CPI
dapat dilihat pada Lampiran 4.
Senyawa pada daftar CPI dalam penelitian Kurnia (2017) tidak semuanya
memiliki CID PubChem, sehingga tidak memiliki data compound descriptor.
Penghapusan data CPI tanpa compound descriptor dilakukan sehingga didapat 2
908 CPI yang selanjutnya digunakan sebagai senyawa aktif dan protein yang
memiliki interaksi (data kelas positif).
Matriks CPI dari hasil persilangan data protein dan compound menghasilkan
23 741 865 record. Dari seluruh data diambil sejumlah 14 575 data senyawa aktif
dan protein yang tidak memiliki interaksi (kelas negatif) dan 2 908 data senyawa
aktif dan protein yang memiliki interaksi (kelas positif) sehingga data inputan
berjumlah 17 483 record dengan perbandingan 0.2:0.8 antara kelas negatif : kelas
positif. Selanjutnya dilakukan normalisasi bagi semua fitur data dengan
menggunakan fungsi normalisasidengan library sklearn.
Pengujian
Seluruh dataset yang bersifat tidak seimbang diklasifikasikan menggunakan
SVM dan FSVM. Tabel 3 menunjukkan nilai Gmean semua dataset yang berkisar
0.5520 sampai 0.7915 dan nilai AUC diantara 0.5783 sampai 0.7981. Nilai yang
pada tabel yang ditulis tebal (bold) menandakan nilai tertinggi dibandingkan semua
metode pada tiap tipe pengujian. Penggunaan classifier FSVM terlihat
meningkatkan performa klasifikasi baik ditinjau dari Gmean, AUC, dan akurasi
pada dataset Glass5 dan Yeast3. Pada dataset German classifier FSVM tidak lebih
baik dibandingkan SVM. Hal ini dapat disebabkan oleh hasil praproses data yang
memengaruhi nilai membership value yang digunakan untuk mendapatkan
klasifikasi pada FSVM.
Tabel 3 Pengujian dataset tidak seimbang menggunakan SVM dan FSVM
Dataset Metode Gmean AUC Akurasi
German SVM 0.6687 0.6280 0.6765 FSVM 0.5950 0.5783 0.5783
Glass5 SVM 0.5520 0.7165 0.9581
FSVM 0.7207 0.7640 0.9581
Yeast3 SVM 0.7739 0.7822 0.8721
FSVM 0.7915 0.7981 0.8909
11
Tabel 4 menunjukkan hasil implementasi hybrid sampling technique pada
tiap dataset. Glass5 merupakan dataset dengan jumlah record paling banyak yaitu
1484 data dan kelas negatif kurang dari 11% sedangkan Yeast3 merupakan dataset
dengan record 214 data dan kelas negatif kurang dari 5%. Hasil pengujian
menggunakan teknik hybrid sampling terlihat meningkatkan Gmean dan AUC hasil
klasifikasi pada kedua dataset.
Tabel 4 Hasil uji hasil implementasi hybrid sampling technique
Dataset Metode Gmean AUC Akurasi
German CMT1 0.5828 0.6049 0.6655
CMT2 0.5828 0.6049 0.6655
SMT 0.6434 0.6477 0.6915
CMTSMT1 0.6389 0.6411 0.6595
CMTSMT2 0.6389 0.6411 0.6595
Glass5 CMT1 0.7155 0.7165 0.9581
CMT2 0.7155 0.7165 0.9581
SMT 0.8209 0.8652 0.9698
CMTSMT1 0.8346 0.8902 0.9721
CMTSMT2 0.8346 0.8902 0.9721 Yeast3 CMT1 0.7989 0.7949 0.8923
CMT2 0.7989 0.7949 0.8923
SMT 0.7748 0.8445 0.9074
CMTSMT1 0.8027 0.8066 0.8990
CMTSMT2 0.8027 0.8066 0.8990
Hasil pengujian pada dataset Glass5 menunjukkan peningkatan hasil
klasifikasi yang mencapai 0.8346 dari nilai sebelumnya pada dataset tidak
seimbang yang hanya mencapai 0.7287 menggunakan FSVM. Nilai akurasi juga
meningkat pada metode undersampling, oversampling dan mencapai akurasi
tertinggi yaitu senilai 0.9721 pada teknik hybrid sampling. Hasil klasifikasi pada
dataset Yeast3 mencapai Gmean tertinggi senilai 0.8027 dengan akurasi 0.8990
menunjukkan model yang belum baik untuk klasifikasi. Namun demikian, hasil ini
sudah memperlihatkan bahwa hybrid sampling technique meningkatkan Gmean
senilai 0.0288 dibanding menggunakan dataset tidak seimbang dengan classifier
SVM.
Dataset German hasil Gmean tertinggi terjadi ketika menggunakan metode
oversampling yaitu bernilai 0.6434. Hasil ini menurun sebesar 0.0045
menggunakan metode hybrid sampling technique. Akurasi yang berbeda sebesar
0.032 dapat menunjukkan bahwa hasil klasifikasi menggunakan hybrid sampling
technique dan oversampling hanya memiliki satu atau dua perbedaan.
Perbandingan Gmean dan AUC hasil implementasi dengan implementasi asli
pada penelitian Pruengkarn et al. (2017) dijabarkan pada Tabel 5 dan Tabel 6. Hasil
perbandingan antara hasil uji implementasi dan hasil penelitian Pruengkarn et al.
(2017) menunjukkan hasil yang berbeda. Hal ini disebabkan oleh penelitian
Pruengkarn et al. (2017) yang tidak memberikan informasi detil terkait praproses
data, sehingga praproses data pada penelitian dilakukan berbeda dengan penelitian
Pruengkarn et al. (2017). Pada tahapan oversampling menggunakan SMOTE juga
12
tidak dijabarkan variabel yang digunakan. Pada penelitian ini variabel yang diubah
dari variabel auto pada SMOTE adalah jumlah tetangga yaitu k ≥ 2.
Tabel 5 Perbandingan Gmean hasil implementasi dan Pruengkarn et al. (2017)
Dataset Pendekatan Gmean
Implementasi
Gmean
Pruengkarn ∆Gmean
German CMT1 0.5828 0.7244 - 0.1416
CMT2 0.5828 0.7262 - 0.1792
SMOTE 0.6434 0.7294 - 0.0860
CMTSMT1 0.6389 0.7141 - 0.0752
CMTSMT2 0.6389 0.7367 - 0.0978
Glass5 CMT1 0.7155 0.0000 + 0.7155
CMT2 0.7155 0.1000 + 0.7155
SMOTE 0.8209 0.9625 - 0.1416
CMTSMT1 0.8346 0.9625 - 0.1279
CMTSMT2 0.8346 0.9638 - 0.1292
Yeast3 CMT1 0.7989 0.8244 - 0.0255
CMT2 0.7989 0.8241 - 0.0252
SMOTE 0.7748 0.9032 - 0.1284
CMTSMT1 0.8027 0.9026 - 0.0999
CMTSMT2 0.8027 0.8997 - 0.0970
Tabel 6 Perbandingan AUC hasil implementasi dan Pruengkarn et al. (2017)
Dataset Pendekatan AUC
Implementasi
AUC
Pruengkarn ∆AUC
German CMT1 0.6049 0.7313 - 0.1264
CMT2 0.6049 0.7358 - 0.1309
SMOTE 0.6477 0.7358 - 0.0881
CMTSMT1 0.6411 0.7187 - 0.0776
CMTSMT2 0.6411 0.7388 - 0.0977
Glass5 CMT1 0.7165 0.5000 + 0.2165
CMT2 0.7165 0.5500 + 0.1665
SMOTE 0.8652 0.9634 - 0.0982
CMTSMT1 0.8902 0.9634 - 0.0732
CMTSMT2 0.8902 0.9646 - 0.0744
Yeast3 CMT1 0.7949 0.8380 - 0.0431
CMT2 0.7949 0.8380 - 0.0431
SMOTE 0.8445 0.9043 - 0.0598
CMTSMT1 0.8066 0.9034 - 0.0968
CMTSMT2 0.8066 0.9006 - 0.0940
Hasil pengujian dua dilakukan dengan membandingkan hasil klasifikasi CPI
menggunakan classifier SVM dengan hasil klasifikasi CPI menggunakan hybrid
sampling technique. Tabel 7 menunjukkan hasil klasifikasi menggunakan classifier
SVM. Perbandingan kelas data positif dan kelas data negatif yang tidak seimbang
menyebabkan SVM mengklasifikasi semua data ke kelas negatif (kelas mayoritas)
sehingga hasil Gmean menjadi 0.000. Hal ini menunjukkan bahwa classifier gagal
13
dalam melakukan klasifikasi pada data senyawa aktif dan protein yang memiliki
interaksi (kelas positif atau kelas minoritas).
Tabel 7 Hasil pengujian menggunakan SVM pada CPI Ijah
Nilai Uji Gmean 0.0000
AUC 0.5000
Akurasi 0.7677
Data Minoritas Jumlah data minoritas 2 908
Perbandingan data
minoritas : mayoritas
0.2 : 0.8
Hasil pengujian implementasi hybrid sampling technique tedapat pada pada
Tabel 8. Akurasi dari klasifikasi data menggunakan hybrid sampling technique
tergolong baik bagi data tidak seimbang walaupun masih cukup rendah. Akurasi ini
meningkat dibanding dengan melakukan klasifikasi pada data tidak tanpa proses
hybrid sampling technique. Nilai akurasi setelah meningkat sebesar 0.0669. Nilai
Gmean pada Tabel 8 menunjukkan nilai 0.6812 yang sebelumnya pada Tabel 7
bernilai 0.000. Peningkatan nilai Gmean menunjukkan bahwa model telah dapat
mengklasifikasikan kelas positif (kelas minoritas). Hasil evaluasi menggunakan
AUC mengalami peningkatan sebesar 0.0319 dibandingkan hasil pada Tabel 7.
Hasil pada Tabel 8 memperlihatkan peningkatan dari semua metode evaluasi
dibanding Tabel 7 yang tidak menerapkan hybrid sampling technique.
Tabel 8 Hasil pengujian hybrid sampling technique pada CPI Ijah
Nilai Uji Gmean 0.6812
AUC 0.5319
Akurasi 0.8346
Data Minoritas Jumlah data minoritas 9 851
Perbandingan data
minoritas : mayoritas
0.4 : 0.6
Setelah menerapkan hybrid sampling technique jumlah kelas minoritas hasil
berjumlah 13 116 data. Hasil ini kemudian dibandingkan dengan matriks CPI yang
tersedia. Hasil kemudian disaring berdasarkan kemiripan nilai variabel dengan data
pada deskriptor asli, sehingga didapatkan sejumlah 9 851 data dengan pasangan
senyawa aktif dan protein sesuai dengan deskriptor yang ada.
SIMPULAN DAN SARAN
Simpulan
Penelitian telah berhasil melakukan implementasi hybrid sampling technique
menggunakan Complementary Fuzzy Support Vector Machine dan SMOTE. Hasil
implementasi pada hybrid sampling technique menunjukkan selisih Gmean -0.0752
sampai -0.1792 dan selisih AUC sebesar -0.0732 sampai 0.0977 dibanding
implementasi asli. Implementasi pada data Ijah telah berhasil mengatasi data tidak
seimbang pada senyawa aktif dan protein. Hasil implementasi menunjukkan
14
metode berhasil mengklasifikasikan kelas minoritas pada data dan meningkatkan
jumlah kelas data minoritas meningkat tiga kali lipat menjadi 9851 dari data sampel
yang digunakan sebelumnya yang berjumlah. Implementasi memiliki akurasi
sebesar 0.8346 dengan Gmean sebesar 0.6812 dan AUC sebesar 0.5319.
Saran
Penelitian ini menggunakan hybrid sampling technique dengan satu fungsi
keanggotaan fuzzy untuk semua jenis data. Pemilihan fungsi keanggotaan fuzzy
sangat memengaruhi performa klasifikasi. Pendefinisian fungsi keanggotaan fuzzy
yang tepat diperngaruhi oleh sifat data. Perbandingan fungsi kearnggotaan fuzzy
yang tepat untuk CPI pada Ijah dapat menjadi topik yang menarik untuk dibahas.
DAFTAR PUSTAKA
Afendi FM, Darusman LK, Hirai A, Altaf-Ul-Amin M, Takahashi H, Nakamura K,
Kanaya S. 2010. System biology approach for elucidating the relationship
between indonesian herbal plants and the efficacy of jamu. Di dalam: IEEE
International Conference on Data Mining Workshops. 2010 Des 13; Sydney,
Australia. Sydney (AU): IEEE. hlm 661–668. doi:
10.1109/ICDMW.2010.105.
Afendi FM, Darusman LK, Morita AH, Altaf-Ul-Amin M, Takahashi H, Nakamura
K, Tanaka K, Kanaya S. 2012. Efficacy prediction of jamu formulations by
PLS modeling. Current Computer Aided Drug Design. 9(1):46–59.
doi:10.2174/157340913804998775.
Ali A, Shamsuddin SM, Ralescu AL. 2015. Classification with class imbalance
problem: a review. International Journal Advance Soft Computing
Application. 7(3):176-204.
Amir F. 2016. Prediksi formula jamu untuk penyembuhan penyakit diabetes dengan
teknik graph mining[skripsi]. Bogor (ID): Institut Pertanian Bogor.
Chawla NV, Bowyer KW, Hall LO, Kegelmeyer WP. 2002. SMOTE: Synthetic
minority over-sampling technique. Journal of Artificial Intelligence
Research.16(2002):321-357. doi: 10.1613/jair.953.
Fan X dan He Z. 2010. A fuzzy support vector machine for imbalanced data
classification. Di dalam: International Conference on Optoelectronics and
Image Processing (ICONIP); 2010 Nov 11-12; Haikou, China. Haikou (CN):
IEEE. hlm 11-14. doi: 10.1109/ICOIP.2010.61.
Kurnia A.2017.Prediksi formula jamu berkhasiat menggunakan teknik link
prediction dari jejaring bipartite senyawa aktif dan protein [skripsi]. Bogor
(ID): Institut Pertanian Bogor.
Nogueira F dan Aridas CK. 2017. Imbalanced-learn: a python toolbox to tackle the
curse of imbalanced datasets in machine learning. Journal of Machnine
Learning Research. 18(17):1-5.
Noren EL. 2017. ML-From-Scratch. Github Repository. Tersedia pada:
https://github.com/eriklindernoren/ML-From-Scratch.
15
Pruengkarn R, Wong KW, Fung CC. 2017. Imbalanced data classification using
complementary fuzzy support vector machine technique and SMOTE. IEEE
International Conference on Systems, Man, and Cybernetics (SMC); 2017
Okt 5-8; Banff, Canada. Banff (CA): IEEE. hlm 978-983. doi:
10.1109/SMC.2017.8122737.
Tahir MA, Kittler J, Yan F. 2012. Inverse random undersampling for class
imbalance problem and its application to multi-label classification. Pattern
Recognition. 45(10): 3738-3740. doi: 10.1016/j.patcog.2012.03.014.
Torri MC. 2013. Knowledge and risk perceptions of traditional jamu medicine
among urban consumers. Europeanon Journal of Medicinal Plants. 3(1):25-
39. doi:10.9734/EJMP/2013/1813.
[WHO] World Health Organization. 2008. Traditonal medicine, fact sheet 134.
Geneva (CH): World Health Organization
Zhang P, Tao L, Zeng X, Qin C, Chen SY, Zhu F, Yang SY, Li ZR, Chen WO,
Chen YZ. 2016. Profeat update: a protein features web-server with added
facility to compute network descriptors for studying omics-derived networks.
Journal of Molecular Biology. 429(3):416-425. doi: 10.1016/j.jmb.2016.013.
16
Lampiran 1 Data compound descriptor dan protein descriptor
Contoh data compound descriptor
Compound
ID 1005 1001 100004 10001388 14505
Molecular
Formula C3H5O6P C8H11N C20H24N2O2 C25H26O5 C6H6O2
Molecular
Weight 168.041 121.183 324.424 406.478 110.112
H Bond
Donor
Count
3 1 1 3 0
H Bond
Acceptor
Count
6 1 4 5 2
Rotatable
Bond Count 3 2 3 5 1
Complexity 201.0 65.0 600 713 98.7
Monoiotopic
Mass 167.982 121.089 324.184 406.178 110.037
Exact Mass 167.982 121.089 324.184 406.178 110.037
XLogP -1.1 1.4 3.1 6.5 0.5
Charge 0 0 0 0 0
Heavy Atom 10 9 24 30 8
Defined
Bond Stereo
Count
0 0 0 0 0
Undefined
Bond Stereo
Count
0 0 0 0 0
Isotope
Atom 0 0 0 0 0
Covalent
Unit 1 1 1 1 1
17
Lampiran 1 Data compound descriptor dan protein descriptor (lanjutan)
Contoh data protein descriptor
Protein
ID A0PJY2 A1A4Y4 B7U540 C9JR72 O00116
A 8.632 7.735 8.083 14.410 8.055
C 4.211 1.105 2.309 3.057 2.128
D 2.316 3.867 6.005 5.022 5.015
E 3.158 7.735 7.159 5.677 6.839
F 4.842 3.867 5.774 5.022 4.407
G 6.316 5.525 6.928 8.734 8.967
H 6.105 1.657 3.002 1.965 2.584
I 2.105 4.420 6.467 1.310 5.927
K 8.211 5.525 3.695 0.873 5.927
L 8.632 8.840 9.007 12.445 7.903
M 2.316 6.077 3.233 0.873 1.824
N 4.421 6.630 3.233 1.528 4.103
P 10.947 3.315 3.233 6.114 4.407
Q 4.211 3.315 3.464 3.275 3.495
R 4.000 3.315 7.159 7.642 5.775
S 6.947 8.287 6.005 4.367 6.231
T 5.474 7.735 4.388 5.895 5.927
V 4.842 7.182 7.159 7.205 5.927
W 0.000 1.105 1.155 1.747 1.216
Y 2.316 2.762 2.540 2.838 3.343
Lampiran 2 Data Compound Protein Interaction Ijah (Kurnia 2017)
Compound ID Protein ID weight
COM00000014 PRO00000377 1
COM00000016 PRO00001875 1
COM00000020 PRO00002082 1
COM00000020 PRO00001846 1
COM00000020 PRO00000615 1
18
Lampiran 3 Dataset Pruengkarn et al. (2017)
Dataset glass5 sebelum praproses
Record 0 1 2 3 176
RI 1.515888 1.517642 1.52213 1.522221 1.519693
Na 12.87795 12.9777 14.20795 13.21045 14.5604
Mg 3.43036 3.53812 3.82099 3.7716 0
Al 1.40066 1.21127 0.46976 0.79076 0.55964
Si 73.282 73.002 71.77 71.9884 73.478
K 0.68931 0.65205 0.11178 0.13041 0
Ca 8.04468 8.52888 9.5726 10.2452 11.21888
Ba 0 0 0 0 0
Fe 0.1224 0 0 0 0
Class negative negative negative negative positive
Dataset glass5 setelah praproses
Record 0 1 2 3 176
RI -1.16791 -0.34107 1.774376 1.817329 0.625379
Na -0.88844 -0.72294 1.31832 -0.33675 1.903112
Mg 0.616742 0.70585 0.939757 0.898916 -2.21984
Al -0.12317 -0.65052 -2.71522 -1.82141 -2.46496
Si 1.119543 0.61907 -1.58301 -1.19264 1.469875
K 0.6525 0.525924 -1.30944 -1.24615 -1.68917
Ca -0.99199 -0.46754 0.662939 1.391449 2.446065
Ba -0.6008 -0.6008 -0.6008 -0.6008 -0.6008
Fe 1.365041 -0.729 -0.729 -0.729 -0.729
Class 0 0 0 0 1
Dataset yeast3 sebelum praproses
Record 0 1 2 3 31
Mcg 0.64 0.58 0.42 0.51 0.41
Gvh 0.62 0.44 0.44 0.4 0.54
Alm 0.49 0.57 0.48 0.56 0.39
Mit 0.15 0.13 0.54 0.17 0.2
Erl 0.5 0.5 0.5 0.5 0.5
Pox 0 0 0 0.5 0
Vac 0.53 0.54 0.48 0.49 0.51
Nuc 0.22 0.22 0.22 0.22 0.22
Class negative negative negative negative positive
19
Lampiran 3 Dataset Pruengkarn et al. (2017) (lanjutan)
Dataset yeast3 setelah praproses
Record 0 1 2 3 31
Mcg 1.018787 0.581785 -0.58355 0.07195 -0.65639
Gvh 0.968876 -0.48362 -0.48362 -0.8064 0.323321
Alm -0.13863 0.966651 -0.27678 0.828492 -1.52022
Mit -1.53614 -1.81246 3.852081 -1.25982 -0.84534
Erl -1 -1 -1 -1 -1
Pox -1 -1 -1 1 -1
Vac 0.767467 1.022316 -0.50678 -0.25193 0.257768
Nuc -0.77645 -0.77645 -0.77645 -0.77645 -0.77645
Class 0 0 0 0 1
Dataset german sebelum praproses
Record 1 2 3 4 5
existing-acc A11 A12 A14 A11 A11
Duration 6 48 12 42 24
credit-history A34 A32 A34 A32 A33
Purpose A43 A43 A46 A42 A40
credit-amount 1169 5951 2096 7882 4870
savings-bonds A65 A61 A61 A61 A61
employement-
duration A75 A73 A74 A74 A73
inst-rate 4 2 2 2 3
marital-status A93 A92 A93 A93 A93
other-debtors A101 A101 A101 A103 A101
residence-since 4 2 3 4 4
Property A121 A121 A121 A122 A124
Age 67 22 49 45 53
inst-plan A143 A143 A143 A143 A143
Housing A152 A152 A152 A153 A153
credit-exist 2 1 1 1 2
Job A173 A173 A172 A173 A173
liable-person 1 1 2 2 2
telephone A192 A191 A191 A191 A191
foreign-worker A201 A201 A201 A201 A201
Class 1 2 1 1 2
20
Lampiran 3 Dataset Pruengkarn et al. (2017) (lanjutan)
Dataset german setelah praproses
Record 1 2 3 4 5
existing-acc -1.25394 -0.4588 1.13148 -1.25394 -1.25394
Duration -1.56931 2.85336 -0.9375 2.22155 0.32611
credit-history 1.40952 -0.58274 1.40952 -0.58274 0.41339
credit-amount -1.02622 1.308122 -0.5737 2.250744 0.780429
savings-bonds -1.23078 -0.19651 -0.19651 -0.19651 -0.19651
Employement-
duration 1.337409 -0.3178 0.509805 0.509805 -0.3178
inst-rate 0.918018 -0.86975 -0.86975 -0.86975 0.024135
residence-since 1.046463 -0.76559 0.140434 1.046463 1.046463
Age 3.484785 -1.50076 1.490567 1.047407 1.933726
credit-exist 1.026565 -0.70457 -0.70457 -0.70457 1.026565
liable-person -0.42808 -0.42808 2.333701 2.333701 2.333701
A40 -1 -1 -1 -1 1
A410 -1 -1 -1 -1 -1
A42 -1 -1 -1 1 -1
A43 1 1 -1 -1 -1
A44 -1 -1 -1 -1 -1
A45 -1 -1 -1 -1 -1
A46 -1 -1 1 -1 -1
A48 -1 -1 -1 -1 -1
A49 -1 -1 -1 -1 -1
A91 -1 -1 -1 -1 -1
A92 -1 1 -1 -1 -1
A93 1 -1 1 1 1
A101 1 1 1 -1 1
A102 -1 -1 -1 -1 -1
A103 -1 -1 -1 1 -1
A121 1 1 1 -1 -1
A122 -1 -1 -1 1 -1
A123 -1 -1 -1 -1 -1
A124 -1 -1 -1 -1 1
A141 -1 -1 -1 -1 -1
A142 -1 -1 -1 -1 -1
A143 1 1 1 1 1
A151 -1 -1 -1 -1 -1
A152 1 1 1 -1 -1
A153 -1 -1 -1 1 1
A171 -1 -1 -1 -1 -1
A172 -1 -1 1 -1 -1
A173 1 1 -1 1 1
A174 -1 -1 -1 -1 -1
21
Lampiran 3 Dataset Pruengkarn et al. (2017) (lanjutan)
Record 1 2 3 4 5
A191 -1 1 1 1 1
A192 1 -1 -1 -1 -1
A201 1 1 1 1 1
A202 -1 -1 -1 -1 -1
Class 0 1 0 0 1
Lampiran 4 Compound protein interaction dataset Ijah
Record 0 1 2 3 14574
A 0.00634 0.00837 0.00754 0.00587 0.0005
C 0.00078 0.00232 0.00128 0.00181 0.00024
D 0.0057 0.00604 0.00384 0.00158 0.00024
E 0.00686 0.00651 0.00901 0.00406 0.00029
F 0.00453 0.00558 0.00297 0.00316 0.00041
G 0.00621 0.00372 0.00544 0.00429 0.00036
H 0.00311 0 0.00242 0.00135 0.00021
I 0.00531 0.00465 0.00416 0.00565 0.00036
K 0.00686 0.0079 0.00768 0.00497 0.00018
L 0.00958 0.00697 0.01042 0.00948 0.0008
M 0.00272 0.00186 0.0016 0.00158 9.00E-05
N 0.00272 0.00604 0.00288 0.00271 0.00014
P 0.00492 0.00325 0.00585 0.00181 0.00039
Q 0.00401 0.00511 0.00553 0.00203 0.00012
R 0.00479 0.00465 0.00658 0.00226 0.00027
S 0.00583 0.00558 0.0074 0.00452 0.00052
T 0.00531 0.00604 0.00475 0.00429 0.00046
V 0.00608 0.00744 0.00553 0.00497 0.00042
W 0.00104 0.00139 0.00073 0.0009 0.00026
Y 0.00311 0.00279 0.00297 0.00271 0.00014
MolecularWeight 0.41919 0.40445 0.42632 0.42612 0.32879
HBondDonorCou
nt 0.00192 0 0.00592 0.0007 0.00533
H
BondAcceptorCo
unt
0.00766 0.00866 0.00986 0.0056 0.00488
RotatableBondCo
unt 0.00479 0.00673 0.00394 0.0021 0.012
Complexity 0.68695 0.71286 0.67343 0.67411 0.82167
MonoisotopicMas
s 0.41884 0.40419 0.42605 0.42581 0.32859
ExactMass 0.41884 0.40419 0.42605 0.42581 0.32871
XLogP 0.00297 0.00221 0.00069 0.00427 -0.00152
22
Lampiran 4 Compound protein interaction dataset Ijah (lanjutan)
Record 0 1 2 3 14574
Charge 0 0 0 0 0
HeavyAtomCount 0.0297 0.02886 0.03057 0.0315 0.02311
DefinedBondStere
oCount 0 0 0.00099 0 6.00E-05
UndefinedBondSt
ereoCount 0 0 0 0 0
IsotopeAtomCoun
t 0 0 0 0 0
CovalentUnitCou
nt 0.00096 0.00096 0.00099 0.0007 6.00E-05
Class 0 0 0 0 1
23
RIWAYAT HIDUP
Penulis merupakan anak kedua dari tiga bersaudara dari pasangan Suyanto
dan Linsi Apriani yang dilahirkan pada 28 Mei 1996 di Kota Pagaralam, Sumatera
Selatan. Penulis menempuh pendidikan di SMAN 4 Lahat pada tahun 2011 sampai
2014. Pendidikan S1 penulis tempuh di Departemen Ilmu Komputer, Fakultas
Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.
Selama menempuh pendidikan penulis beberapa kali menjadi asisten
praktikum Departemen Ilmu Komputer. Dimulai dari asisten praktikum pada mata
kuliah Penerapan Komputer pada tahun 2015-2016, asisten praktikum mata kuliah
Artificial Intelligence pada tahun 2017, dan asisten praktikum mata kuliah Sistem
Cerdas pada tahun 2018.
Selain menjadi asisten praktikum, penulis juga aktif di Badan Eksekutif
Mahasiswa pada tahun 2016/2017 sebagai anggota Pengembangan Sumberdaya
Mahasiswa. Penulis juga aktif sebagai anggota Sahabat Beasiswa Chapter Bogor
sejak tahun 2015. Penulis juga mengikuti kegiatan Rumah Belajar Leadership
(RumbeL) dibawah naungan Forum Indonesia Muda Bogor (FIM Hore Bogor) pada
tahun 2014 sampai 2016.