Post on 04-Nov-2015
description
SEMA
NGAT
1
PENENTUAN PERSETUJUAN PEMBERIAN KREDIT BANK
MENGGUNAKAN METODE HYBRID SVM
Erliyah Nurul Jannah1, Rizky Widhanto Herlambang
2, Mario Renato Pangow
3
(Semangat)
Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember
Kampus Sukolilo Surabaya, 60111
Email : erliyah.nj@gmail.com1, rizky.widhanto.herlambang@gmail.com
2, pangow.mario@gmail.com
3
ABSTRAK
Kredit merupakan produk utama dari sebuah bank. Bank dapat memperoleh keuntungan yang besar
dari sektor ini. Namun keuntungan tersebut juga diimbangi dengan besarnya resiko yang akan dihadapi oleh
pihak bank jika terjadi kredit bermasalah, misal kredit macet. Hal ini terjadi karena tak sedikit bank
memutuskan memberi kredit kepada nasabahnya hanya berdasar pada intuisi. Agar dapat mengurangi resiko
terjadinya kredit bermasalah pada persetujuan pemberian kredit, dibutuhkan suatu metode yang dapat
membantu pihak bank dalam menambil keputusan. Hybrid Support Vector Machine (SVM) adalah salah satu
metode data mining yang dapat digunakan untuk mengatasi permasalahan ini. Hybrid SVM pada makalah ini
merupakan kombinasi antara metode SVM dengan kernel Radial Basis Function (RBF), Grid Search, dan F
Score. Grid Search digunakan untuk mengoptimasi parameter kernel, sedangkan F Score digunakan untuk
memilih fitur yang diskriminatif, yaitu fitur yang paling berkontribusi dalam membedakan kelas. Performa
metode Hybrid SVM tidak dipengaruhi oleh jumlah dimensi atau jumlah fitur dari dataset. Uji coba
menunjukkan bahwa Hybrid SVM memiliki tingkat akurasi yang tinggi yaitu 88,70% dan waktu komputasi 0,24
detik.
Kata Kunci: Kredit, Support Vector Machine (SVM), RBF kernel, Hybrid SVM, F Score, Grid Search
1 PENDAHULUAN
Pertumbuhan ekonomi dunia di sektor industri
saat ini sangat pesat. Hal ini mendorong terjadinya
kompetisi industri yang cukup ketat. Sehingga baik
perorangan maupun perusahaan terkadang
membutuhkan tambahan modal untuk melebarkan
ranah industrinya. Modal tersebut salah satunya bisa
diperoleh dari pemberian kredit dari bank.
Kredit menurut wikipedia adalah suatu fasilitas
keuangan yang memungkinkan seseorang atau badan
usaha untuk meminjam uang dan membayarnya
kembali dalam jangka waktu yang ditentukan [1].
Kredit merupakan salah satu produk utama dari
sebuah bank. Bank dapat memperoleh keuntungan
yang besar dari sektor ini. Namun besarnya
keuntungan yang didapat oleh bank juga diimbangi
dengan resiko yang tak bisa diremehkan. Salah satu
resiko pemberian kredit yang mungkin dialami
perusahaan adalah kredit bermasalah, misalnya
nasabah tidak mengembalikan uang pinjaman.
Seperti yang diberitakan oleh situs vibiznews.com
pada tanggal 19 Juli 2011, bahwa jumlah kredit
macet Perbankan Indonesia hingga Mei 2011
sejumlah Rp 34,991 Triliun [2].
Pada dua dekade terakhir, banyak metode telah
dikembangkan sebagai acuan bagi pihak bank untuk
melakukan persetujuan pemberian kredit. Persetujuan
pemberian kredit telah dikembangkan dengan cara
pengelompokan nasabah, apakah seorang nasabah
layak diberi kredit atau tidak. Pengelompokan
tersebut pada umumnya didasarkan pada karakter,
kapasitas, modal, jaminan, dan kondisi ekonomi dari
nasabah tersebut.
Saat ini pihak bank dihadapkan pada suatu
masalah. Mereka berusaha meningkatkan pemberian
volume kredit, namun juga harus dapat mengurangi
tingkat resiko terjadinya kredit bermasalah.
Tak sedikit bank memberikan kredit kepada
nasabahnya hanya berdasar intuisi. Hal ini tentu saja
sangat beresiko terhadap kelancaran kredit. Oleh
sebab itu, dibutuhkan sebuah metode yang akurat
yang dapat membantu dalam penentuan pemberian
kredit bank kepada nasabah.
Berbagai macam metode telah dikembangkan
untuk membantu kreditor dan banker dalam
memutuskan pemberian kredit kepada nasabah.
Metode-metode yang diusulkan sebelumnya telah
menggunakan teknik-teknik yang ada dalam data
mining. Beberapa metode yang telah dilakukan
adalah metode statistik konvensional yang meliputi
linear discriminant model [3], logistic regression
models [4], k-nearest neighbor models [5], decision
tree models [6], dan neural network models [7]. Pada
linear discriminant model, terdapat batasan berupa
asumsi bahwa variabel bebas harus terdistribusi
normal. Padahal kenyataannya variabel bebas belum
SEMA
NGAT
2
Data Mining Contest Gemastik 2011
ITS Surabaya, 12 13 Oktober 2011
tentu terdistribusi normal[8]. Sedangkan pada logistic
regression, model ini tidak efektif untuk menangani
permasalahan klasififikasi non linier dan
permasalahan yang melibatkan interaksi antar
variabel dalam variabel bebas[8]. Dan k-nearest
neighbor models, nilai akurasi dari model bergantung
pada nilai k jumlah ketetanggaan[8].
Pada metode statistik konvensional, probabilitas
yang mendasari model harus diasumsikan terlebih
dahulu untuk dapat menghitung probabilitas posterior
di mana keputusan akan dibuat . Namun SVM dapat
melakukan klasifikasi tanpa batasan atau asumsi ini
[9]. Performa SVM juga tidak bergantung pada
jumlah fitur atau atribut pada dataset. Sehingga
banyaknya fitur tidak mempengaruhi waktu
komputasi. Berbeda dengan beberapa metode data
mining lainnya yang memiliki batasan pada jumlah
fitur, seperti neural network dan decision tree. Fitur
dalam jumlah banyak akan menyebabkan waktu
komputasi semakin lama. Padahal saat ini, teknologi
dituntut untuk dapat menggali informasi dari data
yang berjumlah besar dalam waktu yang singkat.
Akhir-akhir ini telah banyak diajukan metode
gabungan (hybrid) untuk merancang model penilaian
kredit yang efektif. Hal ini dilakukan dengan harapan
dapat meningkatkan akurasi. Dan salah satu metode
hybrid tersebut adalah metode gabungan dengan
melibatkan Support Vector Machine (SVM), atau
lebih dikenal dengan Hybrid SVM. SVM dikenal
sukses dalam klasifikasi di berbagai bidang. Salah
satunya adalah klasifikasi penilaian kredit[10].
Terdapat tiga masalah utama ketika menerapkan
Hybrid SVM dalam proses klasifikasi. Pertama
pemilihan fitur, kedua pemilihan kernel, dan terakhir
adalah penentuan parameter kernel yang optimal.
Pemilihan fitur merupakan hal yang penting
dalam klasifikasi. Pemilihan fitur digunakan untuk
memilih fitur-fitur yang diskriminatif atau yang
paling berkontribusi dalam membedakan kelas. Fitur
yang tidak berkontribusi sebaiknya tidak digunakan
atau direduksi. Reduksi fitur diharapkan dapat
meningkatkan akurasi dan mengurangi waktu
komputasi [11].
Berbagai macam metode pemilihan fitur telah
diajukan, salah satunya adalah metode F Score.
Metode ini sederhana, namun efektif untuk memilih
fitur-fitur yang diskriminatif [12].
Berikutnya adalah permasalahan pemilihan
kernel. Berdasarkan penelitian yang telah dilakukan
oleh Huang C,M., RBF kernel terbukti efektif dalam
melakukan klasifikasi permasalahan persetujuan
pemberian kredit [11].
Setelah pemilihan kernel, selanjutnya adalah
optimasi nilai dari parameter kernel. Grid Search
merupakan algoritma yang efektif untuk menentukan
parameter yang optimal pada kernel Radial Basis
Function (RBF)[13].
Oleh sebab itu, dalam makalah ini metode yang
akan digunakan untuk penentuan persetujuan
pemberian kredit adalah metode hybrid SVM. Yaitu
kombinasi antara metode SVM dengan Grid Search
untuk optimasi parameter kernel SVM dan F Score
untuk pemilihan fitur yang diskriminatif. Hybrid
SVM diharapkan dapat memprediksi penentuan
persetujuan pemberian kredit dengan akurasi yang
tinggi dan waktu komputasi yang relatif singkat.
2 METODE DAN IMPLEMENTASI
Support vector machine (SVM) adalah metode
yang pertama kali dicetuskan oleh Vapnik and
Corinna Cortes pada tahun 1995. SVM dikenal dapat
memecahkan masalah klasifikasi di berbagai bidang,
seperti pattern recognition, bioinformatics, dan text
categorization.
2.1 Preprocessing Data Sebelum proses klasifikasi dilakukan,
diperlukan preprocessing data terlebih dahulu.
Preprocessing ini meliputi :
a. Replace Missing Values Replace Missing Values adalah proses mengisi
semua data yang hilang (missing value). Jika
missing value tersebut bertipe kontinu, maka akan
diisi dengan rata-rata dari seluruh data dalam satu
fitur atau atribut. Namun jika missing value
tersebut bertipe nominal, maka akan diisi dengan
modus dari data keseluruhan dalam satu fitur atau
atribut.
b. Nominal To Binary Nominal To Binary adalah proses mengubah data
nominal menjadi data biner. SVM dapat
melakukan klasifikasi pada data yang bertipe
nominal, namun data tersebut harus terlebih
dahulu diubah menjadi data biner.
c. Normalisasi Normalisasi adalah proses mengubah nilai dari
data pada tiap-tiap atribut kontinu sehingga
menjadi berskala 0 sampai 1. Hal ini bertujuan
untuk menghindari terjadinya dominasi atribut
terhadap hasil klasifikasi.
Gambar 1. Ide Utama Support Vector Machine
SEMA
NGAT
Institut Teknologi Sepuluh Nopember, Penentuan Persetujuan Pemberian Kredit Bank Menggunakan
Metode Hybrid SVM
3
Jika xi adalah data pada atribut ke-i, maka
normalisasi xi atau norm(xi) dapat dilakukan
dengan rumus sebagai berikut :
( )
(1)
dengan mini dan maxi adalah nilai minimum dan
maksimum pada atribut ke-i.
2.2 Support Vector Machine (SVM) Konsep SVM dapat dijelaskan secara sederhana
sebagai usaha untuk mencari hyperlane terbaik yang
berfungsi sebagai pemisah dua buah kelas pada input
space. Hyperplane pemisah terbaik antara dua kelas
adalah hyperplane yang mempunyai margin terbesar.
Margin adalah jarak antara hyperplane tersebut
dengan pattern terdekat dari masing-masing kelas.
Pattern yang paling dekat ini disebut sebagai support
vector. Ilustrasi dari konsep SVM dapat digambarkan
pada Gambar 1.
Data yang tersedia dinotasikan dengan i d,
sedangkan label atau kelas masing-masing
dinotasikan dengan yi {-1,+1} untuk i =1,2,...,n, di
mana n adalah banyaknya data. Permasalahan
optimasi pada SVM adalah :
(
( )) (2)
Dengan untuk semua i = 1n dan
di mana i adalah Langrange
multiplier untuk setiap data i. C adalah nilai yang
akan mengontrol relative cost dari tujuan optimasi
secara keseluruhan.
Pada permasalahan klasifikasi yang bersifat non
separable, fungsi kernel k(xi,xj) dapat digantikan
dengan fungsi yang lain seperti radial basis function
(RBF) yang memiliki fungsi sebagai berikut :
( ) (
) (3)
atau
( ) ( ) (4)
dengan = 1 / 22.
Teknik SVM digunakan dalam makalah ini
karena memiliki kelebihan sebagai berikut :
1. SVM dapat diterapkan pada data yang bertipe nominal namun dengan cara mengubahnya
menjadi data biner
2. Performa SVM tidak dipengaruhi oleh dimensi (jumlah atribut atau fitur) dataset, sehingga SVM
dapat diterapkan untuk memecahkan masalah
klasifikasi dengan dataset berdimensi tinggi.
2.3 Pemilihan Parameter Optimal Menggunakan Grid Search
Parameter yang tepat dapat menambah akurasi
dari metode SVM. Dalam metode SVM dengan
menggunakan kernel Radial Basis Function (RBF),
terdapat dua parameter yaitu C dan Gamma (). Grid Search adalah metode yang digunakan
untuk mencari parameter yang optimal pada SVM
dengan RBF kernel. Metode ini bersifat exhaustive.
Pencarian nilai parameter yang optimal dilakukan
dalam range atau space tertentu. Dalam makalah ini,
range parameter yang digunakan adalah C = 2-5
, 2-3
215 dan = 2-15, 2-13 23 [14]. Parameter yang optimal adalah pasangan C dan
yang menghasilkan Cross Validation (CV) rate tertinggi jika dilakukan k-fold Cross Validation pada
data training.
Langkah-langkah untuk mendapatkan parameter
yang optimal dengan menggunakan Grid Search
dapat dilihat pada Gambar 2 dan secara singkat dapat
dijelaskan sebagai berikut :
Menyiapkan Grid Space, C = 2-5, 2-3 215 dan = 2-15, 2-13 23
Melakukan uji coba klasifikasi untuk tiap-tiap kombinasi C dan
Mengevaluasi dengan k-fold Cross Validation Parameter yang optimal adalah kombinasi C dan
yang menghasilkan Cross Validation Rate tertinggi
2.4 Pemilihan Fitur Menggunakan F Score F Score merupakan salah satu metode pemilihan
fitur yang sederhana namun efektif dalam
menentukan fitur-fitur yang diskriminatif [12]. F
Score memiliki kompleksitas O(nm) di mana n adalah
jumlah data dan m adalah jumlah fitur.
F Score dapat mengukur discriminant dua
himpunan bilangan real. Terdapat vektor data xi, i =
1,2,. . . , m, jika jumlah data positif dan data negatif
adalah n+ dan n-, maka F-score fitur i didefinisikan
sebagai berikut:
( ) ( ( ) )
( ( ) )
(
( )
( ))
(
( )
( ))
(5)
di mana , ( )
, ( )
, adalah rata-rata keseluruhan
data, rata-rata data positif, rata-rata data negatif dari
fitur ke-i, ( )
merupakan fitur ke-i dari data positif
ke-k, sedangkan ( )
merupakan fitur ke-i dari data
negatif ke-k[15].
Pembilang pada Persamaan 5 merupakan
diskriminan dari data positif dan negatif, dan
penyebut dari persamaan tersebut merupakan
diskriman tiap dua data dalam dataset. Semakin besar
nilai F Score, fitur tersebut semakin diskriminatif.
Langkah-langkah pemilihan fitur menggunakan
F Score dapat dilihat pada Gambar 3. Secara umum
SEMA
NGAT
4
Data Mining Contest Gemastik 2011
ITS Surabaya, 12 13 Oktober 2011
prosedur pemilihan tersebut dapat dijelaskan sebagai
berikut :
Menghitung nilai F Score dari masing-masing fitur
Memilih sejumlah f fitur dengan fungsi : f = [n/2
i], i {0, 1, 2, , m} (6)
di mana m adalah bilangan bulat yang
memenuhi n/2m 1 [9]
Mengambil training set T = D k untuk setiap f fitur dalam data set D
Melakukan Cross Validation Menghitung Cross Validation rate Mengambil sejumlah f fitur yang memiliki nilai
Cross Validation rate tertinggi
3 SKENARIO UJI COBA Uji coba dilakukan dengan PC Intel Core i5, 2.3
GHz, dan 4 GB RAM. Tools yang digunakan adalah
Weka versi 3.6.5 yang tersedia di website
http://www.cs.waikato.ac.nz/ml/weka/ dan tambahan
library libSVM [16] untuk uji coba hybrid SVM.
3.1 Dataset
Pada tahap uji coba ini, data yang digunakan
merupakan data history nasabah dari sebuah bank
dengan jumlah record sebanyak 416 record. Jumlah
record yang termasuk kelas SETUJU adalah 185 record. Dan jumlah record yang termasuk dalam
kelas TOLAK sebanyak 231 record. Dataset ini terdiri dari 15 atribut dan 1 kelas.
Jumlah atribut yang bertipe kontinu sebanyak 6
atribut dan jumlah atribut yang bertipe nominal 9
atribut.
Siapkan Grid Space (C, )
Uji coba klasifikasi untuk tiap-
tiap kombinasi nilai C dan dan lakukan k-fold cross validation
Hitung nilai Cross
Validation (CV) rate
Ambil kombinasi C dan yang menghasilkan CV rate
tertinggi sebagai parameter
optimal
Gambar 2. Prosedur pemilihan parameter yang
optimal dengan metode Grid Search
Hitung F Score dari
masing-maing fitur
Urutkan fitur
berdasarkan F Score
Ambil sejumlah f fitur dengan F Score
tertinggi untuk uji coba klasifikasi dan
lakukan k-fold cross validation. Ulangi
langkah ini dengan nilai f yang berbeda
Ambil sebanyak f fitur yang menghasilkan CV rate tertinggi
untuk proses klasifikasi
Hitung nilai Cross
Validation (CV) rate
Gambar 3. Prosedur Pemilihan Fitur dengan F
Score
3.2 Preprocessing Tahap preprocessing data dapat dijelaskan
sebagai berikut :
a. Replace Missing Values Dalam dataset yang digunakan untuk uji coba
pada makalah ini, terdapat 7 atribut yang
mengandung missing value. Missing value
tersebut akan diisi dengan nilai rata-rata (mean)
atau modus dari data yang ada pada tiap-tiap
atribut. Nilai rata-rata digunakan untuk mengisi
missing value pada atribut yang bertipe kontinu,
dan nilai modus untuk atribut yang bertipe
nominal.
Daftar atribut yang mengandung missing value
beserta nilai mean atau modus dari atribut
tersebut dapat dilihat pada Tabel 1.
b. Nominal To Binary Terdapat 9 atribut yang bertipe nominal dalam
dataset. Untuk mengubah atribut yang bertipe
nominal menjadi biner, dapat dilakukan dengan
cara menghitung jumlah kemungkinan nilai yang
dapat mengisi atribut tersebut.
Misal untuk atribut X4, nilai yang mungkin yang
dapat mengisi atribut X4 adalah 1,2,3, atau 4
(dapat diketahui dari keterangan yang ada dalam
dataset). Jadi, jumlah kategori yang mungkin
mengisi atribut X4 berjumlah empat kategori.
Sehingga atribut X4 akan dipecah menjadi empat
atribut yaitu X41, X42, X43, dan X44. Atribut X41
SEMA
NGAT
Institut Teknologi Sepuluh Nopember, Penentuan Persetujuan Pemberian Kredit Bank Menggunakan
Metode Hybrid SVM
5
sampai dengan X44 ini hanya boleh diisi dengan
nilai 0 atau 1.
Untuk atribut nominal yang hanya memiliki dua
kategori, tidak perlu dipecah menjadi dua atribut.
Karena atribut tersebut sudah dapat menampung
nilai 0 atau 1 (nilai biner).
Atribut-atribut bertipe nominal yang telah diubah
menjadi biner dapat dilihat pada Tabel 2. Dari
Tabel 2, dapat dihitung jumlah atribut hasil proses
Nominal To Binary. Semula jumlah atribut
nominal adalah 9 atribut. Setelah dilakukan
proses Nominal To Binary, kesembilan atribut
tersebut dipecah menjadi 37 atribut. Sehingga saat
ini dataset terdiri dari 37 atribut ditambah dengan
6 atribut kontinu, menjadi 43 atribut.
c. Normlisasi Proses normalisasi hanya dilakukan pada atribut
yang pertipe kontinu, yaitu atribut X2, X3, X8,
X11, X14, dan X15.
Untuk normalisasi X2, nilai minimum dan
maksimum yang ada pada atribut tersebut harus
dicari terlebih dahulu.
Nilai minimum untuk atribut X2 adalah 15,17 dan
nilai maksimumnya adalah 30,02. Maka untuk
normalisasi nilai-nilai yang ada pada atribut X2
dilakukan dengan perhitungan :
( )
dengan xi adalah nilai yang ada pada atribut X2.
Hal yang sama juga dilakukan untuk atribut
kontinu yang lain. Dicari terlebih dahulu nilai
minimum dan maksimumnya, kemudian
normalisasinya dapat dilakukan dengan
Persamaan 1.
3.3 Uji Coba Pemilihan Parameter dengan Grid Search
Dalam uji coba penentuan parameter yang
optimal untuk SVM dengan kernel RBF, range nilai
parameter C dan yang akan diuji coba adalah C = 2-5, 2
-3 215 dan = 2-15, 2-13 23 [14].
Gambar 4 merupakan grafik uji coba parameter
dengan menggunakan Grid Search.
Tabel 1. Data atribut dengan missing value
Atribut Jenis
Jumlah
Missing
Value
Nilai
Mean
Nilai
Modus
X1 Nominal 3 - 1
X4 Nominal 2 - 1
X5 Nominal 2 - 1
X6 Nominal 2 - 1
X7 Nominal 2 - 1
X2 Kontinu 8 30,02 -
X14 Kontinu 7 183,36 -
Tabel 2. Hasil proses Nominal To Binary untuk
atribut bertipe nominal
Atribut Jumlah
Kategori
Hasil Nominal To Binary
X1 2 X1
X4 4 X41, X42, X43, X44
X5 3 X51, X52, X53
X6 14 X61, X62, X63, X64, X65, X66,
X67, X68, X69, X610, X611,
X612, X613, X614
X7 9 X71, X72, X73, X74, X75, X76,
X77, X78, X79
X9 2 X9
X10 2 X10
X12 2 X11
X13 3 X131, X132, X133
Gambar 4. Uji coba penentuan parameter
menggunakan Grid Search
3.4 Uji Coba Pemilihan Fitur Menggunakan F Score
Karena sebelumnya telah dilakukan
preprocessing data Nominal To Binary, maka dari
data semula yang mempunyai 15 atribut berubah
menjadi 43 atribut. Semua atribut tersebut dihitung
nilai F Score-nya. Kemudian diurutkan berdasarkan
nilai F Score tertinggi. Atribut atau fitur yang
memiliki nilai F Score = 0
tidak akan diikutkan
dalam proses berikutnya atau diabaikan.
Kemungkinan jumlah fitur yang akan dipilih
adalah sejumlah f fitur dengan f memenuhi fungsi f =
[n/2i], i {0, 1, 2, , m}, m bilangan bulat yang
memenuhi n/2m 1 [9].
Jika jumlah atribut ada 43 dan 3 atribut
diabaikan karena hanya berisi 0. Sehingga saat ini
jumlah atribut menjadi 40, maka nilai f yang mungkin
adalah 40, 20, 10, 5.
Dari semua kemungkinan nilai f tersebut, akan
dilakukan uji coba klasifikasi. Sejumlah f fitur yang
memiliki CV Rate tertinggi akan dipilih sebagai
atribut. Dan akan digunakan dalam proses
selanjutnya.
SEMA
NGAT
6
Data Mining Contest Gemastik 2011
ITS Surabaya, 12 13 Oktober 2011
3.5 Uji Coba Hybrid SVM Proses klasifikasi dilakukan dengan metode
hybrid SVM dengan data yang didapat dari dua
proses sebelumnya, yaitu proses pemilihan fitur dan
optimasi parameter. Dalam proses ini, dilakukan k-
fold cross validation dengan k = 5, 6, , 10. k-fold cross validation yang menghasilkan nilai akurasi
paling tinggi akan dipilih sebagai model untuk proses
prediksi dengan data testing yang baru.
4 HASIL UJI COBA
Uji coba pada mulanya dilakukan dengan
mengklasifikasi data dengan menggunakan SVM,
dengan parameter default yang terdapat di Weka
yaitu C = 1 dan = 0, serta jumlah atribut tidak dikurangi. Uji coba ini menghasilkan Cross
Validation Rate 86,06%.
4.1 Hasil Uji Coba Pemilihan Parameter Optimal dengan Grid Search
Telah dilakukan uji coba optimasi parameter
kernel RBF dengan metode Grid Search yang dapat
dilihat pada Gambar 4. CV rate tertinggi didapat
ketika kombinasi C dan bernilai 0,125 dan 0,125 serta k = 6 dengan nilai 88,22 %. Kedua nilai ini
akan digunakan sebagai parameter SVM dengan
kernel RBF pada proses selanjutnya.
4.2 Hasil Uji Coba Pemilihan Fitur menggunakan F SCore
Proses pemilihan fitur dengan menggunakan F
Score telah menghasilkan urutan fitur berdasarkan
nilai F Score nya. Urutan fitur tersebut dapat dilihat
pada Tabel 3. Semakin besar nilai F Score, fitur
tersebut semakin diskriminatif.
Dari Tabel 3, dapat diketahui bahwa terdapat
tiga fitur dengan nilai F Score = 0. Ketiga fitur
tersebut tidak akan diikutkan dalam proses
klasifikasi.
Dengan data F Score pada Tabel 3, dilakukan
uji coba klasifikasi menggunkan SVM sebanyak 4
kali, yaitu dengan jumlah atribut f = 40, 20, 10, dan
5. Serta dengan parameter RBF kernel C = 0,125, = 0,125. Setelah dilakukan 5-fold cross validation,
didapatkan hasil CV rate seperti pada Gambar 5.
Dari Gambar 4, dapat diketahui bahwa f fitur
dengan CV rate terbaik didapat pada nilai f = 20 dan f
= 40 yaitu dengan nilai 88,46 %. Jadi, untuk proses
selanjutnya jumlah fitur yang digunakan adalah 40
atau 20.
4.3 Hasil Uji Coba Klasifikasi Menggunakan SVM
Telah dilakukan uji coba klasifikasi
menggunakan SVM dengan jumlah fitur 40 dan 20.
Namun dengan k-fold cross validation yang berbeda-
beda. Hasil uji coba tersebut dapat dilihat pada
Gambar 6.
Dari uji coba klasifikasi data persetujuan
pemberian kredit dengan metode hybrid SVM, dapat
diketahui bahwa reduksi jumlah fitur dari 40 fitur
menjadi 20 dapat menghasilkan akurasi yang tidak
jauh berbeda. Bahkan pada k = 10 menghasilkan CV
Rate yang sama, yaitu 88,70%. Model ini selanjutnya
akan digunakan untuk memprediksi data testing yang
baru.
Gambar 5. Grafik CV Rate untuk Pemilihan f
Jumlah Fitur Terbaik
Gambar 6. Grafik CV Rate Klasifikasi dengan
Jumlah Fitur 40
4.4 Perbandiangan dengan Metode Lain Pada tahap ini, dilakukan uji coba untuk
membandingkan performa hybrid SVM dengan
beberapa metode data mining lainnya. Hasil uji coba
perbandingan performa metode dapat dilihat pada
Tabel 4.
Dari Tabel 4 dapat diketahui bahwa hybrid
SVM memiliki tingkat akurasi yang paling tinggi
dibanding keempat metode lainnya, dan hybrid SVM
membutuhkan waktu yang singkat untuk melakukan
proses klasifikasi dibanding beberapa metode
lainnya.
SEMA
NGAT
Institut Teknologi Sepuluh Nopember, Penentuan Persetujuan Pemberian Kredit Bank Menggunakan
Metode Hybrid SVM
7
Tabel 3. Nilai F Score Tiap-tiap Fitur
No Atribut F Score No Atribut F Score
1 X9 1,202195 23 X12 0,007038
2 X10 0,311402 24 X64 0,005934
3 X11 0,209408 25 X66 0,005934
4 X8 0,141035 26 X71 0,003675
5 X72 0,070294 27 X61 0,003166
6 X3 0,057741 28 X65 0,003019
7 X614 0,048 29 X74 0,002959
8 X78 0,046893 30 X1 0,002446
9 X52 0,04669 31 X75 0,001934
10 X69 0,040144 32 X79 0,001934
11 X15 0,038311 33 X610 0,001875
12 X63 0,038241 34 X76 0,001189
13 X42 0,037798 35 X9 0,0009
14 X52 0,037798 36 X132 0,000365
15 X41 0,037798 37 X73 0,000155
16 X51 0,037798 38 X612 0,000116
17 X131 0,028412 39 X68 0,00006
18 X133 0,028363 40 X67 0,000023
19 X14 0,024508 41 X43 0
20 X611 0,020738 42 X44 0
21 X77 0,007836 43 X53 0
22 X62 0,007815
Tabel 4. Hasil Uji Coba Perbandingan Metode
Metode Akurasi
(%)
Rata-rata Waktu
Komputasi
(detik)
ANN 86,06 3,64
C45 / J48 85,34 0,19
Hybrid SVM 88,71 0,24
Nave Bayes 82,93 0,03
SVM 86,06 0,14
5 KESIMPULAN
Klasifikasi menggunakan hybrid SVM yang
dilakukan dengan cara pemilihan parameter yang
optimal dan pemilihan fitur terlebih dahulu dapat
menambah akurasi hasil klasifikasi. Dari hasil uji
coba, diketahui bahwa akurasi atau CV Rate pada uji
coba dengan menggunakan SVM lebih kecil dari
klasifikasi menggunakan hybrid SVM. Pada SVM
didapatkan CV 86,06%, sedangkan pada hybrid
SVM didapatkan 88,70%.
Perbedaan akurasi walaupun hanya 1% akan
sangat berpengaruh pada kondisi bank, karena hal ini
berhubungan dengan kemungkinan pengembalian
uang pinjaman oleh nasabah kepada bank.
Namun, dengan adanya reduksi fitur
dikhawatirkan akan mengakibatkan terjadinya over
fitting. Model akan menghasilkan akurasi yang tinggi
pada data training, namun tidak dapat melakukan
prediksi dengan tepat pada data testing. Perlu
dilakukan penelitian lebih lanjut tentang efek reduksi
fitur.
6 DAFTAR PUSTAKA
[1] Anonim. 2011. Kredit (Keuangan),
[2] ns/NS/vbn-dtc. 2011. Kredit Macet Perbankan Mencapai Rp 31,336 Triliun,
[3] Reichert, A. K., Cho, C. C., Wagner, G. M. 1983. An Examination of The Conceptual Issues Involved in Developing Credit-scoring
Models. Journal of Business and Economic Statistics 1, 2:101114.
[4] Henley, W. E. 1995. Statistical Aspects of Credit Scoring. Dissertation. The Open University, Milton Keynes, UK.
[5] Henley, W. E., Hand, D. J. 1996. A k-nearest Neighbor Classifier for Assessing Consumer
Credit risk. Statistician 44, 1:7795. [6] Davis, R. H., Edelman, D. B., & Gammerman,
A. J. 1992. Machine Learning Algorithms for Credit-card Applications. Journal of Mathematics Applied in Business and
Industry 4:4351. [7] Desai, V. S., Crook, J. N., & Overstreet, G. A.
1996). A Comparison of Neural Networks and Linear Scoring Models in The Credit Union
Environment. European Journal of Operational Research. 95, 1:2437.
[8] The comparisons of data mining techniques for the predictive accuracy of probability of default
of credit card clients, I cheng yeh
[9] Huang, C., Chen, M., Wang, C. 2006. "Credit Scoring with a Data Mining Approach based on
Support Vector Machines". Expert Systems
with Applications 33, 847-856.
[10] Belotti, T, Crook J. 2008. Support Vector Machines For credit Scoring and Discovery of
Significant Features. Expert Systems with Applications 36, 3302-3308
[11] Zhang, G. P. 2000. Neural Networks for Classification: A survey. IEEE Transactions on Systems, Man, and Cybernetics Part C: Applications and Reviews 30, 4:451462.
[12] Zhang, X., Zhong, S. 2009. Blind Steganalysis Method for bmp Images based on Statistical
mwcf and f-score Method. Proceedings of the
SEMA
NGAT
8
Data Mining Contest Gemastik 2011
ITS Surabaya, 12 13 Oktober 2011
2009 International Conference on Wavelet
Analysis and Pattern Recognition. Baoding
2009.
[13] Hsieh, N. C. 2005. Hybrid Mining Approach in The Design of Credit Scoring Models . Expert Systems with Applications. 28, 4:655665.
[14] Hsu, C. W., Chang, C. C., & Lin, C. J. 2003. A
Practical Guide to Support Vector
Classification,
[15] Chen, Y.-W., & Lin, C.-J. 2005. Combining
SVMs with Various Feature Selection
Strategies,
[16] Chang, C. C., & Lin, C. J. 2001. LIBSVM: a Library for Support Vector Machines,