SEMANGAT Data Mining Gemastik-2011 Revisi

SEMA

NGAT

1

PENENTUAN PERSETUJUAN PEMBERIAN KREDIT BANK

MENGGUNAKAN METODE HYBRID SVM

Erliyah Nurul Jannah1, Rizky Widhanto Herlambang

2, Mario Renato Pangow

3

(Semangat)

Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember

Kampus Sukolilo Surabaya, 60111

Email : erliyah.nj@gmail.com1, rizky.widhanto.herlambang@gmail.com

2, pangow.mario@gmail.com

3

ABSTRAK

Kredit merupakan produk utama dari sebuah bank. Bank dapat memperoleh keuntungan yang besar

dari sektor ini. Namun keuntungan tersebut juga diimbangi dengan besarnya resiko yang akan dihadapi oleh

pihak bank jika terjadi kredit bermasalah, misal kredit macet. Hal ini terjadi karena tak sedikit bank

memutuskan memberi kredit kepada nasabahnya hanya berdasar pada intuisi. Agar dapat mengurangi resiko

terjadinya kredit bermasalah pada persetujuan pemberian kredit, dibutuhkan suatu metode yang dapat

membantu pihak bank dalam menambil keputusan. Hybrid Support Vector Machine (SVM) adalah salah satu

metode data mining yang dapat digunakan untuk mengatasi permasalahan ini. Hybrid SVM pada makalah ini

merupakan kombinasi antara metode SVM dengan kernel Radial Basis Function (RBF), Grid Search, dan F

Score. Grid Search digunakan untuk mengoptimasi parameter kernel, sedangkan F Score digunakan untuk

memilih fitur yang diskriminatif, yaitu fitur yang paling berkontribusi dalam membedakan kelas. Performa

metode Hybrid SVM tidak dipengaruhi oleh jumlah dimensi atau jumlah fitur dari dataset. Uji coba

menunjukkan bahwa Hybrid SVM memiliki tingkat akurasi yang tinggi yaitu 88,70% dan waktu komputasi 0,24

detik.

Kata Kunci: Kredit, Support Vector Machine (SVM), RBF kernel, Hybrid SVM, F Score, Grid Search

1 PENDAHULUAN

Pertumbuhan ekonomi dunia di sektor industri

saat ini sangat pesat. Hal ini mendorong terjadinya

kompetisi industri yang cukup ketat. Sehingga baik

perorangan maupun perusahaan terkadang

membutuhkan tambahan modal untuk melebarkan

ranah industrinya. Modal tersebut salah satunya bisa

diperoleh dari pemberian kredit dari bank.

Kredit menurut wikipedia adalah suatu fasilitas

keuangan yang memungkinkan seseorang atau badan

usaha untuk meminjam uang dan membayarnya

kembali dalam jangka waktu yang ditentukan [1].

Kredit merupakan salah satu produk utama dari

sebuah bank. Bank dapat memperoleh keuntungan

yang besar dari sektor ini. Namun besarnya

keuntungan yang didapat oleh bank juga diimbangi

dengan resiko yang tak bisa diremehkan. Salah satu

resiko pemberian kredit yang mungkin dialami

perusahaan adalah kredit bermasalah, misalnya

nasabah tidak mengembalikan uang pinjaman.

Seperti yang diberitakan oleh situs vibiznews.com

pada tanggal 19 Juli 2011, bahwa jumlah kredit

macet Perbankan Indonesia hingga Mei 2011

sejumlah Rp 34,991 Triliun [2].

Pada dua dekade terakhir, banyak metode telah

dikembangkan sebagai acuan bagi pihak bank untuk

melakukan persetujuan pemberian kredit. Persetujuan

pemberian kredit telah dikembangkan dengan cara

pengelompokan nasabah, apakah seorang nasabah

layak diberi kredit atau tidak. Pengelompokan

tersebut pada umumnya didasarkan pada karakter,

kapasitas, modal, jaminan, dan kondisi ekonomi dari

nasabah tersebut.

Saat ini pihak bank dihadapkan pada suatu

masalah. Mereka berusaha meningkatkan pemberian

volume kredit, namun juga harus dapat mengurangi

tingkat resiko terjadinya kredit bermasalah.

Tak sedikit bank memberikan kredit kepada

nasabahnya hanya berdasar intuisi. Hal ini tentu saja

sangat beresiko terhadap kelancaran kredit. Oleh

sebab itu, dibutuhkan sebuah metode yang akurat

yang dapat membantu dalam penentuan pemberian

kredit bank kepada nasabah.

Berbagai macam metode telah dikembangkan

untuk membantu kreditor dan banker dalam

memutuskan pemberian kredit kepada nasabah.

Metode-metode yang diusulkan sebelumnya telah

menggunakan teknik-teknik yang ada dalam data

mining. Beberapa metode yang telah dilakukan

adalah metode statistik konvensional yang meliputi

linear discriminant model [3], logistic regression

models [4], k-nearest neighbor models [5], decision

tree models [6], dan neural network models [7]. Pada

linear discriminant model, terdapat batasan berupa

asumsi bahwa variabel bebas harus terdistribusi

normal. Padahal kenyataannya variabel bebas belum

SEMA

NGAT

2

Data Mining Contest Gemastik 2011

ITS Surabaya, 12 13 Oktober 2011

tentu terdistribusi normal[8]. Sedangkan pada logistic

regression, model ini tidak efektif untuk menangani

permasalahan klasififikasi non linier dan

permasalahan yang melibatkan interaksi antar

variabel dalam variabel bebas[8]. Dan k-nearest

neighbor models, nilai akurasi dari model bergantung

pada nilai k jumlah ketetanggaan[8].

Pada metode statistik konvensional, probabilitas

yang mendasari model harus diasumsikan terlebih

dahulu untuk dapat menghitung probabilitas posterior

di mana keputusan akan dibuat . Namun SVM dapat

melakukan klasifikasi tanpa batasan atau asumsi ini

[9]. Performa SVM juga tidak bergantung pada

jumlah fitur atau atribut pada dataset. Sehingga

banyaknya fitur tidak mempengaruhi waktu

komputasi. Berbeda dengan beberapa metode data

mining lainnya yang memiliki batasan pada jumlah

fitur, seperti neural network dan decision tree. Fitur

dalam jumlah banyak akan menyebabkan waktu

komputasi semakin lama. Padahal saat ini, teknologi

dituntut untuk dapat menggali informasi dari data

yang berjumlah besar dalam waktu yang singkat.

Akhir-akhir ini telah banyak diajukan metode

gabungan (hybrid) untuk merancang model penilaian

kredit yang efektif. Hal ini dilakukan dengan harapan

dapat meningkatkan akurasi. Dan salah satu metode

hybrid tersebut adalah metode gabungan dengan

melibatkan Support Vector Machine (SVM), atau

lebih dikenal dengan Hybrid SVM. SVM dikenal

sukses dalam klasifikasi di berbagai bidang. Salah

satunya adalah klasifikasi penilaian kredit[10].

Terdapat tiga masalah utama ketika menerapkan

Hybrid SVM dalam proses klasifikasi. Pertama

pemilihan fitur, kedua pemilihan kernel, dan terakhir

adalah penentuan parameter kernel yang optimal.

Pemilihan fitur merupakan hal yang penting

dalam klasifikasi. Pemilihan fitur digunakan untuk

memilih fitur-fitur yang diskriminatif atau yang

paling berkontribusi dalam membedakan kelas. Fitur

yang tidak berkontribusi sebaiknya tidak digunakan

atau direduksi. Reduksi fitur diharapkan dapat

meningkatkan akurasi dan mengurangi waktu

komputasi [11].

Berbagai macam metode pemilihan fitur telah

diajukan, salah satunya adalah metode F Score.

Metode ini sederhana, namun efektif untuk memilih

fitur-fitur yang diskriminatif [12].

Berikutnya adalah permasalahan pemilihan

kernel. Berdasarkan penelitian yang telah dilakukan

oleh Huang C,M., RBF kernel terbukti efektif dalam

melakukan klasifikasi permasalahan persetujuan

pemberian kredit [11].

Setelah pemilihan kernel, selanjutnya adalah

optimasi nilai dari parameter kernel. Grid Search

merupakan algoritma yang efektif untuk menentukan

parameter yang optimal pada kernel Radial Basis

Function (RBF)[13].

Oleh sebab itu, dalam makalah ini metode yang

akan digunakan untuk penentuan persetujuan

pemberian kredit adalah metode hybrid SVM. Yaitu

kombinasi antara metode SVM dengan Grid Search

untuk optimasi parameter kernel SVM dan F Score

untuk pemilihan fitur yang diskriminatif. Hybrid

SVM diharapkan dapat memprediksi penentuan

persetujuan pemberian kredit dengan akurasi yang

tinggi dan waktu komputasi yang relatif singkat.

2 METODE DAN IMPLEMENTASI

Support vector machine (SVM) adalah metode

yang pertama kali dicetuskan oleh Vapnik and

Corinna Cortes pada tahun 1995. SVM dikenal dapat

memecahkan masalah klasifikasi di berbagai bidang,

seperti pattern recognition, bioinformatics, dan text

categorization.

2.1 Preprocessing Data Sebelum proses klasifikasi dilakukan,

diperlukan preprocessing data terlebih dahulu.

Preprocessing ini meliputi :

a. Replace Missing Values Replace Missing Values adalah proses mengisi

semua data yang hilang (missing value). Jika

missing value tersebut bertipe kontinu, maka akan

diisi dengan rata-rata dari seluruh data dalam satu

fitur atau atribut. Namun jika missing value

tersebut bertipe nominal, maka akan diisi dengan

modus dari data keseluruhan dalam satu fitur atau

atribut.

b. Nominal To Binary Nominal To Binary adalah proses mengubah data

nominal menjadi data biner. SVM dapat

melakukan klasifikasi pada data yang bertipe

nominal, namun data tersebut harus terlebih

dahulu diubah menjadi data biner.

c. Normalisasi Normalisasi adalah proses mengubah nilai dari

data pada tiap-tiap atribut kontinu sehingga

menjadi berskala 0 sampai 1. Hal ini bertujuan

untuk menghindari terjadinya dominasi atribut

terhadap hasil klasifikasi.

Gambar 1. Ide Utama Support Vector Machine

SEMA

NGAT

Institut Teknologi Sepuluh Nopember, Penentuan Persetujuan Pemberian Kredit Bank Menggunakan

Metode Hybrid SVM

3

Jika xi adalah data pada atribut ke-i, maka

normalisasi xi atau norm(xi) dapat dilakukan

dengan rumus sebagai berikut :

( )

(1)

dengan mini dan maxi adalah nilai minimum dan

maksimum pada atribut ke-i.

2.2 Support Vector Machine (SVM) Konsep SVM dapat dijelaskan secara sederhana

sebagai usaha untuk mencari hyperlane terbaik yang

berfungsi sebagai pemisah dua buah kelas pada input

space. Hyperplane pemisah terbaik antara dua kelas

adalah hyperplane yang mempunyai margin terbesar.

Margin adalah jarak antara hyperplane tersebut

dengan pattern terdekat dari masing-masing kelas.

Pattern yang paling dekat ini disebut sebagai support

vector. Ilustrasi dari konsep SVM dapat digambarkan

pada Gambar 1.

Data yang tersedia dinotasikan dengan i d,

sedangkan label atau kelas masing-masing

dinotasikan dengan yi {-1,+1} untuk i =1,2,...,n, di

mana n adalah banyaknya data. Permasalahan

optimasi pada SVM adalah :

(

( )) (2)

Dengan untuk semua i = 1n dan

di mana i adalah Langrange

multiplier untuk setiap data i. C adalah nilai yang

akan mengontrol relative cost dari tujuan optimasi

secara keseluruhan.

Pada permasalahan klasifikasi yang bersifat non

separable, fungsi kernel k(xi,xj) dapat digantikan

dengan fungsi yang lain seperti radial basis function

(RBF) yang memiliki fungsi sebagai berikut :

( ) (

) (3)

atau

( ) ( ) (4)

dengan = 1 / 22.

Teknik SVM digunakan dalam makalah ini

karena memiliki kelebihan sebagai berikut :

1. SVM dapat diterapkan pada data yang bertipe nominal namun dengan cara mengubahnya

menjadi data biner

2. Performa SVM tidak dipengaruhi oleh dimensi (jumlah atribut atau fitur) dataset, sehingga SVM

dapat diterapkan untuk memecahkan masalah

klasifikasi dengan dataset berdimensi tinggi.

2.3 Pemilihan Parameter Optimal Menggunakan Grid Search

Parameter yang tepat dapat menambah akurasi

dari metode SVM. Dalam metode SVM dengan

menggunakan kernel Radial Basis Function (RBF),

terdapat dua parameter yaitu C dan Gamma (). Grid Search adalah metode yang digunakan

untuk mencari parameter yang optimal pada SVM

dengan RBF kernel. Metode ini bersifat exhaustive.

Pencarian nilai parameter yang optimal dilakukan

dalam range atau space tertentu. Dalam makalah ini,

range parameter yang digunakan adalah C = 2-5

, 2-3

215 dan = 2-15, 2-13 23 [14]. Parameter yang optimal adalah pasangan C dan

yang menghasilkan Cross Validation (CV) rate tertinggi jika dilakukan k-fold Cross Validation pada

data training.

Langkah-langkah untuk mendapatkan parameter

yang optimal dengan menggunakan Grid Search

dapat dilihat pada Gambar 2 dan secara singkat dapat

dijelaskan sebagai berikut :

Menyiapkan Grid Space, C = 2-5, 2-3 215 dan = 2-15, 2-13 23

Melakukan uji coba klasifikasi untuk tiap-tiap kombinasi C dan

Mengevaluasi dengan k-fold Cross Validation Parameter yang optimal adalah kombinasi C dan

yang menghasilkan Cross Validation Rate tertinggi

2.4 Pemilihan Fitur Menggunakan F Score F Score merupakan salah satu metode pemilihan

fitur yang sederhana namun efektif dalam

menentukan fitur-fitur yang diskriminatif [12]. F

Score memiliki kompleksitas O(nm) di mana n adalah

jumlah data dan m adalah jumlah fitur.

F Score dapat mengukur discriminant dua

himpunan bilangan real. Terdapat vektor data xi, i =

1,2,. . . , m, jika jumlah data positif dan data negatif

adalah n+ dan n-, maka F-score fitur i didefinisikan

sebagai berikut:

( ) ( ( ) )

( ( ) )

(

( )

( ))

(

( )

( ))

(5)

di mana , ( )

, ( )

, adalah rata-rata keseluruhan

data, rata-rata data positif, rata-rata data negatif dari

fitur ke-i, ( )

merupakan fitur ke-i dari data positif

ke-k, sedangkan ( )

merupakan fitur ke-i dari data

negatif ke-k[15].

Pembilang pada Persamaan 5 merupakan

diskriminan dari data positif dan negatif, dan

penyebut dari persamaan tersebut merupakan

diskriman tiap dua data dalam dataset. Semakin besar

nilai F Score, fitur tersebut semakin diskriminatif.

Langkah-langkah pemilihan fitur menggunakan

F Score dapat dilihat pada Gambar 3. Secara umum

SEMA

NGAT

4



prosedur pemilihan tersebut dapat dijelaskan sebagai

berikut :

Menghitung nilai F Score dari masing-masing fitur

Memilih sejumlah f fitur dengan fungsi : f = [n/2

i], i {0, 1, 2, , m} (6)

di mana m adalah bilangan bulat yang

memenuhi n/2m 1 [9]

Mengambil training set T = D k untuk setiap f fitur dalam data set D

Melakukan Cross Validation Menghitung Cross Validation rate Mengambil sejumlah f fitur yang memiliki nilai

Cross Validation rate tertinggi

3 SKENARIO UJI COBA Uji coba dilakukan dengan PC Intel Core i5, 2.3

GHz, dan 4 GB RAM. Tools yang digunakan adalah

Weka versi 3.6.5 yang tersedia di website

http://www.cs.waikato.ac.nz/ml/weka/ dan tambahan

library libSVM [16] untuk uji coba hybrid SVM.

3.1 Dataset

Pada tahap uji coba ini, data yang digunakan

merupakan data history nasabah dari sebuah bank

dengan jumlah record sebanyak 416 record. Jumlah

record yang termasuk kelas SETUJU adalah 185 record. Dan jumlah record yang termasuk dalam

kelas TOLAK sebanyak 231 record. Dataset ini terdiri dari 15 atribut dan 1 kelas.

Jumlah atribut yang bertipe kontinu sebanyak 6

atribut dan jumlah atribut yang bertipe nominal 9

atribut.

Siapkan Grid Space (C, )

Uji coba klasifikasi untuk tiap-

tiap kombinasi nilai C dan dan lakukan k-fold cross validation

Hitung nilai Cross

Validation (CV) rate

Ambil kombinasi C dan yang menghasilkan CV rate

tertinggi sebagai parameter

optimal

Gambar 2. Prosedur pemilihan parameter yang

optimal dengan metode Grid Search

Hitung F Score dari

masing-maing fitur

Urutkan fitur

berdasarkan F Score

Ambil sejumlah f fitur dengan F Score

tertinggi untuk uji coba klasifikasi dan

lakukan k-fold cross validation. Ulangi

langkah ini dengan nilai f yang berbeda

Ambil sebanyak f fitur yang menghasilkan CV rate tertinggi

untuk proses klasifikasi

Hitung nilai Cross

Validation (CV) rate

Gambar 3. Prosedur Pemilihan Fitur dengan F

Score

3.2 Preprocessing Tahap preprocessing data dapat dijelaskan

sebagai berikut :

a. Replace Missing Values Dalam dataset yang digunakan untuk uji coba

pada makalah ini, terdapat 7 atribut yang

mengandung missing value. Missing value

tersebut akan diisi dengan nilai rata-rata (mean)

atau modus dari data yang ada pada tiap-tiap

atribut. Nilai rata-rata digunakan untuk mengisi

missing value pada atribut yang bertipe kontinu,

dan nilai modus untuk atribut yang bertipe

nominal.

Daftar atribut yang mengandung missing value

beserta nilai mean atau modus dari atribut

tersebut dapat dilihat pada Tabel 1.

b. Nominal To Binary Terdapat 9 atribut yang bertipe nominal dalam

dataset. Untuk mengubah atribut yang bertipe

nominal menjadi biner, dapat dilakukan dengan

cara menghitung jumlah kemungkinan nilai yang

dapat mengisi atribut tersebut.

Misal untuk atribut X4, nilai yang mungkin yang

dapat mengisi atribut X4 adalah 1,2,3, atau 4

(dapat diketahui dari keterangan yang ada dalam

dataset). Jadi, jumlah kategori yang mungkin

mengisi atribut X4 berjumlah empat kategori.

Sehingga atribut X4 akan dipecah menjadi empat

atribut yaitu X41, X42, X43, dan X44. Atribut X41

SEMA

NGAT


Metode Hybrid SVM

5

sampai dengan X44 ini hanya boleh diisi dengan

nilai 0 atau 1.

Untuk atribut nominal yang hanya memiliki dua

kategori, tidak perlu dipecah menjadi dua atribut.

Karena atribut tersebut sudah dapat menampung

nilai 0 atau 1 (nilai biner).

Atribut-atribut bertipe nominal yang telah diubah

menjadi biner dapat dilihat pada Tabel 2. Dari

Tabel 2, dapat dihitung jumlah atribut hasil proses

Nominal To Binary. Semula jumlah atribut

nominal adalah 9 atribut. Setelah dilakukan

proses Nominal To Binary, kesembilan atribut

tersebut dipecah menjadi 37 atribut. Sehingga saat

ini dataset terdiri dari 37 atribut ditambah dengan

6 atribut kontinu, menjadi 43 atribut.

c. Normlisasi Proses normalisasi hanya dilakukan pada atribut

yang pertipe kontinu, yaitu atribut X2, X3, X8,

X11, X14, dan X15.

Untuk normalisasi X2, nilai minimum dan

maksimum yang ada pada atribut tersebut harus

dicari terlebih dahulu.

Nilai minimum untuk atribut X2 adalah 15,17 dan

nilai maksimumnya adalah 30,02. Maka untuk

normalisasi nilai-nilai yang ada pada atribut X2

dilakukan dengan perhitungan :

( )

dengan xi adalah nilai yang ada pada atribut X2.

Hal yang sama juga dilakukan untuk atribut

kontinu yang lain. Dicari terlebih dahulu nilai

minimum dan maksimumnya, kemudian

normalisasinya dapat dilakukan dengan

Persamaan 1.

3.3 Uji Coba Pemilihan Parameter dengan Grid Search

Dalam uji coba penentuan parameter yang

optimal untuk SVM dengan kernel RBF, range nilai

parameter C dan yang akan diuji coba adalah C = 2-5, 2

-3 215 dan = 2-15, 2-13 23 [14].

Gambar 4 merupakan grafik uji coba parameter

dengan menggunakan Grid Search.

Tabel 1. Data atribut dengan missing value

Atribut Jenis

Jumlah

Missing

Value

Nilai

Mean

Nilai

Modus

X1 Nominal 3 - 1

X4 Nominal 2 - 1

X5 Nominal 2 - 1

X6 Nominal 2 - 1

X7 Nominal 2 - 1

X2 Kontinu 8 30,02 -

X14 Kontinu 7 183,36 -

Tabel 2. Hasil proses Nominal To Binary untuk

atribut bertipe nominal

Atribut Jumlah

Kategori

Hasil Nominal To Binary

X1 2 X1

X4 4 X41, X42, X43, X44

X5 3 X51, X52, X53

X6 14 X61, X62, X63, X64, X65, X66,

X67, X68, X69, X610, X611,

X612, X613, X614

X7 9 X71, X72, X73, X74, X75, X76,

X77, X78, X79

X9 2 X9

X10 2 X10

X12 2 X11

X13 3 X131, X132, X133

Gambar 4. Uji coba penentuan parameter

menggunakan Grid Search

3.4 Uji Coba Pemilihan Fitur Menggunakan F Score

Karena sebelumnya telah dilakukan

preprocessing data Nominal To Binary, maka dari

data semula yang mempunyai 15 atribut berubah

menjadi 43 atribut. Semua atribut tersebut dihitung

nilai F Score-nya. Kemudian diurutkan berdasarkan

nilai F Score tertinggi. Atribut atau fitur yang

memiliki nilai F Score = 0

tidak akan diikutkan

dalam proses berikutnya atau diabaikan.

Kemungkinan jumlah fitur yang akan dipilih

adalah sejumlah f fitur dengan f memenuhi fungsi f =

[n/2i], i {0, 1, 2, , m}, m bilangan bulat yang

memenuhi n/2m 1 [9].

Jika jumlah atribut ada 43 dan 3 atribut

diabaikan karena hanya berisi 0. Sehingga saat ini

jumlah atribut menjadi 40, maka nilai f yang mungkin

adalah 40, 20, 10, 5.

Dari semua kemungkinan nilai f tersebut, akan

dilakukan uji coba klasifikasi. Sejumlah f fitur yang

memiliki CV Rate tertinggi akan dipilih sebagai

atribut. Dan akan digunakan dalam proses

selanjutnya.

SEMA

NGAT

6



3.5 Uji Coba Hybrid SVM Proses klasifikasi dilakukan dengan metode

hybrid SVM dengan data yang didapat dari dua

proses sebelumnya, yaitu proses pemilihan fitur dan

optimasi parameter. Dalam proses ini, dilakukan k-

fold cross validation dengan k = 5, 6, , 10. k-fold cross validation yang menghasilkan nilai akurasi

paling tinggi akan dipilih sebagai model untuk proses

prediksi dengan data testing yang baru.

4 HASIL UJI COBA

Uji coba pada mulanya dilakukan dengan

mengklasifikasi data dengan menggunakan SVM,

dengan parameter default yang terdapat di Weka

yaitu C = 1 dan = 0, serta jumlah atribut tidak dikurangi. Uji coba ini menghasilkan Cross

Validation Rate 86,06%.

4.1 Hasil Uji Coba Pemilihan Parameter Optimal dengan Grid Search

Telah dilakukan uji coba optimasi parameter

kernel RBF dengan metode Grid Search yang dapat

dilihat pada Gambar 4. CV rate tertinggi didapat

ketika kombinasi C dan bernilai 0,125 dan 0,125 serta k = 6 dengan nilai 88,22 %. Kedua nilai ini

akan digunakan sebagai parameter SVM dengan

kernel RBF pada proses selanjutnya.

4.2 Hasil Uji Coba Pemilihan Fitur menggunakan F SCore

Proses pemilihan fitur dengan menggunakan F

Score telah menghasilkan urutan fitur berdasarkan

nilai F Score nya. Urutan fitur tersebut dapat dilihat

pada Tabel 3. Semakin besar nilai F Score, fitur

tersebut semakin diskriminatif.

Dari Tabel 3, dapat diketahui bahwa terdapat

tiga fitur dengan nilai F Score = 0. Ketiga fitur

tersebut tidak akan diikutkan dalam proses

klasifikasi.

Dengan data F Score pada Tabel 3, dilakukan

uji coba klasifikasi menggunkan SVM sebanyak 4

kali, yaitu dengan jumlah atribut f = 40, 20, 10, dan

5. Serta dengan parameter RBF kernel C = 0,125, = 0,125. Setelah dilakukan 5-fold cross validation,

didapatkan hasil CV rate seperti pada Gambar 5.

Dari Gambar 4, dapat diketahui bahwa f fitur

dengan CV rate terbaik didapat pada nilai f = 20 dan f

= 40 yaitu dengan nilai 88,46 %. Jadi, untuk proses

selanjutnya jumlah fitur yang digunakan adalah 40

atau 20.

4.3 Hasil Uji Coba Klasifikasi Menggunakan SVM

Telah dilakukan uji coba klasifikasi

menggunakan SVM dengan jumlah fitur 40 dan 20.

Namun dengan k-fold cross validation yang berbeda-

beda. Hasil uji coba tersebut dapat dilihat pada

Gambar 6.

Dari uji coba klasifikasi data persetujuan

pemberian kredit dengan metode hybrid SVM, dapat

diketahui bahwa reduksi jumlah fitur dari 40 fitur

menjadi 20 dapat menghasilkan akurasi yang tidak

jauh berbeda. Bahkan pada k = 10 menghasilkan CV

Rate yang sama, yaitu 88,70%. Model ini selanjutnya

akan digunakan untuk memprediksi data testing yang

baru.

Gambar 5. Grafik CV Rate untuk Pemilihan f

Jumlah Fitur Terbaik

Gambar 6. Grafik CV Rate Klasifikasi dengan

Jumlah Fitur 40

4.4 Perbandiangan dengan Metode Lain Pada tahap ini, dilakukan uji coba untuk

membandingkan performa hybrid SVM dengan

beberapa metode data mining lainnya. Hasil uji coba

perbandingan performa metode dapat dilihat pada

Tabel 4.

Dari Tabel 4 dapat diketahui bahwa hybrid

SVM memiliki tingkat akurasi yang paling tinggi

dibanding keempat metode lainnya, dan hybrid SVM

membutuhkan waktu yang singkat untuk melakukan

proses klasifikasi dibanding beberapa metode

lainnya.

SEMA

NGAT


Metode Hybrid SVM

7

Tabel 3. Nilai F Score Tiap-tiap Fitur

No Atribut F Score No Atribut F Score

1 X9 1,202195 23 X12 0,007038

2 X10 0,311402 24 X64 0,005934

3 X11 0,209408 25 X66 0,005934

4 X8 0,141035 26 X71 0,003675

5 X72 0,070294 27 X61 0,003166

6 X3 0,057741 28 X65 0,003019

7 X614 0,048 29 X74 0,002959

8 X78 0,046893 30 X1 0,002446

9 X52 0,04669 31 X75 0,001934

10 X69 0,040144 32 X79 0,001934

11 X15 0,038311 33 X610 0,001875

12 X63 0,038241 34 X76 0,001189

13 X42 0,037798 35 X9 0,0009

14 X52 0,037798 36 X132 0,000365

15 X41 0,037798 37 X73 0,000155

16 X51 0,037798 38 X612 0,000116

17 X131 0,028412 39 X68 0,00006

18 X133 0,028363 40 X67 0,000023

19 X14 0,024508 41 X43 0

20 X611 0,020738 42 X44 0

21 X77 0,007836 43 X53 0

22 X62 0,007815

Tabel 4. Hasil Uji Coba Perbandingan Metode

Metode Akurasi

(%)

Rata-rata Waktu

Komputasi

(detik)

ANN 86,06 3,64

C45 / J48 85,34 0,19

Hybrid SVM 88,71 0,24

Nave Bayes 82,93 0,03

SVM 86,06 0,14

5 KESIMPULAN

Klasifikasi menggunakan hybrid SVM yang

dilakukan dengan cara pemilihan parameter yang

optimal dan pemilihan fitur terlebih dahulu dapat

menambah akurasi hasil klasifikasi. Dari hasil uji

coba, diketahui bahwa akurasi atau CV Rate pada uji

coba dengan menggunakan SVM lebih kecil dari

klasifikasi menggunakan hybrid SVM. Pada SVM

didapatkan CV 86,06%, sedangkan pada hybrid

SVM didapatkan 88,70%.

Perbedaan akurasi walaupun hanya 1% akan

sangat berpengaruh pada kondisi bank, karena hal ini

berhubungan dengan kemungkinan pengembalian

uang pinjaman oleh nasabah kepada bank.

Namun, dengan adanya reduksi fitur

dikhawatirkan akan mengakibatkan terjadinya over

fitting. Model akan menghasilkan akurasi yang tinggi

pada data training, namun tidak dapat melakukan

prediksi dengan tepat pada data testing. Perlu

dilakukan penelitian lebih lanjut tentang efek reduksi

fitur.

6 DAFTAR PUSTAKA

[1] Anonim. 2011. Kredit (Keuangan),

[2] ns/NS/vbn-dtc. 2011. Kredit Macet Perbankan Mencapai Rp 31,336 Triliun,

[3] Reichert, A. K., Cho, C. C., Wagner, G. M. 1983. An Examination of The Conceptual Issues Involved in Developing Credit-scoring

Models. Journal of Business and Economic Statistics 1, 2:101114.

[4] Henley, W. E. 1995. Statistical Aspects of Credit Scoring. Dissertation. The Open University, Milton Keynes, UK.

[5] Henley, W. E., Hand, D. J. 1996. A k-nearest Neighbor Classifier for Assessing Consumer

Credit risk. Statistician 44, 1:7795. [6] Davis, R. H., Edelman, D. B., & Gammerman,

A. J. 1992. Machine Learning Algorithms for Credit-card Applications. Journal of Mathematics Applied in Business and

Industry 4:4351. [7] Desai, V. S., Crook, J. N., & Overstreet, G. A.

1996). A Comparison of Neural Networks and Linear Scoring Models in The Credit Union

Environment. European Journal of Operational Research. 95, 1:2437.

[8] The comparisons of data mining techniques for the predictive accuracy of probability of default

of credit card clients, I cheng yeh

[9] Huang, C., Chen, M., Wang, C. 2006. "Credit Scoring with a Data Mining Approach based on

Support Vector Machines". Expert Systems

with Applications 33, 847-856.

[10] Belotti, T, Crook J. 2008. Support Vector Machines For credit Scoring and Discovery of

Significant Features. Expert Systems with Applications 36, 3302-3308

[11] Zhang, G. P. 2000. Neural Networks for Classification: A survey. IEEE Transactions on Systems, Man, and Cybernetics Part C: Applications and Reviews 30, 4:451462.

[12] Zhang, X., Zhong, S. 2009. Blind Steganalysis Method for bmp Images based on Statistical

mwcf and f-score Method. Proceedings of the

SEMA

NGAT

8



2009 International Conference on Wavelet

Analysis and Pattern Recognition. Baoding

2009.

[13] Hsieh, N. C. 2005. Hybrid Mining Approach in The Design of Credit Scoring Models . Expert Systems with Applications. 28, 4:655665.

[14] Hsu, C. W., Chang, C. C., & Lin, C. J. 2003. A

Practical Guide to Support Vector

Classification,

[15] Chen, Y.-W., & Lin, C.-J. 2005. Combining

SVMs with Various Feature Selection

Strategies,

[16] Chang, C. C., & Lin, C. J. 2001. LIBSVM: a Library for Support Vector Machines,

SEMANGAT Data Mining Gemastik-2011 Revisi

Documents

Transcript of SEMANGAT Data Mining Gemastik-2011 Revisi

Nikel Mining

LEAN MINING

Proses Data Mining

Data Mining

Makalah Data Mining

Panduan GEMASTIK 2010

Underground Mining

Text Mining

Base Mining

PagelaranMahasiswaNasional BidangTeknologi Informasidan …kemahasiswaan.bsi.ac.id/homepage/download/dokumen/... · Sejarah Gemastik Gemastik Tahun Venue Gemastik-01 2008 Tel-U Gemastik-02

PagelaranMahasiswaNasional BidangTeknologi Informasidan … · PagelaranMahasiswaNasional BidangTeknologi Informasidan Komunikasi(GeMasTIK) XIII/2020 Webinar SosialisasiGeMasTIKXIII/2020

Tugas Data Mining

Laporan Text Mining

Placer Mining

Panduan Umum GeMasTIK v 2012

GEMASTIK 2015

Konsep data mining

Contoh data mining

Mining Reklamation

analisa data mining