PENERAPAN DATA MINING MENGGUNAKAN ALGORITMA...
Transcript of PENERAPAN DATA MINING MENGGUNAKAN ALGORITMA...
PENERAPAN DATA MINING MENGGUNAKAN ALGORITMA C4.5
UNTUK MEMPREDIKSI KELANCARAN PEMBAYARAN NASABAH
(Studi Kasus: BMT Al Ikhwan)
NASKAH PUBLIKASI
diajukan oleh
Tria Septia Depi
11.11.5403
kepada
JURUSAN TEKNIK INFORMATIKA
SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER
AMIKOM YOGYAKARTA
YOGYAKARTA
2014
1
APPLICATION OF C4.5 ALGORITHM USING DATA MINING
TO PREDICT SMOOTHNESS CUSTOMER PAYMENT
(CASE STUDY: BMT AL IKHWAN)
PENERAPAN DATA MINING MENGGUNAKAN ALGORITMA C4.5 UNTUK
MEMPREDIKSI KELANCARAN PEMBAYARAN NASABAH
(Studi Kasus: BMT Al Ikhwan)
Tria Septia Depi
Kusrini
Jurusan Teknik Informatika
STMIK AMIKOM YOGYAKARTA
ABSTRACT
In the field of business finance credit unions exist in BMT Al Ikhwan had experienced problems in determining the prospective new customers, especially in their transactions when the customer wants to borrow. Issues that arise include the customer can not afford to pay anymore money that has been borrowed earlier. To the agency and client side experience disappointment, consequently comfort perceived by the customer and the institution itself disrupted. By designing this application because it would be seen from a number of factors that support the decision of one of the types of work and the amount of the loan to strengthen the customer is able to smooth the process of loan payment or not.
The problems that occur are dealt with a case that is capable of searching for data reinforce the results of the decision and the expected decision technique C4.5 algorithm generated will be accurate.
The results of this study will produce an output that is if the prospective customer the customer meets the criteria of BMT Al-Ikhwan it will be recommended to loan capital, however if it does not meet the required standards, the institution prospective customer will not be recommended in lending capital.
Keywords: Data Mining, Job Type, Loan Amount, the C4.5 algorithm, Cooperative
2
1. Pendahuluan
Perkembangan ekonomi saat ini sangat pesat, itu terjadi karena kebutuhan dari
masyarakat sangat meningkat. Dengan demikian akibat dari perkembangan yang pesat
tersebut bukan tidak mungkin dapat menimbulkan permasalahan ekonomi dari sebagian
masyarakat dalam memanajemen keuangan dengan baik.
BMT Al Ikhwan merupakan salah satu contoh Lembaga Keuangan Mikro (LKM)
yang mampu mengatasi permasalahan perekonomian dari masyarakat. Terbukti disetiap
periode jumlah calon nasabah mengalami peningkatan. Untuk itu dengan peningkatan
tersebut pihak lembaga terkait harus meningkatkan juga kualitas dari sistem yang
mengelola setiap transakssi yang dilakukan. Oleh karena itu dibutuhkan sebuah sistem
yang dapat membantu memanajemen para nasabahnya, namun pihak lembaga terkait
mengalami kesulitan dalam memprediksi kelancaran pembayaran pinjaman nasabah.
Sehingga dalam mengatur nasabah dalam peminjaman tersebut masih dilakukan secara
manual dengan cara mensurvey tempat tinggal calon nasabah.
Dengan itu aplikasi ini akan membantu pihak lembaga terkait agar dapat
memprediksi kelancaran pembayaran pinjaman yang dilakukan oleh nasabah tersebut,
jadi pihak lembaga terkait dapat mengatasi masalah sedini mungkin sehingga tidak
terjadi ketidak puasan dari nasabah maupun pihak lembaga. Dalam aplikasi ini akan
mengimplementasikan Data Minig menggunakan Algoritma C4.5.
Menurut Han dan Kanber (2006:6) menjelaskan bahwa “Data Mining” merupakan
pemilihan atau “Menggali” pengetahuan dari jumlah data yang banyak. Data Mining
menurut David Hand, Heikki Mannila dan Padhreic Smyth adalah analisa terhadap data
(biasanya data yang berukuran besar) untuk menemukan hubungan yang jelas serta
menyimpulkannya yang belum diketahui sebelumnya dengan cara terkini dipahami dan
berguna bagi pemilik data tersebut (Larose, 2006).
Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon
keputusan, dengan metode pohon keputusan kita dapat mengubah fakta yang sangat
besar menjadi pohon keputusan yang mempresentasikan aturan. Pohon keputusan juga
berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara
sejumlah calon variabel input dengan sebuah variabel target (Kusrini dan Emha Taufiq
Luthfi, 2009).
3
2. Landasan Teori
2.1 Pengertian Data Mining
Data Mining adalah suatu istilah yang digunakan untuk menguraikan penemuan
pengetahuan didalam database. Data mining adalah proses yang menggunakan teknik
statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan
mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terakit dari berbagai
database besar (Turban, dkk.2005).
Menurut Gartner Group data mining adalah suatu proses menemukan hubungan
yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar data
yang tersimpan dalam penyimpanan dengan menggunakan teknik pola seperti teknik
statistik dan matematika (Larose, 2005).
2.2 Pohon Keputusan
Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat
dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi
pohon keputusan yang mempresentasikan aturan. Aturan dapat dengan mudah dipahami
dengan bahasa alami. Dan mereka juga dan diekspresikan dalam bentuk bahasa basis
data seperti Structured Query Language untuk mencari record pada kategori tertentu.
(Kusrini, 2009)
Pohon keputusan juga berguna untuk mengeksplorasi data, menemukan
hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel
target. (Kusrini, 2009)
2.3 Desain Model Aplikasi
Desain model dari aplikasi terdiri dari physical model dan logical model. Physical
model dapat digambarkan dengan bagan alir sistem. Logical model dalam system
informasi lebih menjelaskan kepada pengguna bagaimana nantinya fungsi-fungsi di
system informasi secara logika akan bekerja. Logical model dapat digambarkan dengan
DFD (Data Flow Diagram) dan kamus data (Data Dictionary).
2.4 Algoritma C4.5
Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah
sebagai berikut.
4
a. Pilih atribut sebagai akar.
b. Buat cabang untuk tiap-tiap nilai.
c. Bagi kasus dalam cabang.
d. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki
kelas yang sama.
Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-
atribut yang ada. Untuk menghitung gain digunakan rumus seperti tertera dalam
persamaan 1 berikut.
Keterangan:
S : himpunan kasus
A : atribut
N : jumlah patrisi atribut A
|Si| : jumlah kasus pada partisi ke-i
|S| : jumlah kasus dalam S
Sementara itu, penghitungan nilai entropi dapat dilihat pada persamaan 2 berikut.
Keterangan:
S : himpunan kasus
A : fitur
n : jumlah partisi S
pi :proporsi dari Si terhadap S.
5
3. Analisis dan Perancangan Sistem
3.1 Analisis Sistem
Analisis sistem merupakan suatu tahapan mendeskripsikan data-data yang akan
digunakan sebagai dasar dari suatu perangkat lunak, fungsi dan kinerja, menunjukkan
interface perangkat lunak, membangun batasan yang harus dipenuhi oleh suatu
perangkat lunak. Sedangkan Sistem adalah kumpulan elemen yang saling berhubungan
dan berinteraksi dalam satu kesatuan untuk menjalankan suatu proses pencapaian suatu
tujuan utama (Sutarman, 2012:13). Pengertian ini merupakan pendekatan sistem yang
lebih menekankan pada elemen atau komponennya. Analisis sistem yang di paparkan
dalam pembahasan ini merupakan gambaran secara keseluruhan kendala-kendala yang
ada dalam aplikasi data mining yang berbasis algoritma C4.5 pada sistem BMT Al
Ikhwan. Dengan adanya sistem yang masih bersifat manual mengakibatkan proses
sistem yang terjadi kurang efektif dan efisien
3.2 Analisis Data
Data dari sistem adalah berupa atribut yang dimiliki oleh nasabah, nilai
atributnya,, dan nilai kemungkinannya. Data yang dimaksud adalah data yang
mempunyai minimal dua kolom atribut. Satu kolom sebagai kolom atribut masukkan dan
satu kolom sebagai kolom atribut target. Dari setiap kolom terdapat nilai-nilai yang akan
dipergunakan untuk kalkulasi, dan nilai dari setiap atribut harus bersifat diskret.
Beberapa komponen variabel yang digunakan yaitu:
1. Tahun
Variabel tahun berisi seluruh kemungkinan tahun dari setiap nasabah. Variabel
yang sudah ditentukan pada program berdasarkan hasil pengelompokan survei
yaitu tahun 2012.
2. Jenis Kelamin
Variabel ini berisi data jenis kelamin dari nasabah yang digunkan untuk
pembentukan keputusan. Pengelompokkan yang ada berdasarkan ketentuan
oleh program yang dibuat yaitu L (laki-laki) dan P (perempuan).
3. Jumlah Pinjaman
Variabel ini berisi data jumlah pinjaman yang di ajukan oleh nasabah yang telah
disetujui dari pihak BMT Al Ikhwan. Minimal jumlah peminjaman yaitu Rp.
500.000 sampai Rp.5000.000, Rp.6000.000 sampai Rp.15.000.000,
Rp.16.000.000 sampai Rp.50.000.000 dan Rp.51.000.000 sampai
Rp.150.000.000.
4. Jenis Pekerjaa
6
5.
Variabel ini berisikan jenis pekerjaan dari nasabah. Pengelompokkan yang ada
berdasarkan Jasa, Pedagang dan Produsen.
6. Jenis akad
Variabel ini berisi kesepakatan antara nasabah dan pihak BMT untuk memenuhi
hak dan kewajiban dari masing masing pihak, atau dengan kata lain jenis akad ini
merupakan perjanjian lama angsuran dari pihak nasabah dan pihak BMT.
Pengelompokkan yang ditentukan adalah Murobahah, Ijaroh, Al Hiwalah.
7. Karakter
Variabel ini berisikan jenis karakter dari nasabah. Pengelompokkan yang ada
terdiri dari dua karekter yaitu bagus dan bermasalah.
8. Keputusan
Variabel ini merupakan data yang berfungsi untuk menentukan hasil keputusan.
Dalam pengelompokan data sudah ditentukan secara tetap agar tidak terjadi
kesalahan dalam perhitungan proses program. Data keputusan hanya memiliki
dua buah nilai yaitu “YA” dan “TIDAK”.
3.3 Analisis Model
Kebutuhan masukan dari sistem adalah berupa atribut yang dimiliki oleh sebuah
variabel, nilai atribut, dan nilai kemungkinannya yang dibuat kedalam sebuah data tabel.
Data tabel yang dimaksud adalah data yang mempunyai minimal dua kolom atribut. Satu
kolom atribut masukan dan satu kolom sebagai atribut target. Dari setiap kolom terdapat
nilai-nilai yang akan dipergunakan untuk kalkulasi, dan nilai dari setiap atribut harus
bersiat rahasisa.Berikut adalah data untuk menentukan kelancaran pembayaran atau
tidaknya dari suatu nasabah.
Di bawah ini adalah cara perhitungan menggunakan algoritma C4.5, perhitungan
ini dilakukan dari data yang terdapat dalam skripsi.
7
Tabel 1 Perhitungan Node 1
Jml
Kasus Yes No Entropy Gain
(S) (S1) (S2)
node 1 15 9 6 0.970950594
Tahun 0
2012 15 9 6 0.970950594
Jk 0.003396422
L 3 2 1 0.918295834
P 12 7 5 0.979868757
Karakter 0.603632261
Bagus 9 9 0 0
Bermasalah 6 2 4 0.918295834
Pekerjaan 0.087943095
Pedagang 8 6 2 0.811278124
Jasa 4 2 2 1
Produksi 3 1 2 0.918295834
Jml Pinjaman 0.087943095
500.000-5.000.000 8 6 2 0.811278124
16.000.000-60.000.000 3 1 2 0.918295834
6.000.000-15.000.000 2 1 1 1
61.000.000-160.000.000 2 1 1 1
Jenis Akad 0.019973094
Murobahah 9 6 3 0.918295834
Ijaroh 2 1 1 1
Al Hiwalah 4 2 2 1
8
Dari hasil perhitungan yang dilakukan dari tahap ke tahap maka dapat dihasilkan
pohon keputusan akhir seperti dibawah ini.
Karakter
1.1
Jumlah
Pinjaman
Bermasalah
TidakTidak Ya
Bagus
Ya
1.1.1
Jenis
Pekerjaan
5rts sd 5jt6jt sd 15jt
16jt sd 60jt 61jt sd 160jt
Ya Tidak Ya
Pedagang Jasa Produksi
Gambar 3 Pohon Keputusan Akhir
4. Implementasi dan Pembahasan
Tahap implementasi sistem merupakan tahap meletakkan sistem agar siap
dioperasikan setelah melakukan analisis dan perancangan secara rinci dengan
menggunakan teknologi yang dipilih. Tahap ini termasuk kegiatan menulis kode program.
Implementasi juga merupakan penerapan dari elemen-elemen yang telah didalam bentuk
pemrograman untuk menghasilkan suatu tujuan berdasarkan kebutuhan pembuatan
sistem.
Tahapan implementasi dilakukan ketika sistem selesai dan telah melalui tahap
pengujian program. Sehingga sistem tersebut siap untuk digunakan. Pengujian sistem
dilakukan untuk mengetahui apakah program telah bebas dari kesalahan-kesalahan
sebelum diterapkan. Kesalahan program yang mungkin terjadi adalah kesalahan
(syntax). Yakni kesalahan pada penulis source code program dan kesalahan pada saat
9
program sedang berjalan (runtime), yaitu kesalahan pada saat execubale program
dijalankan.
4.1 Hasil dari Pengetesan Program
Beberapa hasil dari pengetesan program yang dihasilkan yaitu sebagai berikut:
1. Data Nasabah
Data nasabah adalah data kasus dari nasabah yang akan dilakukan perhitungan
menggunakan teknik Algoritma C4.5 dan akan membentuk suatu pohon
keputusan. Dibawah ini adalah hasil uji dari sistem saat data kasus dimasukkan
dalam sistem.
Gambar 3.1 Data Kasus Nasabah
2. Pohon Keputusan
Hasil uji dari pohon keputusan dapat berjalan dengan baik serta mampu
menampilkan hasilnya. Pohon keputusan ini didapat setelah data kasus
sebelumnya selesai dilakukan perhitungan menggunakan teknik algoritma c4.5.
Dibawah ini adalah tampilan pohon keputusan dari sistem.
10
Gambar 3.2 Pohon Keputusan
3. Testing
Form Testing ini di gunakan untuk menguji ketika calon nasabah akan melakukan
transaksi dan melihat apakah calon nasabah tersebut berhak di beri rekomendasi
atau tidak. Selain itu jika calon nasabah tersebut di rekomendasikan maka
datanya tersimpan otomatis pada database dan jika tidak direkomendasikan
maka data tidak tersimpan ke database. Proses dari form ini dilihat dari rule
pohon keputusan yang telah terbentuk pada menu C45. Ketika dilakukan
pengetesan, program ini dapat berjalan dengan baik seperti yang terlihat pada
gambar dibawah ini.
Gambar 3.3 Hasil Uji Testing
11
5. Penutup
5.1 Kesimpulan
Berdasarkan hasil penelitian dan pembahasan yang telah dilakukan dapat
diambil kesimpulan, antara lain:
1. Sistem mampu melakukan prediksi calon nasabah yang akan melakukan
transaksi. Prediksi yang dilakukan berdasarkan rule pohon keputusan yang
terbentuk sebelumnya.
2. Sistem mampu mengimplementasikan pohon keputusan menggunakan algoritma
C4.5 dengan cara menginputkan data kasus yang akan dilakukan prediksi.
3. Perancangan pohon keputusan memudahkan dalam proses penalaran penentu
pola keputusan yang terbentuk.
4. Data yang dapat diambil hanya file yang berekstensi *.csv (Comma Delimited).
5. Sistem ini dapat mengelompokkan nasabah yang ingin di tampilkan berdasarkan
nomor identitas dan karakter.
6. Perhitungan yang di hasilkan oleh sistem sama dengan perhitungan yang
dilakukan manual.
7. Sistem dapat melakukan testing atau kelayakan calon nasabah apakah di
rekomendasikan untuk menjadi anggota atau tidak. Form testing mengambil
acuan dari rule keputusan yang telah dibentuk sebelumnya.
8. Pada program yang telah dibuat, semua komponen dapat berjalan dengan baik
dan sesuai dengan hasil output yang diinginkan.
5.2 Saran
Mengingat keterbatasan yang dimiliki oleh penulis, baik pengetahuan, waktu,
maupun pemikiran, maka penulis dapat memberikan beberapa gambaran sebagai saran
yang dapat dipakai sebagai acuan dalam pengembangan aplikasi ini di masa yang akan
datang, antara lain:
1. Selama melakukan penelitian terdapat variabel yang dibutuhkan namun tidak
dimiliki oleh bagian administrasi dan keuangan. Oleh karena itu saran untuk BMT
Al Ikhwan adalah agar menambahkan variabel yang di butuhkan misalkan
penambahan variabel angsuran. (perlu penyesuaian lagi).
2. Menyempurnakan segala kekurangan dari program yang belum diketahui oleh
penulis. Seperti menambah variabel-variabel data dari sosial dan psikologi calon
nasabah yang analisanya dapat dilakukan pada jenjang lebih lanjut.
3. Untuk pengembangan sistem sebaiknya tampilan di buat lebih menarik dari
sistem ini karena tampilannya masih dinilai sederhana.
12
Daftar Pustaka
BMT Al Ikhwan. http://bmt-alikhwan.com/. Diakses tanggal 20 Mei 2014.
Han, J. dan Kamber, M. (2006), Data mining: Concepts and techniques
(2nd ed,),Elsevier Inc. diakses dari
http://www.cs.uiuc.edu/homes/hanj/bk2/toc.pdf#page=1&zoom=auto,0,843 pada
tanggal 15 November 2013
Jefri. (2013). Implementasi Algoritma C4.5 Dalam Aplikasi Untuk Memprediksi Jumlah
Mahasiswa Yang Mengulang Mata Kuliah. Yogyakarta : STMIK AMIKOM.
Kusrini dan Luthfy, E.T. 2009. Algoritma Data Mining. Yogyakarta: Andi.