Klasifikasi Nasabah Leasing DenganAlgoritmaC.45 Deciscion Tree
-
Upload
ihsanmedia-corp -
Category
Documents
-
view
57 -
download
2
description
Transcript of Klasifikasi Nasabah Leasing DenganAlgoritmaC.45 Deciscion Tree
-
MAKALAH
Klasifikasi Nasabah Leasing dengan Algoritma C.45/
deciscion tree
Kelompok :
Rekso Dwi Harmono 2012-51-185
Najih Izzan Z 2012-51-168
Syauqi Daroja 2012-51-189
Aji Joko Pramono 2012-51-186
Joko Pramono 2012-51-200
Agung Salim Ahyar 2012-51-170
UNIVERSITAS MURIA KUDUS
TAHUN 2013/2014
-
BAB I
PENDAHULUAN
Kehadiran data mining dilatarbelakangi dengan masalah data explosion yang
dialami akhir-akhir ini dimana banyak perusahaan / bank / organisasi telah
mengumpulkan data sekian tahun lamanya (data pembelian, data penjualan, data
nasabah, data transaksi, dan lain-lain). Seperti yang terjadi pada sebuah dealer motor,
data yang tersimpan selama ini hanya sebagai dokumentasi dan hanya dipakai untuk
kebutuhan transaksi saja.
Pertumbuhan yang pesat dari akumulasi data itu ternyata menciptakan kondisi
yang sering disebut sebagai Rich of Data but Poor of Information karena data yang
terkumpul itu tidak dapat digunakan untuk pengambilan keputusan. Kumpulan data itu
dibiarkan begitu saja seakanakan menjadi sebuah kuburan data. Kebutuhan dari
dunia bisnis yang ingin memperoleh nilai tambah dari data yang telah mereka
kumpulkan telah mendorong penerapan teknik - teknik analisa data dari berbagai
bidang seperti statistik, kecerdasan buatan, database dan lain sebagainya pada data
berskala besar itu yang akhirnya memunculkan metodologi baru yang disebut data
mining. Pada penelitian ini, penulis bermaksud untuk menerapkan Metode Algoritma C4.5., dalam menambang data nasabah, sehingga dapat dicari pola status nasabah untuk dapat dijadikan bahan analisis perusahan dalam menentukan calon nasabah
dimasa yang akan datang.
-
BAB II
LANDASAN TEORI
A. KLASIFIKASI Merupakan metode analisis data yang digunakan untuk membentuk model yang
mendeskripsikan kelas data yang penting, atau model yang memprediksikan trend data.
Klasifikasi digunakan untuk memprediksikan kelas data yang bersifat categorical .
Pada klasifikasi, akan dihasilkan sebuah model yang dapat memprediksi kelas
atau kategori dari objekobjek di dalam basisdata. Sebagai contoh, klasifikasi dapat
digunakan oleh petugas peminjaman uang di sebuah bank untuk memprediksi pemohon
mana yang aman dan mana yang beresiko untuk diberi pinjaman, oleh manajer
pemasaran di sebuah toko elektronik untuk memprediksi apakah seorang pelanggan akan
membeli komputer baru, atau oleh periset di bidang medis untuk memprediksi jenis
pengobatan apa yang cocok diberikan kepada seorang pasien dengan penyakit tertentu
Contoh:
Model klasifikasi yang dibangun untuk mengkategorisasikan aplikasi-aplikasi
bank sebagai aplikasi yang aman atau beresiko
B. C.45 Algoritma C4.5. merupakan kelompok algoritma decision tree. Algoritma ini
mempunyai input berupa training samples dan samples. Training samples berupa data
contoh yang akan digunakan untuk membangun sebuah tree yang telah diuji
kebenaranya. Sedangkan samples merupakan field-field data yang nantinya akan kita
gunakan sebagai parameter dalam melakukan
C. Klasifikasi Data.NASABAH LEASING
Metode yang digunakan untuk menentukan target pasar selama ini adalah
mengklasifikasi semua nasabah yang telaj melunasi angsuran kreditnya ke dalam target
pemasaran, padahal belum tentu semua nasabah tersebut akan tertarik melakukan
pinjaman kredit kembali.
-
Oleh karena itu,untuk meningkatkan loyalitas nasabah leasing tersebut, maka
bagian ini dituntut untuk dapat mengambil keputusan yang tepat dalam menentukan
strategi pemasaran,baik produk maupun layanan leasing yang akan ditawarkan kepada
nasabah khususnya dalam masalah kredit.
BAB III
PEMBAHASAN
A. KLASIFIKASI a. Pengertian Merupakan metode analisis data yang digunakan untuk membentuk model yang
mendeskripsikan kelas data yang penting, atau model yang memprediksikan trend
data. Klasifikasi digunakan untuk memprediksikan kelas data yang bersifat
categorical . Klasifikasi adalah suatu proses untuk mengelompokkan sejumlah data
ke dalam kelas-kelas tertentu yang sudah diberikan berdasarkan kesamaan sifat dan
pola yang terdapat dalam data-data tersebut[4]. Secara umum, proses
klasifikasimdimulai dengan diberikannya sejumlah data yang menjadi acuan untuk
membuat aturan klasifikasi data. Data-data ini biasa disebut dengan training sets.
Dari training sets tersebut kemudian dibuat suatu model untuk mengklasifikasikan
data. Model tersebut kemudian digunakan sebagai acuan untuk mengklasifikasikan
data-data yang belum diketahui kelasnya yang biasa disebut dengan test sets.
Beberapa metode klasifikasi adalah dengan menggunakan pohon keputusan, kaidah
(rule), memory based reasoning, neural networks, Nave Bayes, dan support vector
machine.
Preprocessing Preprocessing merupakan tahap awal pengolahan data sebelum
masuk ke proses klasifikasi data. Tujuan dari preprocessing untuk meningkatkan
akurasi data. Pada penelitian ini dilakukan 2 proses prepocessing, yaitu:discretization
dan information gain.
Discretization Discretization merupakan proses pengubahan nilai ke dalam
bentuk diskret. Apabila data yang kita miliki bernilai real atau numerik dan ingin
melakukan proses preprocessing dengan menerapkan Information Gain, maka proses
discretization harus dilakukan yang bertujuan untuk mendapatkan data dalam bentuk
-
diskret. Pada penelitian ini,algoritma yang digunakan untuk proses preprocessing
adalah Naive Discretization. Adapun algoritma Nave Discretization[2][7] adalah
sebagai berikut:
1. Pilih atribut yang akan didiskretkan.
2. Urutkan nilai atribut tersebut mulai dari yang terkecil.
3. Lakukan pengecekan pada atribut kelas, apabila terdapat nilai yang berbeda pada
atribut kelas dari baris yang bersebelahan maka didapatkan cut point yang nilainya
diperoleh dari penjumlahan kedua nilai tersebut kemudian dibagi dua. Lakukan
sampai baris terakhir sehingga diperoleh semua cut point dalam atribut tersebut.
4. Lakukan langkah 2 dan 3 untuk atribut berikutnya sehingga telah didapatkan
semua cut point untuk masing-masing atribut.
5. Lakukan proses discretization dengan mengambil cut point pertama dari atribut
pertama, apabila nilai cut point tersebut lebih kecil maka beri nilai diskrit kecil pada
baris tersebut dan apabila lebih besar maka beri nilai diskrit besar pada baris tersebut.
6. Lakukan langkah 5 hingga cut point terakhir.
7. Lakukan langkah 5 dan 6 untuk atribut berikutnya.
Information Gain
Untuk menghitung information gain, terlebih dahulu kita harus memahami suatu
ukuran yang disebut entropy. Di dalam bidang Information Theory, kita
menggunakan entropy sebagai suatu parameter untuk mengukur keberagaman dari
suatu kumpulan sampel data. Secara matematis, entropy dirumuskan sebagai
berikut[7]: (1) dimana c adalah jumlah nilai yang ada pada atribut target (jumlah
kelas). Sedangkan, pi menyatakan jumlah sampel untuk kelas i. Setelah kita
mendapatkan nilai entropy untuk suatu kumpulan sampel data, maka kita dapat
mengukur efektivitas suatu atribut dalam mengklasifikasikan data. Ukuran efektivitas
ini disebut sebagai information gain. Secara matematis, information gain dari suatu
atribut A, dituliskan sebagai berikut: (2) dimana :
A : atribut
v : menyatakan suatu nilai yang mungkin untuk atribut A
Values(A) : himpunan nilai-nilai yang mungkin untuk atribut A
-
|Sv| : jumlah sampel untuk nilai v
|S| : jumlah seluruh sampel data
Entropy(Sv) : entropy untuk sampel-sampel yang memiliki nilai v
B. C.45 Algoritma merupakan kumpulan perintah yang tertulis secara sistematis guna
menyelesaikan permasalahan logika dari matematika. Pengertian Algoritma
C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan.
Sedang pohon keputusan dapat diartikan suatu cara untuk memprediksi atau
mengklarifikasi yang sangat kuat. Pohon keputusan dapat membagi kumpulan data
yang besar menjadi himpunan-himpunan record yang lebih kecil dengan menerapkan
serangkaian aturan keputusan.
Dalam algoritma C4.5 untuk membangun pohon keputusan hal pertama yang
dilakukan yaitu memilih atribut sebagai akar. Kemudian dibuat cabang untuk tiap-tiap
nilai didalam akar tersebut. Langkah berikutnya yaitu membagi kasus dalam cabang.
Kemudian ulangi proses untuk setiap cabang sampai semua kasus pada cabang
memiliki kelas yang sama.
Untuk memilih atribut dengan akar, didasarkan pada nilai gain tertinggi dari atribut-
tribut yang ada. Untuk menghitung gain digunakan rumus sebagai berikut: GainS,A=EntropyS-i=1nSiS*Entropy(S)
Keterangan: S : himpunan kasus
A : Atribut
N : jumlah partisi atribut A Si : jumlah kasus pada partisi ke-i S : jumlah kasus dalam S
-
Sehingga akan diperoleh nilai gain dari atribut yang paling tertinggi. Gain adalah
salah satu atribute selection measure yang digunakan untuk memilih test atribute tiap
node pada tree. Atribut dengan information gain tertinggi dipilih sebagai test atribut
dari suatu node.
Sementara itu, penghitungan nilai entropi dapat dilihat pada persamaan : Entropy(S)=i=1n-pi*log2pi
Keterangan : S : himpunan kasus
A : Atribut
N : jumlah partisi S pi : proporsi dari Si terhadap S Untuk mengetahui analisis kemungkinan pengunduran diri seorang calon
mahasiswa baru adalah dengan melakukan klasifikasi dari kumpulan data calon
mahasiswa yang ada. Salah satu model klasifikasi adalah dengan membuat pohon
keputusan. Berikut ini adalah penjelasan lebih terperinci mengenai tiap-tiap langkah
dalam pembentukan pohon keputusan dengan menggunakan algoritma C4.5 untuk
menyelesaikan permasalahan.
Untuk langkah-langkah dalam membuat aplikasinya adalah sebagai berikut,
yaitu pertama melakukan pemilihan variabel. Variabel tersebut diambil dari kolom
data yang berupa variabel keputusan dan variabel penentu. Untuk variabel keputusan
dapat dipilih salah satu kolom pada data, sedangkan untuk variabel penentu diperoleh
dari sisa-sisa kolom pada data tersebut. Pemilihan variabel-variabel tersebut dengan
pertimbangan bahwa jumlah nilai variabelnya tidak banyak sehingga diharapkan
calon siswa yang masuk dalam satu klasifikasi nilai variabelnya cukup banyak. Tahap
berikutnya yaitu melakukan Pra-Proses berdasarkan variabel-variabel yang sudah
dipilih, format data akan berubah. Yaitu perubahannya akan dikelompokan sesuai
kolom-kolom yang dipilih sebagai variabel dan diperoleh range dalam setiap
kolomnya. Kemudian merancang diagram alir data aliran data yang digunakan untuk
mengetahui proses yang akan dilakukan algoritma C4.5 pada data mining. Kemudian
merancang basis data yaitu tabel-tabel didalam data tersebut akan dibagi menjadi dua
-
kelompok. Dua kelompok tabel tersebut meliputi tabel yang dibuat saat pembangunan
dan tabel yang dibuat saat aplikasi dijalankan. Sehingga dapat membentuk Algoritma
Pembentukan tree dilakukan secara rekursif.
A. PEMBUATAN PROGAM
Langkah-langkah Metode Klasifikasi menggunakan algoritma C.45
1. Buka rapid mener, New dan simpan file dengan nama yang di inginkan. 2. Selanjutnya pada operator klik import, data, read exel (drag read exelke process) 3. Pada baris sebelah kanan klikt ombol import configuration wizam. 4. Browse ketempat dimana kita menyimpan file yang akan di masukkan (file harus
berformat .xls) 5. Klik next, next, next lalu finish. 6. Masih pada operator klik modeling, klik classification and regression,pilih tree induction
kemudian pilih Decision tree(drag ke process) 7. Kemudian pilih data transformation pilih type conversion drag nominal to numeric ke
proses 8. Lalu hubungkan out keexa, cluke res, dancluke res. Maka akantampak seperti ini:
-
BAB IV
PENUTUP
Kesimpulan
Ada banyak sekali pengembangan dari algoritma pada data mining khususnya
untuk metode klasifikasi. Algoritma tersebut masing-masing memiliki kelebihan dan
kekurangan oleh karena itu perlu dipilih algoritma yang cocok dan sesuai dengan kasus
demi kasus yang akan diselesaikan. Pemilihannya pun tidak hanya dari segi forat data
tetapi juga perlu beberapa kali percobaan untuk menentukan konfigurasi yang cocok
untuk menentukan nilai parameter yang diinputkan. Begitupun dengan kasus untuk
nasabah leasing yang diselesaikan dengan metode klasifikasi dan algoritma c45/decision
tree. Perlu adanya beberapa percobaan untuk menentukan konfigurasi yang tepat.