Klasifikasi Nasabah Leasing DenganAlgoritmaC.45 Deciscion Tree

MAKALAH

Klasifikasi Nasabah Leasing dengan Algoritma C.45/

deciscion tree

Kelompok :

Rekso Dwi Harmono 2012-51-185

Najih Izzan Z 2012-51-168

Syauqi Daroja 2012-51-189

Aji Joko Pramono 2012-51-186

Joko Pramono 2012-51-200

Agung Salim Ahyar 2012-51-170

UNIVERSITAS MURIA KUDUS

TAHUN 2013/2014

BAB I

PENDAHULUAN

Kehadiran data mining dilatarbelakangi dengan masalah data explosion yang

dialami akhir-akhir ini dimana banyak perusahaan / bank / organisasi telah

mengumpulkan data sekian tahun lamanya (data pembelian, data penjualan, data

nasabah, data transaksi, dan lain-lain). Seperti yang terjadi pada sebuah dealer motor,

data yang tersimpan selama ini hanya sebagai dokumentasi dan hanya dipakai untuk

kebutuhan transaksi saja.

Pertumbuhan yang pesat dari akumulasi data itu ternyata menciptakan kondisi

yang sering disebut sebagai Rich of Data but Poor of Information karena data yang

terkumpul itu tidak dapat digunakan untuk pengambilan keputusan. Kumpulan data itu

dibiarkan begitu saja seakanakan menjadi sebuah kuburan data. Kebutuhan dari

dunia bisnis yang ingin memperoleh nilai tambah dari data yang telah mereka

kumpulkan telah mendorong penerapan teknik - teknik analisa data dari berbagai

bidang seperti statistik, kecerdasan buatan, database dan lain sebagainya pada data

berskala besar itu yang akhirnya memunculkan metodologi baru yang disebut data

mining. Pada penelitian ini, penulis bermaksud untuk menerapkan Metode Algoritma C4.5., dalam menambang data nasabah, sehingga dapat dicari pola status nasabah untuk dapat dijadikan bahan analisis perusahan dalam menentukan calon nasabah

dimasa yang akan datang.

BAB II

LANDASAN TEORI

A. KLASIFIKASI Merupakan metode analisis data yang digunakan untuk membentuk model yang

mendeskripsikan kelas data yang penting, atau model yang memprediksikan trend data.

Klasifikasi digunakan untuk memprediksikan kelas data yang bersifat categorical .

Pada klasifikasi, akan dihasilkan sebuah model yang dapat memprediksi kelas

atau kategori dari objekobjek di dalam basisdata. Sebagai contoh, klasifikasi dapat

digunakan oleh petugas peminjaman uang di sebuah bank untuk memprediksi pemohon

mana yang aman dan mana yang beresiko untuk diberi pinjaman, oleh manajer

pemasaran di sebuah toko elektronik untuk memprediksi apakah seorang pelanggan akan

membeli komputer baru, atau oleh periset di bidang medis untuk memprediksi jenis

pengobatan apa yang cocok diberikan kepada seorang pasien dengan penyakit tertentu

Contoh:

Model klasifikasi yang dibangun untuk mengkategorisasikan aplikasi-aplikasi

bank sebagai aplikasi yang aman atau beresiko

B. C.45 Algoritma C4.5. merupakan kelompok algoritma decision tree. Algoritma ini

mempunyai input berupa training samples dan samples. Training samples berupa data

contoh yang akan digunakan untuk membangun sebuah tree yang telah diuji

kebenaranya. Sedangkan samples merupakan field-field data yang nantinya akan kita

gunakan sebagai parameter dalam melakukan

C. Klasifikasi Data.NASABAH LEASING

Metode yang digunakan untuk menentukan target pasar selama ini adalah

mengklasifikasi semua nasabah yang telaj melunasi angsuran kreditnya ke dalam target

pemasaran, padahal belum tentu semua nasabah tersebut akan tertarik melakukan

pinjaman kredit kembali.

Oleh karena itu,untuk meningkatkan loyalitas nasabah leasing tersebut, maka

bagian ini dituntut untuk dapat mengambil keputusan yang tepat dalam menentukan

strategi pemasaran,baik produk maupun layanan leasing yang akan ditawarkan kepada

nasabah khususnya dalam masalah kredit.

BAB III

PEMBAHASAN

A. KLASIFIKASI a. Pengertian Merupakan metode analisis data yang digunakan untuk membentuk model yang

mendeskripsikan kelas data yang penting, atau model yang memprediksikan trend

data. Klasifikasi digunakan untuk memprediksikan kelas data yang bersifat

categorical . Klasifikasi adalah suatu proses untuk mengelompokkan sejumlah data

ke dalam kelas-kelas tertentu yang sudah diberikan berdasarkan kesamaan sifat dan

pola yang terdapat dalam data-data tersebut[4]. Secara umum, proses

klasifikasimdimulai dengan diberikannya sejumlah data yang menjadi acuan untuk

membuat aturan klasifikasi data. Data-data ini biasa disebut dengan training sets.

Dari training sets tersebut kemudian dibuat suatu model untuk mengklasifikasikan

data. Model tersebut kemudian digunakan sebagai acuan untuk mengklasifikasikan

data-data yang belum diketahui kelasnya yang biasa disebut dengan test sets.

Beberapa metode klasifikasi adalah dengan menggunakan pohon keputusan, kaidah

(rule), memory based reasoning, neural networks, Nave Bayes, dan support vector

machine.

Preprocessing Preprocessing merupakan tahap awal pengolahan data sebelum

masuk ke proses klasifikasi data. Tujuan dari preprocessing untuk meningkatkan

akurasi data. Pada penelitian ini dilakukan 2 proses prepocessing, yaitu:discretization

dan information gain.

Discretization Discretization merupakan proses pengubahan nilai ke dalam

bentuk diskret. Apabila data yang kita miliki bernilai real atau numerik dan ingin

melakukan proses preprocessing dengan menerapkan Information Gain, maka proses

discretization harus dilakukan yang bertujuan untuk mendapatkan data dalam bentuk

diskret. Pada penelitian ini,algoritma yang digunakan untuk proses preprocessing

adalah Naive Discretization. Adapun algoritma Nave Discretization[2][7] adalah

sebagai berikut:

1. Pilih atribut yang akan didiskretkan.

2. Urutkan nilai atribut tersebut mulai dari yang terkecil.

3. Lakukan pengecekan pada atribut kelas, apabila terdapat nilai yang berbeda pada

atribut kelas dari baris yang bersebelahan maka didapatkan cut point yang nilainya

diperoleh dari penjumlahan kedua nilai tersebut kemudian dibagi dua. Lakukan

sampai baris terakhir sehingga diperoleh semua cut point dalam atribut tersebut.

4. Lakukan langkah 2 dan 3 untuk atribut berikutnya sehingga telah didapatkan

semua cut point untuk masing-masing atribut.

5. Lakukan proses discretization dengan mengambil cut point pertama dari atribut

pertama, apabila nilai cut point tersebut lebih kecil maka beri nilai diskrit kecil pada

baris tersebut dan apabila lebih besar maka beri nilai diskrit besar pada baris tersebut.

6. Lakukan langkah 5 hingga cut point terakhir.

7. Lakukan langkah 5 dan 6 untuk atribut berikutnya.

Information Gain

Untuk menghitung information gain, terlebih dahulu kita harus memahami suatu

ukuran yang disebut entropy. Di dalam bidang Information Theory, kita

menggunakan entropy sebagai suatu parameter untuk mengukur keberagaman dari

suatu kumpulan sampel data. Secara matematis, entropy dirumuskan sebagai

berikut[7]: (1) dimana c adalah jumlah nilai yang ada pada atribut target (jumlah

kelas). Sedangkan, pi menyatakan jumlah sampel untuk kelas i. Setelah kita

mendapatkan nilai entropy untuk suatu kumpulan sampel data, maka kita dapat

mengukur efektivitas suatu atribut dalam mengklasifikasikan data. Ukuran efektivitas

ini disebut sebagai information gain. Secara matematis, information gain dari suatu

atribut A, dituliskan sebagai berikut: (2) dimana :

A : atribut

v : menyatakan suatu nilai yang mungkin untuk atribut A

Values(A) : himpunan nilai-nilai yang mungkin untuk atribut A

|Sv| : jumlah sampel untuk nilai v

|S| : jumlah seluruh sampel data

Entropy(Sv) : entropy untuk sampel-sampel yang memiliki nilai v

B. C.45 Algoritma merupakan kumpulan perintah yang tertulis secara sistematis guna

menyelesaikan permasalahan logika dari matematika. Pengertian Algoritma

C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan.

Sedang pohon keputusan dapat diartikan suatu cara untuk memprediksi atau

mengklarifikasi yang sangat kuat. Pohon keputusan dapat membagi kumpulan data

yang besar menjadi himpunan-himpunan record yang lebih kecil dengan menerapkan

serangkaian aturan keputusan.

Dalam algoritma C4.5 untuk membangun pohon keputusan hal pertama yang

dilakukan yaitu memilih atribut sebagai akar. Kemudian dibuat cabang untuk tiap-tiap

nilai didalam akar tersebut. Langkah berikutnya yaitu membagi kasus dalam cabang.

Kemudian ulangi proses untuk setiap cabang sampai semua kasus pada cabang

memiliki kelas yang sama.

Untuk memilih atribut dengan akar, didasarkan pada nilai gain tertinggi dari atribut-

tribut yang ada. Untuk menghitung gain digunakan rumus sebagai berikut: GainS,A=EntropyS-i=1nSiS*Entropy(S)

Keterangan: S : himpunan kasus

A : Atribut

N : jumlah partisi atribut A Si : jumlah kasus pada partisi ke-i S : jumlah kasus dalam S

Sehingga akan diperoleh nilai gain dari atribut yang paling tertinggi. Gain adalah

salah satu atribute selection measure yang digunakan untuk memilih test atribute tiap

node pada tree. Atribut dengan information gain tertinggi dipilih sebagai test atribut

dari suatu node.

Sementara itu, penghitungan nilai entropi dapat dilihat pada persamaan : Entropy(S)=i=1n-pi*log2pi

Keterangan : S : himpunan kasus

A : Atribut

N : jumlah partisi S pi : proporsi dari Si terhadap S Untuk mengetahui analisis kemungkinan pengunduran diri seorang calon

mahasiswa baru adalah dengan melakukan klasifikasi dari kumpulan data calon

mahasiswa yang ada. Salah satu model klasifikasi adalah dengan membuat pohon

keputusan. Berikut ini adalah penjelasan lebih terperinci mengenai tiap-tiap langkah

dalam pembentukan pohon keputusan dengan menggunakan algoritma C4.5 untuk

menyelesaikan permasalahan.

Untuk langkah-langkah dalam membuat aplikasinya adalah sebagai berikut,

yaitu pertama melakukan pemilihan variabel. Variabel tersebut diambil dari kolom

data yang berupa variabel keputusan dan variabel penentu. Untuk variabel keputusan

dapat dipilih salah satu kolom pada data, sedangkan untuk variabel penentu diperoleh

dari sisa-sisa kolom pada data tersebut. Pemilihan variabel-variabel tersebut dengan

pertimbangan bahwa jumlah nilai variabelnya tidak banyak sehingga diharapkan

calon siswa yang masuk dalam satu klasifikasi nilai variabelnya cukup banyak. Tahap

berikutnya yaitu melakukan Pra-Proses berdasarkan variabel-variabel yang sudah

dipilih, format data akan berubah. Yaitu perubahannya akan dikelompokan sesuai

kolom-kolom yang dipilih sebagai variabel dan diperoleh range dalam setiap

kolomnya. Kemudian merancang diagram alir data aliran data yang digunakan untuk

mengetahui proses yang akan dilakukan algoritma C4.5 pada data mining. Kemudian

merancang basis data yaitu tabel-tabel didalam data tersebut akan dibagi menjadi dua

kelompok. Dua kelompok tabel tersebut meliputi tabel yang dibuat saat pembangunan

dan tabel yang dibuat saat aplikasi dijalankan. Sehingga dapat membentuk Algoritma

Pembentukan tree dilakukan secara rekursif.

A. PEMBUATAN PROGAM

Langkah-langkah Metode Klasifikasi menggunakan algoritma C.45

1. Buka rapid mener, New dan simpan file dengan nama yang di inginkan. 2. Selanjutnya pada operator klik import, data, read exel (drag read exelke process) 3. Pada baris sebelah kanan klikt ombol import configuration wizam. 4. Browse ketempat dimana kita menyimpan file yang akan di masukkan (file harus

berformat .xls) 5. Klik next, next, next lalu finish. 6. Masih pada operator klik modeling, klik classification and regression,pilih tree induction

kemudian pilih Decision tree(drag ke process) 7. Kemudian pilih data transformation pilih type conversion drag nominal to numeric ke

proses 8. Lalu hubungkan out keexa, cluke res, dancluke res. Maka akantampak seperti ini:

BAB IV

PENUTUP

Kesimpulan

Ada banyak sekali pengembangan dari algoritma pada data mining khususnya

untuk metode klasifikasi. Algoritma tersebut masing-masing memiliki kelebihan dan

kekurangan oleh karena itu perlu dipilih algoritma yang cocok dan sesuai dengan kasus

demi kasus yang akan diselesaikan. Pemilihannya pun tidak hanya dari segi forat data

tetapi juga perlu beberapa kali percobaan untuk menentukan konfigurasi yang cocok

untuk menentukan nilai parameter yang diinputkan. Begitupun dengan kasus untuk

nasabah leasing yang diselesaikan dengan metode klasifikasi dan algoritma c45/decision

tree. Perlu adanya beberapa percobaan untuk menentukan konfigurasi yang tepat.

Klasifikasi Nasabah Leasing DenganAlgoritmaC.45 Deciscion Tree

Documents

Transcript of Klasifikasi Nasabah Leasing DenganAlgoritmaC.45 Deciscion Tree