Klasifikasi Nasabah Leasing DenganAlgoritmaC.45 Deciscion Tree

download Klasifikasi Nasabah Leasing DenganAlgoritmaC.45 Deciscion Tree

of 14

description

algoritma

Transcript of Klasifikasi Nasabah Leasing DenganAlgoritmaC.45 Deciscion Tree

  • MAKALAH

    Klasifikasi Nasabah Leasing dengan Algoritma C.45/

    deciscion tree

    Kelompok :

    Rekso Dwi Harmono 2012-51-185

    Najih Izzan Z 2012-51-168

    Syauqi Daroja 2012-51-189

    Aji Joko Pramono 2012-51-186

    Joko Pramono 2012-51-200

    Agung Salim Ahyar 2012-51-170

    UNIVERSITAS MURIA KUDUS

    TAHUN 2013/2014

  • BAB I

    PENDAHULUAN

    Kehadiran data mining dilatarbelakangi dengan masalah data explosion yang

    dialami akhir-akhir ini dimana banyak perusahaan / bank / organisasi telah

    mengumpulkan data sekian tahun lamanya (data pembelian, data penjualan, data

    nasabah, data transaksi, dan lain-lain). Seperti yang terjadi pada sebuah dealer motor,

    data yang tersimpan selama ini hanya sebagai dokumentasi dan hanya dipakai untuk

    kebutuhan transaksi saja.

    Pertumbuhan yang pesat dari akumulasi data itu ternyata menciptakan kondisi

    yang sering disebut sebagai Rich of Data but Poor of Information karena data yang

    terkumpul itu tidak dapat digunakan untuk pengambilan keputusan. Kumpulan data itu

    dibiarkan begitu saja seakanakan menjadi sebuah kuburan data. Kebutuhan dari

    dunia bisnis yang ingin memperoleh nilai tambah dari data yang telah mereka

    kumpulkan telah mendorong penerapan teknik - teknik analisa data dari berbagai

    bidang seperti statistik, kecerdasan buatan, database dan lain sebagainya pada data

    berskala besar itu yang akhirnya memunculkan metodologi baru yang disebut data

    mining. Pada penelitian ini, penulis bermaksud untuk menerapkan Metode Algoritma C4.5., dalam menambang data nasabah, sehingga dapat dicari pola status nasabah untuk dapat dijadikan bahan analisis perusahan dalam menentukan calon nasabah

    dimasa yang akan datang.

  • BAB II

    LANDASAN TEORI

    A. KLASIFIKASI Merupakan metode analisis data yang digunakan untuk membentuk model yang

    mendeskripsikan kelas data yang penting, atau model yang memprediksikan trend data.

    Klasifikasi digunakan untuk memprediksikan kelas data yang bersifat categorical .

    Pada klasifikasi, akan dihasilkan sebuah model yang dapat memprediksi kelas

    atau kategori dari objekobjek di dalam basisdata. Sebagai contoh, klasifikasi dapat

    digunakan oleh petugas peminjaman uang di sebuah bank untuk memprediksi pemohon

    mana yang aman dan mana yang beresiko untuk diberi pinjaman, oleh manajer

    pemasaran di sebuah toko elektronik untuk memprediksi apakah seorang pelanggan akan

    membeli komputer baru, atau oleh periset di bidang medis untuk memprediksi jenis

    pengobatan apa yang cocok diberikan kepada seorang pasien dengan penyakit tertentu

    Contoh:

    Model klasifikasi yang dibangun untuk mengkategorisasikan aplikasi-aplikasi

    bank sebagai aplikasi yang aman atau beresiko

    B. C.45 Algoritma C4.5. merupakan kelompok algoritma decision tree. Algoritma ini

    mempunyai input berupa training samples dan samples. Training samples berupa data

    contoh yang akan digunakan untuk membangun sebuah tree yang telah diuji

    kebenaranya. Sedangkan samples merupakan field-field data yang nantinya akan kita

    gunakan sebagai parameter dalam melakukan

    C. Klasifikasi Data.NASABAH LEASING

    Metode yang digunakan untuk menentukan target pasar selama ini adalah

    mengklasifikasi semua nasabah yang telaj melunasi angsuran kreditnya ke dalam target

    pemasaran, padahal belum tentu semua nasabah tersebut akan tertarik melakukan

    pinjaman kredit kembali.

  • Oleh karena itu,untuk meningkatkan loyalitas nasabah leasing tersebut, maka

    bagian ini dituntut untuk dapat mengambil keputusan yang tepat dalam menentukan

    strategi pemasaran,baik produk maupun layanan leasing yang akan ditawarkan kepada

    nasabah khususnya dalam masalah kredit.

    BAB III

    PEMBAHASAN

    A. KLASIFIKASI a. Pengertian Merupakan metode analisis data yang digunakan untuk membentuk model yang

    mendeskripsikan kelas data yang penting, atau model yang memprediksikan trend

    data. Klasifikasi digunakan untuk memprediksikan kelas data yang bersifat

    categorical . Klasifikasi adalah suatu proses untuk mengelompokkan sejumlah data

    ke dalam kelas-kelas tertentu yang sudah diberikan berdasarkan kesamaan sifat dan

    pola yang terdapat dalam data-data tersebut[4]. Secara umum, proses

    klasifikasimdimulai dengan diberikannya sejumlah data yang menjadi acuan untuk

    membuat aturan klasifikasi data. Data-data ini biasa disebut dengan training sets.

    Dari training sets tersebut kemudian dibuat suatu model untuk mengklasifikasikan

    data. Model tersebut kemudian digunakan sebagai acuan untuk mengklasifikasikan

    data-data yang belum diketahui kelasnya yang biasa disebut dengan test sets.

    Beberapa metode klasifikasi adalah dengan menggunakan pohon keputusan, kaidah

    (rule), memory based reasoning, neural networks, Nave Bayes, dan support vector

    machine.

    Preprocessing Preprocessing merupakan tahap awal pengolahan data sebelum

    masuk ke proses klasifikasi data. Tujuan dari preprocessing untuk meningkatkan

    akurasi data. Pada penelitian ini dilakukan 2 proses prepocessing, yaitu:discretization

    dan information gain.

    Discretization Discretization merupakan proses pengubahan nilai ke dalam

    bentuk diskret. Apabila data yang kita miliki bernilai real atau numerik dan ingin

    melakukan proses preprocessing dengan menerapkan Information Gain, maka proses

    discretization harus dilakukan yang bertujuan untuk mendapatkan data dalam bentuk

  • diskret. Pada penelitian ini,algoritma yang digunakan untuk proses preprocessing

    adalah Naive Discretization. Adapun algoritma Nave Discretization[2][7] adalah

    sebagai berikut:

    1. Pilih atribut yang akan didiskretkan.

    2. Urutkan nilai atribut tersebut mulai dari yang terkecil.

    3. Lakukan pengecekan pada atribut kelas, apabila terdapat nilai yang berbeda pada

    atribut kelas dari baris yang bersebelahan maka didapatkan cut point yang nilainya

    diperoleh dari penjumlahan kedua nilai tersebut kemudian dibagi dua. Lakukan

    sampai baris terakhir sehingga diperoleh semua cut point dalam atribut tersebut.

    4. Lakukan langkah 2 dan 3 untuk atribut berikutnya sehingga telah didapatkan

    semua cut point untuk masing-masing atribut.

    5. Lakukan proses discretization dengan mengambil cut point pertama dari atribut

    pertama, apabila nilai cut point tersebut lebih kecil maka beri nilai diskrit kecil pada

    baris tersebut dan apabila lebih besar maka beri nilai diskrit besar pada baris tersebut.

    6. Lakukan langkah 5 hingga cut point terakhir.

    7. Lakukan langkah 5 dan 6 untuk atribut berikutnya.

    Information Gain

    Untuk menghitung information gain, terlebih dahulu kita harus memahami suatu

    ukuran yang disebut entropy. Di dalam bidang Information Theory, kita

    menggunakan entropy sebagai suatu parameter untuk mengukur keberagaman dari

    suatu kumpulan sampel data. Secara matematis, entropy dirumuskan sebagai

    berikut[7]: (1) dimana c adalah jumlah nilai yang ada pada atribut target (jumlah

    kelas). Sedangkan, pi menyatakan jumlah sampel untuk kelas i. Setelah kita

    mendapatkan nilai entropy untuk suatu kumpulan sampel data, maka kita dapat

    mengukur efektivitas suatu atribut dalam mengklasifikasikan data. Ukuran efektivitas

    ini disebut sebagai information gain. Secara matematis, information gain dari suatu

    atribut A, dituliskan sebagai berikut: (2) dimana :

    A : atribut

    v : menyatakan suatu nilai yang mungkin untuk atribut A

    Values(A) : himpunan nilai-nilai yang mungkin untuk atribut A

  • |Sv| : jumlah sampel untuk nilai v

    |S| : jumlah seluruh sampel data

    Entropy(Sv) : entropy untuk sampel-sampel yang memiliki nilai v

    B. C.45 Algoritma merupakan kumpulan perintah yang tertulis secara sistematis guna

    menyelesaikan permasalahan logika dari matematika. Pengertian Algoritma

    C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan.

    Sedang pohon keputusan dapat diartikan suatu cara untuk memprediksi atau

    mengklarifikasi yang sangat kuat. Pohon keputusan dapat membagi kumpulan data

    yang besar menjadi himpunan-himpunan record yang lebih kecil dengan menerapkan

    serangkaian aturan keputusan.

    Dalam algoritma C4.5 untuk membangun pohon keputusan hal pertama yang

    dilakukan yaitu memilih atribut sebagai akar. Kemudian dibuat cabang untuk tiap-tiap

    nilai didalam akar tersebut. Langkah berikutnya yaitu membagi kasus dalam cabang.

    Kemudian ulangi proses untuk setiap cabang sampai semua kasus pada cabang

    memiliki kelas yang sama.

    Untuk memilih atribut dengan akar, didasarkan pada nilai gain tertinggi dari atribut-

    tribut yang ada. Untuk menghitung gain digunakan rumus sebagai berikut: GainS,A=EntropyS-i=1nSiS*Entropy(S)

    Keterangan: S : himpunan kasus

    A : Atribut

    N : jumlah partisi atribut A Si : jumlah kasus pada partisi ke-i S : jumlah kasus dalam S

  • Sehingga akan diperoleh nilai gain dari atribut yang paling tertinggi. Gain adalah

    salah satu atribute selection measure yang digunakan untuk memilih test atribute tiap

    node pada tree. Atribut dengan information gain tertinggi dipilih sebagai test atribut

    dari suatu node.

    Sementara itu, penghitungan nilai entropi dapat dilihat pada persamaan : Entropy(S)=i=1n-pi*log2pi

    Keterangan : S : himpunan kasus

    A : Atribut

    N : jumlah partisi S pi : proporsi dari Si terhadap S Untuk mengetahui analisis kemungkinan pengunduran diri seorang calon

    mahasiswa baru adalah dengan melakukan klasifikasi dari kumpulan data calon

    mahasiswa yang ada. Salah satu model klasifikasi adalah dengan membuat pohon

    keputusan. Berikut ini adalah penjelasan lebih terperinci mengenai tiap-tiap langkah

    dalam pembentukan pohon keputusan dengan menggunakan algoritma C4.5 untuk

    menyelesaikan permasalahan.

    Untuk langkah-langkah dalam membuat aplikasinya adalah sebagai berikut,

    yaitu pertama melakukan pemilihan variabel. Variabel tersebut diambil dari kolom

    data yang berupa variabel keputusan dan variabel penentu. Untuk variabel keputusan

    dapat dipilih salah satu kolom pada data, sedangkan untuk variabel penentu diperoleh

    dari sisa-sisa kolom pada data tersebut. Pemilihan variabel-variabel tersebut dengan

    pertimbangan bahwa jumlah nilai variabelnya tidak banyak sehingga diharapkan

    calon siswa yang masuk dalam satu klasifikasi nilai variabelnya cukup banyak. Tahap

    berikutnya yaitu melakukan Pra-Proses berdasarkan variabel-variabel yang sudah

    dipilih, format data akan berubah. Yaitu perubahannya akan dikelompokan sesuai

    kolom-kolom yang dipilih sebagai variabel dan diperoleh range dalam setiap

    kolomnya. Kemudian merancang diagram alir data aliran data yang digunakan untuk

    mengetahui proses yang akan dilakukan algoritma C4.5 pada data mining. Kemudian

    merancang basis data yaitu tabel-tabel didalam data tersebut akan dibagi menjadi dua

  • kelompok. Dua kelompok tabel tersebut meliputi tabel yang dibuat saat pembangunan

    dan tabel yang dibuat saat aplikasi dijalankan. Sehingga dapat membentuk Algoritma

    Pembentukan tree dilakukan secara rekursif.

    A. PEMBUATAN PROGAM

    Langkah-langkah Metode Klasifikasi menggunakan algoritma C.45

    1. Buka rapid mener, New dan simpan file dengan nama yang di inginkan. 2. Selanjutnya pada operator klik import, data, read exel (drag read exelke process) 3. Pada baris sebelah kanan klikt ombol import configuration wizam. 4. Browse ketempat dimana kita menyimpan file yang akan di masukkan (file harus

    berformat .xls) 5. Klik next, next, next lalu finish. 6. Masih pada operator klik modeling, klik classification and regression,pilih tree induction

    kemudian pilih Decision tree(drag ke process) 7. Kemudian pilih data transformation pilih type conversion drag nominal to numeric ke

    proses 8. Lalu hubungkan out keexa, cluke res, dancluke res. Maka akantampak seperti ini:

  • BAB IV

    PENUTUP

    Kesimpulan

    Ada banyak sekali pengembangan dari algoritma pada data mining khususnya

    untuk metode klasifikasi. Algoritma tersebut masing-masing memiliki kelebihan dan

    kekurangan oleh karena itu perlu dipilih algoritma yang cocok dan sesuai dengan kasus

    demi kasus yang akan diselesaikan. Pemilihannya pun tidak hanya dari segi forat data

    tetapi juga perlu beberapa kali percobaan untuk menentukan konfigurasi yang cocok

    untuk menentukan nilai parameter yang diinputkan. Begitupun dengan kasus untuk

    nasabah leasing yang diselesaikan dengan metode klasifikasi dan algoritma c45/decision

    tree. Perlu adanya beberapa percobaan untuk menentukan konfigurasi yang tepat.