Modul Praktikum 5 - Klasifikasi

35
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0 MATERI PRAKTIKUM Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014 PRAKTIKUM 5 PRAKTIKUM KLASIFIKASI Tujuan Praktikum 1. Mahasiswa mempunyai pengetahuan dan kemampuan dasar mengenai metode pencarian pengetahuan/pola data dari sejumlah data dengan menggunakan teknik klasifikasi. 2. Mahasiswa mampu menyelesaikan kasus klasifikasi data dengan menggunakan/ menerapkan teknik klasifikasi. Definisi Klasifikasi Klasifikasi merupakan proses untuk menemukan sekumpulan model yang menjelaskan dan membedakan kelas-kelas data, sehingga model tersebut dapat digunakan untuk memprediksi nilai suatu kelas yang belum diketahui pada sebuah objek. Gambar 1. Klasifikasi sebagai suatu tugas memetakan atribut x ke dalam label kelas y Klasifikasi adalah sebuah proses untuk menemukan model yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang kelasnya tidak diketahui (Pang-Ning Tan, 2004). Di dalam klasifikasi diberikan sejumlah record yang dinamakan training set, yang terdiri dari beberapa atribut, atribut dapat berupa kontinyu ataupun kategoris, salah satu atribut menunjukkan kelas untuk record. Model dalam Klasifikasi (Bertalya, 2009) : 1. Pemodelan Deskriptif

description

ddd

Transcript of Modul Praktikum 5 - Klasifikasi

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    PRAKTIKUM 5

    PRAKTIKUM KLASIFIKASI

    Tujuan Praktikum

    1. Mahasiswa mempunyai pengetahuan dan kemampuan dasar mengenai metode pencarian

    pengetahuan/pola data dari sejumlah data dengan menggunakan teknik klasifikasi.

    2. Mahasiswa mampu menyelesaikan kasus klasifikasi data dengan menggunakan/

    menerapkan teknik klasifikasi.

    Definisi Klasifikasi

    Klasifikasi merupakan proses untuk menemukan sekumpulan model yang menjelaskan dan

    membedakan kelas-kelas data, sehingga model tersebut dapat digunakan untuk memprediksi

    nilai suatu kelas yang belum diketahui pada sebuah objek.

    Gambar 1. Klasifikasi sebagai suatu tugas memetakan atribut x ke dalam label kelas y

    Klasifikasi adalah sebuah proses untuk menemukan model yang menjelaskan atau

    membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari

    suatu objek yang kelasnya tidak diketahui (Pang-Ning Tan, 2004).

    Di dalam klasifikasi diberikan sejumlah record yang dinamakan training set, yang terdiri dari

    beberapa atribut, atribut dapat berupa kontinyu ataupun kategoris, salah satu atribut

    menunjukkan kelas untuk record.

    Model dalam Klasifikasi (Bertalya, 2009) :

    1. Pemodelan Deskriptif

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    Sebagai alat penggambaran yang bersifat menjelaskan untuk membedakan objek2 dari

    kelas yang berbeda.

    2. Pemodelan Prediktif

    Pemodelan prediktif digunakan untuk memprediksi label kelas untuk record yang belum

    diketahui.

    Klasifikasi dapat diaplikasikan dalam beberapa bidang antara lain kesehatan,

    perbankan, ritel, dll. Masing-masing memiliki atribut yang sesuai dengan kasus masing-

    masing. Misalnya dalam ritel, kasus yang biasanya digunakan adalah pemberian

    diskon/bonus.

    Preprocessing Data

    Tahap awal yang dilakukan sebelum proses klasifikasi adalah melakukan preprocessing data,

    terdapat beberapa langkah preprocessing data, yaitu :

    1. Data Cleaning

    Data cleaning merupakan suatu pemrosesan terhadap data untuk menghilangkan noise dan

    penanganan terhadap missing value pada suatu record.

    2. Transformasi Data

    Pada data dapat dilakukan generalisasi menjadi data dengan level yang lebih tinggi.

    Misalnya dengan melakukan diskretisasi terhadap atribut degan nilai kontinyu.

    Pembelajaran terhadap data hasil generalisasi dapat mengurangi kompleksitas

    pembelajaran yang harus dilakukan karena ukuran data yang harus diproses lebih kecil.

    Konsep Pembuatan Model Dalam Klasifikasi

    Klasifikasi dapat digunakan untuk memprediksi nama atau nilai kelas dari suatu obyek data.

    Proses klasifikasi data dapat dibedakan dalam 2 tahap, yaitu :

    a. Pembelajaran / Pembangunan Model

    Tiap tiap record pada data latih (training set) dianalisis berdasarkan nilai nilai

    atributnya, dengan menggunakan suatu algoritma klasifikasi untuk mendapatkan model.

    b. Klasifikasi

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    Pada tahap ini, data uji (test set) digunakan untuk mengetahui tingkat akurasi dari model

    yang dihasilkan. Jika tingkat akurasi yang diperoleh sesuai dengan nilai yang ditentukan,

    maka model tersebut dapat digunakan untuk mengklasifikasikan record pada data yang

    baru.

    Proses Klasifikasi

    Gambar 2. Learning : Training data.

    Gambar 2. menjelaskan tahap awal proses klasifikasi yaitu mendapatkan model klasifikasi

    (classifier) dari data latihan (training data) menggunakan algoritma klasifikasi. Atribut label

    kelas adalah Tenured, dan Learned Model atau classifier di gambarkan pada blok

    aturan klasifikasi.

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    Gambar 3. Classification: Test data.

    Pada gambar 3., data uji (test set) digunakan untuk mengetahui tingkat akurasi dari model

    yang dihasilkan (classifier). Jika keakuratan tersebut dianggap dapat diterima, maka aturan

    itu dapat diaplikasikan untuk mengklasifikasikan data recordsyang baru.

    Pembuatan model menguraikan sebuah set dari penentuan kelas-kelas sebagai:

    1. Setiap recorddiasumsikan sudah mempunyai kelas yang dikenal seperti ditentukan oleh

    label kelas atribut,

    2. Kumpulan recordyang digunakan untuk membuat model disebut kumpulan pelatihan

    (training set),

    3. Model direpresentasikan sebagai classification rules, decision tree atau formula

    matematis.

    Penggunaan model menguraikan pengklasifikasian masa yang akan datang atau obyek yang

    belum diketahui, yaitu taksiran keakuratan dari model yang terdiri dari:

    1. Label yang telah diketahui dari contoh tes dibandingkan dengan hasil klasifikasi dari

    model,

    2. Nilai keakuratan adalah prosentase dari kumpulan contoh tes yang diklasifikasikan

    secara tepat oleh model,

    3. Kumpulan tes tidak terikat pada kumpulan pelatihan,

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    4. Jika akurasi diterima, model dapat digunakan untuk mengklasifikasikan data recordyang

    label kelasnya belum diketahui.

    Untuk mengevaluasi performansi sebuah model yang dibangun oleh algoritma klasifikasi,

    dapat dilakukan dengan menghitung jumlah dari test record yang diprediksi secara benar

    (akurasi) dan salah (error rate) oleh model tersebut. Akurasi dan error rate didefinisikan

    sebagai berikut.

    Algoritma klasifikasi adalah dapatmenemukan model yang mempunyai akurasi yang tinggi

    atau error rate yang rendah ketika model diterapkan pada test set.

    Algoritma Klasifikasi

    Didalam Klasifikasi sebagaimana telah dijelaskan, ada beberapa algoritma klasifikasi yang

    digunakan, anataralain: pohon keputusan (decision tree), rule based, neural network, support

    vector machine, naive bayes, dan nearest neighbour.

    Decision Tree

    Salah satu metode teknik klasifikasidata mining yang umum digunakan adalah decision tree.

    Decision tree adalah struktur flowchart yang menyerupai tree (pohon), dimana setiap simpul

    internal menandakan suatu tes pada atribut, setiap cabang merepresentasikan hasil tes, dan

    simpul daun merepresentasikan kelas atau distribusi kelas. Alur pada decision tree di telusuri

    dari simpul akar ke simpul daun yang memegang prediksi kelas untuk contoh tersebut.

    Decision tree mudah untuk dikonversi ke aturan klasifikasi. Teknik pohon keputusan lebih

    mudah digunakan, karena beberapa alasan:

    1. Dibandingkan dengan classifier JST atau bayesian, sebuah pohon keputusan mudah

    diinterpretasi/ ditangani oleh manusia.

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    2. Sementara training JST dapat menghabiskan banyak waktu dan ribuan iterasi, pohon

    keputusan efisien dan sesuai untuk himpunan data besar.

    3. Algoritma dengan pohon keputusan tidak memerlukan informasi tambahan selain yang

    terkandung dalam training data (yaitu, pengetahuan domain dari distribusi-distribusi

    pada data atau kelas-kelas).

    4. Pohon keputusan menunjukkan akurasi klasifikasi yang baik dibandingkan dengan

    teknik-teknik yang lainnya.

    a. Konsep Decision Tree

    Mengubah data menjadi pohon keputusan (decision tree) dan aturan-aturan keputusan (rule).

    Gambar 4. Konsep Decision Tree

    b. Tipe Simpul Pada Tree

    Tree mempunyai 3 tipe simpul (Arun George Eapen), yaitu:

    1. Simpul akar dimana tidak ada masukan edge dan 0 atau lebih keluaran edge (tepi),

    2. Simpul internal, masing-masing 1 masukan edge dan 2 atau lebih edge keluaran,

    3. Simpul daun atau simpul akhir, masing-masing 1 masukan edge dan tidak ada edge

    keluaran.

    Pada decision tree setiap simpul daun menandai label kelas. Simpul yang bukan simpul akhir

    terdiri dari akar dan simpul internal yang terdiri dari kondisi tes atribut pada sebagian record

    yang mempunyai karakteristik yang berbeda. Simpul akar dan simpul internal ditandai

    dengan bentuk oval dan simpul daun ditandai dengan bentuk segi empat.

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    Gambar 5. Decision treeuntuk masalah klasifikasi

    c. Konsep Data Dalam Decision Tree

    1. Data dinyatakan dalam bentuk tabel dengan atribut dan record.

    2. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan

    tree. Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca,

    angin dan temperatur. Salah satu atribut merupakan atribut yang menyatakan data solusi

    per-item data yang disebut dengan target atribut.

    3. Atribut memiliki nilai-nilai yang dinamakan dengan instance. Misalkan atribut cuaca

    mempunyai instance berupa cerah, berawan dan hujan.

    Gambar 6. Contoh data untuk Decision Tree

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    Proses Dalam Decision Tree

    1. Proses Mengubah Data Menjadi Tree

    Gambar 7. Mengubah Data Menjadi Tree

    a). Ukuran untuk Memilih Split Terbaik

    Dalam membangun sebuah decision tree secara top-down (dari atas ke bawah), tahap

    awal yang dilakukan adalah mengevaluasi semua atribut yang ada menggunakan suatu

    ukuran statistik (yang banyak digunakan adalah information gain) untuk mengukur

    efektifitas suatu atribut dalam mengklasifikasikan suatu kumpulan sampel data. Atribut

    yang diletakkan pada root node adalah atribut yang memiliki information gain terbesar.

    Semua atribut adalah bersifat kategori yang bernilai diskrit. Atribut dengan nilai

    continuous harus didiskritkan (Zalilia, 2007). Terlebih dahulu kita harus mencari nilai

    informasi dari data yang merupakan nilai yang diperlukan untuk mengklasifikasikan

    keputusan akhir. Secara matematis dapat dirumuskan dengan:

    b) Entropi

    Entropy (S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak

    suatu kelas (+ atau -) dari sejumlah data acak pada ruang sample S.

    Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas. Semakin

    kecil nilai Entropy maka semakin baik untuk digunakan dalam mengekstraksi suatu kelas.

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    Entropi adalah suatu parameter untuk mengukur heterogenitas dari suatu data. Panjang

    kode untuk menyatakan informasi secara optimal adalah p2log bits untuk messages yang

    mempunyai probabilitas p.

    Untuk menghitung information gain,terlebih dahulu kita harus memahami suatu ukuran

    lain yang disebut Entropy. Entropy biasa digunakan sebagai sautu parameter untuk

    mengukur heterogenitas (keberagaman) dari suatu kumpulan sampel data. Jika kumpulan

    sampel data semakin heterogen, maka semakin besar nilai entropy. Secara matematis, nilai

    entropy masing-masing instance dirumuskan sebagai berikut:

    Keterangan :

    S = ruang (data) sample yang digunakan untuk training.

    P(+) = jumlah yang bersolusi positif (mendukung) pada data sample untuk kriteria tertentu.

    P(-) = jumlah yang bersolusi negatif (tidak mendukung) pada data sample untuk kriteria

    tertentu.

    Sedangkan untuk nilai entropy masing-masing atribut dirumuskan dengan:

    (c) Information Gain

    Setelah kita mendapatkan nilai entropy untuk suatu kumpulan sampel data, maka kita dapat

    mengukur efektifitas suatu atribut dalam mengklasifikasikan data. Ukuran efektifitas ini

    disebut Information Gain. Secara matematis, information gain dari suatu atribut, dituliskan

    sebagai berikut:

    Dengan kata lain, Gain (A) adalah reduksi yang diharapkan dalam entropy yang disebabkan

    oleh pengetahuan nilai pada atribut A. Algoritma menghitung information gain pada setiap

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    atribut. Atribut dengan nilai gain terbesar dipilih sebagai tes atribut (simpul akar). Simpul A

    dibuat dan dilabelkan dengan atribut, cabang dibuat untuk setiap nilai atribut.

    Klasifikasi pada umumnya digunakan untuk kasus-kasus pada kelas-kelas keputusan yang

    bernilai diskrit dengan keputusan seperti diterima = ya atau tidak. Namun jika kita

    menemukan kasus yang mempunyai nilai keputusan kontinyu cara untuk menyelesaikannya

    adalah dengan mengubah nilai-nilai kontinyu menjadi nilai-nilai diskrit dengan cara

    mempartisi nilai kontinyu ke dalam interval-interval bernilai diskrit.

    Tabel 1. Contoh Data penerimaan karyawan dengan atribut IPK bernilai kontinyu

    Untuk menyelesaikannya kita misal atribut IPK kita ubah menjadi 3 nilai diskrit dengan

    membentuk interval bagus=[3,00-4,00], cukup=[2,75-3,00] lalu kembali dengan

    melanjutkan langkah-langkah selanjutnya.

    2. Mengubah Tree Menjadi Rules

    Gambar 8. Mengubah TreeMenjadi Rules

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    Gambar 9. Mengubah TreeMenjadi Rules

    Nave Bayes

    Teorema Bayes dikemukakan oleh seorang pendeta presbyterian Inggris pada tahun 1763

    yang bernama Thomas Bayes. Teorema Bayes digunakan untuk menghitung probabilitas

    terjadinya suatu peristiwa berdasarkan pengaruh yang didapat dari hasil observasi.

    Probabilitas Bayesian adalah suatu interpretasi dari kalkulus yang memuat konsep

    probabilitas sebagai derajat dimana suatu pernyataan dipercaya benar. Teori Bayesian juga

    dapat digunakan sebagai alat pengambilan keputusan untuk memperbaharui tingkat

    kepercayaan dari suatu informasi.

    Teori probabilitas Bayesian merupakan satu dari cabang teori statistik matematik yang

    memungkinkan kita untuk membuat satu model ketidakpastian dari suatu kejadian yang

    terjadi dengan menggabungkan pengetahuan umum dengan fakta dari hasil pengamatan.

    Teori Bayesian menurut Grainner (1998), mempunyai beberapa kelebihan, yaitu:

    1. Mudah untuk dipahami.

    2. Hanya memerlukan pengkodean yang sederhana.

    3. Lebih cepat dalam penghitungan.

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    Naive bayesian klasifikasi adalah suatu klasifikasi berpeluang sederhana berdasarkan aplikasi

    teorema Bayes dengan asumsi antar variabel penjelas saling bebas (independen). Dalam hal

    ini, diasumsikan bahwa kehadiran atau ketiadaan dari suatu kejadian tertentu dari suatu

    kelompok tidak berhubungan dengan kehadiran atau ketiadaan dari kejadian lainnya.

    Naive Bayesian dapat digunakan untuk berbagai macam keperluan antara lain untuk

    klasifikasi dokumen, deteksi spam atau filtering spam, dan masalah klasifikasi lainnya.

    Keuntungan Naive Bayes :

    1. Menangani kuantitatif dan data diskrit

    2. Kokoh untuk titik noise yang diisolasi, misalkan titik yang dirata ratakan ketika

    mengestimasi peluang bersyarat data.

    3. Hanya memerlukan sejumlah kecil data pelatihan untuk mengestimasi parameter (rata

    rata dan variansi dari variabel) yang dibutuhkan untuk klasifikasi.

    4. Menangani nilai yang hilang dengan mengabaikan instansi selama perhitungan estimasi

    peluang

    5. Cepat dan efisiensi ruang

    6. Kokoh terhadap atribut yang tidak relevan

    Kekurangan Naive Bayes :

    1. Tidak berlaku jika probabilitas kondisionalnya adalah nol, apabila nol maka probabilitas

    prediksi akan bernilai nol juga

    2. Mengasumsikan variabel bebas

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    Contoh Kasus Decision Tree

    Langkah -1: Mengubah Data Menjadi Tree.

    a. Menentukan Node Terpilih.

    Dari data sampel ditentukan node terpilih, yaitu dengan menghitung nilai entropy masing-

    masing atribut. (jumlah beli, harga, dan keadaan barang).

    Catatan Node terpilih adalah kriteria dengan Information Gain yang paling besar.

    Entropy untuk harga:

    Nilai Informasi untuk data tersebut adalah:

    Information Gain (I) =0.9183-0.36 =0.558296

    Dengan menggunakan cara yang sama nilai entropy atribut yang lain adalah sebagai berikut:

    Tabel 2. Nilai Entropy untu Jumlah Beli dan keaddan Barang

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    Terpilih atribut HARGA sebagai node awal karena memiliki information gain terbesar

    b. Menyusun Tree Awal

    Gambar 10. Tree Awal yang Terbentuk

    Node berikutnya dapat dipilih pada bagian yang mempunyai nilai + dan -, pada contoh di atas

    hanya harga = sedang yang mempunyai nilai + dan , maka semuanya pasti mempunyai

    internal node. Untuk menyusun internal node lakukan satu-persatu.

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    c. Internal Node untuk harga = sedang

    Tabel 3. Internal Node Harga Sedang

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    d. Menyusun Tree Lanjutan

    Gambar 11. Tree Lanjutan 1

    Gambar 12. Tree Lanjutan 2

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    e. Hasil Tree Akhir

    Gambar 13. Tree Akhir

    f. Mengubah Tree Menjadi Rule

    Rule yang terbentuk dari hasil tree akhir adalah sebagai berikut:

    R1: IF harga = mahal THEN diskon = ya

    R2: IF harga = murah THEN diskon = tidak

    R3: IF harga = sedang^Jumlah Beli = sedikit^ THEN diskon = tidak

    R4: IF harga = sedang^ Jumlah Beli = banyak^keadaan barang=cacat^ THEN diskon = ya

    R5: IF harga = sedang^ Jumlah Beli = banyak^keadaan barang=baik^ THEN diskon = tidak

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    Langkah -5 : Menghitung Error

    Hasil Prediksi pada training set adalah sebagai berikut:

    Keterangan:

    Warna kuning menunjukkan ketidaksesuaian dengan Tingkat Error = 3/18 *100% = 16.67%

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    Contoh Kasus Nave Bayes :

    Jika terdapat 2 mesin yaitu mesin A dan B, proporsi untuk produksi pada tiap mesin

    adalah 70% dan 30%. Secara sederhana dapat diestimasikan 70 % kemungkinan cacat produk

    disebabkan oleh mesin A. Pada kenyataaannya, tingkat cacat pada mesin A sebesar 5% dan

    mesin B sebesar 10%. Sehingga dari 70% produk yang berasal dari mesin A terdapat defect

    sebesar 70% x 5% = 3,5%, dan dari 30% produk yang berasal dari mesin B terdapat defect

    sebesar 30% x 10% = 3%. Sehingga total probabilitas defect adalah sebesar 3,5% + 3% =

    6,5%. Berdasarkan hasil tersebut, dapat disimpulkan bahwa (3,5% / 6,5% = 54% defect)

    disebabkan oleh mesin A dan (3% / 6,5% = 46% defect) disebabkan oleh mesin B.

    Gambar 10. Bayes Rule

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    Langkah - langkah Decision Tree dan Nave Bayes dengan Rapid Miner :

    1. Buka software rapid miner, klik New Process

    2. Pilih File-Import Data-Import Excel Sheet

    3. Pilih file yang akan diproses, kemudian klik Next

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    4. Pilih Sheet (halaman) yang akan diproses, kemudian klik Next

    5. Klik Next

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    6. Pilihlah atribut dan tipe data yang sesuai, kemudian klik Next.

    7. Simpan data di folder yang Anda inginkan kemudian ketik nama file sesuai keinginan

    Anda pada kolom Name, kemudian klik Finish

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    8. Akan muncul tampilan seperti di bawah ini, kemudian klik icon

    9. Drag file klasifikasi ke dalam kotak Main Process

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    10. Cari X-Validation pada kotak search

    11. Kemudian drag X-Validation ke dalam kotak Main Process

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    12. Hubungkan (Out) klasifikasi ke (Tra) Validation

    13. Klik 2 kali kotak X-Validation, maka akan muncul tampilan seperti di bawah ini :

    14. Cari Naive Bayes pada kotak search

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    15. Kemudian drag algoritma yang akan digunakan (Decision Tree / Nave Bayes)

    misalkanDecision Tree ke dalam kotak Training

    16. Cari Apply Model pada kotak search

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    17. Drag Apply Model pada kotak Testing

    18. Cari Performance pada kotak search

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    19. Drag Performance pada kotak Testing

    20. Hubungkan :

    (tra) ke (tra) Decision Tree

    (mod) Decision tree ke (mod)

    (mod) ke (mod) Apply Model

    (tes) ke (unl) Apply Model

    (lab) Apply Model ke (lab) Performance

    (per) Performance ke (ave)

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    21. Klik kotak Decision Tree maka akan muncul tampilan di bawah ini, kemudian klik

    criterion dan pilih information_gain

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    22. Klik icon , maka akan muncul tampilan seperti di bawah ini :

    23. Hubungkan :

    (mod) Validation ke res

    (tra) Validation ke res

    (ave) Validation ke res

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    24. Kemudian klik icon , maka akan muncul output(decision tree) seperti di bawah ini :

    25. Untuk nave bayes akan muncul output sebagai berikut :

  • UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

    MATERI PRAKTIKUM

    Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

    26. Untuk melihat tingkat akurasi maka klik Performance Vector, maka akan muncul output

    sebagai berikut :