Modul Praktikum 5 - Klasifikasi

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : Teknologi Industri Pertemuan ke : 5 Jurusan/Program Studi : Teknik Industri Modul ke : 5 Kode Mata Kuliah : 52224603 Jumlah Halaman : 35 Nama Mata Kuliah : Analisis Keputusan dan Data Mining Mulai berlaku : 2014

PRAKTIKUM 5

PRAKTIKUM KLASIFIKASI

Tujuan Praktikum

1. Mahasiswa mempunyai pengetahuan dan kemampuan dasar mengenai metode pencarian

pengetahuan/pola data dari sejumlah data dengan menggunakan teknik klasifikasi.

2. Mahasiswa mampu menyelesaikan kasus klasifikasi data dengan menggunakan/

menerapkan teknik klasifikasi.

Definisi Klasifikasi

Klasifikasi merupakan proses untuk menemukan sekumpulan model yang menjelaskan dan

membedakan kelas-kelas data, sehingga model tersebut dapat digunakan untuk memprediksi

nilai suatu kelas yang belum diketahui pada sebuah objek.

Gambar 1. Klasifikasi sebagai suatu tugas memetakan atribut x ke dalam label kelas y

Klasifikasi adalah sebuah proses untuk menemukan model yang menjelaskan atau

membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari

suatu objek yang kelasnya tidak diketahui (Pang-Ning Tan, 2004).

Di dalam klasifikasi diberikan sejumlah record yang dinamakan training set, yang terdiri dari

beberapa atribut, atribut dapat berupa kontinyu ataupun kategoris, salah satu atribut

menunjukkan kelas untuk record.

Model dalam Klasifikasi (Bertalya, 2009) :

1. Pemodelan Deskriptif


MATERI PRAKTIKUM


Sebagai alat penggambaran yang bersifat menjelaskan untuk membedakan objek2 dari

kelas yang berbeda.

2. Pemodelan Prediktif

Pemodelan prediktif digunakan untuk memprediksi label kelas untuk record yang belum

diketahui.

Klasifikasi dapat diaplikasikan dalam beberapa bidang antara lain kesehatan,

perbankan, ritel, dll. Masing-masing memiliki atribut yang sesuai dengan kasus masing-

masing. Misalnya dalam ritel, kasus yang biasanya digunakan adalah pemberian

diskon/bonus.

Preprocessing Data

Tahap awal yang dilakukan sebelum proses klasifikasi adalah melakukan preprocessing data,

terdapat beberapa langkah preprocessing data, yaitu :

1. Data Cleaning

Data cleaning merupakan suatu pemrosesan terhadap data untuk menghilangkan noise dan

penanganan terhadap missing value pada suatu record.

2. Transformasi Data

Pada data dapat dilakukan generalisasi menjadi data dengan level yang lebih tinggi.

Misalnya dengan melakukan diskretisasi terhadap atribut degan nilai kontinyu.

Pembelajaran terhadap data hasil generalisasi dapat mengurangi kompleksitas

pembelajaran yang harus dilakukan karena ukuran data yang harus diproses lebih kecil.

Konsep Pembuatan Model Dalam Klasifikasi

Klasifikasi dapat digunakan untuk memprediksi nama atau nilai kelas dari suatu obyek data.

Proses klasifikasi data dapat dibedakan dalam 2 tahap, yaitu :

a. Pembelajaran / Pembangunan Model

Tiap tiap record pada data latih (training set) dianalisis berdasarkan nilai nilai

atributnya, dengan menggunakan suatu algoritma klasifikasi untuk mendapatkan model.

b. Klasifikasi


MATERI PRAKTIKUM


Pada tahap ini, data uji (test set) digunakan untuk mengetahui tingkat akurasi dari model

yang dihasilkan. Jika tingkat akurasi yang diperoleh sesuai dengan nilai yang ditentukan,

maka model tersebut dapat digunakan untuk mengklasifikasikan record pada data yang

baru.

Proses Klasifikasi

Gambar 2. Learning : Training data.

Gambar 2. menjelaskan tahap awal proses klasifikasi yaitu mendapatkan model klasifikasi

(classifier) dari data latihan (training data) menggunakan algoritma klasifikasi. Atribut label

kelas adalah Tenured, dan Learned Model atau classifier di gambarkan pada blok

aturan klasifikasi.


MATERI PRAKTIKUM


Gambar 3. Classification: Test data.

Pada gambar 3., data uji (test set) digunakan untuk mengetahui tingkat akurasi dari model

yang dihasilkan (classifier). Jika keakuratan tersebut dianggap dapat diterima, maka aturan

itu dapat diaplikasikan untuk mengklasifikasikan data recordsyang baru.

Pembuatan model menguraikan sebuah set dari penentuan kelas-kelas sebagai:

1. Setiap recorddiasumsikan sudah mempunyai kelas yang dikenal seperti ditentukan oleh

label kelas atribut,

2. Kumpulan recordyang digunakan untuk membuat model disebut kumpulan pelatihan

(training set),

3. Model direpresentasikan sebagai classification rules, decision tree atau formula

matematis.

Penggunaan model menguraikan pengklasifikasian masa yang akan datang atau obyek yang

belum diketahui, yaitu taksiran keakuratan dari model yang terdiri dari:

1. Label yang telah diketahui dari contoh tes dibandingkan dengan hasil klasifikasi dari

model,

2. Nilai keakuratan adalah prosentase dari kumpulan contoh tes yang diklasifikasikan

secara tepat oleh model,

3. Kumpulan tes tidak terikat pada kumpulan pelatihan,


MATERI PRAKTIKUM


4. Jika akurasi diterima, model dapat digunakan untuk mengklasifikasikan data recordyang

label kelasnya belum diketahui.

Untuk mengevaluasi performansi sebuah model yang dibangun oleh algoritma klasifikasi,

dapat dilakukan dengan menghitung jumlah dari test record yang diprediksi secara benar

(akurasi) dan salah (error rate) oleh model tersebut. Akurasi dan error rate didefinisikan

sebagai berikut.

Algoritma klasifikasi adalah dapatmenemukan model yang mempunyai akurasi yang tinggi

atau error rate yang rendah ketika model diterapkan pada test set.

Algoritma Klasifikasi

Didalam Klasifikasi sebagaimana telah dijelaskan, ada beberapa algoritma klasifikasi yang

digunakan, anataralain: pohon keputusan (decision tree), rule based, neural network, support

vector machine, naive bayes, dan nearest neighbour.

Decision Tree

Salah satu metode teknik klasifikasidata mining yang umum digunakan adalah decision tree.

Decision tree adalah struktur flowchart yang menyerupai tree (pohon), dimana setiap simpul

internal menandakan suatu tes pada atribut, setiap cabang merepresentasikan hasil tes, dan

simpul daun merepresentasikan kelas atau distribusi kelas. Alur pada decision tree di telusuri

dari simpul akar ke simpul daun yang memegang prediksi kelas untuk contoh tersebut.

Decision tree mudah untuk dikonversi ke aturan klasifikasi. Teknik pohon keputusan lebih

mudah digunakan, karena beberapa alasan:

1. Dibandingkan dengan classifier JST atau bayesian, sebuah pohon keputusan mudah

diinterpretasi/ ditangani oleh manusia.


MATERI PRAKTIKUM


2. Sementara training JST dapat menghabiskan banyak waktu dan ribuan iterasi, pohon

keputusan efisien dan sesuai untuk himpunan data besar.

3. Algoritma dengan pohon keputusan tidak memerlukan informasi tambahan selain yang

terkandung dalam training data (yaitu, pengetahuan domain dari distribusi-distribusi

pada data atau kelas-kelas).

4. Pohon keputusan menunjukkan akurasi klasifikasi yang baik dibandingkan dengan

teknik-teknik yang lainnya.

a. Konsep Decision Tree

Mengubah data menjadi pohon keputusan (decision tree) dan aturan-aturan keputusan (rule).

Gambar 4. Konsep Decision Tree

b. Tipe Simpul Pada Tree

Tree mempunyai 3 tipe simpul (Arun George Eapen), yaitu:

1. Simpul akar dimana tidak ada masukan edge dan 0 atau lebih keluaran edge (tepi),

2. Simpul internal, masing-masing 1 masukan edge dan 2 atau lebih edge keluaran,

3. Simpul daun atau simpul akhir, masing-masing 1 masukan edge dan tidak ada edge

keluaran.

Pada decision tree setiap simpul daun menandai label kelas. Simpul yang bukan simpul akhir

terdiri dari akar dan simpul internal yang terdiri dari kondisi tes atribut pada sebagian record

yang mempunyai karakteristik yang berbeda. Simpul akar dan simpul internal ditandai

dengan bentuk oval dan simpul daun ditandai dengan bentuk segi empat.


MATERI PRAKTIKUM


Gambar 5. Decision treeuntuk masalah klasifikasi

c. Konsep Data Dalam Decision Tree

1. Data dinyatakan dalam bentuk tabel dengan atribut dan record.

2. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan

tree. Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca,

angin dan temperatur. Salah satu atribut merupakan atribut yang menyatakan data solusi

per-item data yang disebut dengan target atribut.

3. Atribut memiliki nilai-nilai yang dinamakan dengan instance. Misalkan atribut cuaca

mempunyai instance berupa cerah, berawan dan hujan.

Gambar 6. Contoh data untuk Decision Tree


MATERI PRAKTIKUM


Proses Dalam Decision Tree

1. Proses Mengubah Data Menjadi Tree

Gambar 7. Mengubah Data Menjadi Tree

a). Ukuran untuk Memilih Split Terbaik

Dalam membangun sebuah decision tree secara top-down (dari atas ke bawah), tahap

awal yang dilakukan adalah mengevaluasi semua atribut yang ada menggunakan suatu

ukuran statistik (yang banyak digunakan adalah information gain) untuk mengukur

efektifitas suatu atribut dalam mengklasifikasikan suatu kumpulan sampel data. Atribut

yang diletakkan pada root node adalah atribut yang memiliki information gain terbesar.

Semua atribut adalah bersifat kategori yang bernilai diskrit. Atribut dengan nilai

continuous harus didiskritkan (Zalilia, 2007). Terlebih dahulu kita harus mencari nilai

informasi dari data yang merupakan nilai yang diperlukan untuk mengklasifikasikan

keputusan akhir. Secara matematis dapat dirumuskan dengan:

b) Entropi

Entropy (S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak

suatu kelas (+ atau -) dari sejumlah data acak pada ruang sample S.

Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas. Semakin

kecil nilai Entropy maka semakin baik untuk digunakan dalam mengekstraksi suatu kelas.


MATERI PRAKTIKUM


Entropi adalah suatu parameter untuk mengukur heterogenitas dari suatu data. Panjang

kode untuk menyatakan informasi secara optimal adalah p2log bits untuk messages yang

mempunyai probabilitas p.

Untuk menghitung information gain,terlebih dahulu kita harus memahami suatu ukuran

lain yang disebut Entropy. Entropy biasa digunakan sebagai sautu parameter untuk

mengukur heterogenitas (keberagaman) dari suatu kumpulan sampel data. Jika kumpulan

sampel data semakin heterogen, maka semakin besar nilai entropy. Secara matematis, nilai

entropy masing-masing instance dirumuskan sebagai berikut:

Keterangan :

S = ruang (data) sample yang digunakan untuk training.

P(+) = jumlah yang bersolusi positif (mendukung) pada data sample untuk kriteria tertentu.

P(-) = jumlah yang bersolusi negatif (tidak mendukung) pada data sample untuk kriteria

tertentu.

Sedangkan untuk nilai entropy masing-masing atribut dirumuskan dengan:

(c) Information Gain

Setelah kita mendapatkan nilai entropy untuk suatu kumpulan sampel data, maka kita dapat

mengukur efektifitas suatu atribut dalam mengklasifikasikan data. Ukuran efektifitas ini

disebut Information Gain. Secara matematis, information gain dari suatu atribut, dituliskan

sebagai berikut:

Dengan kata lain, Gain (A) adalah reduksi yang diharapkan dalam entropy yang disebabkan

oleh pengetahuan nilai pada atribut A. Algoritma menghitung information gain pada setiap


MATERI PRAKTIKUM


atribut. Atribut dengan nilai gain terbesar dipilih sebagai tes atribut (simpul akar). Simpul A

dibuat dan dilabelkan dengan atribut, cabang dibuat untuk setiap nilai atribut.

Klasifikasi pada umumnya digunakan untuk kasus-kasus pada kelas-kelas keputusan yang

bernilai diskrit dengan keputusan seperti diterima = ya atau tidak. Namun jika kita

menemukan kasus yang mempunyai nilai keputusan kontinyu cara untuk menyelesaikannya

adalah dengan mengubah nilai-nilai kontinyu menjadi nilai-nilai diskrit dengan cara

mempartisi nilai kontinyu ke dalam interval-interval bernilai diskrit.

Tabel 1. Contoh Data penerimaan karyawan dengan atribut IPK bernilai kontinyu

Untuk menyelesaikannya kita misal atribut IPK kita ubah menjadi 3 nilai diskrit dengan

membentuk interval bagus=[3,00-4,00], cukup=[2,75-3,00] lalu kembali dengan

melanjutkan langkah-langkah selanjutnya.

2. Mengubah Tree Menjadi Rules

Gambar 8. Mengubah TreeMenjadi Rules


MATERI PRAKTIKUM


Gambar 9. Mengubah TreeMenjadi Rules

Nave Bayes

Teorema Bayes dikemukakan oleh seorang pendeta presbyterian Inggris pada tahun 1763

yang bernama Thomas Bayes. Teorema Bayes digunakan untuk menghitung probabilitas

terjadinya suatu peristiwa berdasarkan pengaruh yang didapat dari hasil observasi.

Probabilitas Bayesian adalah suatu interpretasi dari kalkulus yang memuat konsep

probabilitas sebagai derajat dimana suatu pernyataan dipercaya benar. Teori Bayesian juga

dapat digunakan sebagai alat pengambilan keputusan untuk memperbaharui tingkat

kepercayaan dari suatu informasi.

Teori probabilitas Bayesian merupakan satu dari cabang teori statistik matematik yang

memungkinkan kita untuk membuat satu model ketidakpastian dari suatu kejadian yang

terjadi dengan menggabungkan pengetahuan umum dengan fakta dari hasil pengamatan.

Teori Bayesian menurut Grainner (1998), mempunyai beberapa kelebihan, yaitu:

1. Mudah untuk dipahami.

2. Hanya memerlukan pengkodean yang sederhana.

3. Lebih cepat dalam penghitungan.


MATERI PRAKTIKUM


Naive bayesian klasifikasi adalah suatu klasifikasi berpeluang sederhana berdasarkan aplikasi

teorema Bayes dengan asumsi antar variabel penjelas saling bebas (independen). Dalam hal

ini, diasumsikan bahwa kehadiran atau ketiadaan dari suatu kejadian tertentu dari suatu

kelompok tidak berhubungan dengan kehadiran atau ketiadaan dari kejadian lainnya.

Naive Bayesian dapat digunakan untuk berbagai macam keperluan antara lain untuk

klasifikasi dokumen, deteksi spam atau filtering spam, dan masalah klasifikasi lainnya.

Keuntungan Naive Bayes :

1. Menangani kuantitatif dan data diskrit

2. Kokoh untuk titik noise yang diisolasi, misalkan titik yang dirata ratakan ketika

mengestimasi peluang bersyarat data.

3. Hanya memerlukan sejumlah kecil data pelatihan untuk mengestimasi parameter (rata

rata dan variansi dari variabel) yang dibutuhkan untuk klasifikasi.

4. Menangani nilai yang hilang dengan mengabaikan instansi selama perhitungan estimasi

peluang

5. Cepat dan efisiensi ruang

6. Kokoh terhadap atribut yang tidak relevan

Kekurangan Naive Bayes :

1. Tidak berlaku jika probabilitas kondisionalnya adalah nol, apabila nol maka probabilitas

prediksi akan bernilai nol juga

2. Mengasumsikan variabel bebas


MATERI PRAKTIKUM


Contoh Kasus Decision Tree

Langkah -1: Mengubah Data Menjadi Tree.

a. Menentukan Node Terpilih.

Dari data sampel ditentukan node terpilih, yaitu dengan menghitung nilai entropy masing-

masing atribut. (jumlah beli, harga, dan keadaan barang).

Catatan Node terpilih adalah kriteria dengan Information Gain yang paling besar.

Entropy untuk harga:

Nilai Informasi untuk data tersebut adalah:

Information Gain (I) =0.9183-0.36 =0.558296

Dengan menggunakan cara yang sama nilai entropy atribut yang lain adalah sebagai berikut:

Tabel 2. Nilai Entropy untu Jumlah Beli dan keaddan Barang


MATERI PRAKTIKUM


Terpilih atribut HARGA sebagai node awal karena memiliki information gain terbesar

b. Menyusun Tree Awal

Gambar 10. Tree Awal yang Terbentuk

Node berikutnya dapat dipilih pada bagian yang mempunyai nilai + dan -, pada contoh di atas

hanya harga = sedang yang mempunyai nilai + dan , maka semuanya pasti mempunyai

internal node. Untuk menyusun internal node lakukan satu-persatu.


MATERI PRAKTIKUM


c. Internal Node untuk harga = sedang

Tabel 3. Internal Node Harga Sedang


MATERI PRAKTIKUM


d. Menyusun Tree Lanjutan

Gambar 11. Tree Lanjutan 1

Gambar 12. Tree Lanjutan 2


MATERI PRAKTIKUM


e. Hasil Tree Akhir

Gambar 13. Tree Akhir

f. Mengubah Tree Menjadi Rule

Rule yang terbentuk dari hasil tree akhir adalah sebagai berikut:

R1: IF harga = mahal THEN diskon = ya

R2: IF harga = murah THEN diskon = tidak

R3: IF harga = sedang^Jumlah Beli = sedikit^ THEN diskon = tidak

R4: IF harga = sedang^ Jumlah Beli = banyak^keadaan barang=cacat^ THEN diskon = ya

R5: IF harga = sedang^ Jumlah Beli = banyak^keadaan barang=baik^ THEN diskon = tidak


MATERI PRAKTIKUM


Langkah -5 : Menghitung Error

Hasil Prediksi pada training set adalah sebagai berikut:

Keterangan:

Warna kuning menunjukkan ketidaksesuaian dengan Tingkat Error = 3/18 *100% = 16.67%


MATERI PRAKTIKUM


Contoh Kasus Nave Bayes :

Jika terdapat 2 mesin yaitu mesin A dan B, proporsi untuk produksi pada tiap mesin

adalah 70% dan 30%. Secara sederhana dapat diestimasikan 70 % kemungkinan cacat produk

disebabkan oleh mesin A. Pada kenyataaannya, tingkat cacat pada mesin A sebesar 5% dan

mesin B sebesar 10%. Sehingga dari 70% produk yang berasal dari mesin A terdapat defect

sebesar 70% x 5% = 3,5%, dan dari 30% produk yang berasal dari mesin B terdapat defect

sebesar 30% x 10% = 3%. Sehingga total probabilitas defect adalah sebesar 3,5% + 3% =

6,5%. Berdasarkan hasil tersebut, dapat disimpulkan bahwa (3,5% / 6,5% = 54% defect)

disebabkan oleh mesin A dan (3% / 6,5% = 46% defect) disebabkan oleh mesin B.

Gambar 10. Bayes Rule


MATERI PRAKTIKUM


Langkah - langkah Decision Tree dan Nave Bayes dengan Rapid Miner :

1. Buka software rapid miner, klik New Process

2. Pilih File-Import Data-Import Excel Sheet

3. Pilih file yang akan diproses, kemudian klik Next


MATERI PRAKTIKUM



MATERI PRAKTIKUM


4. Pilih Sheet (halaman) yang akan diproses, kemudian klik Next

5. Klik Next


MATERI PRAKTIKUM


6. Pilihlah atribut dan tipe data yang sesuai, kemudian klik Next.

7. Simpan data di folder yang Anda inginkan kemudian ketik nama file sesuai keinginan

Anda pada kolom Name, kemudian klik Finish


MATERI PRAKTIKUM



MATERI PRAKTIKUM


8. Akan muncul tampilan seperti di bawah ini, kemudian klik icon

9. Drag file klasifikasi ke dalam kotak Main Process


MATERI PRAKTIKUM


10. Cari X-Validation pada kotak search

11. Kemudian drag X-Validation ke dalam kotak Main Process


MATERI PRAKTIKUM


12. Hubungkan (Out) klasifikasi ke (Tra) Validation

13. Klik 2 kali kotak X-Validation, maka akan muncul tampilan seperti di bawah ini :

14. Cari Naive Bayes pada kotak search


MATERI PRAKTIKUM


15. Kemudian drag algoritma yang akan digunakan (Decision Tree / Nave Bayes)

misalkanDecision Tree ke dalam kotak Training

16. Cari Apply Model pada kotak search


MATERI PRAKTIKUM



MATERI PRAKTIKUM


17. Drag Apply Model pada kotak Testing

18. Cari Performance pada kotak search


MATERI PRAKTIKUM


19. Drag Performance pada kotak Testing

20. Hubungkan :

(tra) ke (tra) Decision Tree

(mod) Decision tree ke (mod)

(mod) ke (mod) Apply Model

(tes) ke (unl) Apply Model

(lab) Apply Model ke (lab) Performance

(per) Performance ke (ave)


MATERI PRAKTIKUM


21. Klik kotak Decision Tree maka akan muncul tampilan di bawah ini, kemudian klik

criterion dan pilih information_gain


MATERI PRAKTIKUM


22. Klik icon , maka akan muncul tampilan seperti di bawah ini :

23. Hubungkan :

(mod) Validation ke res

(tra) Validation ke res

(ave) Validation ke res


MATERI PRAKTIKUM


24. Kemudian klik icon , maka akan muncul output(decision tree) seperti di bawah ini :

25. Untuk nave bayes akan muncul output sebagai berikut :


MATERI PRAKTIKUM


26. Untuk melihat tingkat akurasi maka klik Performance Vector, maka akan muncul output

sebagai berikut :

Modul Praktikum 5 - Klasifikasi

Documents

Transcript of Modul Praktikum 5 - Klasifikasi