Data Management (Data Mining Klasifikasi)

Post on 20-Mar-2017

225 views 8 download

Transcript of Data Management (Data Mining Klasifikasi)

Manajemen

DATAAdamMukharil Bachtiar, M.T.

Data Mining Klasifikasi

Pemahaman Awal Data Mining Klasifikasi

apa itu Data Mining Klasifikasi?

Ekstraksi pengetahuan berupa nilai (berbentuk label kelas) dari sebuah atribut/variabel berdasarkan nilai dari

atribut/variabel lainnya (Supervised Learning)

Gambaran Umum Data Mining Klasifikasi

Gambaran Umum Data Mining Klasifikasi (2)

Data mining klasifikasi bisadigunakan untuk memprediksikelas data dari data yang baruberdasarkan predetermined class dari data yang sudah ada

Pada proses klasifikasi akan dikenaldua jenis data yaitu data latih (training data) dan data uji (testing data)

Data latih adalah data yang sudahada sebelumnya berdasarkan faktayang sudah terjadi (predefined class)

Data uji adalah data yang sudahberkelas/berlabel yang digunakanuntuk menghitung akurasi model klasifikasi yang dibentuk

Bagaimana proses untuk melakukanData Mining Klasifikasi?

1. Model Construction:Merepresentasikan rule klasifikasi, decision tree, atau pun formula matematika berdasarkan data latih

2. Model Usage:Mengestimasi akurasi dari model menggunakan data uji kemudian apabilaakurasi dapat diterima maka berikutnyamelabelkan data baru yang belum berlabel

Terdapat beberapa algoritmayang bisa digunakan untukklasifikasi di antaranya algoritmanaïve bayes, K-NN, dan C.45

Penjelasan Algoritma Klasifikasi

Section 1:Algoritma Naïve Bayes

Metode Naïve Bayes menggunakan konsepteorema Bayesian dalammelakukan proses klasifikasi

Contoh Kasus Klasifikasiage income student credit_rating buys_computer

youth high no fair noyouth high no excellent no

middle_age high no fair yessenior medium no fair yessenior low yes fair yessenior low yes excellent no

middle_age low yes excellent yesyouth medium no fair noyouth low yes fair yesyouth medium yes fair yessenior medium yes excellent yesyouth medium no excellent yes

middle_age high yes fair yesmiddle_age medium no excellent no

youth medium yes fair ?X:

Langkah 1:Cari P(Ci) dimana i adalah kelas data yang ada pada data latih

•P(buys_computer = “yes”) = 9/14 = 0.643•P(buys_computer = “no”) = 5/14= 0.357

buys_computer

nonoyesyesyesnoyesnoyesyesyesyesyesno

Langkah 2:Hitung P(X|Ci) dimana X dengan persamaan:

)|(...)|()|(1

)|()|(

21CixPCixPCixP

n

kCixPCiP

n

k

´´´=

Õ=

=X

1. Hitung P(x|Ci) untuk “buys_computer” = yes• P(age = “youth” | buys_computer = “yes”) = 2/9 = 0.222• P(income = “medium” | buys_computer = “yes”) = 4/9 = 0.444• P(student = “yes” | buys_computer = “yes) = 6/9 = 0.667• P(credit_rating = “fair” | buys_computer = “yes”) = 6/9 = 0.667

P(X|Ci) : P(X|buys_computer = “yes”) = 0.222 x 0.444 x 0.667 x 0.667 = 0.044

age income student credit_rating buys_computer

middle_age high no fair yessenior medium no fair yessenior low yes fair yes

middle_age low yes excellent yesyouth low yes fair yesyouth medium yes fair yessenior medium yes excellent yesyouth medium no excellent yes

middle_age high yes fair yes

youth medium yes fair ?

2. Compute P(X|Ci) for “buy_computer” = no• P(age = “youth” | buys_computer = “no”) = 3/5 = 0.6• P(income = “medium” | buys_computer = “no”) = 2/5 = 0.4• P(student = “yes” | buys_computer = “no”) = 1/5 = 0.2• P(credit_rating = “fair” | buys_computer = “no”) = 2/5 = 0.4

P(X|Ci) : P(X|buys_computer = “no”) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019

youth medium yes fair ?

age income student credit_rating buys_computer

youth high no fair noyouth high no excellent nosenior low yes excellent noyouth medium no fair no

middle_age medium no excellent no

Langkah 3:Hitung P(Ci|X) dengan persamaan:

)()|()|( iCPiCPiCP XX =

1. P(X|Ci) : P(X|buys_computer = “yes”) = 0.222 x 0.444 x 0.667 x 0.667 = 0.044

P(X|Ci)*P(Ci) : P(X|buys_computer = “yes”) * P(buys_computer = “yes”) = 0.028

2. P(X|Ci) : P(X|buys_computer = “no”) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019

P(X|Ci)*P(Ci) : P(X|buys_computer = “no”) * P(buys_computer = “no”) = 0.007

Langkah 4:Pilih kelas berdasarkan aturan:

X termasuk dalam class Ci jika𝑷 𝑪𝒊 𝑿 > 𝑷 𝑪𝒋 𝑿 𝒖𝒏𝒕𝒖𝒌𝟏 ≤ 𝒋 ≤ 𝒎; 𝒋 ≠ 𝒊

X merupakan anggota class (“buys_computer = yes”) karenaP(X|C=yes) > P(X|C=no)

age income student credit_rating buys_computer

youth high no fair noyouth high no excellent no

middle_age high no fair yessenior medium no fair yessenior low yes fair yessenior low yes excellent no

middle_age low yes excellent yesyouth medium no fair noyouth low yes fair yesyouth medium yes fair yessenior medium yes excellent yesyouth medium no excellent yes

middle_age high yes fair yesmiddle_age medium no excellent no

youth medium yes fair yesX:

Section 2:Algoritma k-NN(Coming Soon)

Section 3:Algoritma C.45(Coming Soon)

Exercise Time

Nomor Tingkat Perekonomian Jenis Kelamin Pekerjaan Punya Deposito?1 Menengah Ke Atas Pria Tetap Ya

2 Menengah Ke Atas Pria Tetap Tidak

3 Menengah Ke Atas Pria Tetap Ya

4 Menengah Ke Bawah Pria Tetap Tidak

5 Menengah Ke Bawah Pria Honorer Ya

6 Menengah Ke Bawah Wanita Honorer Tidak

7 Menengah Ke Bawah Wanita Honorer Ya

8 Menengah Ke Bawah Wanita Tetap Tidak

9 Menengah Ke Atas Wanita Honorer Tidak

10 Menengah Ke Atas Pria Honorer Ya

X Menengah Ke Atas Pria Tetap ?