Data Management (Data Mining Klasifikasi)

31
Manajemen DATA Adam Mukharil Bachtiar, M.T. Data Mining Klasifikasi

Transcript of Data Management (Data Mining Klasifikasi)

Page 1: Data Management (Data Mining Klasifikasi)

Manajemen

DATAAdamMukharil Bachtiar, M.T.

Data Mining Klasifikasi

Page 2: Data Management (Data Mining Klasifikasi)

Pemahaman Awal Data Mining Klasifikasi

Page 3: Data Management (Data Mining Klasifikasi)

apa itu Data Mining Klasifikasi?

Page 4: Data Management (Data Mining Klasifikasi)

Ekstraksi pengetahuan berupa nilai (berbentuk label kelas) dari sebuah atribut/variabel berdasarkan nilai dari

atribut/variabel lainnya (Supervised Learning)

Page 5: Data Management (Data Mining Klasifikasi)

Gambaran Umum Data Mining Klasifikasi

Page 6: Data Management (Data Mining Klasifikasi)

Gambaran Umum Data Mining Klasifikasi (2)

Page 7: Data Management (Data Mining Klasifikasi)

Data mining klasifikasi bisadigunakan untuk memprediksikelas data dari data yang baruberdasarkan predetermined class dari data yang sudah ada

Page 8: Data Management (Data Mining Klasifikasi)

Pada proses klasifikasi akan dikenaldua jenis data yaitu data latih (training data) dan data uji (testing data)

Page 9: Data Management (Data Mining Klasifikasi)

Data latih adalah data yang sudahada sebelumnya berdasarkan faktayang sudah terjadi (predefined class)

Page 10: Data Management (Data Mining Klasifikasi)

Data uji adalah data yang sudahberkelas/berlabel yang digunakanuntuk menghitung akurasi model klasifikasi yang dibentuk

Page 11: Data Management (Data Mining Klasifikasi)

Bagaimana proses untuk melakukanData Mining Klasifikasi?

Page 12: Data Management (Data Mining Klasifikasi)

1. Model Construction:Merepresentasikan rule klasifikasi, decision tree, atau pun formula matematika berdasarkan data latih

Page 13: Data Management (Data Mining Klasifikasi)

2. Model Usage:Mengestimasi akurasi dari model menggunakan data uji kemudian apabilaakurasi dapat diterima maka berikutnyamelabelkan data baru yang belum berlabel

Page 14: Data Management (Data Mining Klasifikasi)

Terdapat beberapa algoritmayang bisa digunakan untukklasifikasi di antaranya algoritmanaïve bayes, K-NN, dan C.45

Page 15: Data Management (Data Mining Klasifikasi)

Penjelasan Algoritma Klasifikasi

Page 16: Data Management (Data Mining Klasifikasi)

Section 1:Algoritma Naïve Bayes

Page 17: Data Management (Data Mining Klasifikasi)

Metode Naïve Bayes menggunakan konsepteorema Bayesian dalammelakukan proses klasifikasi

Page 18: Data Management (Data Mining Klasifikasi)

Contoh Kasus Klasifikasiage income student credit_rating buys_computer

youth high no fair noyouth high no excellent no

middle_age high no fair yessenior medium no fair yessenior low yes fair yessenior low yes excellent no

middle_age low yes excellent yesyouth medium no fair noyouth low yes fair yesyouth medium yes fair yessenior medium yes excellent yesyouth medium no excellent yes

middle_age high yes fair yesmiddle_age medium no excellent no

youth medium yes fair ?X:

Page 19: Data Management (Data Mining Klasifikasi)

Langkah 1:Cari P(Ci) dimana i adalah kelas data yang ada pada data latih

Page 20: Data Management (Data Mining Klasifikasi)

•P(buys_computer = “yes”) = 9/14 = 0.643•P(buys_computer = “no”) = 5/14= 0.357

buys_computer

nonoyesyesyesnoyesnoyesyesyesyesyesno

Page 21: Data Management (Data Mining Klasifikasi)

Langkah 2:Hitung P(X|Ci) dimana X dengan persamaan:

)|(...)|()|(1

)|()|(

21CixPCixPCixP

n

kCixPCiP

n

k

´´´=

Õ=

=X

Page 22: Data Management (Data Mining Klasifikasi)

1. Hitung P(x|Ci) untuk “buys_computer” = yes• P(age = “youth” | buys_computer = “yes”) = 2/9 = 0.222• P(income = “medium” | buys_computer = “yes”) = 4/9 = 0.444• P(student = “yes” | buys_computer = “yes) = 6/9 = 0.667• P(credit_rating = “fair” | buys_computer = “yes”) = 6/9 = 0.667

P(X|Ci) : P(X|buys_computer = “yes”) = 0.222 x 0.444 x 0.667 x 0.667 = 0.044

age income student credit_rating buys_computer

middle_age high no fair yessenior medium no fair yessenior low yes fair yes

middle_age low yes excellent yesyouth low yes fair yesyouth medium yes fair yessenior medium yes excellent yesyouth medium no excellent yes

middle_age high yes fair yes

youth medium yes fair ?

Page 23: Data Management (Data Mining Klasifikasi)

2. Compute P(X|Ci) for “buy_computer” = no• P(age = “youth” | buys_computer = “no”) = 3/5 = 0.6• P(income = “medium” | buys_computer = “no”) = 2/5 = 0.4• P(student = “yes” | buys_computer = “no”) = 1/5 = 0.2• P(credit_rating = “fair” | buys_computer = “no”) = 2/5 = 0.4

P(X|Ci) : P(X|buys_computer = “no”) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019

youth medium yes fair ?

age income student credit_rating buys_computer

youth high no fair noyouth high no excellent nosenior low yes excellent noyouth medium no fair no

middle_age medium no excellent no

Page 24: Data Management (Data Mining Klasifikasi)

Langkah 3:Hitung P(Ci|X) dengan persamaan:

)()|()|( iCPiCPiCP XX =

Page 25: Data Management (Data Mining Klasifikasi)

1. P(X|Ci) : P(X|buys_computer = “yes”) = 0.222 x 0.444 x 0.667 x 0.667 = 0.044

P(X|Ci)*P(Ci) : P(X|buys_computer = “yes”) * P(buys_computer = “yes”) = 0.028

2. P(X|Ci) : P(X|buys_computer = “no”) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019

P(X|Ci)*P(Ci) : P(X|buys_computer = “no”) * P(buys_computer = “no”) = 0.007

Page 26: Data Management (Data Mining Klasifikasi)

Langkah 4:Pilih kelas berdasarkan aturan:

X termasuk dalam class Ci jika𝑷 𝑪𝒊 𝑿 > 𝑷 𝑪𝒋 𝑿 𝒖𝒏𝒕𝒖𝒌𝟏 ≤ 𝒋 ≤ 𝒎; 𝒋 ≠ 𝒊

Page 27: Data Management (Data Mining Klasifikasi)

X merupakan anggota class (“buys_computer = yes”) karenaP(X|C=yes) > P(X|C=no)

age income student credit_rating buys_computer

youth high no fair noyouth high no excellent no

middle_age high no fair yessenior medium no fair yessenior low yes fair yessenior low yes excellent no

middle_age low yes excellent yesyouth medium no fair noyouth low yes fair yesyouth medium yes fair yessenior medium yes excellent yesyouth medium no excellent yes

middle_age high yes fair yesmiddle_age medium no excellent no

youth medium yes fair yesX:

Page 28: Data Management (Data Mining Klasifikasi)

Section 2:Algoritma k-NN(Coming Soon)

Page 29: Data Management (Data Mining Klasifikasi)

Section 3:Algoritma C.45(Coming Soon)

Page 30: Data Management (Data Mining Klasifikasi)

Exercise Time

Page 31: Data Management (Data Mining Klasifikasi)

Nomor Tingkat Perekonomian Jenis Kelamin Pekerjaan Punya Deposito?1 Menengah Ke Atas Pria Tetap Ya

2 Menengah Ke Atas Pria Tetap Tidak

3 Menengah Ke Atas Pria Tetap Ya

4 Menengah Ke Bawah Pria Tetap Tidak

5 Menengah Ke Bawah Pria Honorer Ya

6 Menengah Ke Bawah Wanita Honorer Tidak

7 Menengah Ke Bawah Wanita Honorer Ya

8 Menengah Ke Bawah Wanita Tetap Tidak

9 Menengah Ke Atas Wanita Honorer Tidak

10 Menengah Ke Atas Pria Honorer Ya

X Menengah Ke Atas Pria Tetap ?