Data Management (Data Mining Klasifikasi)

download Data Management (Data Mining Klasifikasi)

of 31

Embed Size (px)

Transcript of Data Management (Data Mining Klasifikasi)

  • Manajemen

    DATAAdamMukharil Bachtiar, M.T.

    Data Mining Klasifikasi

  • Pemahaman Awal Data Mining Klasifikasi

  • apa itu Data Mining Klasifikasi?

  • Ekstraksi pengetahuan berupa nilai (berbentuk label kelas) dari sebuah atribut/variabel berdasarkan nilai dari

    atribut/variabel lainnya (Supervised Learning)

  • Gambaran Umum Data Mining Klasifikasi

  • Gambaran Umum Data Mining Klasifikasi (2)

  • Data mining klasifikasi bisadigunakan untuk memprediksikelas data dari data yang baruberdasarkan predetermined class dari data yang sudah ada

  • Pada proses klasifikasi akan dikenaldua jenis data yaitu data latih (training data) dan data uji (testing data)

  • Data latih adalah data yang sudahada sebelumnya berdasarkan faktayang sudah terjadi (predefined class)

  • Data uji adalah data yang sudahberkelas/berlabel yang digunakanuntuk menghitung akurasi model klasifikasi yang dibentuk

  • Bagaimana proses untuk melakukanData Mining Klasifikasi?

  • 1. Model Construction:Merepresentasikan rule klasifikasi, decision tree, atau pun formula matematika berdasarkan data latih

  • 2. Model Usage:Mengestimasi akurasi dari model menggunakan data uji kemudian apabilaakurasi dapat diterima maka berikutnyamelabelkan data baru yang belum berlabel

  • Terdapat beberapa algoritmayang bisa digunakan untukklasifikasi di antaranya algoritmanave bayes, K-NN, dan C.45

  • Penjelasan Algoritma Klasifikasi

  • Section 1:Algoritma Nave Bayes

  • Metode Nave Bayes menggunakan konsepteorema Bayesian dalammelakukan proses klasifikasi

  • Contoh Kasus Klasifikasiage income student credit_rating buys_computer

    youth high no fair noyouth high no excellent no

    middle_age high no fair yessenior medium no fair yessenior low yes fair yessenior low yes excellent no

    middle_age low yes excellent yesyouth medium no fair noyouth low yes fair yesyouth medium yes fair yessenior medium yes excellent yesyouth medium no excellent yes

    middle_age high yes fair yesmiddle_age medium no excellent no

    youth medium yes fair ?X:

  • Langkah 1:Cari P(Ci) dimana i adalah kelas data yang ada pada data latih

  • P(buys_computer = yes) = 9/14 = 0.643P(buys_computer = no) = 5/14= 0.357

    buys_computer

    nonoyesyesyesnoyesnoyesyesyesyesyesno

  • Langkah 2:Hitung P(X|Ci) dimana X dengan persamaan:

    )|(...)|()|(1

    )|()|(

    21CixPCixPCixP

    n

    kCixPCiP

    n

    k

    =

    =

    =X

  • 1. Hitung P(x|Ci) untuk buys_computer = yes P(age = youth | buys_computer = yes) = 2/9 = 0.222 P(income = medium | buys_computer = yes) = 4/9 = 0.444 P(student = yes | buys_computer = yes) = 6/9 = 0.667 P(credit_rating = fair | buys_computer = yes) = 6/9 = 0.667

    P(X|Ci) : P(X|buys_computer = yes) = 0.222 x 0.444 x 0.667 x 0.667 = 0.044

    age income student credit_rating buys_computer

    middle_age high no fair yessenior medium no fair yessenior low yes fair yes

    middle_age low yes excellent yesyouth low yes fair yesyouth medium yes fair yessenior medium yes excellent yesyouth medium no excellent yes

    middle_age high yes fair yes

    youth medium yes fair ?

  • 2. Compute P(X|Ci) for buy_computer = no P(age = youth | buys_computer = no) = 3/5 = 0.6 P(income = medium | buys_computer = no) = 2/5 = 0.4 P(student = yes | buys_computer = no) = 1/5 = 0.2 P(credit_rating = fair | buys_computer = no) = 2/5 = 0.4

    P(X|Ci) : P(X|buys_computer = no) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019

    youth medium yes fair ?

    age income student credit_rating buys_computer

    youth high no fair noyouth high no excellent nosenior low yes excellent noyouth medium no fair no

    middle_age medium no excellent no

  • Langkah 3:Hitung P(Ci|X) dengan persamaan:

    )()|()|( iCPiCPiCP XX =

  • 1. P(X|Ci) : P(X|buys_computer = yes) = 0.222 x 0.444 x 0.667 x 0.667 = 0.044

    P(X|Ci)*P(Ci) : P(X|buys_computer = yes) * P(buys_computer = yes) = 0.028

    2. P(X|Ci) : P(X|buys_computer = no) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019

    P(X|Ci)*P(Ci) : P(X|buys_computer = no) * P(buys_computer = no) = 0.007

  • Langkah 4:Pilih kelas berdasarkan aturan:

    X termasuk dalam class Ci jika > ;

  • X merupakan anggota class (buys_computer = yes) karenaP(X|C=yes) > P(X|C=no)

    age income student credit_rating buys_computer

    youth high no fair noyouth high no excellent no

    middle_age high no fair yessenior medium no fair yessenior low yes fair yessenior low yes excellent no

    middle_age low yes excellent yesyouth medium no fair noyouth low yes fair yesyouth medium yes fair yessenior medium yes excellent yesyouth medium no excellent yes

    middle_age high yes fair yesmiddle_age medium no excellent no

    youth medium yes fair yesX:

  • Section 2:Algoritma k-NN(Coming Soon)

  • Section 3:Algoritma C.45(Coming Soon)

  • Exercise Time

  • Nomor Tingkat Perekonomian Jenis Kelamin Pekerjaan Punya Deposito?1 Menengah Ke Atas Pria Tetap Ya

    2 Menengah Ke Atas Pria Tetap Tidak

    3 Menengah Ke Atas Pria Tetap Ya

    4 Menengah Ke Bawah Pria Tetap Tidak

    5 Menengah Ke Bawah Pria Honorer Ya

    6 Menengah Ke Bawah Wanita Honorer Tidak

    7 Menengah Ke Bawah Wanita Honorer Ya

    8 Menengah Ke Bawah Wanita Tetap Tidak

    9 Menengah Ke Atas Wanita Honorer Tidak

    10 Menengah Ke Atas Pria Honorer Ya

    X Menengah Ke Atas Pria Tetap ?