3_Metode Bayesian

34
Metode Bayes Metode Bayes Metode Bayes Metode Bayes

Transcript of 3_Metode Bayesian

Metode BayesMetode BayesMetode BayesMetode Bayes

Mengapa Metode Bayes

• Metode Find-S tidak dapat digunakan untuk data yang tidak konsisten dan data yang bias,yang tidak konsisten dan data yang bias, sehingga untuk bentuk data semacam ini salah satu metode sederhana yang dapat digunakan adalah metode bayes.

• Metode Bayes ini merupakan metode yang baik di dalam mesin pembelajaran berdasarkan data training, dengan menggunakan probabilitas bersyarat sebagai dasarnyabersyarat sebagai dasarnya.

• Metode Bayes digunakan untuk menyelesaikan permasalahan Klasifikasipermasalahan Klasifikasi.

Beberapa Aplikasi Metode Bayes

• Menentukan diagnosa suatu penyakit berdasarkan data-data gejala (sebagai contoh hipertensi atau sakit jantung)data gejala (sebagai contoh hipertensi atau sakit jantung).

• Mengenali buah berdasarkan fitur-fitur buah seperti warna, bentuk, rasa dan lain-lainM li b d k fi i d k RGB• Mengenali warna berdasarkan fitur indeks warna RGB

• Mendeteksi warna kulit (skin detection) berdarkan fitur warna chrominant

• Menentukan keputusan aksi (olahraga, art, psikologi) berdasarkan keadaan.

• Menentukan jenis pakaian yang cocok untuk keadaan-Menentukan jenis pakaian yang cocok untuk keadaankeadaan tertentu (seperti cuaca, musim, temperatur, acara, waktu, tempat dan lain-lain)

Probabilitas Bersyarat

S

X

YX∩Y

)()()|(

YPYXPYXP ∩

=)(YP

Probabilitas X di dalam Y adalah probabilitas interseksi X dan Y dari probabilitas Y, atau dengan bahasa lain P(X|Y) d l h b k X di d l YP(X|Y) adalah prosentase banyaknya X di dalam Y

Contoh

Melanjutkanke perguruan

Tidakmelanjutkanke perguruan

tinggi

jke perguruan

tinggi

Laki – laki 450 50

Perempuan 150 250

Perhatikan kejadian – kejadian berikut :L : kejadian yang terpilih laki - lakiK: kejadian yang terpilih adalah orang yang j y g g y g

melanjutkan ke perguruan tinggiDengan menggunakan ruang contoh yang

dipersempit K, maka akan didapatkan Peluang kejadian terpilih laki-laki untuk orang yang melanj tkan ke perg r an tinggimelanjutkan ke perguruan tinggi.

P(L|K) = ?

• Misalkan n(A) melambangkan banyaknya ( ) g y yunsur dalam himpunan A

,)()(/)()()|( LKPSnLKnLKnKLP ∩=

∩=

∩= ,

)()(/)()()|(

KPSnKnKnKLP

21

900450)( ==∩ LKP

2900

2600)( ==KP3900

)(

32/1)|( KLP43/2

)|( ==KLP

Contoh lain

Peluang Kereta Api Gajayana berangkat tepat padawaktunya adalah P(B) = 0 85 peluang Kereta Apiwaktunya adalah P(B) = 0.85, peluang Kereta ApiGajayana datang tepat pada waktunya adalah P(D) = 0.90 dan peluang kereta api tersebut berangkat dandatang tepat pada waktunya adalah P(B∩D) = 0 75datang tepat pada waktunya adalah P(B∩D) = 0.75. Hitung peluang bahwa Kereta Api Gajayana itu

(a) datang tepat pada waktunya bila diketahui kereta apib b k d k dtersebut berangkat tepat pada waktunya, dan

(b) berangkat tepat pada waktunya bila diketahui kereta apitersebut datang tepat pada waktunya.g p p y

Probabilitas Bersyarat Dalam Data# Cuaca Temperatur Kecepatan Angin Berolah-raga1 Cerah Normal Pelan Ya2 Cerah Normal Pelan Ya3 Hujan Tinggi Pelan Tidak4 Cerah Normal Kencang Ya5 Hujan Tinggi Kencang Tidak6 Cerah Normal Pelan Ya

Banyaknya data berolah-raga=ya adalah 4 dari 6 data maka dituliskanP(Olahraga=Ya) = 4/6

Banyaknya data cuaca=cerah dan berolah-raga=ya adalah 4 dari 6Banyaknya data cuaca cerah dan berolah raga ya adalah 4 dari 6 data maka dituliskan

P(cuaca=cerah dan Olahraga=Ya) = 4/6

16/46/4)|( ==== yaolahragacerahcuacaP

Distribusi Bersama dan Distribusi Marginal

Dari 100 orang mahasiswa menunjukkan 20 orang mahasiswa menyukai keduanya, 30 orang mahasiswa menyukai bulu tangkis tapi tidak menyukai bola volley, 40 orang mahasiswa menyukai bola volley tapi tidak menyukai bulu tangkis, dan 10 orang mahasiswa tidak menyukai kuduanya. Dari data ini dapat disusun bentuk distribusi bersama sebagai berikut:

Suka bulu tangkis (X)

Suka bola volley (Y)P(X)

Ya TidakYa 0.2 0.3 0.5

Tidak 0.4 0.1 0.5P(Y) 0 6 0 4 1P(Y) 0.6 0.4 1

Distribusi BersamaDistribusi Marginal X dan YDistribusi Marginal X dan Y

Probabilitas Bersyarat Dalam Data# Cuaca Temperatur Berolahraga1 cerah normal ya2 cerah tinggi ya3 hujan tinggi tidak4 cerah tinggi tidak5 hujan normal tidak6 cerah normal ya

Banyaknya data berolah-raga=ya adalah 3 dari 6 data maka dituliskanP(Olahraga=Ya) = 3/6

Banyaknya data cuaca=cerah temperatur=normal dan berolah-Banyaknya data cuaca cerah, temperatur normal dan berolahraga=ya adalah 2 dari 6 data maka dituliskan

P(cuaca=cerah, temperatur=normal, Olahraga=Ya) = 2/6

32

6/36/2)|,( ===== yaolahraganormaltemperaturcerahcuacaP

Kaidah Bayes

A B BcB Bc

A = (B∩A) ∪ (Bc∩A)P(A) P [(B A) (B A)]P(A) = P [(B∩A) ∪ (Bc∩A)]

= P(B∩A) + P(Bc∩A)]= P(B)P(A|B) + P(Bc)P(A|Bc)= P(B)P(A|B) + P(Bc)P(A|Bc)

Kaidah Total Peluang

Bila kejadian – kejadian Bi ≠∅ untuk i = 1, 2, j j…,k, maka untuk sembarang kejadian A yang merupakan himpunan bagian S y g p p gberlaku

P(A) = P(B1) P(A|B1) + P(B2) P(A|B2)P(A) P(B1) P(A|B1) P(B2) P(A|B2) + … + P(Bk) P(A|Bk).

Contoh 1

Tiga wakil partai A, B dan C mencalonkan diri sebagai presiden Peluang wakil dari partai A terpilih sebagaipresiden. Peluang wakil dari partai A terpilih sebagai presiden adalah 0.4, peluang wakil dari partai B terpilih adalah 0.3 dan peluang wakil dari partai C terpilih adalah 0 3 Seandainya wakil dari partai A terpilih sebagai0.3. Seandainya wakil dari partai A terpilih sebagai presiden, peluang terjadinya kenaikan harga BBM adalah 0.7. Seandainya yang terpilih adalah wakil dari partai B peluang terjadinya kenaikan harga BBM adalahpartai B, peluang terjadinya kenaikan harga BBM adalah 0.4. Bila yang terpilih adalah wakil dari partai C maka peluang terjadinya kenaikan harga BBM adalah 0.6. Berapa peluang terjadinya kenaikan harga BBM ?Berapa peluang terjadinya kenaikan harga BBM ?

Contoh 2

• Sebuah toko menjual bola lampu. Empat puluh lima persen dari bola lampu yang dijual tokolima persen dari bola lampu yang dijual toko tersebut diproduksi oleh pabrik A dan sisanya diproduksi oleh pabrik B.Bola lampu yang diproduksi pabrik A mempunyai peluang cacatdiproduksi pabrik A mempunyai peluang cacat sebesar 3 persen sedangkan yang diproduksi pabrik B mempunyai peluang cacat sebesar 5

Bil b li b l l d ipersen. Bila seseorang membeli bola lampu dari toko tersebut, berapa peluang dia akan mendapatkan bola lampu yang cacat?p p y g

Kaidah Bayes

Jika kejadian – kejadian B1, B2, …, Bk j jmerupakan sekatan dari ruang contoh S dengan P(Bi) ≠ 0 untuk I = 1, 2, …, k, g ( )maka untuk sembarang kejadian A yang bersifat P(A) ≠ 0,( )

)|()(...)|()()|()()|()()|(

2211 kk

rrr BAPBPBAPBPBAPBP

BAPBPABP+++

=

• Untuk masalah dalam Contoh 1 misalkan ada orang yang tidak mengetahui siapa yang menjadi presiden karena dia tinggal y g j p ggdi pelosok daerah. Bila beberapa waktu kemudian ternyata harga BBM naik, y gberapa peluang bahwa yang menjadi presiden adalah wakil dari partai A?

Untuk masalah pada contoh 2, misalkan ada pseseorang yang membeli bola lampu dari toko tersebut. Setelah sampai rumah dan pdicoba, ternyata lampu tersebut cacat. Berapa peluang bahwa lampu tersebut p p g pdiproduksi oleh pabrik A?

Posterior dan Prior

BnB2 ….B1

∑= kk

k BAPBPBAPBPABP

)|()()|()()|(

A

∑i

ii BAPBP )|()(

)|()( BAPBPA

)()|()()|(

APBAPBPABP kk

k =

P(Bk|A) disebut keadaan Posterior (Probabilitas Bk di ( | ) (dalam A) P(Bk) disebut keadaan Prior

Permasalahan klasifikasi

• Misalkan dalam permasalahan klasifikasi, pterdapat dua kelas w1 dan w2.

• Diketahui sebuah data yang dinyatakanDiketahui sebuah data yang dinyatakan dalam fitur vector X

• Maka P(wi|X) merupakan keadaan• Maka P(wi|X) merupakan keadaan posterior yang menyatakan peluang X ada di kelas widi kelas wi.

Permasalahan klasifikasi

• Secara umum, model klasifikasi dengan gmetode Bayes, adalah mencari P(wi|X) paling besar.p g

• Dengan kata lain,– Jika P(w1|X) > P(w2|X) maka XJika P(w1|X) > P(w2|X) maka X

diklasifikasikan sebagai kelas w1– Jika P(w2|X) > P(w2|X) maka XJika P(w2|X) P(w2|X) maka X

diklasifikasikan sebagai kelas w2

HMAPHMAP (Hypothesis Maximum Appropri Probability) menyatakan hipotesa yang diambil berdasarkan nilai probabilitas berdasarkan kondisi prior yang diketahuidiketahui.

( ) ( ) ( )YXPYPXYP

d

i i∏== 1maxarg( ) ( )XPXYP = maxarg

( ) ( )∏=d YXPYPmaxarg

HMAP adalah model penyederhanaan dari metode bayes yang disebut

( ) ( )∏ ==

i i YXPYP1

maxarg

HMAP adalah model penyederhanaan dari metode bayes yang disebut dengan Naive Bayes. HMAP inilah yang digunakan di dalam machine learning sebagai metode untuk mendapatkan hipotesis untuk suatu keputusan.keputusan.

Data Training# Cuaca Temperatur Kecepatan Angin Berolah-raga1 Cerah Normal Pelan Ya2 Cerah Normal Pelan Ya3 Hujan Tinggi Pelan Tidak4 Cerah Normal Kencang Ya5 Hujan Tinggi Kencang Tidakj gg g6 Cerah Normal Pelan Ya

Asumsi: Y = berolahraga,X1 = cuaca,X2 = temperatur,2 p ,X3 = kecepatan angin.

HMAP Dari Data Training# Cuaca Temperatur Kecepatan Angin Berolah-raga

1 Cerah Normal Pelan Ya

2 Cerah Normal Pelan YaApakah bila cuaca

cerah dan 2 Cerah Normal Pelan Ya

3 Hujan Tinggi Pelan Tidak

4 Cerah Normal Kencang Ya

5 Hujan Tinggi Kencang Tidak

cerah dan kecepatan angin kencang, orang

akan berolahraga?6 Cerah Normal Pelan Ya

akan berolahraga?

Fakta: P(Y=ya) = 4/6 , P(Y=tidak) = 2/6P(X1=cerah|Y=ya) = 1, P(X1=cerah|Y=tidak) = 0P(X3=kencang|Y=ya) = 1/4 , P(X3=kencang|Y=tidak) = 1/2

HMAP dari keadaan ini dapat dihitung dengan:P( X1=cerah,X3=kencang | Y=ya )

= { P(X1=cerah|Y=ya) P(X3=kencang|Y=ya) } P(Y=ya) { P(X1 cerah|Y ya).P(X3 kencang|Y ya) } . P(Y ya)= { (1) . (1/4) } . (4/6) = 1/6

P( X1=cerah,X3=kencang | Y=tidak ) = { P(X1=cerah|Y=tidak).P(X3=kencang|Y=tidak) } . P(Y=tidak)

{ (0) (1/2) } (2/6) 0= { (0) . (1/2) } . (2/6) = 0

KEPUTUSAN ADALAH BEROLAHRAGA = YA

Kelemahan Metode Bayes

• Metode Bayes hanya bisa digunakan untuk persoalan klasifikasi dengan supervised learning dan data-data k t ik lkategorikal.

• Metode Bayes memerlukan pengetahuan l t k d t bil tawal untuk dapat mengambil suatu

keputusan. Tingkat keberhasilan metode ini sangat tergantung pada pengetahuanini sangat tergantung pada pengetahuan awal yang diberikan.

Estimasi Prob untuk Atribut Kontinyu

• Mendiskritkan setiap atribut kontinyu dan p ymengganti nilai atribut kontinyu dengan interval diskrit yang bersesuaian. y g

• Mengasumsikan suatu bentuk distribusi probabilitas tertentu untuk variabelprobabilitas tertentu untuk variabel kontinyu dan mengestimasi parameter distribusi menggunakan data training.distribusi menggunakan data training.

Estimasi Prob untuk Atribut Kontinyu

• Misalkan dengan menggunakan distribusi Gaussian, yang mempunyai dua parameter yaitu mean (µ) dan varians (σ2), maka untuk setiap kelas y probabilitas kelas untuk atribut Xkelas yj, probabilitas kelas untuk atribut Xiadalah :

2

2)(1 ijiA µ−− 22

221)|( ij

ij

jiecAP σ

πσ=

Dimana µij dapat diestimasikan berdasarkan sample mean dari Xi untuk semua training record yang berada

j

di kelas yj. Demikian juga dengan σ²ij.

Estimasi Prob untuk Atribut Kontinyu

• Contoh Data trainingS l d i

Tid Refund MaritalStatus

TaxableIncome Cheat• Sample mean dan variance

untuk atribut kelas ‘No’ :µ=(125+100+70+120+60+220+75)/7

110

Status Income Cheat

1 Yes Single 125K No

2 No Married 100K No= 110

s²=((125-110)²+…..)/6=2975s = √2975 = 54.54

3 No Single 70K No

4 Yes Married 120K No

5 No Divorced 95K Yes• Maka probabilitas untuk taxable

income 120 berlaku tidak curang adalah

6 No Married 60K No

7 Yes Divorced 220K No

8 No Single 85K Yes8 No Single 85K Yes

9 No Married 75K No

10 No Single 90K Yes10

0072.0)54.54(2

1)|120( )2975(2)110120(

2

2

===−

eNoIncomePπ

Contoh Naïve Bayes Classifier

120K)IncomeMarried,No,Refund( ===XDiberikan Test Record:

P(Refund=Yes|No) = 3/7P(R f d N |N ) 4/7

naive Bayes Classifier:

P(X|Class=No) = P(Refund=No|Class=No)P(M i d| Cl N )P(Refund=No|No) = 4/7

P(Refund=Yes|Yes) = 0P(Refund=No|Yes) = 1P(Marital Status=Single|No) = 2/7P(Marital Status=Divorced|No)=1/7

× P(Married| Class=No)× P(Income=120K| Class=No)

= 4/7 × 4/7 × 0.0072 = 0.0024

( | )P(Marital Status=Married|No) = 4/7P(Marital Status=Single|Yes) = 2/7P(Marital Status=Divorced|Yes)=1/7P(Marital Status=Married|Yes) = 0

P(X|Class=Yes) = P(Refund=No| Class=Yes)× P(Married| Class=Yes)× P(Income=120K| Class=Yes)

= 1 × 0 × 1.2 × 10-9 = 0

For taxable income:If class=No: sample mean=110

sample variance=2975If class=Yes: sample mean=90

Karena P(X|No)P(No) > P(X|Yes)P(Yes)Maka P(No|X) > P(Yes|X)

=> Class = Nosample variance=25 => Class = No

Naïve Bayes Classifier

• Jika salah satu probabilitas kondisional pbernilai nol, maka ekspresi keseluruhan menjadi nolj

• Probability estimation:NCAP ic=)|(:Original c: number of classes

NCAP

NCAP

ici

ci

+=

=

1)|(:Laplace

)|( :Originalp: prior probability

m: parameter

NmpNCAP

cNCAP

ici

ci

+=

+

)|(:estimate-m

)|(:Laplace

mNci +

)|(

Contoh Naïve Bayes ClassifierName Give Birth Can Fly Live in Water Have Legs Class

human yes no no yes mammalspython no no no no non-mammalssalmon no no yes no non-mammals

A: attributes

M: mammalsy

whale yes no yes no mammalsfrog no no sometimes yes non-mammalskomodo no no no yes non-mammalsbat yes yes no yes mammalspigeon no yes no yes non-mammals

t l

06.072

72

76

76)|( =×××=MAP

N: non-mammals

cat yes no no yes mammalsleopard shark yes no yes no non-mammalsturtle no no sometimes yes non-mammalspenguin no no sometimes yes non-mammalsporcupine yes no no yes mammalseel no no yes no non-mammals 02107060)()|(

0042.0134

133

1310

131)|( =×××=

MPMAP

NAP

ysalamander no no sometimes yes non-mammalsgila monster no no no yes non-mammalsplatypus no no no yes mammalsowl no yes no yes non-mammalsdolphin yes no yes no mammals

l l

0027.02013004.0)()|(

021.020

06.0)()|(

=×=

=×=

NPNAP

MPMAP

eagle no yes no yes non-mammals

Give Birth Can Fly Live in Water Have Legs Classyes no yes no ?

20

P(A|M)P(M) > P(A|N)P(N)

=> Mammals

Naïve Bayes (Kesimpulan)• Robust terhadap titik terisolasi• Menangani missing values dengan g g g

mengabaikan record tersebut selama perhitungan

• Robust terhadap atribut yang tidak relevan

Contoh Soal: ‘Play Tennis’ dataD ay O utlook T em perature H um id ity W ind P lay

T ennis

D ay1 S unn y H ot H igh W eak N oD ay2 S unn y H ot H igh S trong N oD ay2 S unn y H ot H igh S trong N o

D ay3 O vercast H ot H igh W eak Y es

D ay4 R ain M ild H igh W eak Y es

D ay5 R ain C oo l N orm al W eak Y es

D 6 R i C l N l S t ND ay6 R ain C oo l N orm al S trong N o

D ay7 O vercast C oo l N orm al S trong Y es

D ay8 S unn y M ild H igh W eak N o

D ay9 S unn y C oo l N orm al W eak Y es

D 10 R i M ild N l W k YD ay10 R ain M ild N orm al W eak Y es

D ay11 S unn y M ild N orm al S trong Y es

D ay12 O vercast M ild H igh S trong Y es

D ay13 O vercast H ot N orm al W eak Y es

D 14 R i M ild H i h S t ND ay14 R ain M ild H igh S trong N o

Berdasarkan data play tenis klasifikasikan data x dimana (O tl S T C l H Hi h Wi d t ) D k t l ix=(Outl=Sunny, Temp=Cool, Hum=High, Wind=strong). Dengan kata lain

dengan kondisi x, seseorang bermain tennis atau tidak?