bayesian bayesian network

download bayesian bayesian network

of 20

Transcript of bayesian bayesian network

  • 7/29/2019 bayesian bayesian network

    1/20

    March 29, 2013 1

    Data Mining:Klasifikasi dan Prediksi

    Naive Bayesian &Bayesian Network.

  • 7/29/2019 bayesian bayesian network

    2/20

    March 29, 2013 Data Mining: Concepts and Techniques 2

    Chapter 6. Classification and Prediction

    Apa itu klasifikasi ? Apa itu prediksi

    Beberapa hal terkait dengan

    klassifikasi and prediksi

    Klasifikasi Bayesian

  • 7/29/2019 bayesian bayesian network

    3/20

    March 29, 2013 Data Mining: Concepts and Techniques 3

    Supervised vs. Unsupervised Learning

    Supervised learning (classification)

    Supervision (terawasi): Data training (observations,

    measurements, etc.) ada kelas dalam data training

    Data baru diklasifikasikan didasarkan pada data

    training

    Unsupervised learning(clustering)

    Label kelas data training tidak diketahui Measurements, pengamatan dengan tujuan

    pembentukan adanya kelas atau kelompok dalam

    data

  • 7/29/2019 bayesian bayesian network

    4/20

    March 29, 2013 Data Mining: Concepts and Techniques 4

    Classification Memprediksi label clas (diskrit atau kontinu)

    mengklasifikasi data (membangun model) didasarkanpada data training dan nilai label class dalam

    mengklasifikasikan atribut dan menggunakannya saatmengklasifikasikan data baru

    Prediksi

    Memodelkas fungsi bernilai kontinu;yaitu memprediksinilai yang tidak diketahui

    Bentuk aplikasinya

    Persetujuan pinjaman atau kredit:

    Diagnosa medis: apakah hepatitis A atau B

    Deteksi kegagalan:

    Classification vs. Prediction

  • 7/29/2019 bayesian bayesian network

    5/20

    March 29, 2013 Data Mining: Concepts and Techniques 5

    Process (1): Model Construction

    Training

    Data

    N A M E R A N K Y E A R S T E N U R E D

    Mike A ssistant Prof 3 no

    Mary Assistant Prof 7 yesBill Professor 2 yes

    Jim Associate Prof 7 yes

    Dave Assistant Prof 6 no

    Anne Associate Pro f 3 no

    Classification

    Algorithms

    IF rank = professor

    OR years > 6

    THEN tenured = yes

    Classifier

    (Model)

  • 7/29/2019 bayesian bayesian network

    6/20

    March 29, 2013 Data Mining: Concepts and Techniques 6

    Process (2): Using the Model in Prediction

    Classifier

    Testing

    Data

    N A M E R A N K Y E A R S T E N U R E D

    Tom Assistant Prof 2 no

    Merlisa Associate Prof 7 no

    George Professor 5 yes

    Joseph Assistant Prof 7 yes

    Unseen Data

    (Jeff, Professor, 4)

    Tenured?

  • 7/29/2019 bayesian bayesian network

    7/20March 29, 2013 Data Mining: Concepts and Techniques 7

    Issues: Data Preparation

    Data cleaning

    Memproses awal data untuk mengurangi noise dan

    mengatasi nilai-nilai yang hilang

    Analisa relevansi (seleksi fitur)

    Menghilangkan atribut-atribut yang tidak relevan atau

    atribut yang redundan

    Transformasi data

    Membangun normalisasi data

  • 7/29/2019 bayesian bayesian network

    8/20March 29, 2013 Data Mining: Concepts and Techniques 8

    Issues: Evaluating Classification Methods

    Akurasi Keakuratan klasifikasi : memperkirakan label class

    Keakurasisan prediksi: nilai yang ditebak dari atributyang diprediksi

    Kecepatan Waktu untuk membangun model (training time)

    Waktu dalam menggunakan model(classification/prediction time)

    Kehandalan: mengatasi noise dan missing values

  • 7/29/2019 bayesian bayesian network

    9/20March 29, 2013 Data Mining: Concepts and Techniques 9

    Chapter 6. Classification and Prediction

    What is classification? What is

    prediction?

    Issues regarding classification and

    prediction

    Classification by decision tree

    induction

    Bayesian classification

  • 7/29/2019 bayesian bayesian network

    10/20March 29, 2013 Data Mining: Concepts and Techniques 10

    Bayesian Classification: Why?

    A statistical classifier: membangun probabilistic prediction,yaitumemprediksi probabilitas keanggotaan kelas

    Didasarkan pada Bayes Theorem.

    Performance: A simple Bayesian classifier, nave Bayesianclassifier, has comparable performance with decision treeand selected neural network classifiers

    Incremental: Each training example can incrementallyincrease/decrease the probability that a hypothesis iscorrect prior knowledge can be combined with observed

    data Standard: Even when Bayesian methods are

    computationally intractable, they can provide a standardof optimal decision making against which other methodscan be measured

  • 7/29/2019 bayesian bayesian network

    11/20March 29, 2013 Data Mining: Concepts and Techniques 11

    Bayesian Theorem: Basics

    Xadalah data sample (evidence): label kelas tidakdiketahui

    H adalah dugaan (hypothesis) bahwa X adalah anggota C

    Klasifikasi ditentukan P(H|X), (posteriori probability),

    probabilitas bahwa dugaan terhadap data sampleX

    P(H) (prior probability), initial probability

    MisalXakan membeli computer, tidak memperhatikanage, income,

    P(X): probabilitas dari sample data yang diamatii

    P(X|H) (likelyhood), probabilitas dari sampleX, dengan thememperhatikan dugaan

    Misal ,Xakan membeli computer, probabilitas bahwa X.Adalah 31..40, penghasilan sedang

  • 7/29/2019 bayesian bayesian network

    12/20March 29, 2013 Data Mining: Concepts and Techniques 12

    Bayesian Theorem

    Dari training dataX, posteriori probabilitas dari hypothesis

    H, P(H|X), teoremaBayes

    Ini dapat ditulis denganposterior = likelihood x prior/evidence

    PrediksiXanggota C2 jika dan hanya jika probabilitas

    P(C2|X) paling tinggi diantara semua P(C

    k|X) dari semua

    kelas k

    Prakteknya sulit : perlu pengetahuan awal dari banyak

    probabilitas , biaya komputasi yang signifikan

    )(

    )()|()|(X

    XX

    P

    HPHPHP

  • 7/29/2019 bayesian bayesian network

    13/20March 29, 2013 Data Mining: Concepts and Techniques 13

    Nave Bayesian Classifier: Training Dataset

    age income student credit_rating buys_computer 40 low yes fair yes>40 low yes excellent no

    3140 low yes excellent yes

  • 7/29/2019 bayesian bayesian network

    14/20March 29, 2013 Data Mining: Concepts and Techniques 14

    Klasifikasi Nave Bayesian

    Perhatikan D adalah record training dan ditetapkan label-label kelasnya dan masing-masing record dinyatakan natribut ( n field ) X= (x1, x2, , xn)

    Misalkan terdapat mkelas C1, C2, , Cm.

    Klassifikasi adalah diperoleh maximum posteriori yaitumaximum P(Ci|X)

    Ini dapat diperoleh dari teorema Bayes

    Karena P(X) adalah konstan untuk semua kelas, hanya

    Perlu dimaksimumkan

    )(

    )()|()|(

    X

    XX

    Pi

    CPi

    CP

    iCP

    )()|()|(i

    CPi

    CPi

    CP XX

  • 7/29/2019 bayesian bayesian network

    15/20March 29, 2013 Data Mining: Concepts and Techniques 15

    Derivation of Nave Bayes Classifier

    Diasumsikan: atribut dalam kondisi saling bebas(independent) yaitu tidak ada kebergantungan antaraatribut-atribut :

    Ini sangat mengurangi biaya .Hanya menghitung

    distribusi dari kelas Akadalah categorical, P(xk|Ci) adalah jumlah record dalam

    kelas Ci yang memiliki nilai xkuntuk Akdibagi dengan|Ci, D| jumlah record dalam Ci dalam D)

    Jika Akbernilai kontinu , P(xk|Ci) biasanya dihitungberdasarkan pada distribusi Gausian dengan mean andstandar deviasi

    Dan P(xk|Ci) adalah

    )|(.. .)|()|(

    1

    )|()|(21

    CixPCixPCixP

    n

    k

    CixPCiPnk

    X

    2

    2

    2

    )(

    2

    1),,(

    x

    exg

    ),,()|(ii CCk

    xgCiP X

  • 7/29/2019 bayesian bayesian network

    16/20March 29, 2013 Data Mining: Concepts and Techniques 16

    Nave Bayesian Classifier: Training Dataset

    Class:

    C1:buys_computer = yes

    C2:buys_computer = no

    Data sample

    X = (age 40 low yes excellent no

    3140 low yes excellent yes

  • 7/29/2019 bayesian bayesian network

    17/20March 29, 2013 Data Mining: Concepts and Techniques 17

    a ve ayes an ass er: nExample

    P(Ci): P(buys_computer = yes) = 9/14 = 0.643P(buys_computer = no) = 5/14= 0.357

    Compute P(X|Ci) for each classP(age =

  • 7/29/2019 bayesian bayesian network

    18/20March 29, 2013 Data Mining: Concepts and Techniques 18

    Menghindari masalah Probabilitas 0

    Prediksi Nave Bayesian membutuhkan masing-masing probabilitastidak nol , Dengan kata lain. Probabilitas yang dihitung tidak menjadinol

    Misalkan data dengan 1000 record , income=low (0), income=medium (990), and income = high (10),

    Menggunakan Laplacian correction (atau Laplacian estimator)

    Tambahkan 1 untuk masing-masing case

    Prob(income = low) = 1/1003

    Prob(income = medium) = 991/1003

    Prob(income = high) = 11/1003

    The corrected prob. estimates are close to their uncorrected

    counterparts

    n

    kCixkPCiXP

    1

    )|()|(

  • 7/29/2019 bayesian bayesian network

    19/20March 29, 2013 Data Mining: Concepts and Techniques 19

    Penjelasan Nave Bayesian Classifier:

    Keuntungan Mudah diimplementasikan

    Hasil baik dalam banyak kasus

    Kerugian

    Asumsi : kondisi kelas saling bebas , sehingga kurangakurat

    Pada prakteknya , kebergantungan anda diantaravariabel

    Misal hospitals: patients: Profile: age, family history, etc.Gejala (symptom: demam (fever), batuk (cough) etc., Disease:

    lung cancer, diabetes, etc.

    Kebergantunagn diantara variabel ini tidak dapat dimodelkandengan menggunakan Nave Bayesian Classifier

    How to deal with these dependencies?

  • 7/29/2019 bayesian bayesian network

    20/20M h 29 2013 D t Mi i C t d T h i 20

    Bayesian Belief Networks

    Bayesian belief network memungkinkan sebagain variabel

    dalam kondisi saling bebas

    Model grafik menyatakan keterhubungan sebab akibat

    Menyatakan kebergantungan (dependency) diantara variabel-variabel

    Gives a specification of joint probability distribution

    X Y

    ZP

    Node (simpul ): variabel-variabel bebas

    Links: kebergantungan

    X dan Y adalah parents dari Z, dan Y

    adalan parent dari P

    tidak ada kebergantungan diantara Z dan P

    Tidak memiliki loop atau siklus