Klasifikasi Dokumen Dengan Algoritma Naïve Bayes dengan Penambahan Parameter Probabilitas...

download Klasifikasi Dokumen  Dengan Algoritma  Naïve Bayes dengan  Penambahan Parameter  Probabilitas Parent

of 19

description

Penerapan Algortima Naive Bayes

Transcript of Klasifikasi Dokumen Dengan Algoritma Naïve Bayes dengan Penambahan Parameter Probabilitas...

  • Fakultas Ilmu Komputer Universitas Indonesia

    2009

    Klasifikasi Dokumen

    Menggunakan Algoritma

    Nave Bayes dengan

    Penambahan Parameter

    Probabilitas Parent

    Category Bayu Distiawan Trisedya - 0906644511

    Hardinal Jais 0806444530

  • i

    Daftar Isi

    Daftar Isi ......................................................................................................................................................... i

    Klasifikasi Dokumen ...................................................................................................................................... 1

    Nave Bayes ................................................................................................................................................... 2

    Inovasi ........................................................................................................................................................... 4

    Hasil Eksperimen dan Analisa ....................................................................................................................... 9

    Kesimpulan dan Saran ................................................................................................................................. 16

  • 1

    Klasifikasi Dokumen

    Klasifikasi dokumen adalah proses pengelompokan dokumen sesuai dengan kategori yang

    dimilikinya. Klasifikasi dokumen merupakan masalah yang mendasar namun sangat penting karena

    manfaatnya cukup besar mengingat jumlah dokumen yang ada setiap hari semakin bertambah. Sebuah

    dokumen dapat dikelompokkan ke dalam kategori tertentu berdasarkan kata-kata dan kalimat-kalimat

    yang ada di dalam dokumen tersebut. Kata atau kalimat yang terdapat di dalam sebuah dokumen

    memiliki makna tertentu dan dapat digunakan sebagai dasar untuk menentukan kategori dari dokumen

    tersebut. Perhatikan beberapa kalimat berikut ini:

    1. Harga minyak kembali bertahan di atas 67 dollar AS per barrel menjelang penutupan transaksi di

    bursa komoditas New York Exchange. [Ekonomi, Kompas 24 Oktober 2008]

    2. Sony Dwi Kuncoro serta ganda putera Muhammad Ahsan/Bona Septano menyusul dua ganda

    campuran Indoensia lolos ke final turnamen Jepang Terbuka Super Series. [Olahraga, Kompas 20

    September 2008]

    3. Timbulnya beberapa wabah penyakit ketika musim penghujan tiba berkaitan erat dengan

    kerusakan kualitas lingkungan. [Kesehatan, Kompas 4 November 2008]

    Pada kalimat (1) terdapat kata harga dan dollar. Kata-kata tersebut memiliki keterkaitan erat

    dengan masalah ekonomi, sehingga dapat disimpulkan bahwa kalimat (1) membahas masalah ekonomi.

    Kalimat (2) memiliki kata final dan turnamen. Dari kata-kata tersebut akan muncul dugaan bahwa

    kalimat (2) sedang membahas masalah olahraga. Terakhir, pada kalimat (3) terdapat kata wabah dan

    penyakit yang menunjukkan bahwa kalimat tersebut membahas bidang kesehatan.

    Kata harga yang terdapat pada dokumen lain belum dapat dijadikan sebagai patokan bahwa

    dokumen lain tersebut membahas mengenai ekonomi. Apabila dokumen lain tersebut memiliki kata-

    kata lain yang mengarahkan pada pembahasan ekonomi secara bersamaan, maka dapat disimpulkan

    bahwa dokumen tersebut membahas mengenai ekonomi. Untuk dapat menentukan kategori dari

    sebuah dokumen haruslah dilihat semua kata-kata yang terkait pada dokumen tersebut.

    Manfaat dari klasifikasi dokumen adalah untuk pengorganisasian dokumen. Dengan jumlah

    dokumen yang sangat besar, untuk mencari sebuah dokumen akan lebih mudah apabila kumpulan

    dokumen yang dimiliki terorganisir dan telah dikelompokkan sesuai kategorinya masing-masing. Contoh

    aplikasi penggunaan klasifikasi dokumen teks yang banyak digunakan adalah e-mail spam filtering. Pada

  • 2

    aplikasi spam filtering sebuah e-mail diklasifikasikan apakah e-mail tersebut termasuk spam atau tidak

    dengan memperhatikan kata-kata yang terdapat di dalam e-mail tersebut. Aplikasi ini telah digunakan

    oleh banyak e-mail provider.

    Nave Bayes

    Nave Bayes merupakan salah satu metode machine learning yang menggunakan perhitungan

    probabilitas. Konsep dasar yang digunakan oleh Nave bayes adalah Teorema Bayes, yaitu melakukan

    klasifikasi dengan melakukan perhitungan nilai probabilitas ( | )i jp C c D d , yaitu probabilitas

    kategori ci jika diketahui dokumen dj. Klasifikasi dilakukan untuk mementukan kategori c C dari suatu

    dokumen d D dimana C = {c1, c2, c3, , ci} dan D = {d1, d2, d3, , dj}. Penentuan dari kategori sebuah

    dokumen dilakukan dengan mencari nilai maksimum dari ( | )i jp C c D d pada P={ ( | )i jp C c D d

    | c C dan d D}. Nilai probabilitas ( | )i jp C c D d dapat dihitung dengan persamaan (Mitchell,

    2005):

    ( )

    ( | )( )

    i j

    i j

    j

    P C c D d

    p C c D dP D d

    ( | ) ( )

    ( )

    j i i

    j

    p D d C c p C c

    p D d

    dengan ( | )j ip D d C c merupakan nilai probabilitas dari kemunculan dokumen dj jika diketahui

    dokemen tersebut berkategori ci, ( )ip C c adalah nilai probabilitas kemunculan kategori ci, dan

    ( )jp D d adalah nilai probabilitas kemunculan dokumen dj.

    Nave Bayes menganggap sebuah dokumen sebagai kumpulan dari kata-kata yang menyusun

    dokumen tersebut, dan tidak memperhatikan urutan kemunculan kata pada dokumen. Sehingga

    perhitungan probabilitas ( | )j ip D d C c dapat dianggap sebagai hasil perkalian dari probabilitas

    kemunculan kata-kata pada dokumen dj. Perhitungan probabilitas ( | )i jp C c D d dapat dituliskan

    sebagai berikut:

    1 2 3

    ( | ) ( )

    ( | )( , , ,..., ,... )

    k i i

    ki j

    k n

    p w C c p C c

    p C c D dp w w w w w

  • 3

    dengan ( | )k ik

    p w C c adalah hasil perkalian dari probabilitas kemunculan semua kata pada

    dokumen dj.

    Proses klasifikasi dilakukan dengan membuat model probabilistik dari dokumen training, yaitu

    dengan menghitung nilai ( | )kp w c . Untuk wkj diskrit dengan wkj V = {v1, v2, v3, , vm} maka ( | )kp w c

    dicari untuk seluruh kemungkinan nilai wkj dan didapatkan dengan melakukan perhitungan (Mitchell,

    2005):

    ,( )( | )

    ( )

    b k kjk kj

    b

    D w w cp w w c

    D c

    dan

    ( )( )

    | |

    bD cp c

    D

    dengan ,( )b k kjD w w c adalah fungsi yang mengembalikan jumlah dokumen b pada kategori c yang

    memiliki nilai kata wk = wkj, ( )bD c adalah fungsi yang mengembalikan jumlah dokumen b yang memiliki

    kategori c, dan |D| adalah jumlah seluruh training dokumen. Persamaan ,( )b k kjD w w c sering kali

    dikombinasikan dengan Laplacian Smoothing untuk mencegah persamaan mendapatkan nilai 0, yang

    dapat menggangu hasil klasifikasi secara keseluruhan. Sehingga persamaan ,( )b k kjD w w c dituliskan

    sebagai (Mitchell, 2005):

    ,( ) 1( | )

    ( ) | |

    b k kjk kj

    b

    D w w cp w w c

    D c V

    dengan |V| merupakan jumlah kemungkinan nilai dari wkj.

    Pemberian kategori dari sebuah dokumen dilakukan dengan memilih nilai c yang memiliki nilai

    ( | )i jp C c D d maksimum, dan dinyatakan dengan:

    * arg max ( | ) ( )kc C

    k

    c p p w c p c

    Kategori c* merupakan kategori yang memiliki nilai ( | )i jp C c D d maksimum. Nilai ( )jp D d

    tidak mempengaruhi perbandingan karena untuk setiap kategori nilainya akan sama. Berikut ini

    gambaran proses klasifikasi dengan algoritma Nave Bayes:

  • 4

    Gambar 1. Tahapan Proses Klasifikasi Dokumen dengan Algoritma Nave Bayes

    Inovasi

    Klasifikasi dokumen biasanya dilakukan dengan menggunakan jumlah kategori yang cukup

    besar. Diantara kategori-kategori yang ada biasanya dapat dikelompokkan lagi ke dalam kategori-

    kategori yang lebih umum yang memiliki domain yang sama, atau dapat disebut sebagai parent

    category. Diantara kategori-kategori yang memiliki domain yang sama banyak terdapat fitur-fitur yang

    sama yang menunjukkan ciri dari parent category-nya tersebut. Banyaknya fitur-fitur yang saling

    beririsan tersebut membuat jumlah kesalahan klasifikasi antar kategori yang memiliki domain yang sama

    sangat besar. Untuk lebih jelasnya, perhatikan contoh berikut ini:

    Dokumen Kategori Fitur (Kemunculan)

    dokumen1 Football Football(3), game(2), shoot(1)

    dokumen2 Football Football(3), manager(2), pinalty(1)

    dokumen3 Tennis Roger(2), Federer(2), win(1)

  • 5

    dokumen4 Tennis Maria(2), Sharapova(2), win(1)

    dokumen5 Computer game Football(3), game(1), computer(2)

    dokumen6 Computer game Formulaone(3), game(1), computer(2)

    dokumen7 Operating system Windows(2), memory(1), computer(2)

    dokumen8 Operating system Linux(2), disk(1), computer(2)

    dokumen9 ? Football(1), memory(1), manager(1), computer(1)

    dengan persamaan:

    ,( ) 1( | )

    ( ) | |

    kj ikj i

    i

    f w cp w c

    f c W

    ,( )kj if w c adalah nilai kemunculan kata wkj pada kategori ci

    ( )if c adalah jumlah keseluruhan kata pada kategori ci

    |W| adalah jumlah keseluruhan kata/fitur yang digunakan dan

    ( )( )

    | |

    d ii

    f cp c

    D

    ( )d if c adalah jumlah dokumen yang memiliki kategori ci

    |D| adalah jumlah seluruh training dokumen dibentuk sebuah model probabilistik:

    Kategori p(ci) p(wkj|ci)

    computer federer football formulaone game linux manager maria pinalty roger sharapova shoot disk memory win windows

    Football 1/28 1/28 7/28 1/28 3/28 1/28 3/28 1/28 2/28 1/28 1/28 2/28 1/28 1/28 1/28 1/28

    Tennis 1/26 3/26 1/26 1/26 1/26 1/26 1/26 3/26 1/26 3/26 3/26 1/26 1/26 1/26 3/28 1/26

    Computer game 5/28 1/28 4/28 4/28 3/28 1/28 1/28 1/28 1/28 1/28 1/28 1/28 1/28 1/28 1/28 1/28

    Operating system 5/26 1/26 1/26 1/26 1/26 3/26 1/26 1/26 1/26 1/26 1/26 1/26 2/26 2/26 1/26 3/26

    Penentuan kategori untuk dokumen9:

    * arg max ( | ) ( )ii

    kj ic C

    k

    c p w c p c

  • 6

    p(football|dokumen9)= p(football) x p(football| football) x p(memory| football) x p(manager|

    football) x p(computer| football)

    = 1/4 x

    7/28x

    1/28 x

    3/28 x

    1/28

    = 21

    /2458645 8,5141 x 10-6

    p(tennis|dokumen9)= p(tennis) x p(football| tennis) x p(memory| tennis) x p(manager| tennis)

    x p(computer| tennis)

    = 1/4 x

    1/26x

    1/26 x

    1/26 x

    1/26

    = 1/1827904 5,4707 x 10

    -7

    p(computer game|dokumen9)= p(computer game) x p(football| computer game) x p(memory| computer

    game) x p(manager| computer game) x p(computer| computer game)

    = 1/4 x

    4/28x

    1/28 x

    1/28 x

    5/28

    = 20

    /2458645 8,1346 x 10-6

    p(operating system|dokumen9)= p(operating system) x p(football| operating system) x p(memory|

    operating system) x p(manager| operating system) x p(computer| operating

    system)

    = 1/4 x

    1/26x

    2/26 x

    1/26 x

    1/26

    = 2/1827904 1,094 x 10

    -6

    Secara intuitif, kita dapat menentukan bahwa kategori dokumen9 adalah computer game,

    namun dari perhitungan metode nave bayes dokumen9 diklasifikasikan ke kategori football. Pada

    perhitungan tersebut, dokumen9 diklasifikasikan ke dalam kategori football karena prior probability dari

    ketegori computer game kurang memiliki informasi general mengenai computer yang relevansinya

    dengan kategori computer game cukup besar. Dalam hal ini sebagai contoh fitur disk yang dimiliki oleh

    dokumen9 yang sebenarnya dapat diidentifikasi bila kita melihat kumpulan dokumen ke dalam

    kelompok-kelompok yang lebih general. Oleh karena itu, pada tugas machine learning kali ini akan

  • 7

    dilakukan klasifikasi dokumen menggunakan metode nave bayes dengan menambahkan nilai prior

    probability dari parent category dari masing-masing kategori spesifiknya. Berikut ilustrasinya:

    General Kategori p(ci) p(wkj|ci)

    computer federer football formulaone game linux manager maria pinalty roger sharapova shoot disk memory win windows

    Sports 1/38 3/38 7/38 1/38 3/38 1/38 3/38 3/38 2/38 3/38 3/38 2/38 1/38 1/38 3/38 1/38

    Computer 9/38 1/38 4/38 4/38 3/38 3/38 1/38 1/38 1/38 1/38 1/38 1/38 2/38 2/38 1/38 3/38

    p(sports|dokumen9)= p(sports) x p(football| sports) x p(memory| sports) x p(manager|

    sports) x p(computer| sports)

    = 1/2 x

    7/38x

    1/38 x

    3/38 x

    1/38

    = 21

    /4170272 5,0356 x 10-6

    p(computer|dokumen9)= p(computer) x p(football| computer) x p(memory| computer) x

    p(manager| computer) x p(computer| computer)

    = 1/2 x

    4/38x

    2/38 x

    1/38 x

    9/38

    = 72

    /4170272 1,7265 x 10-5

    sehingga untuk menentukan kategori dilakukan perhitungan:

    p(football|dokumen9)* = p(football|dokumen9) x p(sports|dokumen9)

    = 21

    /2458645 x 21

    /4170272 = 441/1,0253 x 1013 4,3010 x 10-11

    p(tennis|dokumen9)* = p(tennis|dokumen9) x p(sports|dokumen9)

    = 1/1827904 x

    21/4170272 = 21/7,6228 x 10

    12 2,7548 x 10-12

    p(computer game|dokumen9)* = p(computer game|dokumen9) x p(computer|dokumen9)

  • 8

    = 20

    /2458645 x 72

    /4170272 = 1440/1,0253 x 1013 1,4044 x 10-10

    p(opeating system|dokumen9)* = p(opertaing system|dokumen9) x p(computer|dokumen9)

    = 2/1827904 x

    72/4170272 = 144/1,0253 x 10

    13 1,4044 x 10-11

    dari perhitungan tersebut maka dokumen9 diklasifikasikan ke kategori computer game.

    Penambahan prior probability dari parent category dengan menggunakan algoritma Nave Bayes

    ini mirip dengan penambahan unlabeled documents pada klasifikasi dokumen menggunakan algoritma

    Expectation Maximization. Pada klasifikasi dokumen menggunakan algoritma Expectation Maximization

    hasil klasifikasi diperbaiki dengan memperkaya fitur-fitur yang dimiliki sebuah kategori yang belum

    tercakup pada labeled document dengan persamaan sebagai berikut:

    | |

    1

    ( | ) ( | ) ( | ; ) ( | ) ( | ; )i ij l j u

    C

    i j i j

    id D d D

    p D p C c p d C c p c p d c

    Proses klasifikasi dokumen dengan menambahkan prior probability dari parent category

    bertujuan untuk menambahkan fitur-fitur yang dimiliki sebuah kategori dengan memanfaatkan fitur dari

    kategori lain yang masih dalam satu domain. Proses tersebut mirip dengan penambahan fitur dari

    unlabeled documents dari algoritma Expectation Maximization, sehingga bagian kedua dari persamaaan

    algoritma Expectation Maximization | |

    1

    ( | ) ( | ; ) digantikan ( | ) ( | ; )i ij u j p

    C

    i j i j

    id D d D

    p c p d c p C c p d C c

    ,

    maka persamaan klasifikasi dokumen dengan menambahkan prior prbability dari parent category dapat

    dituliskan sebagai berikut:

    ( | ) ( | ) ( | ; ) ( | ) ( | ; )i ij l j p

    i j i j

    d D d D

    p D p C c p d C c p C c p d C c

    Dengan memperhatikan hal-hal tersebut maka diharapkan inovasi yang dilakukan ini dapat

    meningkatkan akurasi dari klasifikasi dokumen dengan memperkecil kesalahan klasifikasi antar kategori

    yang memiliki domain yang berbeda.

  • 9

    Hasil Eksperimen dan Analisa

    Untuk menguji hipotesis bahwa dengan penambahan parameter prior probability dari parent

    category akan meningkatkan akurasi klasifikasi dokumen, maka dilakukan percobaan klasifikasi

    dokumen. Percobaan ini dilakukan dengan menggunakan program yang dibuat dengan memanfaatkan

    library WEKA 3.5.7 yang didapat dari http://www.cs.waikato.ac.nz/~ml/weka/. WEKA merupakan

    kumpulan algoritma machine learning yang ditulis dalam bahasa pemrograman Java.

    Data yang digunakan dalam percobaan ini adalah dataset 20Newsgroups dataset dari

    http://people.csail.mit.edu/jrennie/20Newsgroups/. Data ini berupa kumpulan e-mail yang memiliki 20

    buah kategori. Dokumen e-mail yang terdapat pada 20Newsgroups dataset yang digunakan pada

    percobaan ini merupakan dokumen-dokumen yang telah dihilangkan tag header-nya. Jumlah

    keseluruhan dokumen yang digunakan mencapai 18828 dokumen.

    Data akan direpresentasikan ke dalam term-document matrix. Term documents matrix

    marupakan representasi kumpulan dokumen yang akan digunakan untuk melakukan proses klasifikasi

    dokumen teks. Pada term documents matrix, sebuah dokumen direpresentasikan sebagai kumpulan fitur

    dan dapat diilustrasikan sebagai dj = [w1j, w2j, , wkj] dengan dj merupakan dokumen ke-j dan wkj

    merupakan nilai kemunculan fitur ke-k pada dokumen dj. Matriks ini akan berisi nilai-nilai kemunculan

    fitur. Jenis fitur yang akan digunakan pada percobaan ini adalah jenis fitur frekuensi. Jenis fitur frekuensi

    akan menyimpan nilai frekuensi kemunculan fitur pada sebuah dokumen.

    Untuk menghilangkan bias data, pada percobaan ini dilakukan k-fold cross validation. Pada

    percobaan ini digunakan 3 buah fold. Satu buah fold digunakan untuk testing documents, sedangkan dua

    fold lainnya digunakan untuk training documents.

    Percobaan pertama dilakukan dengan menggunakan 10000 fitur. Jumlah dokumen training yang

    digunakan bervariasi mulai dari 500 dokumen hingga 10000 dokumen. Hasil yang diperoleh

    menunjukkan bahwa dengan menambahkan parameter prior probability dari parent category dapat

    meningkatkan hasil klasifikasi dokumen teks. Rata-rata peningkatan akurasi klasifikasi dapat mencapai

    0,81%. Berikut grafik hasil klasifikasi dokumen menggunakan 10000 fitur.

  • 10

    Gambar 2. Hasil Klasifikasi Dokumen Menggunakan 10000 Fitur

    Percobaan pertama dilakukan dengan menggunakan 20000 fitur. Jumlah dokumen training yang

    digunakan bervariasi mulai dari 500 dokumen hingga 10000 dokumen. Hasil yang diperoleh

    menunjukkan bahwa dengan menambahkan parameter prior probability dari parent category dapat

    meningkatkan hasil klasifikasi dokumen teks. Rata-rata peningkatan akurasi klasifikasi dapat mencapai

    0,79%. Berikut grafik hasil klasifikasi dokumen menggunakan 10000 fitur.

    Gambar 3. Hasil Klasifikasi Dokumen Menggunakan 20000 Fitur

  • 11

    Pada percobaan kedua rata-rata peningkatan akurasi klasifikasi yang didapatkan lebih rendah.

    Hal ini disebabkan oleh fitur-fitur spesifik dari sebuah kategori sudah masuk ke dalam daftar fitur yang

    digunakan, sehingga klasifikasi menggunakan algoritma Nave Bayes biasa telah memberi hasil yang baik.

    Namun dengan menambahkan jumlah fitur yang besar akan meningkatkan proses komputasi sehingga

    proses klasifikasi dokumen menjadi jauh lebih lama.

    Dari dua hasil yang diperoleh tersebut dapat disimpulkan bahwa dengan menambahkan

    parameter pror probability dari parent category dapat meningkatkan hasil klasifikasi dokumen dengan

    memperkecil jumlah kesalahan klasifikasi antar kategori yang memiliki domain yang berbeda. Dari

    proses klasifikasi dokumen dengan menggunakan parameter prior probability dari parent category

    didapatkan beberapa jenis kesalahan klasifikasi sebagai berikut:

    x = Kelas hasil klasifikasi Nave Bayes biasa. y = Kelas hasil klasifikasi Nave Bayes dengan penambahan parameter parent probability.

    1. Kesalahan dari kelas x ke kelas y, dimana parent(x) == parent(y), parent(realTopic) != parent(x)

    dan parent(realTopic) != parent(y)

    2. Kesalahan dari kelas x ke kelas y, dimana parent(x) != parent(y), parent(realTopic) != parent(x)

    dan parent(realTopic) != parent(y)

    Dari kesalahan 1 dan 2 didapatkan kesalahan ini terjadi ketika distribusi probabilitas sebuah

    dokumen merata untuk setiap kategori. Dari hasil tersebut diperoleh bahwa penambahan fitur

    dari parent category tidak mempengaruhi hasil klasifikasi dokumen-dokumen tersebut.

    3. Kesalahan dari kelas x ke kelas y, dimana parent(x) != parent(y), parent(realTopic) != parent(x)

    dan parent(realTopic) == parent(y). Dari hasil ini diperoleh bahwa penambahan parameter

    probabilitas parent category memberikan hasil yang cukup baik, ditunjukkan dengan beralihnya

    kesalahan klasifikasi menuju ke kategori yang memiliki domain dama dengan kategori aslinya.

    4. Kesalahan dari kelas x ke kelas y, dimana realTopic == x dan realTopic != y. Artinya dokumen-

    dokumen yang diklasifikasikan benar dengan Naive Bayes biasa menjadi salah diklasifikasikan

    dengan menggunakan penambahan parameter parent probability. Kesalahan klasifikasi ini

    dipengaruhi jumlah fitur yang digunakan dalam merepresentasikan term document matrix.

    Semakin banyak jumlah fitur yang digunakan, maka kesalahan yang muncul akan semakin

    sedikit. Hal ini diakibatkan karena pemilihan fitur diurutkan berdasarkan frekuensi kemunculan

  • 12

    fitur pada kumpulan dokumen yang digunakan. Semakin sedikit fitur yang digunakan maka

    semakin sedikit spesifik fitur yang dimiliki oleh sebuah kategori dan parentnya, sehingga

    semakin besar kemungkinan sebuah dokumen memiliki fitur-fitur yang beririsan antara parent

    category, sehingga tidak didapatkan gambaran umum yang baik dari sebuah dokumen. Dengan

    memperbesar jumlah fitur yang digunakan maka fitur-fitur spesifik yang ada pada sebuah

    kategori dapat tercakup, sehingga dapat mengurangi kesalahan klasifikasi ini. Untuk lebih

    jelasnya perhatikan gambar berikut ini:

    Gambar 4. a) Distribusi Fitur pada Penggunaan 10000 Fitur b) Distribusi Fitur pada Penggunaan 20000 Fitur

    Untuk menggambarkan decision boundary dari hasil klasifikasi Nave Bayes biasa dan Nave

    Bayes dengan penambahan parameter prior probability dari parent category maka digunakan n-

    dimensional density function sebagai berikut:

    11 1( ) ( ) ( ) ln ln 2 ln ( )2 2 2

    Tj j j j jj

    ny X X X K X X K P C

    Untuk memperjelas decision boundary maka digunakan dua buah kelas, yaitu kelas dokumen

    yang diklasifikasikan benar dan kelas dokumen yang diklasifikasikan salah, sehingga persamaannya

    menjadi dapat dituliskan sebagai berikut:

    11 1( ) ( ) ( ) ln ln 2 ln ( )2 2 2

    Tb b b b bb

    ny X X X K X X K P C

    11 1( ) ( ) ( ) ln ln 2 ln ( )2 2 2

    Ts s s s ss

    ny X X X K X X K P C

    a b

  • 13

    Untuk menggambarkan decision boundary dari kedua kelas tersebut maka dilakukan kombinasi

    antara dua buah diskriminan tersebut ( ) ( ) ( )s by X y X y X , sehingga persamaan decision boundary

    dari Nave Bayes diturunkan menjadi:

    1 11 1 1 ( )( ) ( ) ( ) ( ) ( ) ln ln2 2 2 ( )

    b bT Tb b s sb s

    s s

    K P Cy X X X K X X X X K X X

    K P C

    Dari persamaan tersebut bisa muncul tiga buah kemungkinan decision boundary yang terbentuk.

    Kemungkinan pertama adalah jika matriks kovarians yang dibentuk adalah 2iK I , maka:

    2

    2

    2

    2

    0 0 0

    0 ... 0

    0 ... ... ...

    0 0 ...

    d

    iK

    1 2(1/ )i I

    2 independen untuk setiap fitur ii I

    Penurunan rumusan matematisnya adalah sebagai berikut:

    Nilai 1

    ln dan ln 22 2

    in

    K dapat diabaikan karena akan konstan, maka

    2

    2

    || ||( ) ln ( )

    2

    ii i

    X Xy X P C

    , dengan 2|| || ( ) ( )TiX X X X X X

    2

    1( ) [ 2 ] ln ( )

    2

    T T Ti ii i iy X X X X X X X P C

    , dengan TX X konstan

    0( )T

    i i i iy X w X w (linear discriminant)

    Dimana 21

    i iw X

    dan 0 21

    ln ( )2

    T

    i i i iw X X P C

    Kemungkinan kedua adalah jika matriks kovarians yang dibentuk kovarians yang terbentuk acak

    namun nilainya sama untuk semuafitur yang ada iK K , maka fitur-fitur tersebut akan membentuk

  • 14

    hyper-ellipsoidal clusters dengan ukuran dan bentuk yang sama. Untuk kasus ini decision boundary yang

    dibentuk adalah linier namun masih belum dapat menentukan decision region-nya.

    Penurunan rumusan matematisnya adalah sebagai berikut:

    Nilai 1

    ln dan ln 22 2

    in

    K dapat diabaikan karena akan konstan, maka

    11( ) ( ) ( ) ln ( )2

    Ti ii iy X X X K X X P C

    0( )T

    i i i iy X w X w (linear discriminant)

    Dimana 1

    i iw K X dan

    1

    0

    1ln ( )

    2

    T

    i i i iw X K X P C

    Kemungkinan ketiga seperti yang diperoleh pada percobaan ini adalah dimana kovarians yang

    terbentuk nilainya acak dan memiliki nilai yang berbeda-beda untuk tiap-tiap kategori yang ada. Dalam

    kasus ini decision boundary yang terbentuk adalah hyperquadratics (hyperplanes, pasangan

    hyperplanes, hyperspheres, hyperellipsoids, hyperparaboloids, hyperhyperboloids). Decision boundary

    yang terbentuk telah dapat memisahkan region dari masing-masing kategori.

    Penurunan rumusan matematisnya adalah sebagai berikut:

    Nilai ln 22

    n dapat diabaikan karena akan konstan, maka

    0( )T

    i i i iy X X W X w X w (quadratic discriminant)

    Dimana 11

    2i iW K

    , 1

    i iw K X dan

    1

    0

    1 1ln | | ln ( )

    2 2

    T

    i i i i iw X K X K P C

    Penjelasan diatas juga menambahkan pengetahuan kita mengenai penambahan jumlah fitur akan

    memperkecil rata-rata peningkatan akurasi. Karena dengan menambahkan jumlah fitur yang digunakan

    untuk menggambarkan sebuah kategori, maka nilai kovarian dari masing-masing kategori akan semakin

  • 15

    kecil sehingga membuat decision boundary yang terbentuk makin mempersempit decision region dari

    masing-masing kategori yang ada sehingga dengan nave bayes biasa sudah memberikan akurasi yang

    cukup baik dan penambahan parameter prior probability dari parent category hanya memberi sedikit

    informasi tambahan dari fitur-fitur parent category nya. Hal tersebut dapat dicapai dengan

    memaksimalkan nilai Maximum Likelihood Estimation dengan penambahan parameter prior probability

    dari parent category sebgai berikut:

    1

    ( | ) ( | )n

    i

    i

    p D p x

    , ix adalah fitur-fitur yang digunakan dalam model probabilistik Nave

    Bayes. Untuk memaksimalkan ( | )p D , maka:

    ( | ) 0p D , untuk mempermudah perhitungan maka digunakan ln ( | )p D

    ln ( | ) 0p D

    1

    ln ( | ) 0n

    k

    i

    p x

    arg max ln ( | )p D , untuk meyakinkan bahwa penambahan fitur dapat memperkecil

    kovarians, maka digunakan distribusi gausian sebagai berikut:

    11 1ln ( | ) ( ) ( ) ln 2 ln | |2 2 2

    T

    i i i

    np x x K x K , dengan gradien

    1ln ( | ) ( )i ip x K x , untuk mendapatkan nilai optimum, maka ln ( | ) 0ip x

    1

    1

    ( ) 0n

    i

    i

    K x

    , maka

    1

    1

    n

    i

    i

    xn

    , maka semakin banyak fitur yang berkorelasi dengan sebuah kategori akan

    memperbesar nilai sehingga decision region yang terbentuk semakin optimal.

    Dilihat dari nilai kovarians probabilitas hasil klasifikasi dokumen, didapatkan hasil bahwa nilai

    kovarians dari Nave Bayes biasa lebih besar daripada nilai kovarians yang diperoleh dari algoritma Nave

    Bayes dengan penambahan parameter prior probability dari parent category. Hal ini menunjukkan

    bahwa probabilitas yang didapatkan dengan penambahan parameter prior probability dari parent

  • 16

    category lebih stabil dan presisi, dan menghasilkan decision boundary yang lebih baik. Dari hasil tersebut

    juga meunjukkan bahwa terdapat keterkaitan antara fitur-fitur dari category dengan parent category-

    nya sehingga dapat memberikan informasi fitur tambahan yang diperlukan. Berikut gambaran decision

    boundary dari dua buah metode yang digunakan:

    Gambar 5. a) Decision Boundary dari Metode Nave Bayes Biasa b) Decision Boundary dari Metode Nave

    dengan Penambahan Parameter Prior Probability dari Parent Category

    Kesimpulan dan Saran

    Dari hasil yang diperoleh dapat ditarik beberapa kesimpulan sebagai berikut:

    1. Penambahan parameter prior probability dari parent category dapat meningkatkan akurasi

    klasifikasi dokumen teks dengan mengurangi kesalahan klasifikasi antar dokumen yang memiliki

    domain yang berbeda.

    2. Dengan penambahan parameter prior probability dari parent category dimungkinkan terjadi

    kesalahan klasifikasi dimana pada penggunaan metode Nave Bayes biasa diklasifikasikan benar

    a b

  • 17

    menjadi salah diklasifikasikan apabila menggunakan penambahan parameter prior probability

    dari parent categor. Walaupun jumlah kesalahan ini sangat kecil, namun dapat mempengaruhi

    hasil klasifikasi secara keseluruhan. Hal ini dapat dikurangi dengan penambahan jumlah fitur

    yang digunakan untuk membangun model probabilistik yang ada.

    Saran yang mungkin dapat dipertimbangkan untuk pengembangan metode klasifikasi dokumen teks

    selanjutnya antara lain:

    1. Mempergunakan berbagai macam jenis fitur seperti TF-IDF, frequency normalized dan lain

    sebagainya, karena pada eksperimen ini hanya digunakan satu jenis fitur saja, yaitu jenis fitur

    frekuensi.

    2. Mempergunakan metode hierarchical document classification untuk melihat sisi lain dari

    pengaruh penggunaan parameter prior probability dari parent category.