Klasifikasi Dokumen Dengan Algoritma Naïve Bayes dengan Penambahan Parameter Probabilitas...

Fakultas Ilmu Komputer Universitas Indonesia

2009

Klasifikasi Dokumen

Menggunakan Algoritma

Nave Bayes dengan

Penambahan Parameter

Probabilitas Parent

Category Bayu Distiawan Trisedya - 0906644511

Hardinal Jais 0806444530

i

Daftar Isi

Daftar Isi ......................................................................................................................................................... i

Klasifikasi Dokumen ...................................................................................................................................... 1

Nave Bayes ................................................................................................................................................... 2

Inovasi ........................................................................................................................................................... 4

Hasil Eksperimen dan Analisa ....................................................................................................................... 9

Kesimpulan dan Saran ................................................................................................................................. 16

1

Klasifikasi Dokumen

Klasifikasi dokumen adalah proses pengelompokan dokumen sesuai dengan kategori yang

dimilikinya. Klasifikasi dokumen merupakan masalah yang mendasar namun sangat penting karena

manfaatnya cukup besar mengingat jumlah dokumen yang ada setiap hari semakin bertambah. Sebuah

dokumen dapat dikelompokkan ke dalam kategori tertentu berdasarkan kata-kata dan kalimat-kalimat

yang ada di dalam dokumen tersebut. Kata atau kalimat yang terdapat di dalam sebuah dokumen

memiliki makna tertentu dan dapat digunakan sebagai dasar untuk menentukan kategori dari dokumen

tersebut. Perhatikan beberapa kalimat berikut ini:

1. Harga minyak kembali bertahan di atas 67 dollar AS per barrel menjelang penutupan transaksi di

bursa komoditas New York Exchange. [Ekonomi, Kompas 24 Oktober 2008]

2. Sony Dwi Kuncoro serta ganda putera Muhammad Ahsan/Bona Septano menyusul dua ganda

campuran Indoensia lolos ke final turnamen Jepang Terbuka Super Series. [Olahraga, Kompas 20

September 2008]

3. Timbulnya beberapa wabah penyakit ketika musim penghujan tiba berkaitan erat dengan

kerusakan kualitas lingkungan. [Kesehatan, Kompas 4 November 2008]

Pada kalimat (1) terdapat kata harga dan dollar. Kata-kata tersebut memiliki keterkaitan erat

dengan masalah ekonomi, sehingga dapat disimpulkan bahwa kalimat (1) membahas masalah ekonomi.

Kalimat (2) memiliki kata final dan turnamen. Dari kata-kata tersebut akan muncul dugaan bahwa

kalimat (2) sedang membahas masalah olahraga. Terakhir, pada kalimat (3) terdapat kata wabah dan

penyakit yang menunjukkan bahwa kalimat tersebut membahas bidang kesehatan.

Kata harga yang terdapat pada dokumen lain belum dapat dijadikan sebagai patokan bahwa

dokumen lain tersebut membahas mengenai ekonomi. Apabila dokumen lain tersebut memiliki kata-

kata lain yang mengarahkan pada pembahasan ekonomi secara bersamaan, maka dapat disimpulkan

bahwa dokumen tersebut membahas mengenai ekonomi. Untuk dapat menentukan kategori dari

sebuah dokumen haruslah dilihat semua kata-kata yang terkait pada dokumen tersebut.

Manfaat dari klasifikasi dokumen adalah untuk pengorganisasian dokumen. Dengan jumlah

dokumen yang sangat besar, untuk mencari sebuah dokumen akan lebih mudah apabila kumpulan

dokumen yang dimiliki terorganisir dan telah dikelompokkan sesuai kategorinya masing-masing. Contoh

aplikasi penggunaan klasifikasi dokumen teks yang banyak digunakan adalah e-mail spam filtering. Pada

2

aplikasi spam filtering sebuah e-mail diklasifikasikan apakah e-mail tersebut termasuk spam atau tidak

dengan memperhatikan kata-kata yang terdapat di dalam e-mail tersebut. Aplikasi ini telah digunakan

oleh banyak e-mail provider.

Nave Bayes

Nave Bayes merupakan salah satu metode machine learning yang menggunakan perhitungan

probabilitas. Konsep dasar yang digunakan oleh Nave bayes adalah Teorema Bayes, yaitu melakukan

klasifikasi dengan melakukan perhitungan nilai probabilitas ( | )i jp C c D d , yaitu probabilitas

kategori ci jika diketahui dokumen dj. Klasifikasi dilakukan untuk mementukan kategori c C dari suatu

dokumen d D dimana C = {c1, c2, c3, , ci} dan D = {d1, d2, d3, , dj}. Penentuan dari kategori sebuah

dokumen dilakukan dengan mencari nilai maksimum dari ( | )i jp C c D d pada P={ ( | )i jp C c D d

| c C dan d D}. Nilai probabilitas ( | )i jp C c D d dapat dihitung dengan persamaan (Mitchell,

2005):

( )

( | )( )

i j

i j

j

P C c D d

p C c D dP D d

( | ) ( )

( )

j i i

j

p D d C c p C c

p D d

dengan ( | )j ip D d C c merupakan nilai probabilitas dari kemunculan dokumen dj jika diketahui

dokemen tersebut berkategori ci, ( )ip C c adalah nilai probabilitas kemunculan kategori ci, dan

( )jp D d adalah nilai probabilitas kemunculan dokumen dj.

Nave Bayes menganggap sebuah dokumen sebagai kumpulan dari kata-kata yang menyusun

dokumen tersebut, dan tidak memperhatikan urutan kemunculan kata pada dokumen. Sehingga

perhitungan probabilitas ( | )j ip D d C c dapat dianggap sebagai hasil perkalian dari probabilitas

kemunculan kata-kata pada dokumen dj. Perhitungan probabilitas ( | )i jp C c D d dapat dituliskan

sebagai berikut:

1 2 3

( | ) ( )

( | )( , , ,..., ,... )

k i i

ki j

k n

p w C c p C c

p C c D dp w w w w w

3

dengan ( | )k ik

p w C c adalah hasil perkalian dari probabilitas kemunculan semua kata pada

dokumen dj.

Proses klasifikasi dilakukan dengan membuat model probabilistik dari dokumen training, yaitu

dengan menghitung nilai ( | )kp w c . Untuk wkj diskrit dengan wkj V = {v1, v2, v3, , vm} maka ( | )kp w c

dicari untuk seluruh kemungkinan nilai wkj dan didapatkan dengan melakukan perhitungan (Mitchell,

2005):

,( )( | )

( )

b k kjk kj

b

D w w cp w w c

D c

dan

( )( )

| |

bD cp c

D

dengan ,( )b k kjD w w c adalah fungsi yang mengembalikan jumlah dokumen b pada kategori c yang

memiliki nilai kata wk = wkj, ( )bD c adalah fungsi yang mengembalikan jumlah dokumen b yang memiliki

kategori c, dan |D| adalah jumlah seluruh training dokumen. Persamaan ,( )b k kjD w w c sering kali

dikombinasikan dengan Laplacian Smoothing untuk mencegah persamaan mendapatkan nilai 0, yang

dapat menggangu hasil klasifikasi secara keseluruhan. Sehingga persamaan ,( )b k kjD w w c dituliskan

sebagai (Mitchell, 2005):

,( ) 1( | )

( ) | |

b k kjk kj

b

D w w cp w w c

D c V

dengan |V| merupakan jumlah kemungkinan nilai dari wkj.

Pemberian kategori dari sebuah dokumen dilakukan dengan memilih nilai c yang memiliki nilai

( | )i jp C c D d maksimum, dan dinyatakan dengan:

* arg max ( | ) ( )kc C

k

c p p w c p c

Kategori c* merupakan kategori yang memiliki nilai ( | )i jp C c D d maksimum. Nilai ( )jp D d

tidak mempengaruhi perbandingan karena untuk setiap kategori nilainya akan sama. Berikut ini

gambaran proses klasifikasi dengan algoritma Nave Bayes:

4

Gambar 1. Tahapan Proses Klasifikasi Dokumen dengan Algoritma Nave Bayes

Inovasi

Klasifikasi dokumen biasanya dilakukan dengan menggunakan jumlah kategori yang cukup

besar. Diantara kategori-kategori yang ada biasanya dapat dikelompokkan lagi ke dalam kategori-

kategori yang lebih umum yang memiliki domain yang sama, atau dapat disebut sebagai parent

category. Diantara kategori-kategori yang memiliki domain yang sama banyak terdapat fitur-fitur yang

sama yang menunjukkan ciri dari parent category-nya tersebut. Banyaknya fitur-fitur yang saling

beririsan tersebut membuat jumlah kesalahan klasifikasi antar kategori yang memiliki domain yang sama

sangat besar. Untuk lebih jelasnya, perhatikan contoh berikut ini:

Dokumen Kategori Fitur (Kemunculan)

dokumen1 Football Football(3), game(2), shoot(1)

dokumen2 Football Football(3), manager(2), pinalty(1)

dokumen3 Tennis Roger(2), Federer(2), win(1)

5

dokumen4 Tennis Maria(2), Sharapova(2), win(1)

dokumen5 Computer game Football(3), game(1), computer(2)

dokumen6 Computer game Formulaone(3), game(1), computer(2)

dokumen7 Operating system Windows(2), memory(1), computer(2)

dokumen8 Operating system Linux(2), disk(1), computer(2)

dokumen9 ? Football(1), memory(1), manager(1), computer(1)

dengan persamaan:

,( ) 1( | )

( ) | |

kj ikj i

i

f w cp w c

f c W

,( )kj if w c adalah nilai kemunculan kata wkj pada kategori ci

( )if c adalah jumlah keseluruhan kata pada kategori ci

|W| adalah jumlah keseluruhan kata/fitur yang digunakan dan

( )( )

| |

d ii

f cp c

D

( )d if c adalah jumlah dokumen yang memiliki kategori ci

|D| adalah jumlah seluruh training dokumen dibentuk sebuah model probabilistik:

Kategori p(ci) p(wkj|ci)

computer federer football formulaone game linux manager maria pinalty roger sharapova shoot disk memory win windows

Football 1/28 1/28 7/28 1/28 3/28 1/28 3/28 1/28 2/28 1/28 1/28 2/28 1/28 1/28 1/28 1/28

Tennis 1/26 3/26 1/26 1/26 1/26 1/26 1/26 3/26 1/26 3/26 3/26 1/26 1/26 1/26 3/28 1/26

Computer game 5/28 1/28 4/28 4/28 3/28 1/28 1/28 1/28 1/28 1/28 1/28 1/28 1/28 1/28 1/28 1/28

Operating system 5/26 1/26 1/26 1/26 1/26 3/26 1/26 1/26 1/26 1/26 1/26 1/26 2/26 2/26 1/26 3/26

Penentuan kategori untuk dokumen9:

* arg max ( | ) ( )ii

kj ic C

k

c p w c p c

6

p(football|dokumen9)= p(football) x p(football| football) x p(memory| football) x p(manager|

football) x p(computer| football)

= 1/4 x

7/28x

1/28 x

3/28 x

1/28

= 21

/2458645 8,5141 x 10-6

p(tennis|dokumen9)= p(tennis) x p(football| tennis) x p(memory| tennis) x p(manager| tennis)

x p(computer| tennis)

= 1/4 x

1/26x

1/26 x

1/26 x

1/26

= 1/1827904 5,4707 x 10

-7

p(computer game|dokumen9)= p(computer game) x p(football| computer game) x p(memory| computer

game) x p(manager| computer game) x p(computer| computer game)

= 1/4 x

4/28x

1/28 x

1/28 x

5/28

= 20

/2458645 8,1346 x 10-6

p(operating system|dokumen9)= p(operating system) x p(football| operating system) x p(memory|

operating system) x p(manager| operating system) x p(computer| operating

system)

= 1/4 x

1/26x

2/26 x

1/26 x

1/26

= 2/1827904 1,094 x 10

-6

Secara intuitif, kita dapat menentukan bahwa kategori dokumen9 adalah computer game,

namun dari perhitungan metode nave bayes dokumen9 diklasifikasikan ke kategori football. Pada

perhitungan tersebut, dokumen9 diklasifikasikan ke dalam kategori football karena prior probability dari

ketegori computer game kurang memiliki informasi general mengenai computer yang relevansinya

dengan kategori computer game cukup besar. Dalam hal ini sebagai contoh fitur disk yang dimiliki oleh

dokumen9 yang sebenarnya dapat diidentifikasi bila kita melihat kumpulan dokumen ke dalam

kelompok-kelompok yang lebih general. Oleh karena itu, pada tugas machine learning kali ini akan

7

dilakukan klasifikasi dokumen menggunakan metode nave bayes dengan menambahkan nilai prior

probability dari parent category dari masing-masing kategori spesifiknya. Berikut ilustrasinya:

General Kategori p(ci) p(wkj|ci)

computer federer football formulaone game linux manager maria pinalty roger sharapova shoot disk memory win windows

Sports 1/38 3/38 7/38 1/38 3/38 1/38 3/38 3/38 2/38 3/38 3/38 2/38 1/38 1/38 3/38 1/38

Computer 9/38 1/38 4/38 4/38 3/38 3/38 1/38 1/38 1/38 1/38 1/38 1/38 2/38 2/38 1/38 3/38

p(sports|dokumen9)= p(sports) x p(football| sports) x p(memory| sports) x p(manager|

sports) x p(computer| sports)

= 1/2 x

7/38x

1/38 x

3/38 x

1/38

= 21

/4170272 5,0356 x 10-6

p(computer|dokumen9)= p(computer) x p(football| computer) x p(memory| computer) x

p(manager| computer) x p(computer| computer)

= 1/2 x

4/38x

2/38 x

1/38 x

9/38

= 72

/4170272 1,7265 x 10-5

sehingga untuk menentukan kategori dilakukan perhitungan:

p(football|dokumen9)* = p(football|dokumen9) x p(sports|dokumen9)

= 21

/2458645 x 21

/4170272 = 441/1,0253 x 1013 4,3010 x 10-11

p(tennis|dokumen9)* = p(tennis|dokumen9) x p(sports|dokumen9)

= 1/1827904 x

21/4170272 = 21/7,6228 x 10

12 2,7548 x 10-12

p(computer game|dokumen9)* = p(computer game|dokumen9) x p(computer|dokumen9)

8

= 20

/2458645 x 72

/4170272 = 1440/1,0253 x 1013 1,4044 x 10-10

p(opeating system|dokumen9)* = p(opertaing system|dokumen9) x p(computer|dokumen9)

= 2/1827904 x

72/4170272 = 144/1,0253 x 10

13 1,4044 x 10-11

dari perhitungan tersebut maka dokumen9 diklasifikasikan ke kategori computer game.

Penambahan prior probability dari parent category dengan menggunakan algoritma Nave Bayes

ini mirip dengan penambahan unlabeled documents pada klasifikasi dokumen menggunakan algoritma

Expectation Maximization. Pada klasifikasi dokumen menggunakan algoritma Expectation Maximization

hasil klasifikasi diperbaiki dengan memperkaya fitur-fitur yang dimiliki sebuah kategori yang belum

tercakup pada labeled document dengan persamaan sebagai berikut:

| |

1

( | ) ( | ) ( | ; ) ( | ) ( | ; )i ij l j u

C

i j i j

id D d D

p D p C c p d C c p c p d c

Proses klasifikasi dokumen dengan menambahkan prior probability dari parent category

bertujuan untuk menambahkan fitur-fitur yang dimiliki sebuah kategori dengan memanfaatkan fitur dari

kategori lain yang masih dalam satu domain. Proses tersebut mirip dengan penambahan fitur dari

unlabeled documents dari algoritma Expectation Maximization, sehingga bagian kedua dari persamaaan

algoritma Expectation Maximization | |

1

( | ) ( | ; ) digantikan ( | ) ( | ; )i ij u j p

C

i j i j

id D d D

p c p d c p C c p d C c

,

maka persamaan klasifikasi dokumen dengan menambahkan prior prbability dari parent category dapat

dituliskan sebagai berikut:

( | ) ( | ) ( | ; ) ( | ) ( | ; )i ij l j p

i j i j

d D d D

p D p C c p d C c p C c p d C c

Dengan memperhatikan hal-hal tersebut maka diharapkan inovasi yang dilakukan ini dapat

meningkatkan akurasi dari klasifikasi dokumen dengan memperkecil kesalahan klasifikasi antar kategori

yang memiliki domain yang berbeda.

9

Hasil Eksperimen dan Analisa

Untuk menguji hipotesis bahwa dengan penambahan parameter prior probability dari parent

category akan meningkatkan akurasi klasifikasi dokumen, maka dilakukan percobaan klasifikasi

dokumen. Percobaan ini dilakukan dengan menggunakan program yang dibuat dengan memanfaatkan

library WEKA 3.5.7 yang didapat dari http://www.cs.waikato.ac.nz/~ml/weka/. WEKA merupakan

kumpulan algoritma machine learning yang ditulis dalam bahasa pemrograman Java.

Data yang digunakan dalam percobaan ini adalah dataset 20Newsgroups dataset dari

http://people.csail.mit.edu/jrennie/20Newsgroups/. Data ini berupa kumpulan e-mail yang memiliki 20

buah kategori. Dokumen e-mail yang terdapat pada 20Newsgroups dataset yang digunakan pada

percobaan ini merupakan dokumen-dokumen yang telah dihilangkan tag header-nya. Jumlah

keseluruhan dokumen yang digunakan mencapai 18828 dokumen.

Data akan direpresentasikan ke dalam term-document matrix. Term documents matrix

marupakan representasi kumpulan dokumen yang akan digunakan untuk melakukan proses klasifikasi

dokumen teks. Pada term documents matrix, sebuah dokumen direpresentasikan sebagai kumpulan fitur

dan dapat diilustrasikan sebagai dj = [w1j, w2j, , wkj] dengan dj merupakan dokumen ke-j dan wkj

merupakan nilai kemunculan fitur ke-k pada dokumen dj. Matriks ini akan berisi nilai-nilai kemunculan

fitur. Jenis fitur yang akan digunakan pada percobaan ini adalah jenis fitur frekuensi. Jenis fitur frekuensi

akan menyimpan nilai frekuensi kemunculan fitur pada sebuah dokumen.

Untuk menghilangkan bias data, pada percobaan ini dilakukan k-fold cross validation. Pada

percobaan ini digunakan 3 buah fold. Satu buah fold digunakan untuk testing documents, sedangkan dua

fold lainnya digunakan untuk training documents.

Percobaan pertama dilakukan dengan menggunakan 10000 fitur. Jumlah dokumen training yang

digunakan bervariasi mulai dari 500 dokumen hingga 10000 dokumen. Hasil yang diperoleh

menunjukkan bahwa dengan menambahkan parameter prior probability dari parent category dapat

meningkatkan hasil klasifikasi dokumen teks. Rata-rata peningkatan akurasi klasifikasi dapat mencapai

0,81%. Berikut grafik hasil klasifikasi dokumen menggunakan 10000 fitur.

10

Gambar 2. Hasil Klasifikasi Dokumen Menggunakan 10000 Fitur

Percobaan pertama dilakukan dengan menggunakan 20000 fitur. Jumlah dokumen training yang

digunakan bervariasi mulai dari 500 dokumen hingga 10000 dokumen. Hasil yang diperoleh

menunjukkan bahwa dengan menambahkan parameter prior probability dari parent category dapat

meningkatkan hasil klasifikasi dokumen teks. Rata-rata peningkatan akurasi klasifikasi dapat mencapai

0,79%. Berikut grafik hasil klasifikasi dokumen menggunakan 10000 fitur.

Gambar 3. Hasil Klasifikasi Dokumen Menggunakan 20000 Fitur

11

Pada percobaan kedua rata-rata peningkatan akurasi klasifikasi yang didapatkan lebih rendah.

Hal ini disebabkan oleh fitur-fitur spesifik dari sebuah kategori sudah masuk ke dalam daftar fitur yang

digunakan, sehingga klasifikasi menggunakan algoritma Nave Bayes biasa telah memberi hasil yang baik.

Namun dengan menambahkan jumlah fitur yang besar akan meningkatkan proses komputasi sehingga

proses klasifikasi dokumen menjadi jauh lebih lama.

Dari dua hasil yang diperoleh tersebut dapat disimpulkan bahwa dengan menambahkan

parameter pror probability dari parent category dapat meningkatkan hasil klasifikasi dokumen dengan

memperkecil jumlah kesalahan klasifikasi antar kategori yang memiliki domain yang berbeda. Dari

proses klasifikasi dokumen dengan menggunakan parameter prior probability dari parent category

didapatkan beberapa jenis kesalahan klasifikasi sebagai berikut:

x = Kelas hasil klasifikasi Nave Bayes biasa. y = Kelas hasil klasifikasi Nave Bayes dengan penambahan parameter parent probability.

1. Kesalahan dari kelas x ke kelas y, dimana parent(x) == parent(y), parent(realTopic) != parent(x)

dan parent(realTopic) != parent(y)

2. Kesalahan dari kelas x ke kelas y, dimana parent(x) != parent(y), parent(realTopic) != parent(x)

dan parent(realTopic) != parent(y)

Dari kesalahan 1 dan 2 didapatkan kesalahan ini terjadi ketika distribusi probabilitas sebuah

dokumen merata untuk setiap kategori. Dari hasil tersebut diperoleh bahwa penambahan fitur

dari parent category tidak mempengaruhi hasil klasifikasi dokumen-dokumen tersebut.

3. Kesalahan dari kelas x ke kelas y, dimana parent(x) != parent(y), parent(realTopic) != parent(x)

dan parent(realTopic) == parent(y). Dari hasil ini diperoleh bahwa penambahan parameter

probabilitas parent category memberikan hasil yang cukup baik, ditunjukkan dengan beralihnya

kesalahan klasifikasi menuju ke kategori yang memiliki domain dama dengan kategori aslinya.

4. Kesalahan dari kelas x ke kelas y, dimana realTopic == x dan realTopic != y. Artinya dokumen-

dokumen yang diklasifikasikan benar dengan Naive Bayes biasa menjadi salah diklasifikasikan

dengan menggunakan penambahan parameter parent probability. Kesalahan klasifikasi ini

dipengaruhi jumlah fitur yang digunakan dalam merepresentasikan term document matrix.

Semakin banyak jumlah fitur yang digunakan, maka kesalahan yang muncul akan semakin

sedikit. Hal ini diakibatkan karena pemilihan fitur diurutkan berdasarkan frekuensi kemunculan

12

fitur pada kumpulan dokumen yang digunakan. Semakin sedikit fitur yang digunakan maka

semakin sedikit spesifik fitur yang dimiliki oleh sebuah kategori dan parentnya, sehingga

semakin besar kemungkinan sebuah dokumen memiliki fitur-fitur yang beririsan antara parent

category, sehingga tidak didapatkan gambaran umum yang baik dari sebuah dokumen. Dengan

memperbesar jumlah fitur yang digunakan maka fitur-fitur spesifik yang ada pada sebuah

kategori dapat tercakup, sehingga dapat mengurangi kesalahan klasifikasi ini. Untuk lebih

jelasnya perhatikan gambar berikut ini:

Gambar 4. a) Distribusi Fitur pada Penggunaan 10000 Fitur b) Distribusi Fitur pada Penggunaan 20000 Fitur

Untuk menggambarkan decision boundary dari hasil klasifikasi Nave Bayes biasa dan Nave

Bayes dengan penambahan parameter prior probability dari parent category maka digunakan n-

dimensional density function sebagai berikut:

11 1( ) ( ) ( ) ln ln 2 ln ( )2 2 2

Tj j j j jj

ny X X X K X X K P C

Untuk memperjelas decision boundary maka digunakan dua buah kelas, yaitu kelas dokumen

yang diklasifikasikan benar dan kelas dokumen yang diklasifikasikan salah, sehingga persamaannya

menjadi dapat dituliskan sebagai berikut:

11 1( ) ( ) ( ) ln ln 2 ln ( )2 2 2

Tb b b b bb


11 1( ) ( ) ( ) ln ln 2 ln ( )2 2 2

Ts s s s ss


a b

13

Untuk menggambarkan decision boundary dari kedua kelas tersebut maka dilakukan kombinasi

antara dua buah diskriminan tersebut ( ) ( ) ( )s by X y X y X , sehingga persamaan decision boundary

dari Nave Bayes diturunkan menjadi:

1 11 1 1 ( )( ) ( ) ( ) ( ) ( ) ln ln2 2 2 ( )

b bT Tb b s sb s

s s

K P Cy X X X K X X X X K X X

K P C

Dari persamaan tersebut bisa muncul tiga buah kemungkinan decision boundary yang terbentuk.

Kemungkinan pertama adalah jika matriks kovarians yang dibentuk adalah 2iK I , maka:

2

2

2

2

0 0 0

0 ... 0

0 ... ... ...

0 0 ...

d

iK

1 2(1/ )i I

2 independen untuk setiap fitur ii I

Penurunan rumusan matematisnya adalah sebagai berikut:

Nilai 1

ln dan ln 22 2

in

K dapat diabaikan karena akan konstan, maka

2

2

|| ||( ) ln ( )

2

ii i

X Xy X P C

, dengan 2|| || ( ) ( )TiX X X X X X

2

1( ) [ 2 ] ln ( )

2

T T Ti ii i iy X X X X X X X P C

, dengan TX X konstan

0( )T

i i i iy X w X w (linear discriminant)

Dimana 21

i iw X

dan 0 21

ln ( )2

T

i i i iw X X P C

Kemungkinan kedua adalah jika matriks kovarians yang dibentuk kovarians yang terbentuk acak

namun nilainya sama untuk semuafitur yang ada iK K , maka fitur-fitur tersebut akan membentuk

14

hyper-ellipsoidal clusters dengan ukuran dan bentuk yang sama. Untuk kasus ini decision boundary yang

dibentuk adalah linier namun masih belum dapat menentukan decision region-nya.


Nilai 1

ln dan ln 22 2

in

K dapat diabaikan karena akan konstan, maka

11( ) ( ) ( ) ln ( )2

Ti ii iy X X X K X X P C

0( )T

i i i iy X w X w (linear discriminant)

Dimana 1

i iw K X dan

1

0

1ln ( )

2

T

i i i iw X K X P C

Kemungkinan ketiga seperti yang diperoleh pada percobaan ini adalah dimana kovarians yang

terbentuk nilainya acak dan memiliki nilai yang berbeda-beda untuk tiap-tiap kategori yang ada. Dalam

kasus ini decision boundary yang terbentuk adalah hyperquadratics (hyperplanes, pasangan

hyperplanes, hyperspheres, hyperellipsoids, hyperparaboloids, hyperhyperboloids). Decision boundary

yang terbentuk telah dapat memisahkan region dari masing-masing kategori.


Nilai ln 22

n dapat diabaikan karena akan konstan, maka

0( )T

i i i iy X X W X w X w (quadratic discriminant)

Dimana 11

2i iW K

, 1

i iw K X dan

1

0

1 1ln | | ln ( )

2 2

T

i i i i iw X K X K P C

Penjelasan diatas juga menambahkan pengetahuan kita mengenai penambahan jumlah fitur akan

memperkecil rata-rata peningkatan akurasi. Karena dengan menambahkan jumlah fitur yang digunakan

untuk menggambarkan sebuah kategori, maka nilai kovarian dari masing-masing kategori akan semakin

15

kecil sehingga membuat decision boundary yang terbentuk makin mempersempit decision region dari

masing-masing kategori yang ada sehingga dengan nave bayes biasa sudah memberikan akurasi yang

cukup baik dan penambahan parameter prior probability dari parent category hanya memberi sedikit

informasi tambahan dari fitur-fitur parent category nya. Hal tersebut dapat dicapai dengan

memaksimalkan nilai Maximum Likelihood Estimation dengan penambahan parameter prior probability

dari parent category sebgai berikut:

1

( | ) ( | )n

i

i

p D p x

, ix adalah fitur-fitur yang digunakan dalam model probabilistik Nave

Bayes. Untuk memaksimalkan ( | )p D , maka:

( | ) 0p D , untuk mempermudah perhitungan maka digunakan ln ( | )p D

ln ( | ) 0p D

1

ln ( | ) 0n

k

i

p x

arg max ln ( | )p D , untuk meyakinkan bahwa penambahan fitur dapat memperkecil

kovarians, maka digunakan distribusi gausian sebagai berikut:

11 1ln ( | ) ( ) ( ) ln 2 ln | |2 2 2

T

i i i

np x x K x K , dengan gradien

1ln ( | ) ( )i ip x K x , untuk mendapatkan nilai optimum, maka ln ( | ) 0ip x

1

1

( ) 0n

i

i

K x

, maka

1

1

n

i

i

xn

, maka semakin banyak fitur yang berkorelasi dengan sebuah kategori akan

memperbesar nilai sehingga decision region yang terbentuk semakin optimal.

Dilihat dari nilai kovarians probabilitas hasil klasifikasi dokumen, didapatkan hasil bahwa nilai

kovarians dari Nave Bayes biasa lebih besar daripada nilai kovarians yang diperoleh dari algoritma Nave

Bayes dengan penambahan parameter prior probability dari parent category. Hal ini menunjukkan

bahwa probabilitas yang didapatkan dengan penambahan parameter prior probability dari parent

16

category lebih stabil dan presisi, dan menghasilkan decision boundary yang lebih baik. Dari hasil tersebut

juga meunjukkan bahwa terdapat keterkaitan antara fitur-fitur dari category dengan parent category-

nya sehingga dapat memberikan informasi fitur tambahan yang diperlukan. Berikut gambaran decision

boundary dari dua buah metode yang digunakan:

Gambar 5. a) Decision Boundary dari Metode Nave Bayes Biasa b) Decision Boundary dari Metode Nave

dengan Penambahan Parameter Prior Probability dari Parent Category

Kesimpulan dan Saran

Dari hasil yang diperoleh dapat ditarik beberapa kesimpulan sebagai berikut:

1. Penambahan parameter prior probability dari parent category dapat meningkatkan akurasi

klasifikasi dokumen teks dengan mengurangi kesalahan klasifikasi antar dokumen yang memiliki

domain yang berbeda.

2. Dengan penambahan parameter prior probability dari parent category dimungkinkan terjadi

kesalahan klasifikasi dimana pada penggunaan metode Nave Bayes biasa diklasifikasikan benar

a b

17

menjadi salah diklasifikasikan apabila menggunakan penambahan parameter prior probability

dari parent categor. Walaupun jumlah kesalahan ini sangat kecil, namun dapat mempengaruhi

hasil klasifikasi secara keseluruhan. Hal ini dapat dikurangi dengan penambahan jumlah fitur

yang digunakan untuk membangun model probabilistik yang ada.

Saran yang mungkin dapat dipertimbangkan untuk pengembangan metode klasifikasi dokumen teks

selanjutnya antara lain:

1. Mempergunakan berbagai macam jenis fitur seperti TF-IDF, frequency normalized dan lain

sebagainya, karena pada eksperimen ini hanya digunakan satu jenis fitur saja, yaitu jenis fitur

frekuensi.

2. Mempergunakan metode hierarchical document classification untuk melihat sisi lain dari

pengaruh penggunaan parameter prior probability dari parent category.

Klasifikasi Dokumen Dengan Algoritma Naïve Bayes dengan Penambahan Parameter Probabilitas...

Documents

Transcript of Klasifikasi Dokumen Dengan Algoritma Naïve Bayes dengan Penambahan Parameter Probabilitas...