Klasifikasi Dokumen Bahasa Indonesia Menggunakan Adaptive … · 2015-09-02 · klasifikasi dokumen...

KLASIFIKASI DOKUMEN BAHASA INDONESIA

MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC)

MUTHIA AZIZA

DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR BOGOR

2012

KLASIFIKASI DOKUMEN BAHASA INDONESIA

MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC)

MUTHIA AZIZA

Skripsi Sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer pada Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR BOGOR

2012

ABSTRACT

MUTHIA AZIZA. Indonesian document classification using Adaptive Classifier Combination (ACC). Supervised by JULIO ADISANTOSO.

Search engine is a tool to find an information that match with user’s request based on query or keywords. However, the query of search engine often shows irrelevance sites that didn’t match with user’s desire.

Classification was developed to focused user’s request on the information that they searched, so the result would be more accurate and less effort yet effective and efficient for the system. Adaptive Classifier Combination is one of many methods that can be used for text classification. This method is a combination between k-nearest neighbor classification and Naive Bayes classification to get a better result than using single method.

The result of this research is an implementation of web-based application that developed using PHP language. The document is from horticulture reasearch journal from 2002 until 2009. From 340 documents, 300 document is used for data training and 40 documents is for testing. The accuracy of ACC is 80% and for Naive Bayes classification is 42.5%.

Keywords: classification, k-nearest neighbor, Naive Bayes, adaptive classifier combination

Judul : Klasifikasi Dokumen Bahasa Indonesia Menggunakan Adaptive Classifier Combination (ACC)

Nama : Muthia Aziza

NIM : G64050444

Menyetujui,

Pembimbing,

Ir. Julio Adisantoso, M. Kom NIP 19620714 198601 1 002

Mengetahui, Ketua Departemen

Dr. Ir. Sri Nurdiati, M.Sc NIP 19601126 198601 2 001

Tanggal Lulus :

PRAKATA

Puji dan syukur penulis panjatkan kepada Allah SWT atas segala rahmat dan hidayah-Nya sehingga tugas akhir dengan judul Klasifikasi Dokumen Bahasa Indonesia Menggunakan Adaptive Classifier Combination (ACC) dapat terselesaikan. Penelitian ini dilaksanakan mulai Maret 2009 sampai dengan Desember 2010, bertempat di Departemen Ilmu Komputer.

Terima kasih penulis ucapkan kepada pihak-pihak yang telah membantu dalam penyelesaian tugas akhir ini, antara lain:

1 Kepada Bapak Ir. Julio Adisantoso, M.Kom. selaku pembimbing yang telah banyak memberi arahan selama penulis menjalankan penelitian

2 Kepada mama, papa, mas Ojan, mbak Maya, bude Anis, Lidya, Lulu, Fajar, Faiz, Nadine serta seluruh keluarga atas doa, dukungan, dan kasih sayangnya.

3 Kepada teman seperjuangan satu bimbingan, Tara, Elen, Netty, Utis, Hendrex, Tina, Eka, Yuchan, Wildan yang selama ini selalu bersama dalam mengerjakan tugas akhir ini dan saling memberikan semangat.

4 Kepada Tsamrul Fuad, suami, sahabat terbaik yang pernah ada, atas semangat, dukungan, dan selaku penghibur dikala jenuh selama penulis mengerjakan penelitian.

5 Kepada teman-teman seperjuangan ilkomerz 42, serta pihak lain yang turut membantu baik secara langsung maupun tidak langsung dalam penyelesaian tugas akhir ini.

Semoga karya ilmiah ini bermanfaat.

Bogor, Januari 2012

Muthia Aziza

RIWAYAT HIDUP

Penulis dilahirkan di Jakarta pada tanggal 9 Juli 1987 dari ayah Achmad Suyuthi Dahlan dan Ibu Charisa Sullam. Penulis merupakan anak ketiga dari tiga bersaudara.

Tahun 2005, penulis lulus dari SMUN 78 Jakarta dan pada tahun yang sama penulis diterima di Institut Pertanian Bogor (IPB) melalui jalur SPMB. Tahun 2007, penulis diterima sebagai mahasiswa di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, IPB. Tahun 2009, penulis menjalankan kegiatan praktik lapangan di Agroedutourism IPB

DAFTAR ISI

halaman PENDAHULUAN Latar Belakang ...................................................................................................................... …….1 Tujuan ................................................................................................................................... …….1 Ruang Lingkup ..................................................................................................................... …….1 TINJAUAN PUSTAKA Information Retrieval ............................................................................................................ …….1 Klasifikasi ............................................................................................................................. …….2 Naïve Bayes .......................................................................................................................... …….2 K-Tetangga Terdekat ............................................................................................................ …….2 Adaptive Classifier Combination .......................................................................................... …….3 Confusion Matrix .................................................................................................................. …….3 METODE PENELITIAN Karakteristik Dokumen ......................................................................................................... …….3 Pengindeksan ........................................................................................................................ …….4 Klasifikasi ACC .................................................................................................................... …….4 Klasifikasi Naïve Bayes ........................................................................................................ …….4 Evaluasi Klasifikasi .............................................................................................................. …….4 Lingkungan Pengembangan Sistem ...................................................................................... …….4 HASIL DAN PEMBAHASAN Karakteristik Dokumen ......................................................................................................... …….4 Pengindeksan ........................................................................................................................ …….4 Training ................................................................................................................................ …….4 Testing ................................................................................................................................... …….4 Klasifikasi ACC .................................................................................................................... …….5 Klasifikasi Naïve Bayes ........................................................................................................ …….5 Evaluasi Klasifikasi .............................................................................................................. …….5 KESIMPULAN DAN SARAN Kesimpulan ........................................................................................................................... …….7 Saran ..................................................................................................................................... …….7 DAFTAR PUSTAKA ........................................................................................................... …….7 LAMPIRAN ......................................................................................................................... …...10

v

DAFTAR GAMBAR halaman

1 Metode Penelitian ................................................................................................................................ 3 2 Tingkat Akurasi dengan berbagai nilai k ............................................................................................. 5

DAFTAR TABEL halaman

1 Confusion Matrix ................................................................................................................................. 3 2 Nilai k .................................................................................................................................................. 5 3 Confusion matrix klasifikasi ACC ....................................................................................................... 6 4 Confusion matrix klasifikasi naïve bayes ............................................................................................. 6

DAFTAR LAMPIRAN halaman

1 Antarmuka Sistem ACC .................................................................................................................... 10

1

PENDAHULUAN

Latar Belakang

Seringkali pengguna sulit menemukan informasi yang diinginkan dengan cepat dan tepat pada web. Dari permasalahan ini muncul keinginan untuk mengembangkan alat dan perangkat lunak yang berguna dan efisien untuk membantu pengguna mencari informasi dalam web (Arifin & Setiono 2000). Mesin pencari adalah contoh alat yang mencari informasi sesuai dengan permintaan pengguna berdasarkan kueri atau kata kunci yang dimasukkan oleh pengguna. Tetapi tidak jarang juga kueri mesin pencari memunculkan dokumen yang tidak sesuai dengan keinginan pengguna.

Klasifikasi dikembangkan untuk memfokuskan pencarian pengguna pada informasi yang ingin dicari, sehingga hasil akan menjadi lebih akurat dan usaha yang dilakukan sistem lebih efektif dan efisien. Klasifikasi dokumen mengelompokkan dokumen yang sesuai dengan kategori yang terkandung pada dokumen tersebut. Apabila terdapat permintaan yang sudah diketahui memiliki kategori tertentu, pencarian dokumen hanya dilakukan pada kumpulan dokumen yang memiliki kategori tersebut, tidak dilakukan pada semua kumpulan dokumen yang dimiliki sehingga proses pencarian dapat dilakukan dengan cepat.

Banyak metode yang bisa digunakan untuk klasifikasi teks, seperti naïve bayes, k-nearest neighbor, decision trees, dan lain-lain. Pramujadi (2010) telah menggunakan metode Naive Bayes classifier (NBC) yang merupakan salah satu metode untuk teks atau klasifikasi dokumen. Masalah umum yang sering terjadi pada metode NBC adalah data sparsity, terutama ketika ukuran data latih terlalu kecil. Salah satu cara untuk mengangani masalah sparsity adalah dengan menggunakan teknik background smoothing. Tujuan penelitian ini adalah untuk melihat efek background smoothing pada query pendek dan panjang, dan membandingkannya dengan NBC pada data pelatihan kecil.

Beberapa peneliti telah menunjukkan bahwa mengombinasikan metode klasifikasi yang berbeda (combination of multiple classifier) dapat menambah keakuratan klasifikasi (Li & Jain 1998). Simple voting, dynamic classifier selection (DCS), dan adaptive classifier combination (ACC) adalah contoh metode yang menggabungkan beberapa metode klasifikasi. Tiap-tiap metode klasifikasi seringkali

menghasilkan kelas yang berbeda-beda untuk satu dokumen tes.

Li dan Jain (1998) telah meneliti keakuratan simple voting, dynamic classifier selection, dan adaptive classifier combination untuk klasifikasi dokumen dalam bahasa Inggris. ACC merupakan kombinasi dari naïve bayes dengan k-nearest neighbor. Karena merupakan kombinasi dari dua buah classifier, ACC dinilai cukup baik untuk digunakan sebagai metode klasifikasi.

Tujuan Penelitian

Tujuan utama dari penelitian ini adalah mengimplementasikan kinerja adaptive classifier combination untuk meningkatkan keakuratan klasifikasi dokumen berbahasa Indonesia.

Ruang Lingkup

Ruang lingkup penelitian ini meliputi:

1. Penelitian ini difokuskan kepada klasifikasi dokumen dengan menggunakan adaptive classifier combination pada dokumen berbahasa Indonesia.

2. Penelitian dibatasi pada tahap klasifikasi dokumen, tidak sampai proses temu kembali dokumen.

TINJAUAN PUSTAKA

Information Retrieval

Information retrieval atau temu kembali informasi merupakan pencarian material, yang biasanya dokumen, dari sesuatu yang tidak terstruktur, biasanya teks, yang memenuhi kebutuhan informasi dari sekumpulan koleksi yang besar yang biasanya disimpan di komputer (Manning et al 2008).

Untuk menemukembalikan informasi terdapat proses pengindeksan tertentu seperti tokenisasi kata, membuang stopword, dan stemming sehingga menghasilkan himpunan kosa kata sebagai dokumen indeks. Proses pengindeksan tersebut melibatkan isi dari seluruh kumpulan dokumen atau biasanya hanya terdiri atas judul atau kata kunci dan abstrak dari kumpulan dokumen. Tiap dokumen diwujudkan sebagai sebuah vektor dengan elemen sebanyak term yang berhasil dikenali dari proses pemisahan term.

Vektor tersebut beranggotakan bobot dari tiap term. Salah satu metode yang dapat digunakan untuk menghitung bobot term adalah metode tf.idf. Metode tf.idf merupakan metode

2

pembobotan yang merupakan hasil kali antar term frequency (tf), dan inverse document frequency (idf) yaitu:

(1)

sedangkan wt,d adalah bobot dari term t dalam dokumen d, tft adalah frekuensi term t dalam dokumen (tf), N merupakan ukuran dokumen yang ada dalam koleksi yang digunakan untuk penghitungan idf, dan dft adalah jumlah dari dokumen yang ada di koleksi yang mengandung nilai t.

Proses mendapatkan informasi yang dibutuhkan oleh pengguna berupa suatu query dari pengguna yang merepresentasikan permintaan informasi. Query umumnya tidak memiliki struktur, sehingga perlu diformulasikan agar terjadi dialog interaktif antara pengguna dan sistem.

Perbandingan query terhadap permintaan informasi disebut proses penyesuaian (matching process). Pada proses inilah diharapkan dapat dihasilkan suatu keluaran yang relevan dengan permintaan pengguna.

Salah satu pendekatan dalam merepresen-tasikan informasi yang terorganisasi adalah dengan mengelompokkan dokumen ke dalam beberapa kategori atau klasifikasi. Dengan klasifikasi dokumen diharapkan informasi yang diambil dari kumpulan dokumen dapat lebih relevan (Pramurjadi 2010).

Klasifikasi

Klasifikasi yaitu proses untuk menemukan sekumpulan model atau fungsi yang mendeskripsikan dan membedakan kelas-kelas data dengan tujuan untuk memprediksikan kelas dari objek yang belum diketahui kelasnya (supervised learning) (Han & Kamber 2001).

Proses klasifikasi dibagi menjadi dua fase, yaitu learning dan test (Han & Kamber 2001). Pada fase learning, sebagian data yang telah diketahui kelas datanya (training set) digunakan untuk membentuk model. Selanjutnya pada fase test, model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi model tersebut. Jika akurasinya mencukupi, maka model tersebut dapat dipakai untuk prediksi kelas data yang belum diketahui.

Naïve bayes

Naïve Bayes merupakan metode klasifikasi dengan cara menghitung peluang sebuah dokumen d berada di kelas c (Manning, 2008). Kelas terbaik pada klasifikasi naïve bayes adalah kelas yang paling mirip dengan dokumen

yang ingin diklasifikasikan atau yang mempunyai nilai posteriori tertinggi atau maximum a posteriori (MAP), dengan rumus:

sedangkan merupakan nilai penduga peluang suatu dokumen d dikelaskan ke dalam kelas c, dengan rumus:

(2)

sedangkan adalah peluang prior dari dokumen yang ada di dalam kelas c yang didapat dari , sedangkan

Nc merupakan banyak dokumen yang ada di dalam kelas c,

N adalah total dokumen yang ada, dan adalah peluang bersyarat dari term

muncul dalam sebuah dokumen pada kelas c. diartikan sebagai ukuran seberapa

banyak term menyumbang untuk menunjukkan c merupakan kelas yang tepat untuk dokumen d. Nilai didapat dari:

(3)

sedangkan adalah jumlah kemunculan term t dalam dokumen latih di kelas c, termasuk kemunculan ganda term t pada dokumen. Nilai penjumlahan adalah jumlah seluruh term pada dokumen latih yang ada di kelas c, termasuk kemunculan term ganda, dan B adalah jumlah term dalam vocabulary seluruh dokumen.

K-Tetangga Terdekat

K-tetangga terdekat atau K-nearest neighbor (kNN) merupakan metode klasifikasi yang memasukkan dokumen ke dalam mayoritas kelas dari k tetangga terdekatnya dimana k adalah sebuah parameter (Manning, 2008).

Metode kNN bekerja dengan berdasarkan pada jarak terdekat antara dokumen d dengan dokumen lainnya untuk menentukan tetangga terdekatnya. Setelah itu diambil mayoritas kelas dokumen yang merupakan tetangga terdekat untuk menentukan kelas dokumen d.

Pembobotan juga bisa dilakukan pada kNN dari kesamaan cosine. Skor kelas dihitung sebagai berikut:

3

dimana adalah sekumpulan dari k tertangga terdekat dari dokumen d dan bernilai 1 jika dan hanya jika dokumen d terdapat di kelas c dan bernilai 0 jika sebaliknya.

adalah ukuran kesamaan cosine antara dokumen d’ dengan d. Dokumen akan dimasukkan ke kelas yang mempunyai skor tertinggi.

Adaptive Classifier Combination

Adaptive classifier combination (ACC) adalah metode klasifikasi yang menggabungkan metode naïve bayes dengan k-tetangga terdekat. ACC memasukkan dokumen d ke dalam kelas ci, dimana kelas yang akan dimasukkan diidentifikasikan oleh classifier dengan local accuracy tertinggi dari semua kelas yang ada (Y. H. Li & A.K. Jain, 1998).

Untuk sebuah dokumen uji d yang akan diklasifikasikan, cari tetangga dari dokumen uji d menggunakan metode k-nearest neighbor. Kemudian hasil klasifikasi untuk dokumen d oleh n classifier ditunjukkan sebagai

. Setelah itu, untuk setiap kelas dihitung:

(4)

dimana merupakan peluang xi

terdapat pada kelas

c j dan Wi merupakan ukuran kesamaan kosinus antara xi dan d. Kemudian dokumen d dimasukkan ke kelas ck, dengan rumus:

(5)

Confusion Matrix

Confusion matrix merupakan sebuah tabel yang terdiri atas banyaknya baris data uji yang diprediksi benar dan tidak benar oleh model klasifikasi, yang digunakan untuk menentukan kinerja suatu model klasifikasi (Tan et al 2005).

Tabel 1 Confusion Matrix

Predicted Class

Class = 1 Class = 0

Actual Class

Class = 1 F11 F10

Class = 0 F01 F00

Contoh tabel confusion matrix dapat dilihat pada Tabel 1. Perhitungan akurasi dengan menggunakan tabel confusion matrix adalah:

Akurasi =

METODE PENELITIAN

Penelitian ini dilaksanakan dalam beberapa tahap yang diilustrasikan pada Gambar 1. Secara garis besar tahapannya adalah pengumpulan data, praproses, implementasi sistem, klasifikasi ACC dan evaluasi klasifikasi.

Karakteristik Dokumen

Koleksi dokumen yang digunakan sebagai data latih dan dokumen uji adalah hasil penelitian dari Jurnal Penelitian Hortikultura tahun 2002 sampai dengan tahun 2009 dengan format XML.

Dokumen pada data latih diklasifikasikan langsung secara manual sebagai pembelajaran sistem. Dokumen yang dijadikan data latih sebanyak 300 dokumen dan 40 dokumen sebagai dokumen uji. Dokumen tersebut akan dibagi menjadi lima kelas yaitu fisiologi dan agronomi (1), pemuliaan dan teknologi benih (2), proteksi (3), pascapanen dan pascaproduksi (4), dan agroekonomi (5).

Pengumpulan Data

Implementasi Sistem

Klasifikasi ACC Klasifikasi Naïve Bayes

Confusion Matrix

Selesai

Mulai

Gambar 1 Metode Penelitian

4

Training

Dokumen pada data training atau data latih diklasifikasikan langsung secara manual sebagai pembelajaran sistem untuk mengetahui dokumen yang belum diketahui kelasnya pada data uji. Data latih sebanyak 300 dokumen tersebut dibagi menjadi lima kelas, kelas (1) yaitu fisiologi dan agronomi terdapat 87 dokumen, kelas (2) yaitu pemuliaan dan teknologi benih terdapat 73 dokumen, kelas (3) yaitu proteksi terdapat 97 dokumen, kelas (4) yaitu pascapanen dan pascaproduksi terdapat 34 dokumen, dan kelas (5) yaitu agroekonomi terdapat 9 dokumen.

Dokumen yang telah diklasifikasikan secara manual tersebut disimpan dalam format .txt dengan struktur [nama file dokumen][,] [kelasnya].

Testing

Data testing atau data uji dimasukkan oleh user dengan meng-upload file XML yang ada di koleksi ke dalam sistem. Kemudian dokumen uji yang di-upload diambil term-term penciri dokumen dan dihitung tf.idf-nya. Setelah itu dilakukan perhitungan menggunakan metode ACC untuk mengetahui kelas dokumen uji.

Pengindeksan

Tahap pengindeksan dilakukan untuk menghasilkan term-term yang akan digunakan sebagai penciri dokumen dan dilakukan pembobotan tf.idf dengan menggunakan (1) akan diperoleh bobot tiap term. Hasil dari tahap pengindeksan akan disimpan dalam file teks tersendiri untuk mempercepat sistem saat melakukan pemrosesan koleksi dokumen.

Klasifikasi Naive Bayes

Tahap pertama pada Naive Bayes adalah menghitung peluang term pada dokumen testing terdapat di suatu kelas dengan menggunakan (3). Setelah itu dilakukan perhitungan peluang dokumen latih berada di suatu kelas tertentu kemudian diambil nilai yang tertinggi.

Tahap pertama pada Naive Bayes adalah menghitung peluang term pada dokumen uji terdapat di suatu kelas dengan menggunakan (3). Contoh dokumen latih adalah dokumen jurnalHorti1.txt dengan term “pengaruh”,

“macam”, “dosis”, “pupuk”, “organik”, “hasil”, “kentang”, “dataran”, “dium”, “lahan”, “sawah”, “subhan”, “deden”, “fatchullah”.

Term-term tersebut dihitung peluang terdapat di suatu kelas menggunakan (3) dengan membandingkan dengan term-term pada data latih.

Setelah perhitungan (3), dilakukan perhitungan Naive Bayes yaitu dengan menghitung peluang dokumen latih berada di suatu kelas tertentu kemudian diambil nilai yang tertinggi berdasarkan rumus

.

Klasifikasi ACC

Proses pengklasifikasian dokumen pada penelitian ini menggunakan algoritme klasifikasi ACC yang merupakan gabungan dari algoritme klasifikasi KNN dengan Naïve Bayes.

Tahap ini diawali dengan penghitungan panjang vektor semua dokumen pada korpus. Setelah itu dilakukan perhitungan perkalian vektor atau dot product antara dokumen testing dengan data latih kemudian dihitung kesamaannya dengan ukuran kesamaan cosine dan diambil K hasil tertinggi sebagai K tetangga terdekat. Selanjutnya dilakukan proses perhitungan dengan algoritme Naive Bayes dengan data latih sebesar K.

Uji coba dilakukan dengan menggunakan beberapa nilai k pada algoritme kNN. Nilai k yang digunakan adalah 2, 3, 4, 5, 6, 7, 9, 10, 11, 12, 13, 14, dan 15. Nilai k yang paling optimal adalah yang menghasilkan error atau salah kelas paling sedikit. Dengan kata lain, k yang paling optimal adalah yang paling banyak menempatkan data test ke dalam kelas sesungguhnya.

Evaluasi Klasifikasi

Pada tahap evaluasi dilakukan penilaian kinerja sistem dengan melakukan pengukuran presentase ketepatan dalam klasifikasi dokumen menggunakan confusion matrix.

Lingkungan Pengembangan Sistem

Spesifikasi beberapa perangkat lunak dan perangkat keras yang digunakan dalam penelitian ini adalah sebagai berikut :

5

1. Perangkat Lunak :

• Sistem operasi Microsoft Windows Vista

• Notepad++

2. Perangkat Keras :

• Intel Pentium 4 3.0 Ghz

• Memory 1536 MB RAM

• Monitor resolusi 1024 x 768 pixel

• Mouse dan keyboard

HASIL DAN PEMBAHASAN

Klasifikasi Naive Bayes

Hasil klasifikasi Naive Bayes dengan dokumen tes jurnalHorti1.txt yang didapat dari menghitung peluang dokumen jurnalHorti1.txt terdapat di kelas fisiologi dan agronomi (1), pemuliaan dan teknologi benih (2), proteksi (3), pascapanen dan pascaproduksi (4), dan agroekonomi (5) adalah 0.0003, 0.0001, 0.00013, 0.00007, 0.00002.

Dengan demikian jurnalHorti.txt dengan menggunakan metode Naive Bayes akan dimasukkan ke dalam kelas fisiologi dan agronomi karena mempunyai nilai tertinggi yaitu sebesar ~ 0.0003.

Klasifikasi ACC

Hasil klasifikasi ACC sangat bergantung pada kNN yang mana dipengaruhi oleh nilai k. Untuk mengetahui nilai k yang optimal, yaitu nilai k yang mempunyai akurasi tertinggi, dilakukan uji coba nilai k. Berikut adalah hasil uji coba nilai k.

Tabel 2 Tabel nilai k

Nilai k 2 3 4 5 6 7 9 10 11 12 13 14 15Jumlah dokumen

dengan kelas yang tepat 27 26 28 28 30 30 2930 31 31 32 30 30

Dari Tabel 2 dapat dilihat bahwa nilai k=11 merupakan yang paling optimal karena jumlah dokumen yang dikelaskan di kelas yang tepat mempunyai jumlah paling tinggi, yaitu sebanyak 32 dokumen, dibandingkan dengan nilai k yang lain.

Akurasi tidak bergantung pada banyaknya nilai k, hal ini dapat dilihat bahwa akurasi dengan nilai k=2 lebih baik daripada nilai k=3. Pada Gambar 6 dapat dilihat bahwa nilai k=3 menghasilkan tingkat akurasi paling rendah diantara nilai k yang lain.

Nilai k yang paling optimal adalah k=11 dengan akurasi sebesar 80%. Artinya bahwa dalam penelitian ini dokumen uji paling banyak dikelaskan secara tepat sesuai dengan kelas sebenarnya dengan tingkat keakuratan 80% pada k=11. Maka, untuk menghitung tingkat akurasi sebagai evaluasi klasifikasi, akan digunakan k=11

Evaluasi Klasifikasi

Evaluasi yang dilakukan pada tahapan ini yaitu dengan membandingkan berapa dokumen yang dikelaskan dengan benar dengan kelas yang sebenarnya. Hasil dari evaluasi klasifikasi ACC dapat dilihat pada Tabel 3.

Gambar 2 Tingkat Akurasi dengan berbagai nilai k

6

Tabel 3 Confusion matrix klasifikasi ACC

1 2 3 4 51 8 0 0 0 02 0 8 0 0 03 1 0 7 0 04 1 0 0 7 05 2 3 1 2 0

Kelas Prediksi

Kelas Aktual

Dokumen uji yang seharusnya dikelaskan ke kelas fisiologi dan agronomi (1) berjumlah 8 dokumen, dengan metode ACC terdapat 8 dokumen dikelaskan tepat ke dalam kelas fisiologi dan agronomi (1), tidak ada (0) dokumen yang dikelaskan ke dalam kelas pemuliaan dan teknoligi benih (2), tidak ada (0) dokumen yang dikelaskan ke dalam kelas proteksi (3), tidak ada (0) dokumen yang dikelaskan ke dalam kelas pascapanen dan pascaproduksi (4), dan tidak ada (0) dokumen yang dikelaskan ke dalam kelas agroekonomi (5). Setelah itu dihitung jumlah semua dokumen yang kelas prediksi sama dengan kelas sebenarnya lalu dibagi dengan jumlah seluruh dokumen uji. Maka akurasi klasifikasi ACC adalah 80%.

Hasil evaluasi klasifikasi menggunakan metode naïve bayes dapat dilihat pada Tabel 4.

Tabel 4 Confusion matrix klasifikasi naïve bayes

1 2 3 4 51 3 4 1 0 02 3 3 2 0 03 2 4 2 0 04 1 5 2 0 05 4 2 2 0 0

Kelas Prediksi

Kelas Aktual

Dokumen uji yang seharusnya dikelaskan ke kelas fisiologi dan agronomi (1) berjumlah 8 dokumen, namun dengan metode Naive Bayes terdapat 3 dokumen dikelaskan tepat ke dalam kelas fisiologi dan agronomi (1), terdapat 4 dokumen yang salah prediksi ke dalam kelas pemuliaan dan teknologi benih (2), terdapat 1 dokumen yang salah prediksi ke dalam kelas -

proteksi (3), tidak ada (0) dokumen yang dikelaskan ke dalam kelas pascapanen dan pascaproduksi (4), dan tidak ada (0) dokumen yang dikelaskan ke dalam kelas agroekonomi (5). Setelah itu dihitung jumlah semua dokumen yang kelas prediksi sama dengan kelas sebenarnya lalu dibagi dengan jumlah seluruh dokumen uji. Maka akurasi klasifikasi naïve bayes adalah 42.5%.

Dari kedua hasil diatas dapat diartikan ketika dilakukan klasifikasi dokumen dengan menggunakan metode ACC peluang dokumen diklasifikasikan sesuai dengan kelas sebenarnya adalah 80%. Dengan menggunakan metode naïve bayes peluang dokumen diklasifikasikan sesuai dengan kelas sebenarnya adalah 42.5%.

KESIMPULAN DAN SARAN

Kesimpulan

Dari 40 dokumen hortikultura yang didapat dari laboratorium Temu Kembali Informasi diklasifikasikan menggunakan metode ACC dengan data latih berjumlah 300 menghasilkan akurasi sebesar 80%. Dengan menggunakan metode Naive Bayes dengan jumlah data latih dan dokumen uji yang sama menghasilkan akurasi sebesar 42.5%.

Dari percobaan dapat dilihat klasifikasi ACC menghasilkan prediksi kelas yang jauh lebih akurat dibandingkan dengan klasifikasi Naive Bayes.

Dari hasil percobaan dapat dilihat bahwa klasifikasi dokumen menggunakan metode ACC dapat meningkatkan keakuratan hasil klasifikasi.

Saran

Pada penelitian ini dokumen yang dipakai adalah dokumen dengan satu topik yang sama yaitu hortikultura yang kemudian dikelaskan lagi ke dalam sub-sub kelas. Untuk pengembangan selanjutnya dapat dicoba menggunakan korpus yang berisi dokumen-dokumen dengan topik yang berbeda dan kelas yang lebih umum untuk dapat melihat kinerja klasifikasi menggunakan ACC dan dibandingkan dengan metode klasifikasi lainnya.

7

Pada penelitian ini setelah dokumen test diketahui prediksi kelasnya tidak dimasukkan lagi ke dalam sistem untuk dijadikan data latih yang baru. Untuk pengembangan selanjutnya dokumen uji yang telah diketahui kelasnya dapat dimasukkan sebagai data latih yang baru agar sistem menjadi lebih akurat.

DAFTAR PUSTAKA

Arifin AZ, Ari NS. 2000. Klasifikasi Dokumen Berita Kejadian Berbahasa Indonesia dengan Algoritme Single Pass Clustering. Surabaya. Jurusan Teknik Informatika Institut Teknologi Sepuluh Nopember.

Han J, Kamber M. 2001. Data Mining: Concept and Techniques. USA: Morgan Kaufmann Publishers.

Juniawan I. 2009. Klasifikasi Dokumen Teks Berbahasa Indonesia Menggunakan Minor Component Analysis (MCA). [Skripsi]. Bogor. Departemen Ilmu Komputer Institut Pertanian Bogor.

Li YH, AK Jain. 1998. Classification of Text Document. Department of Computer Science and Engineering, Michigan State University. Michigan.

Manning CD, Raghavan P, Schutze H. 2008. Introduction to Information Retrieval. New York : Cambridge University Press.

Pramurjadi A. 2010. Klasifikasi Dokumen Menggunakan Background Smoothing. [Skripsi]. Bogor. Departemen Ilmu Komputer Institut Pertanian Bogor.

Ramadan R. 2007. Penerapan Pohon Untuk Klasifikasi Dokumen Teks Berbahasa Inggris. Bandung. Program Studi Teknik Informatika Institut Teknologi Bandung.

8

LAMPIRAN

9

Lampiran 1a Antarmuka sistem ACC.

Lampiran 1b Antarmuka pemilihan dokumen.

Lampiran 1c Antarmuka hasil klasifikasi.

Klasifikasi Dokumen Bahasa Indonesia Menggunakan Adaptive … · 2015-09-02 · klasifikasi dokumen...

Documents

Transcript of Klasifikasi Dokumen Bahasa Indonesia Menggunakan Adaptive … · 2015-09-02 · klasifikasi dokumen...