Klasterisasi buku berbahasa indonesia

40
JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS MUHAMMADIYAH MALANG 2014 KLASTERISASI BUKU BERBAHASA INDONESIA DENGAN MENGIMPLEMENTASIKAN METODE TEXT MINING DAN ALGORITMA ARTIFICIAL BEE COLONY K-MEANS Oleh: Abdurrahman 201010370311397 Dosen Pembimbing: Yufis Azhar, M.Kom Ali S. Kholimi, S.Kom

Transcript of Klasterisasi buku berbahasa indonesia

Page 1: Klasterisasi buku berbahasa indonesia

J U R U S A N T E K N I K I N F O R M A T I K A

F A K U L T A S T E K N I K

U N I V E R S I T A S M U H A M M A D I Y A H M A L A N G

2 0 1 4

KLASTERISASI BUKU BERBAHASA INDONESIA

DENGAN MENGIMPLEMENTASIKAN METODE TEXT MINING DAN ALGORITMA

ARTIFICIAL BEE COLONY K-MEANS

Oleh: Abdurrahman

201010370311397

Dosen Pembimbing: Yufis Azhar, M.Kom

Ali S. Kholimi, S.Kom

Page 2: Klasterisasi buku berbahasa indonesia

Pendahuluan

Latar Belakang

Data Minig dibagi menjadi 3 yaitu Klasifikasi, Klasterisasi dan Asosiasi.

Clustering : pengelompokkan data kedalam beberapa klas sehingga data dalam satu klas memiliki tingkat kemiripan yang maksimum dan data antar klaster memiliki kemiripan yang minimum (Theodoridis, 2006).

K-Means (KM): salah satu meode pengelompokan data nonhierarki (sekatan) yang berusaha mempartisi data yang ada kedalam dua atau lebih kelompok(Eko Prasetyo, 2012).

Terdapat kekurangan pada K-Means, yaitu pada inisial centroid awal.

Artificial Bee Colony (ABC) Karaboga (2005) suatu algoritma yang mengadopsi perilaku mencari makan dari koloni lebah madu.

Page 3: Klasterisasi buku berbahasa indonesia

Pendahuluan

ABC : algoritma dengan solusi global yang memiliki kualitas yang lebih baik dibandingkan dengan GA, PSO, Differential Evolution (DE), dan Evolution Strategies (ES) (Karaboga, 2009)

Dalam penelitian ini akan diusulkan sebuah algoritma baru yaitu hibridasi antara ABC dan KM.

ABC-KM ini diharapkan mampu mengoptimalkan posisi titik pusat klaster yang mengarah pada solusi global optimal.

Page 4: Klasterisasi buku berbahasa indonesia

Rumusan Masalah

Bagaimana menerapkan metode preprosesing text mining dalam kata-kata berbahasa Indonesia?

Bagaimana mentransformasi sinopsis buku menjadi sebuah data numerik?

Bagaimana menerapkan metode Term Frequency Inverse Document Frequency (TF-IDF) untuk pembobotan?

Bagaimana menerapkan aloritma Artificial Bee Colony K-Means untuk melakukan klasterisasi?

Bagaimana membandingkan hasil klaster antara algoritma Basic K-Means dengan algoritma Artificial Bee Colony K-Means?

Page 5: Klasterisasi buku berbahasa indonesia

Batasan Masalah

Kata kunci yang digunakan diambil dari beberapa kata dalam sinopsis buku yang di klaster.

Sinopsis buku menggunakan kata baku dalam bahasa Indonesia sebagai data yang akan diolah.

Sample data diambil dari sinopsis pada www.gramedia.com

Page 6: Klasterisasi buku berbahasa indonesia

Tujuan

Melakukan klasterisasi buku menggunakan algoritma Artificial Bee Colony K-Means.

Page 7: Klasterisasi buku berbahasa indonesia

Text Mining TF-IDF

Page 8: Klasterisasi buku berbahasa indonesia

K-Means (KM)

Ada 2 tipe Pengklasteran data (Tan, 2006) β€’ Partisi : Klaster dibentuk dengan

membagi objek/data kedalam non-overlapping subset (klaster).

β€’ Hirarki : Klaster dibentuk melalui pembentukan klaster bersarang (nested cluster) yang diimplemen-tasikan dalam bentuk tree (pohon).

K-Means : temasuk kedalam tipe partisi.

Page 9: Klasterisasi buku berbahasa indonesia

Artificial Bee Colony (ABC)

ABC Dervis Karaboga (2005)

Dalam ABC, Bee Koloni dibagi 3 :

Employed bee (lebah pekerja)

Onlooker bee (lebah penunggu sarang)

Scouts (lebah penjelajah)

Posisi sumber makanan possible solution

Nilai fitness jumlah nektar

Jumlah employed bee = Jumlah lebah onlooker = Jumlah cluster

Page 10: Klasterisasi buku berbahasa indonesia

ABC (Cont.)

Page 11: Klasterisasi buku berbahasa indonesia

ABC-KM

Page 12: Klasterisasi buku berbahasa indonesia

ABC-KM (Cont.)

Nama Keterangan

K Jumlah klaster

Limit Batas jumlah iterasi untuk abandoned food source

MCN Jumlah iterasi maksimum pada ABC

SN Jumlah solusi pada ABC

MaxGen1 Jumlah iterasi maksimum fase lebah pada ABC-KM

MaxGen2 Jumlah iterasi maksimum fase KM pada ABC-KM

MaxGenABCKM Jumlah iterasi maksimum metode ABC-KM

MaxPerulangan Jumlah perulangan uji coba

Page 13: Klasterisasi buku berbahasa indonesia

Ilustrasi Menggunakan Contoh Kasus

Page 14: Klasterisasi buku berbahasa indonesia

Text Mining

Case Folding

Page 15: Klasterisasi buku berbahasa indonesia

Text Mining (Cont.)

Tokenizing

Page 16: Klasterisasi buku berbahasa indonesia

Text Mining (Cont.)

Filtering

Page 17: Klasterisasi buku berbahasa indonesia

Text Mining (Cont.)

Stemming

Page 18: Klasterisasi buku berbahasa indonesia

Pembobotan TF-IDF

Menghitung frekuensi kata dari setiap dokumen (TF)

Page 19: Klasterisasi buku berbahasa indonesia

Pembobotan TF-IDF (Cont.)

Membuat file index

Page 20: Klasterisasi buku berbahasa indonesia

Pembobotan TF-IDF (Cont.)

Membuat model ruang vektor

Page 21: Klasterisasi buku berbahasa indonesia

Pembobotan TF-IDF (Cont.)

Menghitung inverse document frequency (IDF)

𝐼𝐷𝐹 π‘€π‘œπ‘Ÿπ‘‘ = π‘™π‘œπ‘”π‘‘π‘‘

𝑑𝑓

𝐼𝐷𝐹 π‘π‘Ÿπ‘’π‘ π‘–π‘‘π‘’π‘› = π‘™π‘œπ‘”π‘‘π‘‘

𝑑𝑓

= π‘™π‘œπ‘”5

1

= 0.69897

πΆπ‘œπ‘›π‘‘π‘œπ‘• ∢

Page 22: Klasterisasi buku berbahasa indonesia

Pembobotan TF-IDF (Cont.)

Menghitung bobot dari setiap kata (TF*IDF)

𝑀 π‘€π‘œπ‘Ÿπ‘‘π‘– = 𝑇𝐹(π‘€π‘œπ‘Ÿπ‘‘π‘–)𝑋(𝐼𝐷𝐹𝑖)

πΆπ‘œπ‘›π‘‘π‘œπ‘• ∢

𝑀 π‘π‘Žπ‘›π‘‘π‘–π‘˜ = 0.39794𝑋2

= 0.79588

Page 23: Klasterisasi buku berbahasa indonesia

Pembobotan TF-IDF (Cont.)

Normalkan semua dokumen ke panjang unit

𝑀 π‘–π‘›π‘‘π‘œπ‘›π‘’π‘ π‘–π‘Ž =0.79588

02 + 02 + 02 + 02 + 02 + 02 + 02 +

02 + 02 + 02 + 02 + 0.795882+

0.698972 + 0.698972 + 02 + 02 + 02 +

02 + 02 + 0.698972 + 0.698972 +

0.698972 + 02 + 02 + 02 + 02 + 02

= 0.45377

𝑀 π‘€π‘œπ‘Ÿπ‘‘π‘– =𝑀(π‘€π‘œπ‘Ÿπ‘‘π‘–)

𝑀2 π‘€π‘œπ‘Ÿπ‘‘1 + 𝑀2 π‘€π‘œπ‘Ÿπ‘‘2 +β‹―+𝑀

2(π‘€π‘œπ‘Ÿπ‘‘π‘›)

πΆπ‘œπ‘›π‘‘π‘œπ‘• ∢

Page 24: Klasterisasi buku berbahasa indonesia

Pembobotan TF-IDF (Cont.)

Hasil Normalisasi

Page 25: Klasterisasi buku berbahasa indonesia

Pembobotan TF-IDF (Cont.)

Bobot akhir kata

Page 26: Klasterisasi buku berbahasa indonesia

ABC-KM

Tentukan jumlah klaster dan inisialisasikan populasi : Dalam percobaan ini, data akan di bagi menjadi dua klas.

Pilih titik pusat awal lebah pekerja secara random : Untuk menginisialisasikan titik pusat centroid dari dokumen, maka akan dipilih secara acak yaitu dokumen 1 dan 5.

Page 27: Klasterisasi buku berbahasa indonesia

ABC-KM (Cont.)

Update titik pusat lebah pekerja dengan tahapan update pada metode ABC (Fase Lebah Pekerja).

π‘₯𝑖,𝑗, 𝑖 = 1…𝑆𝑁, 𝑗 = 1…𝐷

𝑆𝑁 = 5

𝐷 = 27

𝑖 = *1,2+

π‘˜ = *1,2+

𝑗 = *1,2,3,4,5+

Dimana nilai dari 𝑖 β‰  π‘˜

𝑣𝑖𝑗 = π‘₯𝑖𝑗 + βˆ…π‘–π‘—(π‘₯𝑖𝑗 βˆ’ π‘₯π‘˜π‘—)

𝑣1,1 = π‘₯1,1 + βˆ…1,1 π‘₯1,1 βˆ’ π‘₯2,1

= 0.33333 + 0.32645 0.33333 βˆ’ 0 = 0.44214

Contoh :

Page 28: Klasterisasi buku berbahasa indonesia

ABC-KM (Cont.)

Update titik pusat lebah pekerja dengan tahapan update pada metode ABC (Fase Lebah Penunggu).

𝑐𝑙 = π‘š 𝑐𝑙 π‘₯𝑖 𝑀(π‘₯𝑖)π‘₯𝑖𝑛𝑖=1

π‘š(𝑐𝑙|π‘₯𝑖)𝑀(π‘₯𝑖)𝑛𝑖=1

𝑓𝑖= ||π‘₯𝑖 βˆ’ 𝑐𝑙||

2

𝑛

𝑖=1

𝑓𝑖𝑑𝑖=1

1 + 𝑓𝑖

𝑝𝑖 =𝑓𝑖𝑑𝑖

𝑓𝑖𝑑𝑛

𝑆𝑁𝑛=1

𝑝1 =𝑓𝑖𝑑1

𝑓𝑖𝑑1+ 𝑓𝑖𝑑

2+ 𝑓𝑖𝑑

3+β‹―+ 𝑓𝑖𝑑

27

πΆπ‘œπ‘›π‘‘π‘œπ‘• ∢

=0.91427

24.01966

= 0.03806

Page 29: Klasterisasi buku berbahasa indonesia

ABC-KM (Cont.)

Update titik pusat lebah pekerja dengan tahapan update pada metode ABC (Fase Lebah Pengintai).

π‘₯𝑖𝑗= π‘₯π‘šπ‘–π‘›π‘—+ π‘Ÿπ‘Žπ‘›π‘‘ 0,1 π‘₯π‘šπ‘Žπ‘₯

π‘—βˆ’ π‘₯π‘šπ‘–π‘›π‘—

πΆπ‘œπ‘›π‘‘π‘œπ‘• ∢

π‘₯1𝑗= π‘₯π‘šπ‘–π‘›π‘—+ π‘Ÿπ‘Žπ‘›π‘‘ 0,1 π‘₯π‘šπ‘Žπ‘₯

π‘—βˆ’ π‘₯π‘šπ‘–π‘›π‘—

π‘₯1 = 0.03315 + 0.23454 0.04163 βˆ’ 0.03315

= 0.0362

Page 30: Klasterisasi buku berbahasa indonesia

ABC-KM (Cont.)

Tentukan titik pusat terbaik dari seluruh lebah : Jika sumber makanan baru mempunyai netkar yang sama atau lebih baik, maka sumber makanan yang lama akan di buang, jika tidak maka sumber makanan yang lama akan tetap dipertahankan (Greedy Selection).

Update titik pusat dengan tahapan K-Means : Mengambil titik pusat dari lebah untuk dijadikan titik pusat dan dilakukan peng-update-tan sampai titik pusat tidak berubah.

Page 31: Klasterisasi buku berbahasa indonesia

ABC-KM (Cont.)

Jadikan titik pusat K-Means sebagai titik pusat ABC-KM

𝑑 π‘‘π‘œπ‘˜π‘’π‘šπ‘’π‘› 1,2 =

0.03806 βˆ’ 0 2 + 0.03639 βˆ’ 0 2 + 0.04102 βˆ’ 0 2 +

0.03757 βˆ’ 0 2 + 0.04163 βˆ’ 0 2 + 0.04114 βˆ’ 0 2 +

0.03315 βˆ’ 0 2 + 0.03939 βˆ’ 0 2 + 0.04162 βˆ’ 0 2 +

0.04075 βˆ’ 0.46383 2 + 0.04161 βˆ’ 0.46383 2 +

0.04160 βˆ’ 0.26407 2 + 0.03949 βˆ’ 0.26407 2 +

0.03886 βˆ’ 0.46383 2 + 0.03817 βˆ’ 0.46383 2 +

0.04019 βˆ’ 0 2 + 0.04019 βˆ’ 0 2 + 0.04019 βˆ’ 0 2 +

0.04019 βˆ’ 0 2 + 0.04019 βˆ’ 0 2 + 0.04019 βˆ’ 0 2 +

0.04019 βˆ’ 0 2 + 0.04019 βˆ’ 0 2 + 0.04019 βˆ’ 0 2 +

0.04019 βˆ’ 0 2 + 0.04019 βˆ’ 0 2 + 0.04019 βˆ’ 0 2

𝑑(π‘₯, 𝑦) = |𝑦𝑖 βˆ’ π‘₯𝑖|2

𝑛

𝑖=1

πΆπ‘œπ‘›π‘‘π‘œπ‘• ∢

Page 32: Klasterisasi buku berbahasa indonesia

ABC-KM (Cont.)

Tetapkan keanggotaan tiap data

Dokumen C1 C2

D1 1 0

D2 0 1

D3 1 0

D4 1 0

D5 0 1

Page 33: Klasterisasi buku berbahasa indonesia

Hasil Uji Coba Sistem yang Telah di Bangun

J U R U S A N T E K N I K I N F O R M A T I K A

F A K U L T A S T E K N I K

U N I V E R S I T A S M U H A M M A D I Y A H M A L A N G

2 0 1 4

Oleh: Abdurrahman

201010370311397

Dosen Pembimbing: Yufis Azhar, M.Kom

Ali S. Kholimi, S.Kom

Page 34: Klasterisasi buku berbahasa indonesia

Metode Uji Coba

Precision =𝑇𝑃

𝑇𝑃+𝐹𝑃

Recall = 𝑇𝑃

𝑇𝑃+𝐹𝑁

F-Measure =2 π‘₯ π‘ƒπ‘Ÿπ‘’π‘π‘–π‘ π‘–π‘œπ‘› π‘₯ π‘…π‘’π‘π‘Žπ‘™π‘™

π‘ƒπ‘Ÿπ‘’π‘π‘–π‘ π‘–π‘œπ‘›+π‘…π‘’π‘π‘Žπ‘™π‘™

Classterication Positive Clasterication Negative

Actual Pisitive TP FN

Actual Negative FP TN

Page 35: Klasterisasi buku berbahasa indonesia

Hasil Uji Coba Grafik Perbandingan Precision

79.00%

80.00%

81.00%

82.00%

83.00%

84.00%

85.00%

86.00%

87.00%

88.00%

89.00%

Percobaan 1 Percobaan 2 Percobaan 3 Percobaan 4 Percobaan 5 Rata-Rata

K-Means

ABC K-Means

Page 36: Klasterisasi buku berbahasa indonesia

Hasil Uji Coba Grafik Perbandingan Recall

0%

5%

10%

15%

20%

25%

30%

35%

40%

Percobaan 1 Percobaan 2 Percobaan 3 Percobaan 4 Percobaan 5 Rata-Rata

K-Means

ABC K-Means

Page 37: Klasterisasi buku berbahasa indonesia

Hasil Uji Coba Grafik Perbandingan F-measure

0.00%

10.00%

20.00%

30.00%

40.00%

50.00%

60.00%

Percobaan 1 Percobaan 2 Percobaan 3 Percobaan 4 Percobaan 5 Rata-Rata

K-Means

ABC K-Means

Page 38: Klasterisasi buku berbahasa indonesia

Kesimpulan

Artificial Bee Colony mampu mengatasi masalah local optimal pada algoritma Basic K-means sehingga algoritma Basic K-Means dapat keluar dari masalah tersebut dan menjadi global optimal.

Algoritma ABC-KM mamupu mengklaster lebih baik : precision ABC K-Means lebih baik 2.08%, recall ABC K-Means lebih baik 11.24% dan F-Measure ABC K-Means lebih baik 14.04%.

Page 39: Klasterisasi buku berbahasa indonesia

Saran

Penentuan Jumlah Klaster Masih Manual

Klasterisasi Data Masih Statis

Tidak Adanya Metode Korelasi (Similarity)

Page 40: Klasterisasi buku berbahasa indonesia

TERIMAKASIH