PRESENTASI TUGAS AKHIR – KI091391 -...

34
26 Juli 2013 Tugas Akhir – KI091391 1 IMPLEMENTASI KD-TREE K-MEANS CLUSTERING PADA KLASTERISASI DOKUMEN (Kata kunci: KD-Tree K-Means Clustering, Klasterisasi Dokumen, K- Dimensional Tree, K-Means Clustering) PRESENTASI TUGAS AKHIR – KI091391 Penyusun Tugas Akhir : Eric Budiman Gosno (NRP : 5109.100.153) Dosen Pembimbing : Isye Arieshanti, S.Kom, M.Phil. Rully Soelaiman, S.Kom., M.Kom.

Transcript of PRESENTASI TUGAS AKHIR – KI091391 -...

26 Juli 2013 Tugas Akhir – KI091391 1

IMPLEMENTASI KD-TREE K-MEANS CLUSTERING PADA KLASTERISASI DOKUMEN

(Kata kunci: KD-Tree K-Means Clustering, Klasterisasi Dokumen, K-Dimensional Tree, K-Means Clustering)

PRESENTASI TUGAS AKHIR – KI091391

Penyusun Tugas Akhir :Eric Budiman Gosno(NRP : 5109.100.153)

Dosen Pembimbing :Isye Arieshanti, S.Kom, M.Phil.

Rully Soelaiman, S.Kom., M.Kom.

10 Juli 2013 Tugas Akhir - KI091391 2

TAHAPAN PRESENTASI

Latar Belakang

Rumusan Masalah

Batasan Masalah

Tujuan

Pendahuluan

Sistem Klasterisasi Dokumen

Uji Coba

Kesimpulan dan Saran

K-Means Clustering sensitif terhadap inisialisasi posisi titik tengahklaster. Inisialisasi posisi titik tengah yang buruk akan algoritmaK-Means Clustering menghasilkan solusi local optimum.

KD-Tree K-Means Clustering adalah perbaikan dari metode K-Means Clustering dengan inisialisasi titik tengah klastermenggunakan struktur data K-Dimensional Tree dan nilaikerapatan/density

Hasil evaluasi oleh Redmond et al tidak melingkupi performa KD-Tree K-Means Clustering pada data set dokumen.

26 Juli 2013 Tugas Akhir – KI091391 3

LATAR BELAKANG

26 Juli 2013 Tugas Akhir – KI091391 4

1. Bagaimana mengimplementasikan algoritma KD-Tree K-Means Clustering pada kasus klasterisasi dokumen?

2. Bagaimana hasil dan performa dari algoritma KD-Tree K-Means Clustering dibandingkan dengan metode K-Means Clustering pada kasus klasterisasi dokumen?

RUMUSAN MASALAH

26 Juli 2013 Tugas Akhir – KI091391 5

1. Data set yang digunakan untuk uji performa implementasi padaklasterisasi non dokumen adalah data set Pen-Based Recognition of Handwritten Digits(http://archive.ics.uci.edu/ml/datasets/Pen-Based+Recognition+of+Handwritten+Digits) dan data set Image Segmentation (http://archive.ics.uci.edu/ml/datasets/Image+Segmentation)dari UCI Machine Learning Repository.

2. Data set yang digunakan untuk uji performa pada klasterisasidokumen adalah data set 20 newsgroup dari KDD UCI Archive (http://kdd.ics.uci.edu/databases/20newsgroups/20newsgroups.html)

3. Algoritma yang digunakan sebagai perbandingan performa KD-Tree K-Means pada klasterisasi dokumen adalah K-Means Clustering dengan inisialisasi Forgy’s Method

BATASAN MASALAH

26 Juli 2013 Tugas Akhir – KI091391 6

4. Parameter evaluasi yang digunakan adalah distorsi euclideandistance dan Normalized Information Gain

5. Metode stemmer yang digunakan pada pra proses dokumenadalah porter stemmer

BATASAN MASALAH

26 Juli 2013 Tugas Akhir – KI091391 7

1. Mengimplementasikan algoritma KD-Tree K-Means Clustering dalam permasalahan klasterisasi dokumen.

2. Melakukan uji performa dari algoritma KD-Tree K-Means Clustering dalam permasalahan klasterisasi dokumen.

TUJUAN

10 Juli 2013 Tugas Akhir - KI091391 8

TAHAPAN PRESENTASI

Gambaran umum sistemPendahuluan

Sistem Klasterisasi Dokumen

Uji Coba

Kesimpulan dan Saran

Alur Sistem Klasterisasi Dokumen

Tahap Pra Proses

K-Dimensional Tree

KD-Tree K-Means Clustering

26 Juli 2013 Tugas Akhir – KI091391 9

GAMBARAN UMUM SISTEM

Data set Kumpulan Dokumen / Artikel

Dokumen-dokumen yang telah diklasterisasi

Tahap Pra-Proses Dokumen

26 Juli 2013 Tugas Akhir – KI091391 10

ALUR SISTEM KLASTERISASI DOKUMEN

Data set Kumpulan Dokumen / Artikel

Data set denganformat bag of word

Input data set &Term Weighting

Proses KlasterisasiDokumen

Dokumen-dokumen yang telah diklasterisasi

26 Juli 2013 Tugas Akhir – KI091391 11

Penghapusanstop word

Data set KumpulanDokumen / Artikel Data set dengan

format bag of word

Tahap Pra – Proses Dokumen

ProsesStemmming kata

Proses seleksikata typo

Menghapus kata yang merupakan stop word dalamBahasa Inggris

Menyederhanakan kata kedalamBentuk stem

Hapus kata yang hanya munculPada satu dokumenHasil data set bag of word

Bertujuan untuk memberikan bobot penilaian pada setiap katayang menjadi fitur

Menggunakan perhitungan Term Frequency – InverseDocument Frequency (TF-IDF)

Proses pembobotan kata (term weighting)

26 Juli 2013 Tugas Akhir – KI091391 12

Proses pembobotan kata (term weighting)

26 Juli 2013 Tugas Akhir – KI091391 13

Data set sebelum term weighting

Data set setelah term weighting

Data struktur yang bersifat space-partitioning dan merupakankasus spesial dari binary space partitioning tree

Setiap node non-leaf pada KD-Tree merupakan garis yangmemisakan sebuah ruang menjadi 2 bagian

Menggunakan nilai median atau mean sebagai nilai pivot

K-Dimensional Tree

26 Juli 2013 Tugas Akhir – KI091391 14

K-Dimensional Tree

26 Juli 2013 Tugas Akhir – KI091391 15

Pemilihan atributpemisah/pivot

Penentuan nilaipemisah/pivot value

Pembuatanchild subtree

kiri dan kanan

Proses rekursifpada subtree child

subtreeadalah

leaf

Fungsi selesai

ya

tidak

Proses pemilihan atributpemisah:

Umumnya ditentukanberdasarkan kedalaman darinode saat iniaxis = depth mod k atauaxis = longest dimension

Pivot Value dapat menggunakanNilai median atau mean dariNilai-nilai pada atribut pemisah

Nilai median lebih seringdigunakan karena menghasilkantree lebih balance dibandingkannilai mean

Child subtree sebelah kiri akanmemiliki data dengan nilaiatribut < pivot value. SedangkanChild subtree sebelah kananakan memiliki data dengan nilaiatribut > pivot value

node.leftChild := kdtree(points < pivot value, depth+1);node.rightChild := kdtree(points > pivot value, depth+1);

Jika subtree telah memenuhikriteria leaf (kedalaman tertentu/ jumlah data maksimal)Maka fungsi rekursif selesai

Jika tidak, maka lanjutkanproses rekursif ke child subtree

K-Dimensional Tree

26 Juli 2013 Tugas Akhir – KI091391 16

Contoh hasil partisi K-Dimensional Tree pada data set 2 dimensi

Metode K-Means Clustering dengan perbaikan pada prosesinisialisasi titik tengah klaster

Menggunakan struktur data K-Dimensional Tree dannilai/ranking kerapatan dari leaf bucket untuk memilih posisiawal titik tengah

Nilai kerapatan 푝 = (푁 : Banyak poin pada leaf bucket, 푉 :

Volume area leaf bucket). nilai volume Vj : hasil perkalian darisemua rentang dimensi pada leaf bucket. Dimensi dengan nilairentang nol akan digantikan dengan nilai geometric mean darinilai rentang dimensi yang tidak bernilai nol.

Leaf bucket yang dipilih sebagai titik tengah adalah leaf bucketyang memiliki jarak terjauh dari titik tengah dan nilai kerapatantertinggi

KD-Tree K-Means Clustering

26 Juli 2013 Tugas Akhir – KI091391 17

KD-Tree K-Means Clustering

26 Juli 2013 Tugas Akhir – KI091391 18

Pembentukan strukturdata KD-Tree dari data

set

Perhitungan nilaikerapatan dari

setiap leaf bucket

Proses pemilihantitik tengah

dari leaf bucket

Penghapusan 20%Leaf bucket dengan

nilai kerapatanterendah

dan proses diulang

Jumlahtitik tengah =

Jumlahklaster

ya

tidak

K-Means Clustering dengan hasil inisialisasi

titik tengah

Pembentukan K-Dimensional Tree dari data set. K-Dimensional Tree yang dibuat akan memiliki leaf bucket dengan jumlah data maksimal20 per leaf bucket.

Untuk setiap leaf bucket(L1,L2,…,Lj) , kalkulasi nilai kerapatan(Pj) dari setiap leaf bucket Lj, dan kalkulasi nilai titik tengah leaf bucket(Mj) dengan mencari nilai rerata dari semua point yang ada pada leaf bucket Lj.

푃 = 푁푉

• Untuk t = 1, pilih titik tengahklaster pertama C1 = Mz, dimana 푧 = arg max 푃 .

• Untuk t = 2,…,K:Untuk j = 1,...,q kalkulasi nilai ranking leaf bucket (Gj) dengan fomula 퐺 = 푚푖푛

푘 = 1 … 푡 푑 퐶 ,푀 × 푃

Pilih titik tengah klaster Ct = Mz, dimana 푧 = arg max 퐺 .

Jalankan algoritma K-Means Clustering dengan nilai inisialisasi titik tengah (C1,...,Ck)dan (ĉ1, ĉ2,…, ĉk).

Hapus 20% leaf bucket dengan nilai kerapatan terendah, ulangiproses dan kalkulasi posisi Ktitik tengah klaster baru (ĉ1, ĉ2,…, ĉk).

Nilai 푃 dapat diganti dengan ranking density (푃 ). Leaf Bucketdengan nilai terendah memiliki nilai 푃 = 1 dan leaf bucketdengan nilai tertinggi memiliki nilai 푃 = n. Tujuan daripenggunaan ranking density adalah untuk mencegah nilaikerapatan yang terlalu dominan dibandingkan dengan jarak leafbucket ke titik tengah

Tujuan dari menghapus 20% leaf bucket terendah adalah untukmencegah leaf bucket yang merupakan outlier menjadi titiktengah

KD-Tree K-Means Clustering

26 Juli 2013 Tugas Akhir – KI091391 19

Leaf BucketDensity : 17,35

Leaf BucketDensity : 18,00

Leaf BucketDensity : 18,04

Leaf BucketDensity : 18,22Leaf BucketDensity Rank : 4

Leaf BucketDensity : 18,409

Leaf BucketDensity Rank : 1

Leaf BucketDensity Rank : 2

Leaf BucketDensity Rank : 3

Leaf BucketDensity Rank : 5

KD-Tree K-Means Clustering

26 Juli 2013 Tugas Akhir – KI091391 20

Centroid 1

Distance : 193,28

Distance : 9,635

Distance : 9,635

Distance : 145,195

Centroid 2

Distance : 200,915

Distance : 200,915

Distance : 139,92

min Distance : 9,635

min Distance : 9,635

min Distance :139,92

Centroid 3

10 Juli 2013 Tugas Akhir - KI091391 21

TAHAPAN PRESENTASI

Skenario Uji CobaPendahuluan

Sistem Klasterisasi Dokumen

Uji Coba

Kesimpulan dan Saran

Evaluasi Performa

Parameter Uji Coba

Hasil Skenario Uji Coba 1

Hasil Skenario Uji Coba 2

Skenario 1 : Uji coba implementasi KD-Tree K-Means Clusteringpada klasterisasi non dokumen menggunakan data set ImageSegmentation dan Pen-Based Recognition of HandwrittenDigits.

Skenario 2 : Uji coba perbandingan hasil klasterisasi dokumenKD-Tree K-Means Clustering dan K-Means Clustering pada dataset dokumen 20 newsgroup.

Uji coba dilakukan dengan membandingkan performa hasil KD-Tree K-Means Clustering dengan 15 kali proses K-MeansClustering.

SKENARIO UJI COBA

26 Juli 2013 Tugas Akhir – KI091391 22

EVALUASI PERFORMA (1)

26 Juli 2013 Tugas Akhir – KI091391 23

D = nilai distorsi data setn = jumlah data pada data setK = jumlah klaster hasil

Perhitungan menggunakan nilai distorsi euclidean distance (Nilai total kuadrat euclidean distance data ke titik tengah klaster)

Xi = data ke-i pada data setCj = klaster ke-jD(…,….) = Perhitungan jarak euclidean distance

Perhitungan menggunakan Normalized Information Gain

ENTOTAL : nilai Total Entropy atau rerata informasi yang ada di setiap data pada data set

EVALUASI PERFORMA (2)

26 Juli 2013 Tugas Akhir – KI091391 24

퐸푁 = −푐푛 푙표푔

푐푛 푏푖푡푠

L = Jumlah label pada kelas data setcl = Jumlah data yang memiliki label l

pada data set

EVALUASI PERFORMA (3)

26 Juli 2013 Tugas Akhir – KI091391 25

wEN: Rerata informasi data pada setiap klaster, memberikan nilai 0 pada saat semua klaster homogen

Enk : Nilai entropy dari sebuah klaster

K =Jumlah klasternk = Jumlah data pada klaster kn = Jumlah data pada data set

K =Jumlah label pada kelas data set

nk = Jumlah data pada klaster kcl

k = Jumlah data yang memilikilabel l pada klaster k

PARAMETER UJI COBA (1)

26 Juli 2013 Tugas Akhir – KI091391 26

Nama Parameter

Deskripsi

K Jumlah klaster pada proses klasterisasi m Jumlah fitur pada data set row Jumlah data pada data set Dkd Nilai distorsi dari proses klasterisasi dokumen

menggunakan algoritma KD-Tree K-Means Clustering Dminfa Nilai distorsi minimum dari 15 kali proses klasterisasi

dokumen menggunakan algoritma K-Means Clustering μfa Nilai rerata distorsi dari 15 kali proses klasterisasi

dokumen menggunakan algoritma K-Means Clustering σfa Standar deviasi distorsi dari 15 kali proses klasterisasi

dokumen menggunakan algoritma K-Means Clustering Nfa>kd Jumlah proses klasterisasi dokumen dari 15 kali iterasi

menggunakan algoritma K-Means Clustering yang memiliki nilai distorsi lebih baik daripada KD-Tree K-Means Clustering

PARAMETER UJI COBA (2)

26 Juli 2013 Tugas Akhir – KI091391 27

Nama Parameter

Deskripsi

Nfa=kd Jumlah proses klasterisasi dokumen dari 15 kali iterasi menggunakan algoritma K-Means Clustering yang memiliki nilai distorsi sama dengan KD-Tree K-Means Clustering

Nfa <kd Jumlah proses klasterisasi dokumen dari 15 kali iterasi menggunakan algoritma K-Means Clustering yang memiliki nilai distorsi lebih buruk daripada KD-Tree K-Means Clustering

NIGkd Nilai NIG dari proses klasterisasi dokumen menggunakan algoritma KD-Tree K-Means Clustering

NIGfa Nilai NIG maksimum dari 15 kali proses klasterisasi dokumen menggunakan algoritma K-Means Clustering

Tkd Waktu eksekusi dari proses klasterisasi dokumen menggunakan algoritma KD-Tree K-Means Clustering

Tminfa Waktu eksekusi minimum dari 15 kali proses klasterisasi dokumen menggunakan algoritma K-Means Clustering

Tmaxfa Waktu eksekusi maksimum dari 15 kali proses klasterisasi dokumen menggunakan algoritma K-Means Clustering

Ttotalfa Waktu eksekusi total dari 15 kali proses klasterisasi dokumen menggunakan algoritma K-Means Clustering

Hasil Uji Coba Skenario 1

2826 Juli 2013 Tugas Akhir – KI091391

SKENARIO 1 : UJI KINERJA KLASTERISASI NON-DOKUMEN KD-TREE K-MEANS CLUSTERING

Hasil KD-Tree K-Means Clustering memilikinilai NIG 0,06 lebih buruk dibandingkan nilaiNIG maksimum K-Means Clustering. Tetapimenghasilkan hasil distorsi sama dengan nilaiminimum distorsi dan lebih baik 6 × 105

dibandingkan dengan rerata nilai distorsi K-Means Clustering.

Selain itu dari 15 proses K-Means Clustering hanya 4 proses saja yang memiliki nilai distorsilebih baik dibandingkan hasil dari KD-Tree K-Means Clustering.

Parameter Image Segmentation

K 7 m 19 row 2310 Dkd 1,40 × 107

Dminfa 1,40 × 107 μfa 1,46 × 107 σfa 1,82 × 106

Nfa>kd 4 Nfa=kd 0 Nfa <kd 11 NIGkd 0,49 NIGfa 0,55

Tkd 3876 Tminfa 2884 Tmaxfa 11535 Ttotalfa 84645

Hasil Uji Coba Skenario 1

2926 Juli 2013 Tugas Akhir – KI091391

SKENARIO 1 : UJI KINERJA KLASTERISASI NON-DOKUMEN KD-TREE K-MEANS CLUSTERING

Hasil KD-Tree K-Means Clustering memilikinilai NIG 0,02 lebih buruk dibandingkan nilaiNIG maksimum K-Means Clustering. Tetapimenghasilkan hasil distorsi lebih baik 1,7 × 106

dibandingkan dengan rerata nilai distorsi K-Means Clustering.

Selain itu dari 15 proses K-Means Clustering hanya 2 proses saja yang memiliki nilai distorsilebih baik dibandingkan hasil dari KD-Tree K-Means Clustering.

Parameter Pen-based Recognition Handwritten Digits

K 10 m 16 row 10992 Dkd 5,01 × 107 Dminfa 5,00 × 107

μfa 5,17 × 107

σfa 1,27 × 106

Nfa>kd 2 Nfa=kd 0 Nfa <kd 13 NIGkd 0,67 NIGfa 0,69 Tkd 33497 Tminfa 20449 Tmaxfa 134524 Ttotalfa 675462

Hasil Uji Coba Skenario 2SKENARIO 2 : UJI PERFORMA KD-TREE K-MEANS CLUSTERING PADA DATA SET DOKUMEN

Hasil uji coba menunjukkan bahwa hasilklasterisasi dokumen menggunakan KD-Tree K-Means Clustering memiliki nilaidistorsi lebih buruk 2 × 105 dibandingkannilai distorsi minimum hasil K-Means Clustering. Namun Hasil ini lebih baik 3 × 105 dibandingkan dengan nilai reratadistorsi dari K-Means Clustering.

Pada perhitungan nilai NIG, hasil dariKD-Tree K-Means Clustering memilikinilai NIG 0,18. Hasil ini lebih baik 0,09 dibandingkan dengan nilai NIG maksimum yang didapatkan oleh K-Means Clustering.

Parameter Nilai K 20 m 20536 Dkd 4,14 x 107

Dminfa 4,12 x 107

μfa 4,17 x 107 σfa 3,00 x 105

Nfa>kd 4 Nfa <kd 11 NIGkd 0,18 NIGfa 0,09 Tkd 13295630 Tminfa 2535463 Tmaxfa 12619237 Ttotalfa 105325216

08 Juli 2013 Tugas Akhir - KI091391 31

TAHAPAN PRESENTASI

Pendahuluan

Sistem Klasterisasi Dokumen

Uji Coba

Kesimpulan dan Saran

1. Performa klasterisasi yang dihasilkan oleh metode KD-Tree K-Means Clustering pada data set non dokumen yaitu ImageSegmentation dan Pen-Based Recognition of Handwritten Digitsmemiliki hasil distorsi yang lebih baik dibandingkan dengan nilairerata distorsi 15 kali proses K-Means Clustering. Selain itu,metode KD-Tree K-Means Clustering juga memiliki waktu eksekusiyang relatif sama dengan waktu eksekusi dari K-Means Clustering.

2. Performa yang dihasilkan oleh metode KD-Tree K-MeansClustering pada klasterisasi dokumen data set 20 newsgroupmemiliki nilai distorsi 3 × 105 lebih rendah dibandingkan dengannilai rerata distorsi dari K-Means Clustering. Selain itu nilai NIGKD-Tree K-Means Clustering 0,09 lebih baik dibandingkan nilaiNIG maksimum K-Means Clustering.

KESIMPULAN

26 Juli 2013 Tugas Akhir – KI091391 32

1. Performa dari KD-Tree K-Means Clustering untuk klasterisasidokumen dapat ditingkatkan salah satunya dengan melakukanproses seleksi fitur. Akan tetapi pemilihan metode seleksi fiturharus dilakukan secara hati-hati sesuai dengan karakteristikdan problem dari klasterisasi teks yang berdimensi tinggi.

2. Perbaikan lain yang bisa dilakukan adalah dengan memperbaikiefisiensi running time dari KD-Tree K-Means Clustering karenaKD-Tree K-Means Clustering membutuhkan waktu trainingyang lama pada klasterisasi data set berdimensi tinggi sepertidata set dokumen.

SARAN

26 Juli 2013 Tugas Akhir – KI091391 33

SELESAI

26 Juli 2013 Tugas Akhir – KI091391 34

TERIMA KASIH