Metode Klasifikasi SVM Light dan K -NN · Learning (training): Pembelajaran menggunakan data...

14
Metode Klasifikasi Metode Klasifikasi ( ( SVM Light dan K SVM Light dan K - - NN NN ) ) Dr. Taufik Fuadi Abidin, S.Si., M.Tech Jurusan Informatika FMIPA Universitas Syiah Kuala www.informatika.unsyiah.ac.id/tfa

Transcript of Metode Klasifikasi SVM Light dan K -NN · Learning (training): Pembelajaran menggunakan data...

Metode Klasifikasi Metode Klasifikasi

((SVM Light dan KSVM Light dan K--NNNN))Dr. Taufik Fuadi Abidin, S.Si., M.Tech

Jurusan InformatikaFMIPA Universitas Syiah Kuala

www.informatika.unsyiah.ac.id/tfa

Alur dan ProsesCleaning Process

Dokumen Berkategori

SVM

TrainingSets

TestingSets

Penentuan Fitur

(Feature Generation)

Hasil: Dokumen Baru dengan

Kategori Models

Kamus (Dictionaries)

dari setiap klas

Penentuan FiturTopik minggu sebelumnya telah memaparkan dan mendiskusikan salah satu alternatif membangun tektual fitur dari halaman Web (jika objek berupa halaman Web), contoh fitur:

tropical_d 1:0.777777777777778 2:0.333333333333333 3:0.111111111111111 4:05:0.111111111111111 6:0 7:0.2875 8:0.1125 9:0.0375 10:0 11:0.0125 12:0 13:0.178947368421053 14:0.0421052631578947 15:0.0210526315789474 16:0 17:0.0210526315789474 18:0 19:0.1 20:0.024 21:0.008 22:0 23:0.004 24:0

tropical_d 1:0.833333333333333 2:0.166666666666667 3:0 4:0 5:0 6:0 7:0.298507462686567 8:0.0970149253731343 9:0.0447761194029851 10:0 11:0.0298507462686567 12:0 13:0.137349397590361 14:0.0397590361445783 15:0.0036144578313253 16:0 17:0.0108433734939759 18:0 19:0.106666666666667 20:0.0155555555555556 21:0.00222222222222222 22:0 23:0.0155555555555556 24:0.00222222222222222

Tahapan KlasifikasiLearning (training): Pembelajaran menggunakan data training (untuk Naïve Bayesian Classifier, nilai probabilitas dihitung dalam proses pembelajaran)

Testing: Menguji model menggunakan data testing

Sumber: Bing Liu, Web Data Mining

Training SetKlasifikasi adalah proses pembelajaran secara terbimbing (supervised learning). Terbimbing karena kategori (class label) dari setiap training sampel diketahui

Untuk melakukan klasifikasi, training set sebagai data pembelajaran harus ada

Attribut dari sampel baru (unclassified sample) sama dengan atribut dari setiap sampel dalam training set hanya saja class label-nya belum diketahui

Metode KlasifikasiNaïve Bayesian Classifier (Probabilistics-Based Classification)

Adalah metode classifier yang berdasarkan probabilitas dan Teorema Bayesian dengan asumsi bahwa setiap variabel X bersifat bebas (independence)

Dengan kata lain, Naïve Bayesian Classifier mengansumsikan bahwa keberadaan sebuah atribut (variabel) tidak ada kaitannya dengan beradaan atribut (variabel) yang lain

Karena asumsi atribut tidak saling terkait (conditionally independent), maka:

Kategori dari sampel X (new sample) adalah class label yang memiliki P(X|Ci)*P(Ci)maksimum

∏=

=n

kCixkPCiXP

1)|()|(

Metode KlasifikasiK-Nearest Neighbor (K-NN) Classification

Adalah metode classifier yang menentukan kategori dari sampel baru berdasarkan k-tetangga terdekat. k-sampel terdekat itu dihitung berdasarkan perhitungan jarak (euclidian atau manhattan distance

K-NN juga disebut lazy classifier

K-NN adalah distance-based classification

Sumber: http://en.wikipedia.org/wiki/K-nearest_neighbor_algorithm

Metode KlasifikasiSupport Vector Machine (SVM)

Dikembangkan oleh Boser, Guyon, Vapnik, dan pertama kali dipresentasikan pada tahun 1992 di Annual Workshop on Computational Learning Theory

SVM memperkenalkan strategi baru dengan menemukan hyperplane terbaik pada ruang input (input space). Prinsip SVM adalah linear classifier, tetapi SVM kemudian dikembangkan agar mampu bekerja pada masalah non-linear dengan memasukkan kernel

SVM LightLeaning Step:

svm-classify file_test file_model prediction

file_training adalah file fitur yang telah disusun dalam format SVM light

file_model adalah model yang telah dibangkitkan sebelumnya saat proses learning dilakukan

file prediction menyimpan hasil prediksi dari SVM

1 101:0.2 205:4 209:0.2 304:0.2…-1 202:0.1 203:0.1 208:0.1 209:0.3………

1.045-0.987……

1.0450.987……

SVM LightSitus resmi: http://svmlight.joachims.org/

Diimplementasi menggunakan bahasa pemrograman C

Testing Step:

svm-learn [-option] file_training file_model

file_training adalah file fitur yang telah disusun dalam format SVM light

file_model adalah model yang dibangkitkan oleh proses learning

svm-classify file_test_fitur file_model

Confusion Matriks

. .FNTP

TP r

FPTP

TPp

+=

+=

Sumber: Bing Liu, Web Data Mining

Precision (p) = jumlah sampel berkategori positif diklasifikasi benar dibagi dengan total sampel yang diklasifikasi sebagai sample positif

Recall (r) = jumlah sampel diklasifikasi positif dibagi total sampel dalam testing set berkategori positif

F-Measure (F1-Score)

F-Measure (F1) adalah harmonic mean dari precision dan recall

Range dari nilai F-Measure adalah 0 sd 1.

ContohSumber: Bing Liu, Web Data Mining

precision p = 100%

recall r = 1%

Mengapa? Karena kita hanya berhasil

mengklasifikasi satu sampel positif secara benar dan semua sampel negatif benar

SVM Light Demo