Weka Adalah Aplikasi Data Mining Open Source Berbasis Java

7
TUTORIAL WEKA Weka adalah aplikasi data mining open source berbasis Java. Aplikasi ini dikembangkan pertama kali oleh Universitas Waikato di Selandia Baru sebelum menjadi bagian dari Pentaho. Weka terdiri dari koleksi algoritma machine learning yang dapat digunakan untuk melakukan generalisasi / formulasi dari sekumpulan data sampling. Walaupun kekuatan Weka terletak pada algoritma yang makin lengkap dan canggih, kesuksesan data mining tetap terletak pada faktor pengetahuan manusia implementornya. Tugas pengumpulan data yang berkualitas tinggi dan pengetahuan pemodelan dan penggunaan algoritma yang tepat diperlukan untuk menjamin keakuratan formulasi yang diharapkan.

Transcript of Weka Adalah Aplikasi Data Mining Open Source Berbasis Java

Page 1: Weka Adalah Aplikasi Data Mining Open Source Berbasis Java

TUTORIAL WEKA

Weka adalah aplikasi data mining open source berbasis Java. Aplikasi ini dikembangkan pertama kali oleh Universitas Waikato di Selandia Baru sebelum menjadi bagian dari Pentaho. Weka terdiri dari koleksi algoritma machine learning yang dapat digunakan untuk melakukan generalisasi / formulasi dari sekumpulan data sampling. Walaupun kekuatan Weka terletak pada algoritma yang makin lengkap dan canggih, kesuksesan data mining tetap terletak pada faktor pengetahuan manusia implementornya. Tugas pengumpulan data yang berkualitas tinggi dan pengetahuan pemodelan dan penggunaan algoritma yang tepat diperlukan untuk menjamin keakuratan formulasi yang diharapkan.

Page 2: Weka Adalah Aplikasi Data Mining Open Source Berbasis Java

Empat tombol diatas dapat digunakan untuk menjalanankan Aplikasi : 

1. Explorer digunkan untuk menggali lebih jauh data dengan aplikasi WEKA 2. Experimenter digunakan untuk melakukan percobaan dengan pengujian

statistic skema belajar 3. Knowledge Flow digunakan untuk pengetahuan pendukung 4. Simple CLI antar muka dengan menggunakan tampilan command-line

yang memungkinkan langsung mengeksekusi perintah weka untuk Sistem Operasi yg tidak menyediakan secara langsung

Pada bagian atas window, tepatnya pada bawah judul bar. Terdapat deretan data, seperti Prepocess,Classify,Cluster,Associate,Select Attributes Visualize. Namun yang aktif hanya Prepocess ini dikarenakan sebelum menggunakan algoritma diatas pastikan sudah melakukan set file yang akan dieksekusi Berikut langkah-langkahnya :

Page 3: Weka Adalah Aplikasi Data Mining Open Source Berbasis Java

Buka file yang akan dieksekusi oleh Weka, pergunakan extensi file .csv (Command Separated Values). Perlu diingat bahwa sebelumnya kita sudah harus menyediakan data-data pada file tersebut. Disini menggunakan contoh TRANSAKSI.csv sebagai berikut

Disini terdapat atribut sebagai berikut ini :• Kode_pelanggan, • warna merah, putih, pink, biru, hitam, • ukuran small, medium, large, extra-large, • bahan cotton, wol, • harga 15.000, 15.000-20.000, 20.000-25.000, 30.000.Kemudian pilih algoritma yang akan digunakan seperti tampilan berikut ini :

Page 4: Weka Adalah Aplikasi Data Mining Open Source Berbasis Java

Algoritma yang akan digunakan adalah J48. Perbedaan ID3, C4.5 dan J48 sebagai berikut ini:

ID3 merupakan algoritma yang dipergunakan untuk membangun sebuah decision tree atau pohon keputusan. Algoritma ini ditemukan oleh J. Ross Quinlan, dengan memanfaatkan Teori Informasi atau Information Theory milik Shanon. ID3 sendiri merupakan singkatan dari Iterative Dichotomiser 3.

Idenya, adalah membuat pohon dengan percabangan awal adalah atribut yang paling signifikan. Maksudnya signifikan adalah yang paling bisa mempartisi antara iya dan tidak. Bisa dilihat, bahwa atribut “patron” membagi 3, dimana hasil pembagiannya cukup ideal. Maksudnya ideal adalah setiap cabang terdiri dari hijau saja atau merah saja. Memang, untuk cabang “full” tidak satu warna (hijau saja atau merah saja). Tapi, pemilihan atribut patron jelas lebih baik daripada atribut type.

Untuk menentukan atribut mana yang lebih dahulu dipergunakan untuk membuat cabang pohon, digunakanlah teori informasi. Pada WEKA, ada pilihan untuk menggunakan ID3 ini, dengan nama yang sama. Namun, jelas semua atribut harus bertipe nominal, dan tidak boleh ada yang kosong

Sedangkan, C4.5 merupakan pengembangan dari ID3. Beberapa perbedaannya antara lain :1. Mampu  menangani atribut dengan tipe diskrit atau kontinu.2. Mampu  menangani atribut yang kosong (missing value)3. Bisa memangkas cabang.Dan J48 merupakan implementasi C4.5 di WEKA.

Page 5: Weka Adalah Aplikasi Data Mining Open Source Berbasis Java

Jadi, ketika ingin melakukan klasifikasi dengan menggunakan WEKA, akan ada 4 (empat) buah pilihan, yang disebut dengan test options. Test options ini digunakan untuk mengetes hasil dari klasifikasi yang telah dilakukan.

Berikut penjelasan mengenai masing-masing option.1. Use training setPengetesan dilakukan dengan menggunakan data training itu sendiri.

2. Supplied test setPengetesan dilakukan dengan menggunakan data lain. Dengan menggunakan option inilah, kita bisa melakukan prediksi terhadap data tes.

3. Cross-validationPada cross-validation, akan ada pilihan berapa fold yang akan digunakan. Nilai default-nya adalah 10. Mekanisme-nya adalah sebagai berikut:Data training dibagi menjadi k buah subset (subhimpunan). Dimana k adalah nilai dari fold. Selanjutnya, untuk tiap dari subset, akan dijadikan data tes dari hasil klasifikasi yang dihasilkan dari k-1 subset lainnya. Jadi, akan ada 10 kali tes. Dimana, setiap datum akan menjadi data tes sebanyak 1 kali, dan menjadi data training sebanyak k-1 kali.Kemudian, error dari k tes tersebut akan dihitung rata-ratanya.

4. Percentage splitHasil klasifikasi akan dites dengan menggunakan k% dari data tersebut. k merupakan masukan dari user.Untuk melihat decision tree-nya liat tampilan sebagai berikut ini :

Page 6: Weka Adalah Aplikasi Data Mining Open Source Berbasis Java

Akan muncul decision sebagai berikut ini :

Penjelasan :Bahwa dari decision tree tersebut maka root node pada pink menunjukkan cabang sebelah kiri untuk False dengan harga 15000-20000, dimana yang true dengan harga tersebut adalah kode pelanggan dengan A05 sebanyak 4 dan false dengan kode pelanggan A01 sebanyak 6.Sedangkan disebelah kanan menunjukkan True dengan warna node selanjutnya putih dimana disebelah kiri dengan node warna merah yang disebelah kiri menunjukkan True untuk kode pelanggan A04 sebanyak 2, dan sebelah kanan menunjukkan False dengan kode pelanggan A03 sebanyak 3. Artinya bahwa pelanggan lebih menyukai warna pink kemudian diikuti warna putih selanjutnya diikuti dengan warna merah dimana tidak dengan harga 15000-20000 per pakaian.