DM - WEKA
-
Upload
saepul-millah -
Category
Documents
-
view
224 -
download
0
Transcript of DM - WEKA
7/21/2019 DM - WEKA
http://slidepdf.com/reader/full/dm-weka 1/7
Data Mining
Teknik Informatika - UNSIL
Data Mining:Introduction to WEKA
Acep Irham [email protected]+6285235555536
Pendahuluan
1. Weka adalah Waikato Environment for KnowledgeAnalysis
2. Weka adalah aplikasi data mining open sourceberbasis Java.
3. Aplikasi ini dikembangkan pertama kali olehUniversitas Waikato di Selandia Baru.
4. Weka terdiri dari koleksi algoritma machine learningyang dapat digunakan untuk melakukan generalisasi /formulasi dari sekumpulan data sampling.
WEKA
Antarmuka WEKA
GUI Explorer
GUI Explorer adalah GUI WEKA yang paling mudah
digunakan dan menyediakan semua fitur WEKA
dalam bentuk tombol dan tampilan visualisasiyang menarik dan lengkap. Preprocess, klasifikasi,
asosiasi, clustering, pemilihan atribut, dan
visualisasi dapat dilakukan pada fitur Visualize
7/21/2019 DM - WEKA
http://slidepdf.com/reader/full/dm-weka 2/7
Data Mining
Teknik Informatika - UNSIL
GUI Explorer
Antarmuka Weka GUI Explorer
Format Data
Menggunakan format data ARFF (Attribute-RelationFile Format)
ARFF menyimpan data yang dibangun secara flat ,karena Weka perlu mengetahui data setiap atributyang tidak disertakan secara otomatis dari nilai-nilainya
File ARFF adalah sebuah file teks ASCII yang berisidaftar instances dalam sekumpulan atribut
File ARFF dikembangkan oleh Machine LearningProject di Department of Computer Science of TheUniversity of Waikato untuk digunakan dalamperangkat lunak WEKA.
Konversi File ARFF
Pastikan bahwa data dalam format .arff tersebutsudah memenuhi:
1. Data dipisahkan dengan koma, dengan kelassebagai atribut terakhir.
2. Bagian header diawali dengan @RELATION.
3. Tiap atribut ditandai dengan @ATTRIBUTE.Tipe-tipe data dalam WEKA: numerik(REALatau INTEGER), nominal, String, dan Date.
4. Bagian data diawali dengan @DATA
Konversi File ARFF
Data tentangpermainan tenis
7/21/2019 DM - WEKA
http://slidepdf.com/reader/full/dm-weka 3/7
Data Mining
Teknik Informatika - UNSIL
Konversi File ARFF
Data tentang
permainan tenisdalam formatARFF
File ARFF
Nama relasi
Atribut dalam relasidan tipe-tipenya
Data-data padarelasi
Tab Preprocess
Tab Preprocess adalah tahapan preprocess pada
Weka, untuk setiap format ARFF yang telah di-
load.
Ditampilkan data statistik setiap atribut yang
ada, disertai tampilan visualisasinya.
Tab Preprocess hanya bias me-load file ARFF
yang sesuai (kesalahan konversi format ARFF
harus dihindari)
Tab Preprocess
Contohdisampingadalah tabpreprocess
untuk fileiris.arff
Iris.aff berisi 150instances, 5atribut, yaitu;spallength,spallwidth,petallength,petallwidth danclass.
7/21/2019 DM - WEKA
http://slidepdf.com/reader/full/dm-weka 4/7
Data Mining
Teknik Informatika - UNSIL
Tab Preprocess
Dengan memilih
atribut
sepallength,maka
keterangan yang
muncul adalah:
• Nilai minimum = 4.3
• Nilaimaksimum= 7.9
• Mean = 5.843
• Standar deviasi =
0.828
Tab Classify
Classifiers dalam WEKA adalah model-modelalgoritma yang digunakan dalam tahapanklasifikasi.
Algoritma pembelajaran yang diimplementasikanantara lain decision trees dan lists, instance-based classifiers, support vector machines, multi-layers perceptrons, logistic regression. Etc.
Tab ini memungkinkan user mengkonfigurasi danmengeksekusi tiap classifier WEKA pada himpunandata tertentu. User dapat memilih classifier tertentu yang akan digunakan.
Tab Classify
Contoh diatas adalah tab classifydengan algoritmaZeroR
Tab Cluster
Tab ini serupa dengan classification, dengan sedikitperbedaan menurut option yang ditentukan user.Misalnya, user dapat dengan mudah mengabaikan
beberapa atribut yang tidak diinginkan.
Dari tab ini user dapat mengkonfigurasi danmengeksekusi tiap clusterers WEKA pada himpunandata tertentu untuk menemukan kelompok-kelompok dari instances yang sama dalam sebuahhimpunan data. Skema-skema yang dapatdiimplementasikan antara lain: k -Means, EM,Cobweb, X -means, FarthestFirst. Clusters dapatdivisualisasikan dalam sebuah tool visualisasi data.
7/21/2019 DM - WEKA
http://slidepdf.com/reader/full/dm-weka 5/7
Data Mining
Teknik Informatika - UNSIL
Tab Cluster
Kotak cluster mode digunakan untuk memilih
apa yang akan di-cluster dan bagaimanamelakukan evaluasi terhadap hasilnya. Tiga pilihpertama serupa dengan yang terdapat padaklasifikasi: Use training set, Supplied test set danPercentage split – kecuali bahwa sekarang dataakan diolah dengan clustering. Mode keempat,Classes to clusters evaluation, membandingkanseberapa baik clusters yang terpilih sesuaidengan class yang telah ditentukansebelumnya.
Tab Cluster
Contohdiatas adalahtab cluster perhitunganiris.arff denganmengabaikan cluster “class”
Tab Associate
WEKA hanya mengimplementasikan sebuahalgoritma untuk asosiasi, yaitu algoritma Apriori,untuk mempelajari aturan-aturan asosiasi. Asosiasi
ini hanya bekerja dengan data diskrit untukmenentukan ketergantungan antara himpunanatribut. Apriori dapat menghitung seluluh aturanyang memenuhi nilai minimum support danconfidence.
Dari tab ini user dapat mempelajari himpunan datatertentu untuk menghasilkan aturan-aturanasosiasi menggunakan associators WEKA. Setelahparameter-parameter tertentu diset, klik tombolStart. Saat proses selesai dilakukan, klik kanan padasebuah entry pada daftar hasil memungkinkanhasilnya dilihat atau disimpan.
Tab Associate
Contoh diatas adalah tab associatedengan associator FilteredAssociator
7/21/2019 DM - WEKA
http://slidepdf.com/reader/full/dm-weka 6/7
Data Mining
Teknik Informatika - UNSIL
Tab Select Attribute
WEKA juga menyediakan teknik-teknik untukmengabaikan atribut-atribut yang tidak relevan dan/atau
mengurangi dimensionalitas dari dataset. Setelah loading sebuah dataset, klik tab ini untuk
memilih metode evaluasi (misalnya, Principal Components Analysis, correlation-based , wrapper ,information gain, chi-squared ,) dan metode pencarian(misalnya, greedy, exhaustive, best-first, forward selection, random, genetic algorithm, atau ranking).Berdasarkan kombinasi yang dipilih, waktu aktual yangdiperlukan untuk pemilihan atribut dapat bervariasi atausangat lama, bahkan untuk dataset kecil dengan sedikitatribut dan sedikit instances. Ingat bahwa tidak semuakombinasi metode evaluasi/pencarian valid, lihat pesanerror di Status bar.
Tab Select Attribute
Contohdiatas adalahtab Select Attributedenganmetode evaluasi BestFirst
Tab Visualize
Tab ini menampilkan matriks plot 2 dimensi untukhimpunan data tertentu. Ukuran sel-sel individu dan titik-titik yang ditampilkan dapat dipilih dengan slider di bagian
bawah tab. Jumlah sel dalam matriks dapat diubah dengan‘Select Attribute’ lalu memilih atribut tertentu untukditampilkan.
Tab ini juga dapat menampilkan window terpisah dari tabclassifier dan tab cluster yang memungkinkan user memvisualisasikan prediksi yang dibuat oleh classifiers/ clusterers.
Titik-titik data diplot pada area utama pada window . Dibagian atas terdapat 2 tombol daftar drop-down untukpemilihan sumbu x dan y yang diplot. User juga dapatmemilih skema warna yang digunakan, berdasarkan atributyang dipilih.
Tab Visualize
Contohdiatasadalahtab Visualize, yang menampilkanvisualisasiuntukmasing-masingatribut
7/21/2019 DM - WEKA
http://slidepdf.com/reader/full/dm-weka 7/7
acep@unsil ac id
Data Mining
Teknik Informatika - UNSIL
Ada pertanyaan?