DM - WEKA

7
[email protected] Data Mining Teknik Informatika - UNSIL Data Mining: Introduction to WEKA Acep I rham Gufroni [email protected] +6285235555536 Pendahuluan 1. Weka adalah Waikato Environment for Knowledge Analysis 2. Weka adal ah aplik asi data minin g open sou rce berb asis Java. 3. Aplika si inidikemb ang kan pertama kali oleh Universita s Waik ato di Selan dia Baru. 4. Weka terdiri dari kolek si algoritmamachine learn ing yang dapat dig unakan untuk melakukangen era lisasi / formulasi dari sekumpula n data samp ling. WEKA Antar muka WEKA GUI Explorer GUI Explorer adalah GUI WEKA yang paling mudah digunakan dan menyediakan semua fitur WEKA dalam bentuk tombol dan tampilan visualisasi yang menarik dan lengkap. Preprocess, klasifikasi, asosiasi, clustering, pemilihan atribut, dan visua lisas i dapat d ilakukan pada fitur  Visualize

Transcript of DM - WEKA

Page 1: DM - WEKA

7/21/2019 DM - WEKA

http://slidepdf.com/reader/full/dm-weka 1/7

[email protected]

Data Mining

Teknik Informatika - UNSIL

Data Mining:Introduction to WEKA

Acep Irham [email protected]+6285235555536

Pendahuluan

1. Weka adalah Waikato Environment for KnowledgeAnalysis

2. Weka adalah aplikasi data mining open sourceberbasis Java.

3. Aplikasi ini dikembangkan pertama kali olehUniversitas Waikato di Selandia Baru.

4. Weka terdiri dari koleksi algoritma machine learningyang dapat digunakan untuk melakukan generalisasi /formulasi dari sekumpulan data sampling.

WEKA

Antarmuka WEKA

GUI Explorer

GUI Explorer adalah GUI WEKA yang paling mudah

digunakan dan menyediakan semua fitur WEKA

dalam bentuk tombol dan tampilan visualisasiyang menarik dan lengkap. Preprocess, klasifikasi,

asosiasi, clustering, pemilihan atribut, dan

visualisasi dapat dilakukan pada fitur Visualize

Page 2: DM - WEKA

7/21/2019 DM - WEKA

http://slidepdf.com/reader/full/dm-weka 2/7

[email protected]

Data Mining

Teknik Informatika - UNSIL

GUI Explorer

Antarmuka Weka GUI Explorer 

Format Data

Menggunakan format data ARFF (Attribute-RelationFile Format)

ARFF menyimpan data yang dibangun secara flat ,karena Weka perlu mengetahui data setiap atributyang tidak disertakan secara otomatis dari nilai-nilainya

File ARFF adalah sebuah file teks ASCII yang berisidaftar instances dalam sekumpulan atribut

File ARFF dikembangkan oleh Machine LearningProject di Department of Computer Science of TheUniversity of Waikato untuk digunakan dalamperangkat lunak WEKA.

Konversi File ARFF

Pastikan bahwa data dalam format .arff tersebutsudah memenuhi:

1. Data dipisahkan dengan koma, dengan kelassebagai atribut terakhir.

2. Bagian header diawali dengan @RELATION.

3. Tiap atribut ditandai dengan @ATTRIBUTE.Tipe-tipe data dalam WEKA: numerik(REALatau INTEGER), nominal, String, dan Date.

4. Bagian data diawali dengan @DATA

Konversi File ARFF

Data tentangpermainan tenis

Page 3: DM - WEKA

7/21/2019 DM - WEKA

http://slidepdf.com/reader/full/dm-weka 3/7

[email protected]

Data Mining

Teknik Informatika - UNSIL

Konversi File ARFF

Data tentang

permainan tenisdalam formatARFF

File ARFF

Nama relasi

Atribut dalam relasidan tipe-tipenya

Data-data padarelasi

Tab Preprocess

Tab Preprocess adalah tahapan preprocess pada

Weka, untuk setiap format ARFF yang telah di-

load.

Ditampilkan data statistik setiap atribut yang

ada, disertai tampilan visualisasinya.

Tab Preprocess hanya bias me-load file ARFF

yang sesuai (kesalahan konversi format ARFF

harus dihindari)

Tab Preprocess

Contohdisampingadalah tabpreprocess

untuk fileiris.arff 

Iris.aff berisi 150instances, 5atribut, yaitu;spallength,spallwidth,petallength,petallwidth danclass.

Page 4: DM - WEKA

7/21/2019 DM - WEKA

http://slidepdf.com/reader/full/dm-weka 4/7

[email protected]

Data Mining

Teknik Informatika - UNSIL

Tab Preprocess

Dengan memilih

atribut

sepallength,maka

keterangan yang

muncul adalah:

• Nilai minimum = 4.3

• Nilaimaksimum= 7.9

• Mean = 5.843

• Standar deviasi =

0.828

Tab Classify 

 Classifiers dalam WEKA adalah model-modelalgoritma yang digunakan dalam tahapanklasifikasi.

Algoritma pembelajaran yang diimplementasikanantara lain decision trees dan lists,  instance-based classifiers, support vector machines, multi-layers perceptrons, logistic regression. Etc.

Tab ini memungkinkan user mengkonfigurasi danmengeksekusi tiap classifier WEKA pada himpunandata tertentu. User  dapat memilih classifier tertentu yang akan digunakan.

Tab Classify

Contoh diatas adalah tab classifydengan algoritmaZeroR

Tab Cluster 

Tab ini serupa dengan classification, dengan sedikitperbedaan menurut option yang ditentukan user.Misalnya, user dapat dengan mudah mengabaikan

beberapa atribut yang tidak diinginkan.

Dari tab ini user dapat mengkonfigurasi danmengeksekusi tiap clusterers WEKA pada himpunandata tertentu untuk menemukan kelompok-kelompok dari instances yang sama dalam sebuahhimpunan data. Skema-skema yang dapatdiimplementasikan antara lain: k -Means, EM,Cobweb, X -means, FarthestFirst. Clusters dapatdivisualisasikan dalam sebuah tool visualisasi data.

Page 5: DM - WEKA

7/21/2019 DM - WEKA

http://slidepdf.com/reader/full/dm-weka 5/7

[email protected]

Data Mining

Teknik Informatika - UNSIL

Tab Cluster 

Kotak cluster mode digunakan untuk memilih

apa yang akan di-cluster dan bagaimanamelakukan evaluasi terhadap hasilnya. Tiga pilihpertama serupa dengan yang terdapat padaklasifikasi: Use training set, Supplied test set danPercentage split  – kecuali bahwa sekarang dataakan diolah dengan clustering. Mode keempat,Classes to clusters evaluation, membandingkanseberapa baik clusters yang terpilih sesuaidengan class yang telah ditentukansebelumnya.

Tab Cluster

Contohdiatas adalahtab cluster perhitunganiris.arff denganmengabaikan cluster “class”

Tab Associate

WEKA hanya mengimplementasikan sebuahalgoritma untuk asosiasi, yaitu algoritma Apriori,untuk mempelajari aturan-aturan asosiasi. Asosiasi

ini hanya bekerja dengan data diskrit untukmenentukan ketergantungan antara himpunanatribut. Apriori dapat menghitung seluluh aturanyang memenuhi nilai minimum support danconfidence.

Dari tab ini user dapat mempelajari himpunan datatertentu untuk menghasilkan aturan-aturanasosiasi menggunakan associators WEKA. Setelahparameter-parameter tertentu diset, klik tombolStart. Saat proses selesai dilakukan, klik kanan padasebuah entry pada daftar hasil memungkinkanhasilnya dilihat atau disimpan.

Tab Associate

Contoh diatas adalah tab associatedengan associator FilteredAssociator 

Page 6: DM - WEKA

7/21/2019 DM - WEKA

http://slidepdf.com/reader/full/dm-weka 6/7

[email protected]

Data Mining

Teknik Informatika - UNSIL

Tab Select Attribute

WEKA juga menyediakan teknik-teknik untukmengabaikan atribut-atribut yang tidak relevan dan/atau

mengurangi dimensionalitas dari dataset. Setelah loading sebuah dataset, klik tab ini untuk

memilih metode evaluasi (misalnya, Principal Components Analysis, correlation-based , wrapper ,information gain, chi-squared ,) dan metode pencarian(misalnya, greedy, exhaustive, best-first, forward selection, random, genetic algorithm, atau ranking).Berdasarkan kombinasi yang dipilih, waktu aktual yangdiperlukan untuk pemilihan atribut dapat bervariasi atausangat lama, bahkan untuk dataset kecil dengan sedikitatribut dan sedikit instances. Ingat bahwa tidak semuakombinasi metode evaluasi/pencarian valid, lihat pesanerror di Status bar.

Tab Select Attribute

Contohdiatas adalahtab Select Attributedenganmetode evaluasi BestFirst 

Tab Visualize

Tab ini menampilkan matriks plot 2 dimensi untukhimpunan data tertentu. Ukuran sel-sel individu dan titik-titik yang ditampilkan dapat dipilih dengan slider di bagian

bawah tab. Jumlah sel dalam matriks dapat diubah dengan‘Select Attribute’ lalu memilih atribut tertentu untukditampilkan.

Tab ini juga dapat menampilkan window terpisah dari tabclassifier dan tab cluster yang memungkinkan user memvisualisasikan prediksi yang dibuat oleh classifiers/ clusterers.

Titik-titik data diplot pada area utama pada window . Dibagian atas terdapat 2 tombol daftar drop-down untukpemilihan sumbu x dan y yang diplot. User  juga dapatmemilih skema warna yang digunakan, berdasarkan atributyang dipilih.

Tab Visualize

Contohdiatasadalahtab Visualize, yang menampilkanvisualisasiuntukmasing-masingatribut

Page 7: DM - WEKA

7/21/2019 DM - WEKA

http://slidepdf.com/reader/full/dm-weka 7/7

acep@unsil ac id

Data Mining

Teknik Informatika - UNSIL

Ada pertanyaan?