Data Mining: 2. Proses Data Mining -...

179
Data Mining: 2. Proses Data Mining 2. Proses Data Mining ABM ABM 1

Transcript of Data Mining: 2. Proses Data Mining -...

Page 1: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Data Mining:2. Proses Data Mining

Data Mining:2. Proses Data Mining

ABMABM

1

Page 2: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

2. Proses Data Mining

1. Pengantar Data Mining

Course Outline

6. Algoritma Asosiasi

5. Algoritma Klastering

4. Algoritma Klasifikasi

3. Persiapan Data

8. Text Mining

7. Algoritma Estimasi dan Forecasting

6. Algoritma Asosiasi

2

Page 3: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Sebutkan 5 peran utama data mining!2. Jelaskan perbedaan estimasi dan prediksi!3. Jelaskan perbedaan prediksi dan klasifikasi!4. Jelaskan perbedaan klasifikasi dan klastering!5. Jelaskan perbedaan klastering dan association!6. Jelaskan perbedaan estimasi dan klasifikasi!7. Jelaskan perbedaan estimasi dan klastering!8. Jelaskan perbedaan supervised dan unsupervised

learning!9. Sebutkan tahapan utama proses data mining!

Recap: Latihan

1. Sebutkan 5 peran utama data mining!2. Jelaskan perbedaan estimasi dan prediksi!3. Jelaskan perbedaan prediksi dan klasifikasi!4. Jelaskan perbedaan klasifikasi dan klastering!5. Jelaskan perbedaan klastering dan association!6. Jelaskan perbedaan estimasi dan klasifikasi!7. Jelaskan perbedaan estimasi dan klastering!8. Jelaskan perbedaan supervised dan unsupervised

learning!9. Sebutkan tahapan utama proses data mining!

1. Sebutkan 5 peran utama data mining!2. Jelaskan perbedaan estimasi dan prediksi!3. Jelaskan perbedaan prediksi dan klasifikasi!4. Jelaskan perbedaan klasifikasi dan klastering!5. Jelaskan perbedaan klastering dan association!6. Jelaskan perbedaan estimasi dan klasifikasi!7. Jelaskan perbedaan estimasi dan klastering!8. Jelaskan perbedaan supervised dan unsupervised

learning!9. Sebutkan tahapan utama proses data mining!

3

Page 4: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Recap: Peran Utama Data Mining

1. Estimasi

2. Forecasting5. Asosiasi

4

3. Klasifikasi4. Klastering

Page 5: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

2. Proses Data Mining2.1 Proses Data Mining2.2 Tool Aplikasi Data Mining2.3 Penerapan Proses Data Mining (Dataset – Model)2.4 Evaluasi dan Validasi terhadap Model yang Terbentuk2.5 Proses Standard pada Data Mining (CRISP-DM)

2.1 Proses Data Mining2.2 Tool Aplikasi Data Mining2.3 Penerapan Proses Data Mining (Dataset – Model)2.4 Evaluasi dan Validasi terhadap Model yang Terbentuk2.5 Proses Standard pada Data Mining (CRISP-DM)

5

Page 6: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

2.1 Proses Data Mining

6

Page 7: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Proses Data Mining

1. HimpunanData

(Pemahaman danPengolahan Data)

2. MetodeData Mining

(Pilih MetodeSesuai Karakter Data)

3. Pengetahuan

(Pola/Model/Rumus/Tree/Rule/Cluster)

4. Evaluation

(Akurasi, AUC,RMSE, Lift Ratio,…)

7

DATA PRE-PROCESSINGData Cleaning

Data IntegrationData Reduction

Data Transformation

EstimationPrediction

ClassificationClustering

Association

Page 8: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Atribut adalah faktor atau parameter yang menyebabkanclass/label/target terjadi

• Jenis dataset ada dua: Private dan Public• Private Dataset: data set dapat diambil dari organisasi

yang kita jadikan obyek penelitian• Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc

• Public Dataset: data set dapat diambil dari repositoripubik yang disepakati oleh para peneliti data mining

• UCI Repository (http://www.ics.uci.edu/~mlearn/MLRepository.html)• ACM KDD Cup (http://www.sigkdd.org/kddcup/)• PredictionIO (http://docs.prediction.io/datacollection/sample/)

• Trend penelitian data mining saat ini adalah mengujimetode yang dikembangkan oleh peneliti dengan publicdataset, sehingga penelitian dapat bersifat: comparable,repeatable dan verifiable

1. Himpunan Data (Dataset)• Atribut adalah faktor atau parameter yang menyebabkan

class/label/target terjadi• Jenis dataset ada dua: Private dan Public• Private Dataset: data set dapat diambil dari organisasi

yang kita jadikan obyek penelitian• Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc

• Public Dataset: data set dapat diambil dari repositoripubik yang disepakati oleh para peneliti data mining

• UCI Repository (http://www.ics.uci.edu/~mlearn/MLRepository.html)• ACM KDD Cup (http://www.sigkdd.org/kddcup/)• PredictionIO (http://docs.prediction.io/datacollection/sample/)

• Trend penelitian data mining saat ini adalah mengujimetode yang dikembangkan oleh peneliti dengan publicdataset, sehingga penelitian dapat bersifat: comparable,repeatable dan verifiable

• Atribut adalah faktor atau parameter yang menyebabkanclass/label/target terjadi

• Jenis dataset ada dua: Private dan Public• Private Dataset: data set dapat diambil dari organisasi

yang kita jadikan obyek penelitian• Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc

• Public Dataset: data set dapat diambil dari repositoripubik yang disepakati oleh para peneliti data mining

• UCI Repository (http://www.ics.uci.edu/~mlearn/MLRepository.html)• ACM KDD Cup (http://www.sigkdd.org/kddcup/)• PredictionIO (http://docs.prediction.io/datacollection/sample/)

• Trend penelitian data mining saat ini adalah mengujimetode yang dikembangkan oleh peneliti dengan publicdataset, sehingga penelitian dapat bersifat: comparable,repeatable dan verifiable

8

Page 9: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Dataset (Himpunan Data)

Class/Label/TargetAttribute/Feature/Dimension

Record/Object/Sample/Tuple

Record/Object/Sample/Tuple

9

Nominal

Numerik

Page 10: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Estimation (Estimasi):• Linear Regression, Neural Network, Support Vector Machine, etc

2. Prediction/Forecasting (Prediksi/Peramalan):• Linear Regression, Neural Network, Support Vector Machine, etc

3. Classification (Klasifikasi):• Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant

Analysis, Logistic Regression, etc

4. Clustering (Klastering):• K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc

5. Association (Asosiasi):• FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc

2. Metode Data Mining (DM)

1. Estimation (Estimasi):• Linear Regression, Neural Network, Support Vector Machine, etc

2. Prediction/Forecasting (Prediksi/Peramalan):• Linear Regression, Neural Network, Support Vector Machine, etc

3. Classification (Klasifikasi):• Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant

Analysis, Logistic Regression, etc

4. Clustering (Klastering):• K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc

5. Association (Asosiasi):• FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc

1. Estimation (Estimasi):• Linear Regression, Neural Network, Support Vector Machine, etc

2. Prediction/Forecasting (Prediksi/Peramalan):• Linear Regression, Neural Network, Support Vector Machine, etc

3. Classification (Klasifikasi):• Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant

Analysis, Logistic Regression, etc

4. Clustering (Klastering):• K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc

5. Association (Asosiasi):• FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc

10

Page 11: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Formula/Function (Rumus atau Fungsi Regresi)• WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN

2. Decision Tree (Pohon Keputusan)

3. Tingkat Korelasi

4. Rule (Aturan)• IF ips3=2.8 THEN lulustepatwaktu

5. Cluster (Klaster)

3. Pengetahuan (Pola/Model)

1. Formula/Function (Rumus atau Fungsi Regresi)• WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN

2. Decision Tree (Pohon Keputusan)

3. Tingkat Korelasi

4. Rule (Aturan)• IF ips3=2.8 THEN lulustepatwaktu

5. Cluster (Klaster)

1. Formula/Function (Rumus atau Fungsi Regresi)• WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN

2. Decision Tree (Pohon Keputusan)

3. Tingkat Korelasi

4. Rule (Aturan)• IF ips3=2.8 THEN lulustepatwaktu

5. Cluster (Klaster)

11

Page 12: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Estimation:• Error: Root Mean Square Error (RMSE), MSE, MAPE, etc

2. Prediction/Forecasting (Prediksi/Peramalan):• Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc

3. Classification:• Confusion Matrix: Accuracy• ROC Curve: Area Under Curve (AUC)

4. Clustering:• Internal Evaluation: Davies–Bouldin index, Dunn index,• External Evaluation: Rand measure, F-measure, Jaccard index,

Fowlkes–Mallows index, Confusion matrix

5. Association:• Lift Charts: Lift Ratio• Precision and Recall (F-measure)

4. Evaluasi (Akurasi, Error, etc)

1. Estimation:• Error: Root Mean Square Error (RMSE), MSE, MAPE, etc

2. Prediction/Forecasting (Prediksi/Peramalan):• Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc

3. Classification:• Confusion Matrix: Accuracy• ROC Curve: Area Under Curve (AUC)

4. Clustering:• Internal Evaluation: Davies–Bouldin index, Dunn index,• External Evaluation: Rand measure, F-measure, Jaccard index,

Fowlkes–Mallows index, Confusion matrix

5. Association:• Lift Charts: Lift Ratio• Precision and Recall (F-measure)

1. Estimation:• Error: Root Mean Square Error (RMSE), MSE, MAPE, etc

2. Prediction/Forecasting (Prediksi/Peramalan):• Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc

3. Classification:• Confusion Matrix: Accuracy• ROC Curve: Area Under Curve (AUC)

4. Clustering:• Internal Evaluation: Davies–Bouldin index, Dunn index,• External Evaluation: Rand measure, F-measure, Jaccard index,

Fowlkes–Mallows index, Confusion matrix

5. Association:• Lift Charts: Lift Ratio• Precision and Recall (F-measure)

12

Page 13: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. 0.90 - 1.00 = excellent classification2. 0.80 - 0.90 = good classification3. 0.70 - 0.80 = fair classification4. 0.60 - 0.70 = poor classification5. 0.50 - 0.60 = failure

(Gorunescu, 2011)

Guide for Classifying the AUC

1. 0.90 - 1.00 = excellent classification2. 0.80 - 0.90 = good classification3. 0.70 - 0.80 = fair classification4. 0.60 - 0.70 = poor classification5. 0.50 - 0.60 = failure

(Gorunescu, 2011)

1. 0.90 - 1.00 = excellent classification2. 0.80 - 0.90 = good classification3. 0.70 - 0.80 = fair classification4. 0.60 - 0.70 = poor classification5. 0.50 - 0.60 = failure

(Gorunescu, 2011)

13

Page 14: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Akurasi• Ukuran dari seberapa baik model mengkorelasikan antara hasil

dengan atribut dalam data yang telah disediakan• Terdapat berbagai model akurasi, tetapi semua model akurasi

tergantung pada data yang digunakan2. Kehandalan

• Ukuran di mana model data mining diterapkan pada datasetyang berbeda

• Model data mining dapat diandalkan jika menghasilkan polaumum yang sama terlepas dari data testing yang disediakan

3. Kegunaan• Mencakup berbagai metrik yang mengukur apakah model

tersebut memberikan informasi yang berguna

Kriteria Evaluasi dan Validasi Model1. Akurasi

• Ukuran dari seberapa baik model mengkorelasikan antara hasildengan atribut dalam data yang telah disediakan

• Terdapat berbagai model akurasi, tetapi semua model akurasitergantung pada data yang digunakan

2. Kehandalan• Ukuran di mana model data mining diterapkan pada dataset

yang berbeda• Model data mining dapat diandalkan jika menghasilkan pola

umum yang sama terlepas dari data testing yang disediakan3. Kegunaan

• Mencakup berbagai metrik yang mengukur apakah modeltersebut memberikan informasi yang berguna

1. Akurasi• Ukuran dari seberapa baik model mengkorelasikan antara hasil

dengan atribut dalam data yang telah disediakan• Terdapat berbagai model akurasi, tetapi semua model akurasi

tergantung pada data yang digunakan2. Kehandalan

• Ukuran di mana model data mining diterapkan pada datasetyang berbeda

• Model data mining dapat diandalkan jika menghasilkan polaumum yang sama terlepas dari data testing yang disediakan

3. Kegunaan• Mencakup berbagai metrik yang mengukur apakah model

tersebut memberikan informasi yang berguna

14

Keseimbangan diantaranya ketiganya diperlukan karena belum tentu modelyang akurat adalah handal, dan yang handal atau akurat belum tentu berguna

Page 15: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

2.2 Tool Aplikasi Data Mining

15

Page 16: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Magic Quadrant for AdvancedAnalytics Platform (Gartner, 2015)

16

Page 17: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Magic Quadrant for AdvancedAnalytics Platform (Gartner, 2016)

17

Page 18: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Big Data Analytics Solution 2015 (The Forrester Wave)

18

Page 19: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Pengembangan dimulai pada 2001 olehRalf Klinkenberg, Ingo Mierswa, dan SimonFischer di Artificial Intelligence Unit dariUniversity of Dortmund, ditulis dalambahasa Java

• Open source berlisensi AGPL (GNU AfferoGeneral Public License) versi 3

• Meraih penghargaan sebagai softwaredata mining dan data analytics terbaik diberbagai lembaga kajian, termasuk IDC,Gartner, KDnuggets, dsb

Sejarah Rapidminer

• Pengembangan dimulai pada 2001 olehRalf Klinkenberg, Ingo Mierswa, dan SimonFischer di Artificial Intelligence Unit dariUniversity of Dortmund, ditulis dalambahasa Java

• Open source berlisensi AGPL (GNU AfferoGeneral Public License) versi 3

• Meraih penghargaan sebagai softwaredata mining dan data analytics terbaik diberbagai lembaga kajian, termasuk IDC,Gartner, KDnuggets, dsb

• Pengembangan dimulai pada 2001 olehRalf Klinkenberg, Ingo Mierswa, dan SimonFischer di Artificial Intelligence Unit dariUniversity of Dortmund, ditulis dalambahasa Java

• Open source berlisensi AGPL (GNU AfferoGeneral Public License) versi 3

• Meraih penghargaan sebagai softwaredata mining dan data analytics terbaik diberbagai lembaga kajian, termasuk IDC,Gartner, KDnuggets, dsb

19

Page 20: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Menyediakan prosedur data mining danmachine learning termasuk: ETL (extraction,transformation, loading), data preprocessing,visualisasi, modelling dan evaluasi

• Proses data mining tersusun atas operator-operator yang nestable, dideskripsikandengan XML, dan dibuat dengan GUI

• Mengintegrasikan proyek data mining Wekadan statistika R

Fitur Rapidminer

• Menyediakan prosedur data mining danmachine learning termasuk: ETL (extraction,transformation, loading), data preprocessing,visualisasi, modelling dan evaluasi

• Proses data mining tersusun atas operator-operator yang nestable, dideskripsikandengan XML, dan dibuat dengan GUI

• Mengintegrasikan proyek data mining Wekadan statistika R

• Menyediakan prosedur data mining danmachine learning termasuk: ETL (extraction,transformation, loading), data preprocessing,visualisasi, modelling dan evaluasi

• Proses data mining tersusun atas operator-operator yang nestable, dideskripsikandengan XML, dan dibuat dengan GUI

• Mengintegrasikan proyek data mining Wekadan statistika R

20

Page 21: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Atribut: karakteristik atau fitur daridata yang menggambarkan sebuahproses atau situasi• ID, atribut biasa

2. Atribut target: atribut yang menjaditujuan untuk diisi oleh proses datamining• Label, cluster, weight

Atribut Pada Rapidminer

1. Atribut: karakteristik atau fitur daridata yang menggambarkan sebuahproses atau situasi• ID, atribut biasa

2. Atribut target: atribut yang menjaditujuan untuk diisi oleh proses datamining• Label, cluster, weight

1. Atribut: karakteristik atau fitur daridata yang menggambarkan sebuahproses atau situasi• ID, atribut biasa

2. Atribut target: atribut yang menjaditujuan untuk diisi oleh proses datamining• Label, cluster, weight

21

Page 22: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. nominal: nilai secara kategori2. binominal: nominal dua nilai3. polynominal: nominal lebih dari dua nilai4. numeric: nilai numerik secara umum5. integer: bilangan bulat6. real: bilangan nyata7. text: teks bebas tanpa struktur8. date_time: tanggal dan waktu9. date: hanya tanggal10. time: hanya waktu

Tipe Nilai Atribut pada Rapidminer

1. nominal: nilai secara kategori2. binominal: nominal dua nilai3. polynominal: nominal lebih dari dua nilai4. numeric: nilai numerik secara umum5. integer: bilangan bulat6. real: bilangan nyata7. text: teks bebas tanpa struktur8. date_time: tanggal dan waktu9. date: hanya tanggal10. time: hanya waktu

1. nominal: nilai secara kategori2. binominal: nominal dua nilai3. polynominal: nominal lebih dari dua nilai4. numeric: nilai numerik secara umum5. integer: bilangan bulat6. real: bilangan nyata7. text: teks bebas tanpa struktur8. date_time: tanggal dan waktu9. date: hanya tanggal10. time: hanya waktu

22

Page 23: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Data menyebutkan obyek-obyek dari sebuahkonsep

• Ditunjukkan sebagai baris dari tabel• Metadata menggambarkan karakteristik dari

konsep tersebut• Ditunjukkan sebagai kolom dari tabel

• Dukungan Format data• Oracle, IBM DB2, Microsoft SQL Server, MySQL,

PostgreSQL, Ingres, Excel, Access, SPSS, CSV filesdan berbagai format lain

Data dan Format Data

• Data menyebutkan obyek-obyek dari sebuahkonsep

• Ditunjukkan sebagai baris dari tabel• Metadata menggambarkan karakteristik dari

konsep tersebut• Ditunjukkan sebagai kolom dari tabel

• Dukungan Format data• Oracle, IBM DB2, Microsoft SQL Server, MySQL,

PostgreSQL, Ingres, Excel, Access, SPSS, CSV filesdan berbagai format lain

• Data menyebutkan obyek-obyek dari sebuahkonsep

• Ditunjukkan sebagai baris dari tabel• Metadata menggambarkan karakteristik dari

konsep tersebut• Ditunjukkan sebagai kolom dari tabel

• Dukungan Format data• Oracle, IBM DB2, Microsoft SQL Server, MySQL,

PostgreSQL, Ingres, Excel, Access, SPSS, CSV filesdan berbagai format lain

23

Page 24: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Menjalankan RapidMiner untuk pertama kali, akanmenanyakan pembuatan repositori baru

• Repositori ini berfungsi sebagai lokasi penyimpananterpusat untuk data dan proses analisa kita

Repositori

• Menjalankan RapidMiner untuk pertama kali, akanmenanyakan pembuatan repositori baru

• Repositori ini berfungsi sebagai lokasi penyimpananterpusat untuk data dan proses analisa kita

24

Page 25: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Perspektif dan View

1. Perspektif Selamat Datang(Welcome perspective)

2. Perspektif Desain(Design perspective)

3. Perspektif Hasil(Result perspective)

1. Perspektif Selamat Datang(Welcome perspective)

2. Perspektif Desain(Design perspective)

3. Perspektif Hasil(Result perspective)

25

1. Perspektif Selamat Datang(Welcome perspective)

2. Perspektif Desain(Design perspective)

3. Perspektif Hasil(Result perspective)

Page 26: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Perspektif pusat di manasemua proses analisadibuat dan dimanage

• Pindah ke PerspektifDesain dengan:

• Klik tombol paling kiri• Atau gunakan menu

View → Perspectives → Design

Perspektif Desain

• Perspektif pusat di manasemua proses analisadibuat dan dimanage

• Pindah ke PerspektifDesain dengan:

• Klik tombol paling kiri• Atau gunakan menu

View → Perspectives → Design

• Perspektif pusat di manasemua proses analisadibuat dan dimanage

• Pindah ke PerspektifDesain dengan:

• Klik tombol paling kiri• Atau gunakan menu

View → Perspectives → Design

26

Page 27: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Process ControlUntuk mengontrol aliran proses, seperti loop atauconditional branch

• UtilityUntuk mengelompokkan subprocess, juga macrodan logger

• Repository AccessUntuk membaca dan menulis repositori

• ImportUntuk membaca data dari berbagai formateksternal

• ExportUntuk menulis data ke berbagai format eksternal

• Data TransformationUntuk transformasi data dan metadata

• ModellingUntuk proses data mining yang sesungguhnyaseperti klasifikasi, regresi, clustering, aturanasosiasi dll

• EvaluationUntuk menghitung kualitas dan perfomansi darimodel

View Operator• Process Control

Untuk mengontrol aliran proses, seperti loop atauconditional branch

• UtilityUntuk mengelompokkan subprocess, juga macrodan logger

• Repository AccessUntuk membaca dan menulis repositori

• ImportUntuk membaca data dari berbagai formateksternal

• ExportUntuk menulis data ke berbagai format eksternal

• Data TransformationUntuk transformasi data dan metadata

• ModellingUntuk proses data mining yang sesungguhnyaseperti klasifikasi, regresi, clustering, aturanasosiasi dll

• EvaluationUntuk menghitung kualitas dan perfomansi darimodel

• Process ControlUntuk mengontrol aliran proses, seperti loop atauconditional branch

• UtilityUntuk mengelompokkan subprocess, juga macrodan logger

• Repository AccessUntuk membaca dan menulis repositori

• ImportUntuk membaca data dari berbagai formateksternal

• ExportUntuk menulis data ke berbagai format eksternal

• Data TransformationUntuk transformasi data dan metadata

• ModellingUntuk proses data mining yang sesungguhnyaseperti klasifikasi, regresi, clustering, aturanasosiasi dll

• EvaluationUntuk menghitung kualitas dan perfomansi darimodel

27

Page 28: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Layanan untuk manajemen proses analisa, baik data,metadata, proses maupun hasil

View RepositoriLayanan untuk manajemen proses analisa, baik data,metadata, proses maupun hasil

28

Page 29: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

View Proses

29

Page 30: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Operator kadang memerlukan parameter untukbisa berfungsi

• Setelah operator dipilih di view Proses,parameternya ditampilkan di view ini

View Parameter• Operator kadang memerlukan parameter untuk

bisa berfungsi• Setelah operator dipilih di view Proses,

parameternya ditampilkan di view ini

30

Page 31: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• View Help menampilkan deskripsi dari operator• View Comment menampilkan komentar yang dapat

diedit terhadap operator

View Help dan View Comment

• View Help menampilkan deskripsi dari operator• View Comment menampilkan komentar yang dapat

diedit terhadap operator

31

Page 32: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

View Problems and View Log

32

Page 33: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Proses data mining pada dasarnya adalahproses analisa yang berisi alur kerja darikomponen data mining

• Komponen dari proses ini disebut operator,yang didefinisikan dengan:

1. Deskripsi input2. Deskripsi output3. Aksi yang dilakukan4. Parameter yang diperlukan

Operator dan Proses

• Proses data mining pada dasarnya adalahproses analisa yang berisi alur kerja darikomponen data mining

• Komponen dari proses ini disebut operator,yang didefinisikan dengan:

1. Deskripsi input2. Deskripsi output3. Aksi yang dilakukan4. Parameter yang diperlukan

• Proses data mining pada dasarnya adalahproses analisa yang berisi alur kerja darikomponen data mining

• Komponen dari proses ini disebut operator,yang didefinisikan dengan:

1. Deskripsi input2. Deskripsi output3. Aksi yang dilakukan4. Parameter yang diperlukan

33

Page 34: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Sebuah operator bisa disambungkan melalui portmasukan (kiri) dan port keluaran (kanan)

• Indikator status dari operator:• Lampu status: merah (tak tersambung), kuning (lengkap

tetapi belum dijalankan), hijau (sudah behasil dijalankan)• Segitiga warning: bila ada pesan status• Breakpoint: bila ada breakpoint sebelum/sesudahnya• Comment: bila ada komentar• Subprocess: bila mempunyai subprocess

Operator dan Proses

• Sebuah operator bisa disambungkan melalui portmasukan (kiri) dan port keluaran (kanan)

• Indikator status dari operator:• Lampu status: merah (tak tersambung), kuning (lengkap

tetapi belum dijalankan), hijau (sudah behasil dijalankan)• Segitiga warning: bila ada pesan status• Breakpoint: bila ada breakpoint sebelum/sesudahnya• Comment: bila ada komentar• Subprocess: bila mempunyai subprocess

• Sebuah operator bisa disambungkan melalui portmasukan (kiri) dan port keluaran (kanan)

• Indikator status dari operator:• Lampu status: merah (tak tersambung), kuning (lengkap

tetapi belum dijalankan), hijau (sudah behasil dijalankan)• Segitiga warning: bila ada pesan status• Breakpoint: bila ada breakpoint sebelum/sesudahnya• Comment: bila ada komentar• Subprocess: bila mempunyai subprocess

34

Page 35: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Pilih menu File → New

Pilih repositori dan lokasi, lalu beri nama

Membuat Proses Baru Pilih menu File → New

Pilih repositori dan lokasi, lalu beri nama

Pilih menu File → New

Pilih repositori dan lokasi, lalu beri nama

35

Page 36: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Repositori terstruktur ke dalam proyek-proyek• Masing-masing proyek terstruktur lagi ke dalam

data, processes, dan results

Struktur Repositori• Repositori terstruktur ke dalam proyek-proyek• Masing-masing proyek terstruktur lagi ke dalam

data, processes, dan results

36

Page 37: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Menjalankan Proses

37

Page 38: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Proses dapat dijalankan dengan:• Menekan tombol Play• Memilih menu Process → Run• Menekan kunci F11

Menjalankan Proses

Proses dapat dijalankan dengan:• Menekan tombol Play• Memilih menu Process → Run• Menekan kunci F11

38

Page 39: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Melihat Hasil

39

Page 40: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

2.3 Penerapan Proses Data Mining(Dataset – Model)

40

Page 41: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Proses Data Mining

1. HimpunanData

(Pemahaman danPengolahan Data)

2. MetodeData Mining

(Pilih MetodeSesuai Karakter Data)

3. Pengetahuan

(Pola/Model/Rumus/Tree/Rule/Cluster)

4. Evaluation

(Akurasi, AUC,RMSE, Lift Ratio,…)

41

DATA PRE-PROCESSINGData Cleaning

Data IntegrationData Reduction

Data Transformation

EstimationPrediction

ClassificationClustering

Association

Page 42: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Instal Rapidminer versi 7• Registrasi account di rapidminer.com, dan lakukan dapatkan lisensi

Educational Program untuk mengolah data tanpa batasan record

Instalasi dan Registrasi Lisensi Rapidminer• Instal Rapidminer versi 7• Registrasi account di rapidminer.com, dan lakukan dapatkan lisensi

Educational Program untuk mengolah data tanpa batasan record

42

Page 43: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Lakukan training pada data golf (ambildari repositories rapidminer) denganmenggunakan algoritma decision tree

2. Tampilkan himpunan data (dataset) danpengetahuan (model tree) yangterbentuk

Latihan: Rekomendasi Main Golf

1. Lakukan training pada data golf (ambildari repositories rapidminer) denganmenggunakan algoritma decision tree

2. Tampilkan himpunan data (dataset) danpengetahuan (model tree) yangterbentuk

1. Lakukan training pada data golf (ambildari repositories rapidminer) denganmenggunakan algoritma decision tree

2. Tampilkan himpunan data (dataset) danpengetahuan (model tree) yangterbentuk

43

Page 44: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

44

Page 45: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

45

Page 46: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

46

Page 47: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

47

Page 48: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

48

Page 49: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

49

Page 50: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

50

Page 51: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

51

Page 52: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

52

Page 53: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

53

Page 54: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Lakukan training pada data Bunga Iris (ambil darirepositories rapidminer) dengan menggunakanalgoritma decision tree

2. Tampilkan himpunan data (dataset) danpengetahuan (model tree) yang terbentuk

Latihan: Penentuan Jenis Bunga Iris

1. Lakukan training pada data Bunga Iris (ambil darirepositories rapidminer) dengan menggunakanalgoritma decision tree

2. Tampilkan himpunan data (dataset) danpengetahuan (model tree) yang terbentuk

54

Page 55: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Latihan: Klastering Jenis Bunga Iris

1. Lakukan training pada data Bunga Iris (ambil darirepositories rapidminer) dengan menggunakanalgoritma k-Means

2. Tampilkan himpunan data (dataset) danpengetahuan (model tree) yang terbentuk

3. Tampilkan grafik dari cluster yang terbentuk

1. Lakukan training pada data Bunga Iris (ambil darirepositories rapidminer) dengan menggunakanalgoritma k-Means

2. Tampilkan himpunan data (dataset) danpengetahuan (model tree) yang terbentuk

3. Tampilkan grafik dari cluster yang terbentuk

55

Page 56: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Lakukan training pada data Sonar (ambil darirepositories rapidminer) dengan menggunakanalgoritma decision tree (C4.5)

2. Tampilkan himpunan data (dataset) danpengetahuan (model tree) yang terbentuk

Latihan: Penentuan Mine/Rock

1. Lakukan training pada data Sonar (ambil darirepositories rapidminer) dengan menggunakanalgoritma decision tree (C4.5)

2. Tampilkan himpunan data (dataset) danpengetahuan (model tree) yang terbentuk

56

Page 57: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Lakukan training pada data Contact Lenses (contact-lenses.xls) dengan menggunakan algoritma decisiontree (http://romisatriawahono.net/lecture/dm/dataset/)

2. Gunakan operator Read Excel atau langsungmenggunakan fitur Add Data

3. Tampilkan himpunan data (dataset) dan pengetahuan(model tree) yang terbentuk

Latihan: Rekomendasi Contact Lenses1. Lakukan training pada data Contact Lenses (contact-

lenses.xls) dengan menggunakan algoritma decisiontree (http://romisatriawahono.net/lecture/dm/dataset/)

2. Gunakan operator Read Excel atau langsungmenggunakan fitur Add Data

3. Tampilkan himpunan data (dataset) dan pengetahuan(model tree) yang terbentuk

57

Page 58: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Lakukan training pada data CPU (cpu.xls) denganmenggunakan algoritma linear regression

2. Tampilkan himpunan data (dataset) danpengetahuan (model regresi) yang terbentuk

3. Lakukan pengujian terhadap data baru (cpu-testing.xls), untuk model yang dihasilkan daritahapan 1

Latihan: Estimasi Performance CPU

1. Lakukan training pada data CPU (cpu.xls) denganmenggunakan algoritma linear regression

2. Tampilkan himpunan data (dataset) danpengetahuan (model regresi) yang terbentuk

3. Lakukan pengujian terhadap data baru (cpu-testing.xls), untuk model yang dihasilkan daritahapan 1

58

Page 59: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Rumus Performace dari Data CPU.xlsPerformance CPU = 0.038 * MYCT

+ 0.017 * MMIN+ 0.004 * MMAX+ 0.603 * CACH+ 1.291 * CHMIN+ 0.906 * CHMAX- 43.975

Performance CPU = 0.038 * MYCT+ 0.017 * MMIN+ 0.004 * MMAX+ 0.603 * CACH+ 1.291 * CHMIN+ 0.906 * CHMAX- 43.975

cpu.xls

59cpu-testing.xls

Page 60: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Lakukan training pada data pemilu(datapemilukpu.xls) dengan algoritma yangtepat

2. Tentukan tipe data atribut dan class dari“Import Configuration Wizard”

3. Tampilkan himpunan data (dataset) danpengetahuan (pola/model) yang terbentuk

4. Gunakan model yang dihasilkan untukmemprediksi datapemilukpu-testing.xls

Latihan: Prediksi Elektabilitas Caleg

1. Lakukan training pada data pemilu(datapemilukpu.xls) dengan algoritma yangtepat

2. Tentukan tipe data atribut dan class dari“Import Configuration Wizard”

3. Tampilkan himpunan data (dataset) danpengetahuan (pola/model) yang terbentuk

4. Gunakan model yang dihasilkan untukmemprediksi datapemilukpu-testing.xls

1. Lakukan training pada data pemilu(datapemilukpu.xls) dengan algoritma yangtepat

2. Tentukan tipe data atribut dan class dari“Import Configuration Wizard”

3. Tampilkan himpunan data (dataset) danpengetahuan (pola/model) yang terbentuk

4. Gunakan model yang dihasilkan untukmemprediksi datapemilukpu-testing.xls

60

Page 61: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Latihan: Aturan Asosiasi Data Transaksi

1. Lakukan training pada data transaksi(transaksi.xlsx)

2. Pilih metode yang tepat supayamenghasilkan pola

1. Lakukan training pada data transaksi(transaksi.xlsx)

2. Pilih metode yang tepat supayamenghasilkan pola

61

Page 62: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Lakukan training pada data konsumsi minyak(HeatingOil.csv)

2. Pilih metode yang tepat supaya menghasilkanmodel

3. Apply model yang dihasilkan ke datapelanggan baru di file HeatingOil-Scoring.csv,supaya kita bisa mengestimasi berapakebutuhan konsumsi minyak mereka, untukmengatur stok penjualan minyak

Latihan: Estimasi Konsumsi Minyak

1. Lakukan training pada data konsumsi minyak(HeatingOil.csv)

2. Pilih metode yang tepat supaya menghasilkanmodel

3. Apply model yang dihasilkan ke datapelanggan baru di file HeatingOil-Scoring.csv,supaya kita bisa mengestimasi berapakebutuhan konsumsi minyak mereka, untukmengatur stok penjualan minyak

1. Lakukan training pada data konsumsi minyak(HeatingOil.csv)

2. Pilih metode yang tepat supaya menghasilkanmodel

3. Apply model yang dihasilkan ke datapelanggan baru di file HeatingOil-Scoring.csv,supaya kita bisa mengestimasi berapakebutuhan konsumsi minyak mereka, untukmengatur stok penjualan minyak

62

Page 63: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Lakukan training pada data kankerpayudara (breasttissue.xls)

2. Pilih metode yang tepat supayamenghasilkan pola

Latihan: Deteksi Kanker Payudara

1. Lakukan training pada data kankerpayudara (breasttissue.xls)

2. Pilih metode yang tepat supayamenghasilkan pola

63

Page 64: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Lakukan training pada data seranganjaringan (intrusion-training.xls)

2. Pilih metode yang tepat supayamenghasilkan pola

Latihan: Deteksi Serangan Jaringan

1. Lakukan training pada data seranganjaringan (intrusion-training.xls)

2. Pilih metode yang tepat supayamenghasilkan pola

1. Lakukan training pada data seranganjaringan (intrusion-training.xls)

2. Pilih metode yang tepat supayamenghasilkan pola

64

Page 65: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Lakukan training pada data resiko kredit(CreditRisk.csv)(http://romisatriawahono.net/lecture/dm/dataset/)

2. Pilih metode yang tepat supayamenghasilkan pola

Latihan: Klasifikasi Resiko Kredit

1. Lakukan training pada data resiko kredit(CreditRisk.csv)(http://romisatriawahono.net/lecture/dm/dataset/)

2. Pilih metode yang tepat supayamenghasilkan pola

65

Page 66: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Lakukan training pada data Music Genre(musicgenre-small.csv)(http://romisatriawahono.net/lecture/dm/dataset/)

2. Pilih metode yang tepat supayamenghasilkan pola

Latihan: Klasifikasi Music Genre

1. Lakukan training pada data Music Genre(musicgenre-small.csv)(http://romisatriawahono.net/lecture/dm/dataset/)

2. Pilih metode yang tepat supayamenghasilkan pola

66

Page 67: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Lakukan training pada data Harga Saham(hargasaham-training.xls) denganmenggunakan algoritma yang tepat

2. Tampilkan himpunan data (dataset) danpengetahuan (model regresi) yangterbentuk

3. Lakukan pengujian terhadap data baru(hargasaham-testing.xls), untuk modelyang dihasilkan dari tahapan 1

4. Lakukan plot berupa grafik dari data yangterbentuk dengan menggunakan ScatterMultiple

Latihan: Forecasting Harga Saham

1. Lakukan training pada data Harga Saham(hargasaham-training.xls) denganmenggunakan algoritma yang tepat

2. Tampilkan himpunan data (dataset) danpengetahuan (model regresi) yangterbentuk

3. Lakukan pengujian terhadap data baru(hargasaham-testing.xls), untuk modelyang dihasilkan dari tahapan 1

4. Lakukan plot berupa grafik dari data yangterbentuk dengan menggunakan ScatterMultiple

1. Lakukan training pada data Harga Saham(hargasaham-training.xls) denganmenggunakan algoritma yang tepat

2. Tampilkan himpunan data (dataset) danpengetahuan (model regresi) yangterbentuk

3. Lakukan pengujian terhadap data baru(hargasaham-testing.xls), untuk modelyang dihasilkan dari tahapan 1

4. Lakukan plot berupa grafik dari data yangterbentuk dengan menggunakan ScatterMultiple

67

Page 68: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

68

Page 69: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Dataset – Methods – Knowledge1. Dataset Main Golf2. Dataset Iris (Klasifikasi)3. Dataset Iris (Klastering)4. Dataset CPU5. Dataset Credit Risk6. Dataset Heating Oil7. Dataset Transaksi8. Dataset Harga Saham9. Dataset Pemilu

Competency Check1. Dataset – Methods – Knowledge

1. Dataset Main Golf2. Dataset Iris (Klasifikasi)3. Dataset Iris (Klastering)4. Dataset CPU5. Dataset Credit Risk6. Dataset Heating Oil7. Dataset Transaksi8. Dataset Harga Saham9. Dataset Pemilu

1. Dataset – Methods – Knowledge1. Dataset Main Golf2. Dataset Iris (Klasifikasi)3. Dataset Iris (Klastering)4. Dataset CPU5. Dataset Credit Risk6. Dataset Heating Oil7. Dataset Transaksi8. Dataset Harga Saham9. Dataset Pemilu

69

Page 70: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Download berbagai dataset yang ada dihttp://romisatriawahono.net/lecture/dm/dataset/

• Gunakan rapidminer untuk mengolahdataset tersebut sehingga menjadipengetahuan

• Pilih algoritma yang sesuai dengan jenis datapada dataset

Tugas: Mencari dan Mengolah Dataset

• Download berbagai dataset yang ada dihttp://romisatriawahono.net/lecture/dm/dataset/

• Gunakan rapidminer untuk mengolahdataset tersebut sehingga menjadipengetahuan

• Pilih algoritma yang sesuai dengan jenis datapada dataset

70

Page 71: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Pahami dan kuasai satu metode data mining dari berbagailiterature:1. Naïve Bayes 2. k Nearest Neighbor3. k-Means 4. C4.55. Neural Network 6. Logistic Regression7. FP Growth 8. Fuzzy C-Means9. Self-Organizing Map 0. Support Vector Machine

2. Rangkumkan dengan detail dalam bentuk slide,dengan format:1. Definisi2. Tahapan Algoritma (lengkap dengan formulanya)3. Penerapan Tahapan Algoritma untuk Studi Kasus Dataset Main

Golf, Iris, Transaksi, CPU, dsb(hitung manual (gunakan excel) dan tidak dengan menggunakanrapidminer, harus sinkron dengan tahapan algoritma)

3. Presentasikan di depan kelas pada mata kuliah berikutnyadengan bahasa manusia yang baik dan benar

Tugas: Menguasai Satu Metode DM1. Pahami dan kuasai satu metode data mining dari berbagai

literature:1. Naïve Bayes 2. k Nearest Neighbor3. k-Means 4. C4.55. Neural Network 6. Logistic Regression7. FP Growth 8. Fuzzy C-Means9. Self-Organizing Map 0. Support Vector Machine

2. Rangkumkan dengan detail dalam bentuk slide,dengan format:1. Definisi2. Tahapan Algoritma (lengkap dengan formulanya)3. Penerapan Tahapan Algoritma untuk Studi Kasus Dataset Main

Golf, Iris, Transaksi, CPU, dsb(hitung manual (gunakan excel) dan tidak dengan menggunakanrapidminer, harus sinkron dengan tahapan algoritma)

3. Presentasikan di depan kelas pada mata kuliah berikutnyadengan bahasa manusia yang baik dan benar

1. Pahami dan kuasai satu metode data mining dari berbagailiterature:1. Naïve Bayes 2. k Nearest Neighbor3. k-Means 4. C4.55. Neural Network 6. Logistic Regression7. FP Growth 8. Fuzzy C-Means9. Self-Organizing Map 0. Support Vector Machine

2. Rangkumkan dengan detail dalam bentuk slide,dengan format:1. Definisi2. Tahapan Algoritma (lengkap dengan formulanya)3. Penerapan Tahapan Algoritma untuk Studi Kasus Dataset Main

Golf, Iris, Transaksi, CPU, dsb(hitung manual (gunakan excel) dan tidak dengan menggunakanrapidminer, harus sinkron dengan tahapan algoritma)

3. Presentasikan di depan kelas pada mata kuliah berikutnyadengan bahasa manusia yang baik dan benar

71

Page 72: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Kembangkan Java Code dari algoritma yang dipilih2. Gunakan hanya 1 class (file) dan beri nama sesuai

nama algoritma, boleh membuat banyak methoddalam class tersebut

3. Buat account di Trello.Com dan register kehttps://trello.com/b/ZOwroEYg/course-assignment

4. Buat card dengan nama sendiri dan upload semuafile (pptx, xlsx, pdf, etc) laporan ke card tersebut

5. Deadline: sehari sebelum pertemuan berikutnya

Tugas: Kembangkan Code dari Algoritma DM

1. Kembangkan Java Code dari algoritma yang dipilih2. Gunakan hanya 1 class (file) dan beri nama sesuai

nama algoritma, boleh membuat banyak methoddalam class tersebut

3. Buat account di Trello.Com dan register kehttps://trello.com/b/ZOwroEYg/course-assignment

4. Buat card dengan nama sendiri dan upload semuafile (pptx, xlsx, pdf, etc) laporan ke card tersebut

5. Deadline: sehari sebelum pertemuan berikutnya

1. Kembangkan Java Code dari algoritma yang dipilih2. Gunakan hanya 1 class (file) dan beri nama sesuai

nama algoritma, boleh membuat banyak methoddalam class tersebut

3. Buat account di Trello.Com dan register kehttps://trello.com/b/ZOwroEYg/course-assignment

4. Buat card dengan nama sendiri dan upload semuafile (pptx, xlsx, pdf, etc) laporan ke card tersebut

5. Deadline: sehari sebelum pertemuan berikutnya

72

Page 73: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Algoritma k-MeansFormat Template TugasFormat Template Tugas

73

Page 74: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• K-means adalah ..... (John, 2016)

Definisi

• K-means adalah ..... (John, 2016)

74

Page 75: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Siapkan dataset

2. Tentukan A dengan rumus A = x + y

3. Tentukan B dengan rumus B = d + e

4. Ulangi proses 1-2-3 sampai tidak ada perubahan

Tahapan Algoritma k-Means

1. Siapkan dataset

2. Tentukan A dengan rumus A = x + y

3. Tentukan B dengan rumus B = d + e

4. Ulangi proses 1-2-3 sampai tidak ada perubahan

1. Siapkan dataset

2. Tentukan A dengan rumus A = x + y

3. Tentukan B dengan rumus B = d + e

4. Ulangi proses 1-2-3 sampai tidak ada perubahan

75

Page 76: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Siapkan dataset

76

Page 77: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• blablabla

2. Tentukan A

77

Page 78: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• blablabla

3. Tentukan B

78

Page 79: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• blablabla

4. Iterasi 1

79

Page 80: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• blablabla

4. Iterasi 2 ... dst

80

Page 81: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

2.4 Evaluasi dan Validasi terhadapModel yang Terbentuk

81

Page 82: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Proses Data Mining

1. HimpunanData

(Pemahaman danPengolahan Data)

2. MetodeData Mining

(Pilih MetodeSesuai Karakter Data)

3. Pengetahuan

(Pola/Model/Rumus/Tree/Rule/Cluster)

4. Evaluation

(Akurasi, AUC,RMSE, Lift Ratio,…)

82

DATA PRE-PROCESSINGData Cleaning

Data IntegrationData Reduction

Data Transformation

EstimationPrediction

ClassificationClustering

Association

Page 83: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Estimation:• Error: Root Mean Square Error (RMSE), MSE, MAPE, etc

2. Prediction/Forecasting (Prediksi/Peramalan):• Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc

3. Classification:• Confusion Matrix: Accuracy• ROC Curve: Area Under Curve (AUC)

4. Clustering:• Internal Evaluation: Davies–Bouldin index, Dunn index,• External Evaluation: Rand measure, F-measure, Jaccard index,

Fowlkes–Mallows index, Confusion matrix

5. Association:• Lift Charts: Lift Ratio• Precision and Recall (F-measure)

Evaluasi Data Mining

1. Estimation:• Error: Root Mean Square Error (RMSE), MSE, MAPE, etc

2. Prediction/Forecasting (Prediksi/Peramalan):• Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc

3. Classification:• Confusion Matrix: Accuracy• ROC Curve: Area Under Curve (AUC)

4. Clustering:• Internal Evaluation: Davies–Bouldin index, Dunn index,• External Evaluation: Rand measure, F-measure, Jaccard index,

Fowlkes–Mallows index, Confusion matrix

5. Association:• Lift Charts: Lift Ratio• Precision and Recall (F-measure)

1. Estimation:• Error: Root Mean Square Error (RMSE), MSE, MAPE, etc

2. Prediction/Forecasting (Prediksi/Peramalan):• Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc

3. Classification:• Confusion Matrix: Accuracy• ROC Curve: Area Under Curve (AUC)

4. Clustering:• Internal Evaluation: Davies–Bouldin index, Dunn index,• External Evaluation: Rand measure, F-measure, Jaccard index,

Fowlkes–Mallows index, Confusion matrix

5. Association:• Lift Charts: Lift Ratio• Precision and Recall (F-measure)

83

Page 84: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Pembagian dataset:• Dua bagian: data training dan data testing• Tiga bagian: data training, data validation dan data testing

• Data training untuk pembentukan model, dandata testing digunakan untuk pengujian model

• Pemisahan data training dan testing1. Data dipisahkan secara manual2. Data dipisahkan otomatis dengan operator Split Data3. Data dipisahkan otomatis dengan X Validation

Pengujian Model Data Mining• Pembagian dataset:

• Dua bagian: data training dan data testing• Tiga bagian: data training, data validation dan data testing

• Data training untuk pembentukan model, dandata testing digunakan untuk pengujian model

• Pemisahan data training dan testing1. Data dipisahkan secara manual2. Data dipisahkan otomatis dengan operator Split Data3. Data dipisahkan otomatis dengan X Validation

• Pembagian dataset:• Dua bagian: data training dan data testing• Tiga bagian: data training, data validation dan data testing

• Data training untuk pembentukan model, dandata testing digunakan untuk pengujian model

• Pemisahan data training dan testing1. Data dipisahkan secara manual2. Data dipisahkan otomatis dengan operator Split Data3. Data dipisahkan otomatis dengan X Validation

84

Page 85: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Pemisahan Data Manual

85

Page 86: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Latihan: Penentuan Kelayakan Kredit• Gunakan dataset di bawah:

• creditapproval-training.xls: untuk membuat model• creditapproval-testing.xls: untuk menguji model

• Data di atas terpisah dengan perbandingan:data testing (10%) dan data training (90%)

• Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testing untukpengujian model

• Ukurperformancenya

• Gunakan dataset di bawah:• creditapproval-training.xls: untuk membuat model• creditapproval-testing.xls: untuk menguji model

• Data di atas terpisah dengan perbandingan:data testing (10%) dan data training (90%)

• Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testing untukpengujian model

• Ukurperformancenya

86

• Gunakan dataset di bawah:• creditapproval-training.xls: untuk membuat model• creditapproval-testing.xls: untuk menguji model

• Data di atas terpisah dengan perbandingan:data testing (10%) dan data training (90%)

• Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testing untukpengujian model

• Ukurperformancenya

Page 87: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Confusion Matrix Accuracy

• pred MACET- true MACET: Jumlah data yang diprediksimacet dan kenyataannya macet (TP)

• pred LANCAR-true LANCAR: Jumlah data yang diprediksilancar dan kenyataannya lancer (TN)

• pred MACET-true LANCAR: Jumlah data yang diprediksimacet tapi kenyataannya lancer (FP)

• pred LANCAR-true MACET: Jumlah data yang diprediksilancar tapi kenyataanya macet (FN)

• pred MACET- true MACET: Jumlah data yang diprediksimacet dan kenyataannya macet (TP)

• pred LANCAR-true LANCAR: Jumlah data yang diprediksilancar dan kenyataannya lancer (TN)

• pred MACET-true LANCAR: Jumlah data yang diprediksimacet tapi kenyataannya lancer (FP)

• pred LANCAR-true MACET: Jumlah data yang diprediksilancar tapi kenyataanya macet (FN)

87

Page 88: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Binary classification should be both sensitive andspecific as much as possible:1. Sensitivity measures the proportion of true

’positives’ that are correctly identified (TruePositive Rate (TP Rate) or Recall)

2. Specificity measures the proportion of true’negatives’ that are correctly identified (FalseNegative Rate (FN Rate or Precision)

Sensitivity and Specificity

Binary classification should be both sensitive andspecific as much as possible:1. Sensitivity measures the proportion of true

’positives’ that are correctly identified (TruePositive Rate (TP Rate) or Recall)

2. Specificity measures the proportion of true’negatives’ that are correctly identified (FalseNegative Rate (FN Rate or Precision)

Binary classification should be both sensitive andspecific as much as possible:1. Sensitivity measures the proportion of true

’positives’ that are correctly identified (TruePositive Rate (TP Rate) or Recall)

2. Specificity measures the proportion of true’negatives’ that are correctly identified (FalseNegative Rate (FN Rate or Precision)

88

Page 89: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

We need to know the probability that the classifier willgive the correct diagnosis, but the sensitivity andspecificity do not give us this information

• Positive Predictive Value (PPV) is the proportion of caseswith ’positive’ test results that are correctly diagnosed

• Negative Predictive Value (NPV) is the proportion of caseswith ’negative’ test results that are correctly diagnosed

PPV and NPVWe need to know the probability that the classifier willgive the correct diagnosis, but the sensitivity andspecificity do not give us this information

• Positive Predictive Value (PPV) is the proportion of caseswith ’positive’ test results that are correctly diagnosed

• Negative Predictive Value (NPV) is the proportion of caseswith ’negative’ test results that are correctly diagnosed

We need to know the probability that the classifier willgive the correct diagnosis, but the sensitivity andspecificity do not give us this information

• Positive Predictive Value (PPV) is the proportion of caseswith ’positive’ test results that are correctly diagnosed

• Negative Predictive Value (NPV) is the proportion of caseswith ’negative’ test results that are correctly diagnosed

89

Page 90: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• ROC curves are two-dimensional graphs in which the TP rate isplotted on the Y-axis and the FP rate is plotted on the X-axis

• ROC curve depicts relative trade-offs between benefits (’truepositives’) and costs (’false positives’)

• Two types of ROC curves: discrete and continuous

Kurva ROC - AUC (Area Under Curve)• ROC curves are two-dimensional graphs in which the TP rate is

plotted on the Y-axis and the FP rate is plotted on the X-axis• ROC curve depicts relative trade-offs between benefits (’true

positives’) and costs (’false positives’)• Two types of ROC curves: discrete and continuous

90

Page 91: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Kurva ROC - AUC (Area Under Curve)

91

Page 92: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. 0.90 - 1.00 = excellent classification2. 0.80 - 0.90 = good classification3. 0.70 - 0.80 = fair classification4. 0.60 - 0.70 = poor classification5. 0.50 - 0.60 = failure

(Gorunescu, 2011)

Guide for Classifying the AUC

1. 0.90 - 1.00 = excellent classification2. 0.80 - 0.90 = good classification3. 0.70 - 0.80 = fair classification4. 0.60 - 0.70 = poor classification5. 0.50 - 0.60 = failure

(Gorunescu, 2011)

1. 0.90 - 1.00 = excellent classification2. 0.80 - 0.90 = good classification3. 0.70 - 0.80 = fair classification4. 0.60 - 0.70 = poor classification5. 0.50 - 0.60 = failure

(Gorunescu, 2011)

92

Page 93: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Gunakan dataset di bawah:• intrusion-training.xls: untuk membuat model• intrusion-testing.xls: untuk menguji model

• Data di atas terpisah dengan perbandingan:data testing (10%) dan data training (90%)

• Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testing untukpengujian model

• Ukur performance(AUC dan Accuracy)

Latihan: Deteksi Serangan Jaringan

• Gunakan dataset di bawah:• intrusion-training.xls: untuk membuat model• intrusion-testing.xls: untuk menguji model

• Data di atas terpisah dengan perbandingan:data testing (10%) dan data training (90%)

• Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testing untukpengujian model

• Ukur performance(AUC dan Accuracy)

• Gunakan dataset di bawah:• intrusion-training.xls: untuk membuat model• intrusion-testing.xls: untuk menguji model

• Data di atas terpisah dengan perbandingan:data testing (10%) dan data training (90%)

• Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testing untukpengujian model

• Ukur performance(AUC dan Accuracy)

93

Page 94: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Gunakan dataset di bawah:• hargasaham-training.xls: untuk membuat model• hargasaham-testing.xls: untuk menguji model

• Data di atas terpisah dengan perbandingan:data testing (10%) dan data training (90%)

• Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testing untukpengujian model

• Ukur performance

Latihan: Prediksi Harga Saham

• Gunakan dataset di bawah:• hargasaham-training.xls: untuk membuat model• hargasaham-testing.xls: untuk menguji model

• Data di atas terpisah dengan perbandingan:data testing (10%) dan data training (90%)

• Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testing untukpengujian model

• Ukur performance

• Gunakan dataset di bawah:• hargasaham-training.xls: untuk membuat model• hargasaham-testing.xls: untuk menguji model

• Data di atas terpisah dengan perbandingan:data testing (10%) dan data training (90%)

• Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testing untukpengujian model

• Ukur performance

94

Page 95: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

95

Page 96: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• The square root of the mean/average of the square of all ofthe error

• The use of RMSE is very common and it makes an excellentgeneral purpose error metric for numerical predictions

• To construct the RMSE, we first need to determine theresiduals

• Residuals are the difference between the actual values and thepredicted values

• We denoted them by• where is the observed value for the ith observation and• is the predicted value

• They can be positive or negative as the predicted value underor over estimates the actual value

• You then use the RMSE as a measure of the spread of the yvalues about the predicted y value

Root Mean Square Error• The square root of the mean/average of the square of all of

the error

• The use of RMSE is very common and it makes an excellentgeneral purpose error metric for numerical predictions

• To construct the RMSE, we first need to determine theresiduals

• Residuals are the difference between the actual values and thepredicted values

• We denoted them by• where is the observed value for the ith observation and• is the predicted value

• They can be positive or negative as the predicted value underor over estimates the actual value

• You then use the RMSE as a measure of the spread of the yvalues about the predicted y value

• The square root of the mean/average of the square of all ofthe error

• The use of RMSE is very common and it makes an excellentgeneral purpose error metric for numerical predictions

• To construct the RMSE, we first need to determine theresiduals

• Residuals are the difference between the actual values and thepredicted values

• We denoted them by• where is the observed value for the ith observation and• is the predicted value

• They can be positive or negative as the predicted value underor over estimates the actual value

• You then use the RMSE as a measure of the spread of the yvalues about the predicted y value

96

Page 97: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

2. Pemisahan Data Otomatis (Split Data)

97

Page 98: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• The Split Data operator takes a dataset as its input anddelivers the subsets of that dataset through its outputports

• The sampling type parameter decides how theexamples should be shuffled in the resultant partitions:

1. Linear sampling: Linear sampling simply divides thedataset into partitions without changing the order ofthe examples• Subsets with consecutive examples are created

2. Shuffled sampling: Shuffled sampling builds randomsubsets of the dataset• Examples are chosen randomly for making subsets

3. Stratified sampling: Stratified sampling builds randomsubsets and ensures that the class distribution in thesubsets is the same as in the whole dataset• In the case of a binominal classification, stratified sampling

builds random subsets so that each subset contains roughly thesame proportions of the two values of the label

Split Data Otomatis

• The Split Data operator takes a dataset as its input anddelivers the subsets of that dataset through its outputports

• The sampling type parameter decides how theexamples should be shuffled in the resultant partitions:

1. Linear sampling: Linear sampling simply divides thedataset into partitions without changing the order ofthe examples• Subsets with consecutive examples are created

2. Shuffled sampling: Shuffled sampling builds randomsubsets of the dataset• Examples are chosen randomly for making subsets

3. Stratified sampling: Stratified sampling builds randomsubsets and ensures that the class distribution in thesubsets is the same as in the whole dataset• In the case of a binominal classification, stratified sampling

builds random subsets so that each subset contains roughly thesame proportions of the two values of the label

• The Split Data operator takes a dataset as its input anddelivers the subsets of that dataset through its outputports

• The sampling type parameter decides how theexamples should be shuffled in the resultant partitions:

1. Linear sampling: Linear sampling simply divides thedataset into partitions without changing the order ofthe examples• Subsets with consecutive examples are created

2. Shuffled sampling: Shuffled sampling builds randomsubsets of the dataset• Examples are chosen randomly for making subsets

3. Stratified sampling: Stratified sampling builds randomsubsets and ensures that the class distribution in thesubsets is the same as in the whole dataset• In the case of a binominal classification, stratified sampling

builds random subsets so that each subset contains roughly thesame proportions of the two values of the label

98

Page 99: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

99

Page 100: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Dataset: datakelulusanmahasiswa.xls2. Pisahkan data menjadi dua secara otomatis

(Split Data): data testing (10%) dan datatraining (90%)

3. Ujicoba parameter pemisahan data baikmenggunakan Linear Sampling, ShuffledSampling dan Stratified Sampling

4. Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testinguntuk pengujian model

5. Terapkan algoritma yang sesuai dan ukurperformance dari model yang dibentuk

Latihan: Prediksi Kelulusan Mahasiswa

1. Dataset: datakelulusanmahasiswa.xls2. Pisahkan data menjadi dua secara otomatis

(Split Data): data testing (10%) dan datatraining (90%)

3. Ujicoba parameter pemisahan data baikmenggunakan Linear Sampling, ShuffledSampling dan Stratified Sampling

4. Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testinguntuk pengujian model

5. Terapkan algoritma yang sesuai dan ukurperformance dari model yang dibentuk

1. Dataset: datakelulusanmahasiswa.xls2. Pisahkan data menjadi dua secara otomatis

(Split Data): data testing (10%) dan datatraining (90%)

3. Ujicoba parameter pemisahan data baikmenggunakan Linear Sampling, ShuffledSampling dan Stratified Sampling

4. Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testinguntuk pengujian model

5. Terapkan algoritma yang sesuai dan ukurperformance dari model yang dibentuk

100

Page 101: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Dataset: HeatingOil.csv2. Pisahkan data menjadi dua secara otomatis

(Split Data): data testing (10%) dan datatraining (90%)

3. Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testinguntuk pengujian model

4. Terapkan algoritma yang sesuai dan ukurperformance dari model yang dibentuk

Latihan: Estimasi Konsumsi Minyak

1. Dataset: HeatingOil.csv2. Pisahkan data menjadi dua secara otomatis

(Split Data): data testing (10%) dan datatraining (90%)

3. Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testinguntuk pengujian model

4. Terapkan algoritma yang sesuai dan ukurperformance dari model yang dibentuk

1. Dataset: HeatingOil.csv2. Pisahkan data menjadi dua secara otomatis

(Split Data): data testing (10%) dan datatraining (90%)

3. Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testinguntuk pengujian model

4. Terapkan algoritma yang sesuai dan ukurperformance dari model yang dibentuk

101

Page 102: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

3 Pemisahan Data Otomatis(Cross-Validation)

102

Page 103: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Metode cross-validation digunakan untukmenghindari overlapping pada data testing

• Tahapan cross-validation:1. Bagi data menjadi k subset yg berukuran sama2. Gunakan setiap subset untuk data testing dan sisanya

untuk data training

• Disebut juga dengan k-fold cross-validation• Seringkali subset dibuat stratified (bertingkat)

sebelum cross-validation dilakukan, karenastratifikasi akan mengurangi variansi dari estimasi

Metode Cross-Validation

• Metode cross-validation digunakan untukmenghindari overlapping pada data testing

• Tahapan cross-validation:1. Bagi data menjadi k subset yg berukuran sama2. Gunakan setiap subset untuk data testing dan sisanya

untuk data training

• Disebut juga dengan k-fold cross-validation• Seringkali subset dibuat stratified (bertingkat)

sebelum cross-validation dilakukan, karenastratifikasi akan mengurangi variansi dari estimasi

• Metode cross-validation digunakan untukmenghindari overlapping pada data testing

• Tahapan cross-validation:1. Bagi data menjadi k subset yg berukuran sama2. Gunakan setiap subset untuk data testing dan sisanya

untuk data training

• Disebut juga dengan k-fold cross-validation• Seringkali subset dibuat stratified (bertingkat)

sebelum cross-validation dilakukan, karenastratifikasi akan mengurangi variansi dari estimasi

103

Page 104: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Metode evaluasi standard: stratified 10-foldcross-validation

• Mengapa 10? Hasil dari berbagai percobaanyang ekstensif dan pembuktian teoritis,menunjukkan bahwa 10-fold cross-validationadalah pilihan terbaik untuk mendapatkanhasil validasi yang akurat

• 10-fold cross-validation akan mengulangpengujian sebanyak 10 kali dan hasilpengukuran adalah nilai rata-rata dari 10 kalipengujian

10 Fold Cross-Validation

• Metode evaluasi standard: stratified 10-foldcross-validation

• Mengapa 10? Hasil dari berbagai percobaanyang ekstensif dan pembuktian teoritis,menunjukkan bahwa 10-fold cross-validationadalah pilihan terbaik untuk mendapatkanhasil validasi yang akurat

• 10-fold cross-validation akan mengulangpengujian sebanyak 10 kali dan hasilpengukuran adalah nilai rata-rata dari 10 kalipengujian

• Metode evaluasi standard: stratified 10-foldcross-validation

• Mengapa 10? Hasil dari berbagai percobaanyang ekstensif dan pembuktian teoritis,menunjukkan bahwa 10-fold cross-validationadalah pilihan terbaik untuk mendapatkanhasil validasi yang akurat

• 10-fold cross-validation akan mengulangpengujian sebanyak 10 kali dan hasilpengukuran adalah nilai rata-rata dari 10 kalipengujian

104

Page 105: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

10 Fold Cross-Validation

Eksperimen Dataset Akurasi1 93%

2 91%2 91%

3 90%

4 93%

5 93%

6 91%

7 94%

Orange: k-subset (data testing)105

8 93%

9 91%

10 90%

Akurasi Rata-Rata 92%

Page 106: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Lakukan training pada data pemilu(datapemilukpu.xls)

2. Lakukan pengujian dengan menggunakan 10-fold XValidation

3. Ukur performance-nya dengan confusion matrix danROC Curve

4. Lakukan ujicoba, ubah algoritma menjadi Naive Bayesdan k-NN, analisis mana algoritma yangmenghasilkan model yang lebih baik (akurasi tinggi)

Latihan: Prediksi Elektabilitas Caleg

1. Lakukan training pada data pemilu(datapemilukpu.xls)

2. Lakukan pengujian dengan menggunakan 10-fold XValidation

3. Ukur performance-nya dengan confusion matrix danROC Curve

4. Lakukan ujicoba, ubah algoritma menjadi Naive Bayesdan k-NN, analisis mana algoritma yangmenghasilkan model yang lebih baik (akurasi tinggi)

1. Lakukan training pada data pemilu(datapemilukpu.xls)

2. Lakukan pengujian dengan menggunakan 10-fold XValidation

3. Ukur performance-nya dengan confusion matrix danROC Curve

4. Lakukan ujicoba, ubah algoritma menjadi Naive Bayesdan k-NN, analisis mana algoritma yangmenghasilkan model yang lebih baik (akurasi tinggi)

106

C4.5

Accuracy 92.45%

AUC 0.851

Page 107: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Gunakan dataset harga saham(hargasaham-training.xls) untuk membuatmodel

2. Lakukan pengujian dengan menggunakan10-fold X Validation

3. Ukur performance-nya dengan RMSE

Latihan: Prediksi Harga Saham

1. Gunakan dataset harga saham(hargasaham-training.xls) untuk membuatmodel

2. Lakukan pengujian dengan menggunakan10-fold X Validation

3. Ukur performance-nya dengan RMSE

107

Page 108: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Komparasi Algoritma Data Mining

108

Page 109: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Estimation (Estimasi):• Linear Regression, Neural Network, Support Vector Machine, etc

2. Prediction/Forecasting (Prediksi/Peramalan):• Linear Regression, Neural Network, Support Vector Machine, etc

3. Classification (Klasifikasi):• Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant

Analysis, Logistic Regression, etc

4. Clustering (Klastering):• K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc

5. Association (Asosiasi):• FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc

Metode Data Mining (DM)

1. Estimation (Estimasi):• Linear Regression, Neural Network, Support Vector Machine, etc

2. Prediction/Forecasting (Prediksi/Peramalan):• Linear Regression, Neural Network, Support Vector Machine, etc

3. Classification (Klasifikasi):• Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant

Analysis, Logistic Regression, etc

4. Clustering (Klastering):• K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc

5. Association (Asosiasi):• FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc

1. Estimation (Estimasi):• Linear Regression, Neural Network, Support Vector Machine, etc

2. Prediction/Forecasting (Prediksi/Peramalan):• Linear Regression, Neural Network, Support Vector Machine, etc

3. Classification (Klasifikasi):• Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant

Analysis, Logistic Regression, etc

4. Clustering (Klastering):• K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc

5. Association (Asosiasi):• FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc

109

Page 110: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Lakukan training pada data pemilu(datapemilukpu.xls) dengan menggunakanalgoritma1. Decision Tree (C4.5)2. Naïve Bayes (NB)3. K-Nearest Neighbor (K-NN)

2. Lakukan pengujian dengan menggunakan 10-foldX Validation

Latihan: Prediksi Elektabilitas Caleg

1. Lakukan training pada data pemilu(datapemilukpu.xls) dengan menggunakanalgoritma1. Decision Tree (C4.5)2. Naïve Bayes (NB)3. K-Nearest Neighbor (K-NN)

2. Lakukan pengujian dengan menggunakan 10-foldX Validation

110

C4.5 NB K-NN

Accuracy 92.45% 77.46% 88.72%

AUC 0.851 0.840 0.5

Page 111: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

111

Page 112: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Lakukan training pada data pemilu(datapemilukpu.xls) dengan menggunakanalgoritma C4.5, NB dan K-NN

2. Lakukan pengujian dengan menggunakan 10-foldX Validation

3. Ukur performance-nya dengan confusion matrixdan ROC Curve

4. Uji beda dengan t-Test untuk mendapatkanmodel terbaik

Latihan: Prediksi Elektabilitas Caleg

1. Lakukan training pada data pemilu(datapemilukpu.xls) dengan menggunakanalgoritma C4.5, NB dan K-NN

2. Lakukan pengujian dengan menggunakan 10-foldX Validation

3. Ukur performance-nya dengan confusion matrixdan ROC Curve

4. Uji beda dengan t-Test untuk mendapatkanmodel terbaik

1. Lakukan training pada data pemilu(datapemilukpu.xls) dengan menggunakanalgoritma C4.5, NB dan K-NN

2. Lakukan pengujian dengan menggunakan 10-foldX Validation

3. Ukur performance-nya dengan confusion matrixdan ROC Curve

4. Uji beda dengan t-Test untuk mendapatkanmodel terbaik

112

Page 113: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

113

Page 114: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Komparasi Accuracy dan AUC

• Uji Beda (t-Test)

• Urutan model terbaik: 1. C4.5 2. NB 3. K-NN

Hasil Prediksi Elektabilitas Caleg

C4.5 NB K-NN

Accuracy 92.45% 77.46% 88.72%

• Komparasi Accuracy dan AUC

• Uji Beda (t-Test)

• Urutan model terbaik: 1. C4.5 2. NB 3. K-NN

Accuracy 92.45% 77.46% 88.72%

AUC 0.851 0.840 0.5

• Komparasi Accuracy dan AUC

• Uji Beda (t-Test)

• Urutan model terbaik: 1. C4.5 2. NB 3. K-NN114

Page 115: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Statistik Deskriptif• Nilai mean (rata-rata), standar deviasi,

varians, data maksimal, data minimal, dsb

2. Statistik Inferensi• Perkiraan dan estimasi• Pengujian Hipotesis

Analisis Statistik

1. Statistik Deskriptif• Nilai mean (rata-rata), standar deviasi,

varians, data maksimal, data minimal, dsb

2. Statistik Inferensi• Perkiraan dan estimasi• Pengujian Hipotesis

1. Statistik Deskriptif• Nilai mean (rata-rata), standar deviasi,

varians, data maksimal, data minimal, dsb

2. Statistik Inferensi• Perkiraan dan estimasi• Pengujian Hipotesis

115

Page 116: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Penggunaan Parametrik Non ParametrikDua sampel salingberhubungan(Two Dependent samples)

T TestZ Test

Sign testWilcoxon Signed-RankMc Nemar Change test

Statistik Inferensi

Dua sampel salingberhubungan(Two Dependent samples)

Sign testWilcoxon Signed-RankMc Nemar Change test

Dua sampel tidak berhubungan(Two Independent samples)

T TestZ Test

Mann-Whitney U testMoses Extreme reactionsChi-Square testKolmogorov-Smirnov testWalt-Wolfowitz runs

Beberapa sampel berhubungan(Several Dependent Samples)

Friedman testKendall W testCochran’s Q

Beberapa sampel berhubungan(Several Dependent Samples)

Friedman testKendall W testCochran’s Q

Beberapa sampel tidakBerhubungan(Several Independent Samples)

Anova test (F test) Kruskal-Wallis testChi-Square testMedian test

116

Page 117: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Metode parametrik dapat dilakukan jikabeberapa persyaratan dipenuhi, yaitu:

• Sampel yang dianalisis haruslah berasal daripopulasi yang berdistribusi normal

• Jumlah data cukup banyak• Jenis data yang dianalisis adalah biasanya

interval atau rasio

Metode Parametrik

• Metode parametrik dapat dilakukan jikabeberapa persyaratan dipenuhi, yaitu:

• Sampel yang dianalisis haruslah berasal daripopulasi yang berdistribusi normal

• Jumlah data cukup banyak• Jenis data yang dianalisis adalah biasanya

interval atau rasio

• Metode parametrik dapat dilakukan jikabeberapa persyaratan dipenuhi, yaitu:

• Sampel yang dianalisis haruslah berasal daripopulasi yang berdistribusi normal

• Jumlah data cukup banyak• Jenis data yang dianalisis adalah biasanya

interval atau rasio

117

Page 118: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Metode ini dapat dipergunakan secara lebih luas,karena tidak mengharuskan datanya berdistribusinormal

• Dapat dipakai untuk data nominal dan ordinal sehinggasangat berguna bagi para peneliti sosial untuk menelitiperilaku konsumen, sikap manusia, dsb

• Cenderung lebih sederhana dibandingkan dengan metodeparametrik

• Selain keuntungannya, berikut kelemahan metode nonparametrik:

• Tidak adanya sistematika yang jelas seperti metodeparametrik

• Terlalu sederhana sehingga sering meragukan• Memakai tabel-tabel yang lebih bervariasi dibandingkan

dengan tabel-tabel standar pada metode parametrik

Metode Non Parametrik

• Metode ini dapat dipergunakan secara lebih luas,karena tidak mengharuskan datanya berdistribusinormal

• Dapat dipakai untuk data nominal dan ordinal sehinggasangat berguna bagi para peneliti sosial untuk menelitiperilaku konsumen, sikap manusia, dsb

• Cenderung lebih sederhana dibandingkan dengan metodeparametrik

• Selain keuntungannya, berikut kelemahan metode nonparametrik:

• Tidak adanya sistematika yang jelas seperti metodeparametrik

• Terlalu sederhana sehingga sering meragukan• Memakai tabel-tabel yang lebih bervariasi dibandingkan

dengan tabel-tabel standar pada metode parametrik

• Metode ini dapat dipergunakan secara lebih luas,karena tidak mengharuskan datanya berdistribusinormal

• Dapat dipakai untuk data nominal dan ordinal sehinggasangat berguna bagi para peneliti sosial untuk menelitiperilaku konsumen, sikap manusia, dsb

• Cenderung lebih sederhana dibandingkan dengan metodeparametrik

• Selain keuntungannya, berikut kelemahan metode nonparametrik:

• Tidak adanya sistematika yang jelas seperti metodeparametrik

• Terlalu sederhana sehingga sering meragukan• Memakai tabel-tabel yang lebih bervariasi dibandingkan

dengan tabel-tabel standar pada metode parametrik

118

Page 119: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Ho = tidak ada perbedaan signifikan• Ha = ada perbedaan signifikan

alpha=0.05Bila p < 0.05, maka Ho ditolak

• Contoh: kasus p=0.03, maka dapatditarik kesimpulan?

Interpretasi

• Ho = tidak ada perbedaan signifikan• Ha = ada perbedaan signifikan

alpha=0.05Bila p < 0.05, maka Ho ditolak

• Contoh: kasus p=0.03, maka dapatditarik kesimpulan?

• Ho = tidak ada perbedaan signifikan• Ha = ada perbedaan signifikan

alpha=0.05Bila p < 0.05, maka Ho ditolak

• Contoh: kasus p=0.03, maka dapatditarik kesimpulan?

119

Page 120: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Lakukan training pada data mahasiswa(datakelulusanmahasiswa.xls) denganmenggunakan C4.5, NB, K-NN dan LogR

2. Lakukan pengujian dengan menggunakan10-fold X Validation

3. Uji beda dengan t-Test untuk mendapatkanmodel terbaik

Latihan: Prediksi Kelulusan Mahasiswa

1. Lakukan training pada data mahasiswa(datakelulusanmahasiswa.xls) denganmenggunakan C4.5, NB, K-NN dan LogR

2. Lakukan pengujian dengan menggunakan10-fold X Validation

3. Uji beda dengan t-Test untuk mendapatkanmodel terbaik

120

Page 121: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Komparasi Accuracy dan AUC

• Uji Beda (t-Test)

• Urutan model terbaik: 1. C4.5 2. NB1 2.k-NN 2. LogR

Hasil Prediksi Kelulusan Mahasiswa

C4.5 NB K-NN LogR

Accuracy 91.55% 82.58% 83.63% 77.47%

• Komparasi Accuracy dan AUC

• Uji Beda (t-Test)

• Urutan model terbaik: 1. C4.5 2. NB1 2.k-NN 2. LogR

Accuracy 91.55% 82.58% 83.63% 77.47%

AUC 0.909 0.894 0.5 0.721

• Komparasi Accuracy dan AUC

• Uji Beda (t-Test)

• Urutan model terbaik: 1. C4.5 2. NB1 2.k-NN 2. LogR121

Page 122: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Lakukan training pada data cpu (cpu.xls) denganmenggunakan algoritma linear regression, neuralnetwork dan support vector machine

2. Lakukan pengujian dengan XValidation(numerical)

3. Ukur performance-nya dengan menggunakanRMSE (Root Mean Square Error)

4. Urutan model terbaik: 1. LR 2. NN 3. SVM

Latihan: Estimasi Performance CPU

1. Lakukan training pada data cpu (cpu.xls) denganmenggunakan algoritma linear regression, neuralnetwork dan support vector machine

2. Lakukan pengujian dengan XValidation(numerical)

3. Ukur performance-nya dengan menggunakanRMSE (Root Mean Square Error)

4. Urutan model terbaik: 1. LR 2. NN 3. SVM

LR NN SVM

1. Lakukan training pada data cpu (cpu.xls) denganmenggunakan algoritma linear regression, neuralnetwork dan support vector machine

2. Lakukan pengujian dengan XValidation(numerical)

3. Ukur performance-nya dengan menggunakanRMSE (Root Mean Square Error)

4. Urutan model terbaik: 1. LR 2. NN 3. SVM

122

LR NN SVM

RMSE 57.707 61.276 101.559

Page 123: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Lakukan training pada data minyak pemanas(HeatingOil.csv) dengan menggunakan algoritmalinear regression, neural network dan supportvector machine

2. Lakukan pengujian dengan XValidation(numerical)

3. Ukur performance-nya dengan menggunakanRMSE (Root Mean Square Error)

4. Urutan model terbaik: 1. 2. 3.

Latihan: Estimasi Konsumsi Minyak

1. Lakukan training pada data minyak pemanas(HeatingOil.csv) dengan menggunakan algoritmalinear regression, neural network dan supportvector machine

2. Lakukan pengujian dengan XValidation(numerical)

3. Ukur performance-nya dengan menggunakanRMSE (Root Mean Square Error)

4. Urutan model terbaik: 1. 2. 3.

1. Lakukan training pada data minyak pemanas(HeatingOil.csv) dengan menggunakan algoritmalinear regression, neural network dan supportvector machine

2. Lakukan pengujian dengan XValidation(numerical)

3. Ukur performance-nya dengan menggunakanRMSE (Root Mean Square Error)

4. Urutan model terbaik: 1. 2. 3.

123

LR NN SVM

RMSE

Page 124: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Lakukan training pada data pemilu (datapemilukpu.xls)dengan menggunakan algoritma Naive Bayes,K-Nearest Neighbor, RandomForest, Logistic Regression

2. Lakukan pengujian dengan menggunakan XValidation3. Ukur performance-nya dengan confusion matrix dan

ROC Curve4. Masukkan setiap hasil percobaan ke dalam file Excel

Latihan: Prediksi Elektabilitas Caleg

1. Lakukan training pada data pemilu (datapemilukpu.xls)dengan menggunakan algoritma Naive Bayes,K-Nearest Neighbor, RandomForest, Logistic Regression

2. Lakukan pengujian dengan menggunakan XValidation3. Ukur performance-nya dengan confusion matrix dan

ROC Curve4. Masukkan setiap hasil percobaan ke dalam file Excel

124

DT NB K-NN RF LR LDA

Accuracy 92.21% 76.89% 89.63%

AUC 0.851 0.826 0.5

Page 125: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Lakukan training pada data harga saham(hargasaham-training.xls) dengan neural network,linear regression, support vector machine

2. Lakukan pengujian dengan menggunakanXValidation

3. Ukur performance-nya dengan confusion matrix danROC Curve

Latihan: Prediksi Harga Saham

1. Lakukan training pada data harga saham(hargasaham-training.xls) dengan neural network,linear regression, support vector machine

2. Lakukan pengujian dengan menggunakanXValidation

3. Ukur performance-nya dengan confusion matrix danROC Curve

125

LR NN SVM

RMSE

Page 126: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Lakukan training pada data iris (ambil darirepositories rapidminer) dengan menggunakanalgoritma clustering k-means

2. Gunakan pilihan nilai untuk k, isikan dengan 3, 4, 5,6, 7

3. Ukur performance-nya dengan Cluster DistancePerformance, dari analisis Davies Bouldin Indeks(DBI), tentukan nilai k yang paling optimal

Latihan: Klastering Jenis Bunga Iris1. Lakukan training pada data iris (ambil dari

repositories rapidminer) dengan menggunakanalgoritma clustering k-means

2. Gunakan pilihan nilai untuk k, isikan dengan 3, 4, 5,6, 7

3. Ukur performance-nya dengan Cluster DistancePerformance, dari analisis Davies Bouldin Indeks(DBI), tentukan nilai k yang paling optimal

126

k=3 k=4 k=5 k=6 k=7DBI 0.666 0.764 0.806 0.910 0.99

Page 127: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• The Davies–Bouldin index (DBI) (introduced by David L. Daviesand Donald W. Bouldin in 1979) is a metric for evaluatingclustering algorithms

• This is an internal evaluation scheme, where the validation ofhow well the clustering has been done is made using quantitiesand features inherent to the dataset

• As a function of the ratio of the within cluster scatter, to thebetween cluster separation, a lower value will mean that theclustering is better

• This affirms the idea that no cluster has to be similar to another,and hence the best clustering scheme essentially minimizes theDavies–Bouldin index

• This index thus defined is an average over all the i clusters, andhence a good measure of deciding how many clusters actuallyexists in the data is to plot it against the number of clusters it iscalculated over

• The number i for which this value is the lowest is a good measureof the number of clusters the data could be ideally classified into

Davies–Bouldin index (DBI)• The Davies–Bouldin index (DBI) (introduced by David L. Davies

and Donald W. Bouldin in 1979) is a metric for evaluatingclustering algorithms

• This is an internal evaluation scheme, where the validation ofhow well the clustering has been done is made using quantitiesand features inherent to the dataset

• As a function of the ratio of the within cluster scatter, to thebetween cluster separation, a lower value will mean that theclustering is better

• This affirms the idea that no cluster has to be similar to another,and hence the best clustering scheme essentially minimizes theDavies–Bouldin index

• This index thus defined is an average over all the i clusters, andhence a good measure of deciding how many clusters actuallyexists in the data is to plot it against the number of clusters it iscalculated over

• The number i for which this value is the lowest is a good measureof the number of clusters the data could be ideally classified into

• The Davies–Bouldin index (DBI) (introduced by David L. Daviesand Donald W. Bouldin in 1979) is a metric for evaluatingclustering algorithms

• This is an internal evaluation scheme, where the validation ofhow well the clustering has been done is made using quantitiesand features inherent to the dataset

• As a function of the ratio of the within cluster scatter, to thebetween cluster separation, a lower value will mean that theclustering is better

• This affirms the idea that no cluster has to be similar to another,and hence the best clustering scheme essentially minimizes theDavies–Bouldin index

• This index thus defined is an average over all the i clusters, andhence a good measure of deciding how many clusters actuallyexists in the data is to plot it against the number of clusters it iscalculated over

• The number i for which this value is the lowest is a good measureof the number of clusters the data could be ideally classified into

127

Page 128: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Estimation:• Error: Root Mean Square Error (RMSE), MSE, MAPE, etc

2. Prediction/Forecasting (Prediksi/Peramalan):• Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc

3. Classification:• Confusion Matrix: Accuracy• ROC Curve: Area Under Curve (AUC)

4. Clustering:• Internal Evaluation: Davies–Bouldin index, Dunn index,• External Evaluation: Rand measure, F-measure, Jaccard index,

Fowlkes–Mallows index, Confusion matrix

5. Association:• Lift Charts: Lift Ratio• Precision and Recall (F-measure)

Evaluasi Data Mining

1. Estimation:• Error: Root Mean Square Error (RMSE), MSE, MAPE, etc

2. Prediction/Forecasting (Prediksi/Peramalan):• Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc

3. Classification:• Confusion Matrix: Accuracy• ROC Curve: Area Under Curve (AUC)

4. Clustering:• Internal Evaluation: Davies–Bouldin index, Dunn index,• External Evaluation: Rand measure, F-measure, Jaccard index,

Fowlkes–Mallows index, Confusion matrix

5. Association:• Lift Charts: Lift Ratio• Precision and Recall (F-measure)

1. Estimation:• Error: Root Mean Square Error (RMSE), MSE, MAPE, etc

2. Prediction/Forecasting (Prediksi/Peramalan):• Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc

3. Classification:• Confusion Matrix: Accuracy• ROC Curve: Area Under Curve (AUC)

4. Clustering:• Internal Evaluation: Davies–Bouldin index, Dunn index,• External Evaluation: Rand measure, F-measure, Jaccard index,

Fowlkes–Mallows index, Confusion matrix

5. Association:• Lift Charts: Lift Ratio• Precision and Recall (F-measure)

128

Page 129: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Lakukan ujicoba terhadap semua dataset yang ada difolder datasets, dengan menggunakan berbagai metodedata mining yang sesuai (estimasi, prediksi, klasifikasi,clustering, association)

2. Kombinasikan pengujian dengan pemecahan datatraining-testing, dan pengujian dengan menggunakanmetode X validation

3. Ukur performance dari model yang terbentuk denganmenggunakan metode pengukuran sesuai denganmetode data mining yang dipilih

4. Jelaskan secara mendetail tahapan ujicoba yangdilakukan, kemudian lakukan analisis dan sintesis, danbuat laporan dalam bentuk slide

5. Presentasikan di depan kelas

Tugas: Mengolah Semua Dataset1. Lakukan ujicoba terhadap semua dataset yang ada di

folder datasets, dengan menggunakan berbagai metodedata mining yang sesuai (estimasi, prediksi, klasifikasi,clustering, association)

2. Kombinasikan pengujian dengan pemecahan datatraining-testing, dan pengujian dengan menggunakanmetode X validation

3. Ukur performance dari model yang terbentuk denganmenggunakan metode pengukuran sesuai denganmetode data mining yang dipilih

4. Jelaskan secara mendetail tahapan ujicoba yangdilakukan, kemudian lakukan analisis dan sintesis, danbuat laporan dalam bentuk slide

5. Presentasikan di depan kelas

1. Lakukan ujicoba terhadap semua dataset yang ada difolder datasets, dengan menggunakan berbagai metodedata mining yang sesuai (estimasi, prediksi, klasifikasi,clustering, association)

2. Kombinasikan pengujian dengan pemecahan datatraining-testing, dan pengujian dengan menggunakanmetode X validation

3. Ukur performance dari model yang terbentuk denganmenggunakan metode pengukuran sesuai denganmetode data mining yang dipilih

4. Jelaskan secara mendetail tahapan ujicoba yangdilakukan, kemudian lakukan analisis dan sintesis, danbuat laporan dalam bentuk slide

5. Presentasikan di depan kelas129

Page 130: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Technical Paper:• Judul: Application and Comparison of Classification

Techniques in Controlling Credit Risk• Author: Lan Yu, Guoqing Chen, Andy Koronios, Shiwu

Zhu, and Xunhua Guo• Download:

http://romisatriawahono.net/lecture/dm/paper/

• Baca dan pahami paper di atas dan jelaskan apayang dilakukan peneliti pada paper tersebut:

1. Object Penelitian2. Masalah Penelitian3. Tujuan Penelitian4. Metode Penelitian5. Hasil Penelitian

Tugas: Mereview Paper

• Technical Paper:• Judul: Application and Comparison of Classification

Techniques in Controlling Credit Risk• Author: Lan Yu, Guoqing Chen, Andy Koronios, Shiwu

Zhu, and Xunhua Guo• Download:

http://romisatriawahono.net/lecture/dm/paper/

• Baca dan pahami paper di atas dan jelaskan apayang dilakukan peneliti pada paper tersebut:

1. Object Penelitian2. Masalah Penelitian3. Tujuan Penelitian4. Metode Penelitian5. Hasil Penelitian

• Technical Paper:• Judul: Application and Comparison of Classification

Techniques in Controlling Credit Risk• Author: Lan Yu, Guoqing Chen, Andy Koronios, Shiwu

Zhu, and Xunhua Guo• Download:

http://romisatriawahono.net/lecture/dm/paper/

• Baca dan pahami paper di atas dan jelaskan apayang dilakukan peneliti pada paper tersebut:

1. Object Penelitian2. Masalah Penelitian3. Tujuan Penelitian4. Metode Penelitian5. Hasil Penelitian

130

Page 131: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Technical Paper:• Judul: A Comparison Framework of Classification Models for

Software Defect Prediction• Author: Romi Satria Wahono, Nanna Suryana Herman,

Sabrina Ahmad• Publications: Adv. Sci. Lett. Vol. 20, No. 10-12, 2014• Download: http://romisatriawahono.net/lecture/dm/paper

• Baca dan pahami paper di atas dan jelaskan apa yangdilakukan peneliti pada paper tersebut:

1. Object Penelitian2. Masalah Penelitian3. Tujuan Penelitian4. Metode Penelitian5. Hasil Penelitian

Tugas: Mereview Paper

• Technical Paper:• Judul: A Comparison Framework of Classification Models for

Software Defect Prediction• Author: Romi Satria Wahono, Nanna Suryana Herman,

Sabrina Ahmad• Publications: Adv. Sci. Lett. Vol. 20, No. 10-12, 2014• Download: http://romisatriawahono.net/lecture/dm/paper

• Baca dan pahami paper di atas dan jelaskan apa yangdilakukan peneliti pada paper tersebut:

1. Object Penelitian2. Masalah Penelitian3. Tujuan Penelitian4. Metode Penelitian5. Hasil Penelitian

• Technical Paper:• Judul: A Comparison Framework of Classification Models for

Software Defect Prediction• Author: Romi Satria Wahono, Nanna Suryana Herman,

Sabrina Ahmad• Publications: Adv. Sci. Lett. Vol. 20, No. 10-12, 2014• Download: http://romisatriawahono.net/lecture/dm/paper

• Baca dan pahami paper di atas dan jelaskan apa yangdilakukan peneliti pada paper tersebut:

1. Object Penelitian2. Masalah Penelitian3. Tujuan Penelitian4. Metode Penelitian5. Hasil Penelitian

131

Page 132: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Technical Paper:• Judul: An experimental comparison of classification

algorithms for imbalanced credit scoring data sets• Author: Iain Brown and Christophe Mues• Publications: Expert Systems with Applications 39 (2012)

3446–3453• Download: http://romisatriawahono.net/lecture/dm/paper

• Baca dan pahami paper di atas dan jelaskan apa yangdilakukan peneliti pada paper tersebut:

1. Object Penelitian2. Masalah Penelitian3. Tujuan Penelitian4. Metode Penelitian5. Hasil Penelitian

Tugas Mereview Paper

• Technical Paper:• Judul: An experimental comparison of classification

algorithms for imbalanced credit scoring data sets• Author: Iain Brown and Christophe Mues• Publications: Expert Systems with Applications 39 (2012)

3446–3453• Download: http://romisatriawahono.net/lecture/dm/paper

• Baca dan pahami paper di atas dan jelaskan apa yangdilakukan peneliti pada paper tersebut:

1. Object Penelitian2. Masalah Penelitian3. Tujuan Penelitian4. Metode Penelitian5. Hasil Penelitian

• Technical Paper:• Judul: An experimental comparison of classification

algorithms for imbalanced credit scoring data sets• Author: Iain Brown and Christophe Mues• Publications: Expert Systems with Applications 39 (2012)

3446–3453• Download: http://romisatriawahono.net/lecture/dm/paper

• Baca dan pahami paper di atas dan jelaskan apa yangdilakukan peneliti pada paper tersebut:

1. Object Penelitian2. Masalah Penelitian3. Tujuan Penelitian4. Metode Penelitian5. Hasil Penelitian

132

Page 133: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Cari dataset yang ada di sekitar kita• Lakukan penelitian berupa komparasi dari (minimal)

5 algoritma machine learning untuk meminingknowledge dari dataset tersebut

• Gunakan uji beda (baik parametrik dan nonparametric) untuk analisis dan pembuatan rankingdari algoritma machine learning

• Tulis makalah tentang penelitian yang kita buat• Contoh-contoh makalah komparasi ada di:

http://romisatriawahono.net/lecture/dm/paper/method%20comparison/

• Upload seluruh file laporan ke Card di Trello.Com• Deadline: sehari sebelum mata kuliah berikutnya

Tugas: Menulis Paper Penelitian

• Cari dataset yang ada di sekitar kita• Lakukan penelitian berupa komparasi dari (minimal)

5 algoritma machine learning untuk meminingknowledge dari dataset tersebut

• Gunakan uji beda (baik parametrik dan nonparametric) untuk analisis dan pembuatan rankingdari algoritma machine learning

• Tulis makalah tentang penelitian yang kita buat• Contoh-contoh makalah komparasi ada di:

http://romisatriawahono.net/lecture/dm/paper/method%20comparison/

• Upload seluruh file laporan ke Card di Trello.Com• Deadline: sehari sebelum mata kuliah berikutnya

• Cari dataset yang ada di sekitar kita• Lakukan penelitian berupa komparasi dari (minimal)

5 algoritma machine learning untuk meminingknowledge dari dataset tersebut

• Gunakan uji beda (baik parametrik dan nonparametric) untuk analisis dan pembuatan rankingdari algoritma machine learning

• Tulis makalah tentang penelitian yang kita buat• Contoh-contoh makalah komparasi ada di:

http://romisatriawahono.net/lecture/dm/paper/method%20comparison/

• Upload seluruh file laporan ke Card di Trello.Com• Deadline: sehari sebelum mata kuliah berikutnya

133

Page 134: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Ikuti template dan contoh paper dari:http://journal.ilmukomputer.org

• Isi paper:• Abstract: Harus berisi obyek-masalah-metode-hasil

• Introduction: Latar belakang masalah penelitian dan struktur paper

• Related Work: Penelitian yang berhubungan

• Theoretical Foundation: Landasan dari berbagai teori yang digunakan

• Proposed Method: Metode yang diusulkan

• Experimental Results: Hasil eksperimen

• Conclusion: Kesimpulan dan future works

Paper Formatting

• Ikuti template dan contoh paper dari:http://journal.ilmukomputer.org

• Isi paper:• Abstract: Harus berisi obyek-masalah-metode-hasil

• Introduction: Latar belakang masalah penelitian dan struktur paper

• Related Work: Penelitian yang berhubungan

• Theoretical Foundation: Landasan dari berbagai teori yang digunakan

• Proposed Method: Metode yang diusulkan

• Experimental Results: Hasil eksperimen

• Conclusion: Kesimpulan dan future works

• Ikuti template dan contoh paper dari:http://journal.ilmukomputer.org

• Isi paper:• Abstract: Harus berisi obyek-masalah-metode-hasil

• Introduction: Latar belakang masalah penelitian dan struktur paper

• Related Work: Penelitian yang berhubungan

• Theoretical Foundation: Landasan dari berbagai teori yang digunakan

• Proposed Method: Metode yang diusulkan

• Experimental Results: Hasil eksperimen

• Conclusion: Kesimpulan dan future works

134

Page 135: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Dataset – Methods – Knowledge1. Dataset Main Golf2. Dataset Harga Saham3. Dataset Kelulusan Mahasiswa4. Dataset Pemilu5. Dataset Credit Risk6. Dataset Heating Oil7. Dataset Transaksi

2. Dataset – Methods – Knowledge – Evaluation1. Manual2. Data Split3. Cross Validation

3. Methods Comparison• Uji t-Test

4. Paper Reading1. Lan Yu (t-Test)2. Wahono (Friedman Test)

Competency Check1. Dataset – Methods – Knowledge

1. Dataset Main Golf2. Dataset Harga Saham3. Dataset Kelulusan Mahasiswa4. Dataset Pemilu5. Dataset Credit Risk6. Dataset Heating Oil7. Dataset Transaksi

2. Dataset – Methods – Knowledge – Evaluation1. Manual2. Data Split3. Cross Validation

3. Methods Comparison• Uji t-Test

4. Paper Reading1. Lan Yu (t-Test)2. Wahono (Friedman Test)

1. Dataset – Methods – Knowledge1. Dataset Main Golf2. Dataset Harga Saham3. Dataset Kelulusan Mahasiswa4. Dataset Pemilu5. Dataset Credit Risk6. Dataset Heating Oil7. Dataset Transaksi

2. Dataset – Methods – Knowledge – Evaluation1. Manual2. Data Split3. Cross Validation

3. Methods Comparison• Uji t-Test

4. Paper Reading1. Lan Yu (t-Test)2. Wahono (Friedman Test)

135

Page 136: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

2.5 Proses Standard pada Data Mining(CRISP-DM)

136

Page 137: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• A cross-industry standard was clearlyrequired that is industry neutral, tool-neutral, and application-neutral

• The Cross-Industry Standard Process for DataMining (CRISP–DM) was developed in 1996(Chapman, 2000)

• CRISP-DM provides a nonproprietary andfreely available standard process for fittingdata mining into the general problem-solvingstrategy of a business or research unit

Data Mining Standard Process

• A cross-industry standard was clearlyrequired that is industry neutral, tool-neutral, and application-neutral

• The Cross-Industry Standard Process for DataMining (CRISP–DM) was developed in 1996(Chapman, 2000)

• CRISP-DM provides a nonproprietary andfreely available standard process for fittingdata mining into the general problem-solvingstrategy of a business or research unit

• A cross-industry standard was clearlyrequired that is industry neutral, tool-neutral, and application-neutral

• The Cross-Industry Standard Process for DataMining (CRISP–DM) was developed in 1996(Chapman, 2000)

• CRISP-DM provides a nonproprietary andfreely available standard process for fittingdata mining into the general problem-solvingstrategy of a business or research unit

137

Page 138: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

CRISP-DM

138

Page 139: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Enunciate the project objectives andrequirements clearly in terms of the businessor research unit as a whole

• Translate these goals and restrictions intothe formulation of a data mining problemdefinition

• Prepare a preliminary strategy for achievingthese objectives

• Designing what you are going to build

1. Business Understanding

• Enunciate the project objectives andrequirements clearly in terms of the businessor research unit as a whole

• Translate these goals and restrictions intothe formulation of a data mining problemdefinition

• Prepare a preliminary strategy for achievingthese objectives

• Designing what you are going to build

• Enunciate the project objectives andrequirements clearly in terms of the businessor research unit as a whole

• Translate these goals and restrictions intothe formulation of a data mining problemdefinition

• Prepare a preliminary strategy for achievingthese objectives

• Designing what you are going to build

139

Page 140: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Collect the data• Use exploratory data analysis to familiarize

yourself with the data and discover initialinsights

• Evaluate the quality of the data• If desired, select interesting subsets that may

contain actionable patterns

2. Data Understanding

• Collect the data• Use exploratory data analysis to familiarize

yourself with the data and discover initialinsights

• Evaluate the quality of the data• If desired, select interesting subsets that may

contain actionable patterns

• Collect the data• Use exploratory data analysis to familiarize

yourself with the data and discover initialinsights

• Evaluate the quality of the data• If desired, select interesting subsets that may

contain actionable patterns

140

Page 141: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Prepare from the initial raw data the finaldata set that is to be used for all subsequentphases

• Select the cases and variables you want toanalyze and that are appropriate for youranalysis

• Perform data cleaning, integration, reductionand transformation, so it is ready for themodeling tools

3. Data Preparation

• Prepare from the initial raw data the finaldata set that is to be used for all subsequentphases

• Select the cases and variables you want toanalyze and that are appropriate for youranalysis

• Perform data cleaning, integration, reductionand transformation, so it is ready for themodeling tools

• Prepare from the initial raw data the finaldata set that is to be used for all subsequentphases

• Select the cases and variables you want toanalyze and that are appropriate for youranalysis

• Perform data cleaning, integration, reductionand transformation, so it is ready for themodeling tools

141

Page 142: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Select and apply appropriate modelingtechniques

• Calibrate model settings to optimize results• Remember that often, several different

techniques may be used for the same datamining problem

• If necessary, loop back to the datapreparation phase to bring the form of thedata into line with the specific requirementsof a particular data mining technique

4. Modeling

• Select and apply appropriate modelingtechniques

• Calibrate model settings to optimize results• Remember that often, several different

techniques may be used for the same datamining problem

• If necessary, loop back to the datapreparation phase to bring the form of thedata into line with the specific requirementsof a particular data mining technique

• Select and apply appropriate modelingtechniques

• Calibrate model settings to optimize results• Remember that often, several different

techniques may be used for the same datamining problem

• If necessary, loop back to the datapreparation phase to bring the form of thedata into line with the specific requirementsof a particular data mining technique

142

Page 143: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Evaluate the one or more models delivered inthe modeling phase for quality andeffectiveness before deploying them for use inthe field

• Determine whether the model in fact achievesthe objectives set for it in the first phase

• Establish whether some important facet of thebusiness or research problem has not beenaccounted for sufficiently

• Come to a decision regarding use of the datamining results

5. Evaluation

• Evaluate the one or more models delivered inthe modeling phase for quality andeffectiveness before deploying them for use inthe field

• Determine whether the model in fact achievesthe objectives set for it in the first phase

• Establish whether some important facet of thebusiness or research problem has not beenaccounted for sufficiently

• Come to a decision regarding use of the datamining results

• Evaluate the one or more models delivered inthe modeling phase for quality andeffectiveness before deploying them for use inthe field

• Determine whether the model in fact achievesthe objectives set for it in the first phase

• Establish whether some important facet of thebusiness or research problem has not beenaccounted for sufficiently

• Come to a decision regarding use of the datamining results

143

Page 144: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Make use of the models created:• model creation does not signify the completion of a

project

• Example of a simple deployment:• Generate a report

• Example of a more complex deployment:• Implement a parallel data mining process in another

department

• For businesses, the customer often carriesout the deployment based on your model

6. Deployment

• Make use of the models created:• model creation does not signify the completion of a

project

• Example of a simple deployment:• Generate a report

• Example of a more complex deployment:• Implement a parallel data mining process in another

department

• For businesses, the customer often carriesout the deployment based on your model

• Make use of the models created:• model creation does not signify the completion of a

project

• Example of a simple deployment:• Generate a report

• Example of a more complex deployment:• Implement a parallel data mining process in another

department

• For businesses, the customer often carriesout the deployment based on your model

144

Page 145: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Studi Kasus CRISP-DM

Heating Oil Consumption – Correlational Methods(Matthew North, Data Mining for the Masses 2nd Edition, 2016,Chapter 4 Correlational Methods, pp. 69-76)Dataset: HeatingOil.csv

Heating Oil Consumption – Correlational Methods(Matthew North, Data Mining for the Masses 2nd Edition, 2016,Chapter 4 Correlational Methods, pp. 69-76)Dataset: HeatingOil.csv

145

Page 146: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

CRISP-DM

146

Page 147: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

CRISP-DM: Detail Flow

147

Page 148: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Motivation:• Sarah is a regional sales manager for a nationwide supplier of

fossil fuels for home heating• She feels a need to understand the types of behaviors and

other factors that may influence the demand for heating oil inthe domestic market

• She recognizes that there are many factors that influenceheating oil consumption, and believes that by investigatingthe relationship between a number of those factors, she willbe able to better monitor and respond to heating oil demand

• She has selected correlation as a way to model therelationship between the factors she wishes to investigate.Correlation is a statistical measure of how strong therelationships are between attributes in a data set

• Objective:• To investigate the relationship between a number of factors

that influence heating oil consumption

1. Business Understanding

• Motivation:• Sarah is a regional sales manager for a nationwide supplier of

fossil fuels for home heating• She feels a need to understand the types of behaviors and

other factors that may influence the demand for heating oil inthe domestic market

• She recognizes that there are many factors that influenceheating oil consumption, and believes that by investigatingthe relationship between a number of those factors, she willbe able to better monitor and respond to heating oil demand

• She has selected correlation as a way to model therelationship between the factors she wishes to investigate.Correlation is a statistical measure of how strong therelationships are between attributes in a data set

• Objective:• To investigate the relationship between a number of factors

that influence heating oil consumption

• Motivation:• Sarah is a regional sales manager for a nationwide supplier of

fossil fuels for home heating• She feels a need to understand the types of behaviors and

other factors that may influence the demand for heating oil inthe domestic market

• She recognizes that there are many factors that influenceheating oil consumption, and believes that by investigatingthe relationship between a number of those factors, she willbe able to better monitor and respond to heating oil demand

• She has selected correlation as a way to model therelationship between the factors she wishes to investigate.Correlation is a statistical measure of how strong therelationships are between attributes in a data set

• Objective:• To investigate the relationship between a number of factors

that influence heating oil consumption

148

Page 149: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• In order to investigate her question, Sarah has enlisted ourhelp in creating a correlation matrix of six attributes

• Using employer’s data resources which are primarily drawnfrom the company’s billing database, we create a data setcomprised of the following attributes:

1. Insulation: This is a density rating, ranging from one to ten,indicating the thickness of each home’s insulation. A homewith a density rating of one is poorly insulated, while a homewith a density of ten has excellent insulation

2. Temperature: This is the average outdoor ambienttemperature at each home for the most recent year, measurein degree Fahrenheit

3. Heating_Oil: This is the total number of units of heating oilpurchased by the owner of each home in the most recent year

4. Num_Occupants: This is the total number of occupants livingin each home

5. Avg_Age: This is the average age of those occupants6. Home_Size: This is a rating, on a scale of one to eight, of the

home’s overall size. The higher the number, the larger thehome

2. Data Understanding• In order to investigate her question, Sarah has enlisted our

help in creating a correlation matrix of six attributes• Using employer’s data resources which are primarily drawn

from the company’s billing database, we create a data setcomprised of the following attributes:

1. Insulation: This is a density rating, ranging from one to ten,indicating the thickness of each home’s insulation. A homewith a density rating of one is poorly insulated, while a homewith a density of ten has excellent insulation

2. Temperature: This is the average outdoor ambienttemperature at each home for the most recent year, measurein degree Fahrenheit

3. Heating_Oil: This is the total number of units of heating oilpurchased by the owner of each home in the most recent year

4. Num_Occupants: This is the total number of occupants livingin each home

5. Avg_Age: This is the average age of those occupants6. Home_Size: This is a rating, on a scale of one to eight, of the

home’s overall size. The higher the number, the larger thehome

• In order to investigate her question, Sarah has enlisted ourhelp in creating a correlation matrix of six attributes

• Using employer’s data resources which are primarily drawnfrom the company’s billing database, we create a data setcomprised of the following attributes:

1. Insulation: This is a density rating, ranging from one to ten,indicating the thickness of each home’s insulation. A homewith a density rating of one is poorly insulated, while a homewith a density of ten has excellent insulation

2. Temperature: This is the average outdoor ambienttemperature at each home for the most recent year, measurein degree Fahrenheit

3. Heating_Oil: This is the total number of units of heating oilpurchased by the owner of each home in the most recent year

4. Num_Occupants: This is the total number of occupants livingin each home

5. Avg_Age: This is the average age of those occupants6. Home_Size: This is a rating, on a scale of one to eight, of the

home’s overall size. The higher the number, the larger thehome

149

Page 150: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Data set: HeatingOil.csv3. Data Preparation

150

Page 151: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Data set appears to be very clean with:• No missing values in any of the six attributes• No inconsistent data apparent in our ranges (Min-Max)

or other descriptive statistics

3. Data Preparation• Data set appears to be very clean with:

• No missing values in any of the six attributes• No inconsistent data apparent in our ranges (Min-Max)

or other descriptive statistics

151

Page 152: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

4. Modeling

152

Page 153: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Hasil correlation matrix berupa tabel• Semakin tinggi nilainya (semakin tebal warna

ungu), semakin tinggi tingkat korelasinya

4. Modeling

• Hasil correlation matrix berupa tabel• Semakin tinggi nilainya (semakin tebal warna

ungu), semakin tinggi tingkat korelasinya

153

Page 154: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

5. EvaluationPositiveCorrelation

NegativeCorrelationNegativeCorrelation

154

Page 155: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Atribut (faktor) yang paling signifikan berpengaruh (hubungan positif)pada konsumsi minyak pemanas (Heating Oil) adalah Average Age (Rata-Rata Umur) penghuni rumah

• Atribut (faktor) kedua yang paling berpengaruh adalah Temperature(hubungan negatif)

• Atribut (faktor) ketiga yang paling berpengaruh adalah Insulation(hubungan positif)

• Atribut Home Size, pengaruhnya sangat kecil, sedangkan Num_Occupantboleh dikatakan tidak ada pengaruh ke konsumsi minyak pemanas

5. Evaluation• Atribut (faktor) yang paling signifikan berpengaruh (hubungan positif)

pada konsumsi minyak pemanas (Heating Oil) adalah Average Age (Rata-Rata Umur) penghuni rumah

• Atribut (faktor) kedua yang paling berpengaruh adalah Temperature(hubungan negatif)

• Atribut (faktor) ketiga yang paling berpengaruh adalah Insulation(hubungan positif)

• Atribut Home Size, pengaruhnya sangat kecil, sedangkan Num_Occupantboleh dikatakan tidak ada pengaruh ke konsumsi minyak pemanas

155

Page 156: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

5. Evaluation 1

2

• Grafik menunjukkan bahwa konsumsi minyak memiliki korelasipositif dengan rata-rata usia

• Meskipun ada beberapa anomali juga terjadi:1. Ada beberapa orang yang rata-rata usia tinggi, tapi kebutuhan

minyaknya rendah (warna biru muda di kolom kiri bagian atas)2. Ada beberapa orang yang rata-rata usia rendah, tapi kebutuhan

minyaknya tinggi (warna merah di kolom kanan bagian bawah)156

Page 157: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

5. Evaluation 2 dan 3

2 dan 3

1. Grafik menunjukkan hubungan antara temperature dan insulation, dengan warna adalah konsumsi minyak(semakin merah kebutuhan minyak semakin tinggi)

2. Secara umum dapat dikatakan bahwa hubungan temperatur dengan insulation dan konsumsi minyak adalahnegatif. Jadi temperatur semakin rendah, kebutuhan minyak semakin tinggi (kolom kiri bagian atas) ditunjukkandengan banyak yang berwarna kuning dan merah

3. Insulation juga berhubungan negatif dengan temperatur, sehingga makin rendah temperatur, semakin butuhinsulation

4. Beberapa anomali terdapat pada Insulation yang rendah nilainya, ada beberapa yang masih memerlukan minyakyang tinggi

2 dan 3

4

1. Grafik menunjukkan hubungan antara temperature dan insulation, dengan warna adalah konsumsi minyak(semakin merah kebutuhan minyak semakin tinggi)

2. Secara umum dapat dikatakan bahwa hubungan temperatur dengan insulation dan konsumsi minyak adalahnegatif. Jadi temperatur semakin rendah, kebutuhan minyak semakin tinggi (kolom kiri bagian atas) ditunjukkandengan banyak yang berwarna kuning dan merah

3. Insulation juga berhubungan negatif dengan temperatur, sehingga makin rendah temperatur, semakin butuhinsulation

4. Beberapa anomali terdapat pada Insulation yang rendah nilainya, ada beberapa yang masih memerlukan minyakyang tinggi 157

Page 158: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

5. Evaluation

4

1. Grafik tiga dimensi menunjukkan hubungan antara temperatur, rata-ratausia dan insulation

2. Warna menunjukkan kebutuhan minyak, semakin memerah makasemakin tinggi

3. Temperatur semakin tinggi semakin tidak butuh minyak (warna biru tua4. Rata-rata usia dan insulation semakin tinggi semakin butuh minyak

2

1. Grafik tiga dimensi menunjukkan hubungan antara temperatur, rata-ratausia dan insulation

2. Warna menunjukkan kebutuhan minyak, semakin memerah makasemakin tinggi

3. Temperatur semakin tinggi semakin tidak butuh minyak (warna biru tua4. Rata-rata usia dan insulation semakin tinggi semakin butuh minyak

158

Page 159: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Dropping the Num_Occupants attribute

• While the number of people living in a home mightlogically seem like a variable that would influenceenergy usage, in our model it did not correlate in anysignificant way with anything else

• Sometimes there are attributes that don’t turn out tobe very interesting

6. DeploymentDropping the Num_Occupants attribute

• While the number of people living in a home mightlogically seem like a variable that would influenceenergy usage, in our model it did not correlate in anysignificant way with anything else

• Sometimes there are attributes that don’t turn out tobe very interesting

159

Page 160: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Adding additional attributes to the data set

• It turned out that the number of occupants in thehome didn’t correlate much with other attributes,but that doesn’t mean that other attributes wouldbe equally uninteresting

• For example, what if Sarah had access to thenumber of furnaces and/or boilers in each home?

• Home_size was slightly correlated with Heating_Oilusage, so perhaps the number of instruments thatconsume heating oil in each home would tell aninteresting story, or at least add to her insight

6. Deployment

Adding additional attributes to the data set

• It turned out that the number of occupants in thehome didn’t correlate much with other attributes,but that doesn’t mean that other attributes wouldbe equally uninteresting

• For example, what if Sarah had access to thenumber of furnaces and/or boilers in each home?

• Home_size was slightly correlated with Heating_Oilusage, so perhaps the number of instruments thatconsume heating oil in each home would tell aninteresting story, or at least add to her insight

Adding additional attributes to the data set

• It turned out that the number of occupants in thehome didn’t correlate much with other attributes,but that doesn’t mean that other attributes wouldbe equally uninteresting

• For example, what if Sarah had access to thenumber of furnaces and/or boilers in each home?

• Home_size was slightly correlated with Heating_Oilusage, so perhaps the number of instruments thatconsume heating oil in each home would tell aninteresting story, or at least add to her insight

160

Page 161: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Investigating the role of home insulation

• The Insulation rating attribute was fairly stronglycorrelated with a number of other attributes

• There may be some opportunity there to partnerwith a company that specializes in adding insulationto existing homes

6. Deployment

Investigating the role of home insulation

• The Insulation rating attribute was fairly stronglycorrelated with a number of other attributes

• There may be some opportunity there to partnerwith a company that specializes in adding insulationto existing homes

161

Page 162: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Focusing the marketing efforts to the city with lowtemperature and high average age of citizen

• The temperature attribute was fairly strongly negativecorrelated with a heating oil consumption

• The average age attribute was strongest positivecorrelated with a heating oil consumption

6. DeploymentFocusing the marketing efforts to the city with lowtemperature and high average age of citizen

• The temperature attribute was fairly strongly negativecorrelated with a heating oil consumption

• The average age attribute was strongest positivecorrelated with a heating oil consumption

Focusing the marketing efforts to the city with lowtemperature and high average age of citizen

• The temperature attribute was fairly strongly negativecorrelated with a heating oil consumption

• The average age attribute was strongest positivecorrelated with a heating oil consumption

162

Page 163: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Adding greater granularity in the data set

• This data set has yielded some interesting results, but it’spretty general

• We have used average yearly temperatures and totalannual number of heating oil units in this model

• But we also know that temperatures fluctuatethroughout the year in most areas of the world, and thusmonthly, or even weekly measures would not only belikely to show more detailed results of demand and usageover time, but the correlations between attributes wouldprobably be more interesting

• From our model, Sarah now knows how certain attributesinteract with one another, but in the day-to-day businessof doing her job, she’ll probably want to know aboutusage over time periods shorter than one year

6. Deployment

Adding greater granularity in the data set

• This data set has yielded some interesting results, but it’spretty general

• We have used average yearly temperatures and totalannual number of heating oil units in this model

• But we also know that temperatures fluctuatethroughout the year in most areas of the world, and thusmonthly, or even weekly measures would not only belikely to show more detailed results of demand and usageover time, but the correlations between attributes wouldprobably be more interesting

• From our model, Sarah now knows how certain attributesinteract with one another, but in the day-to-day businessof doing her job, she’ll probably want to know aboutusage over time periods shorter than one year

Adding greater granularity in the data set

• This data set has yielded some interesting results, but it’spretty general

• We have used average yearly temperatures and totalannual number of heating oil units in this model

• But we also know that temperatures fluctuatethroughout the year in most areas of the world, and thusmonthly, or even weekly measures would not only belikely to show more detailed results of demand and usageover time, but the correlations between attributes wouldprobably be more interesting

• From our model, Sarah now knows how certain attributesinteract with one another, but in the day-to-day businessof doing her job, she’ll probably want to know aboutusage over time periods shorter than one year

163

Page 164: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Studi Kasus CRISP-DM

Heating Oil Consumption – Linear Regression(Matthew North, Data Mining for the Masses 2nd Edition, 2016,Chapter 8 Linear Regression, pp. 159-171)Dataset: HeatingOil.csvDataset: HeatingOil-scoring.csvhttp://romisatriawahono.net/lecture/dm/dataset/

Heating Oil Consumption – Linear Regression(Matthew North, Data Mining for the Masses 2nd Edition, 2016,Chapter 8 Linear Regression, pp. 159-171)Dataset: HeatingOil.csvDataset: HeatingOil-scoring.csvhttp://romisatriawahono.net/lecture/dm/dataset/

164

Page 165: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

CRISP-DM

165

Page 166: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

CRISP-DM: Detail Flow

166

Page 167: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Business is booming, her sales team is signing upthousands of new clients, and she wants to be sure thecompany will be able to meet this new level of demand

• Sarah’s new data mining objective is pretty clear: shewants to anticipate demand for a consumable product

• We will use a linear regression model to help her withher desired predictions. She has data, 1,218observations that give an attribute profile for eachhome, along with those homes’ annual heating oilconsumption

• She wants to use this data set as training data topredict the usage that 42,650 new clients will bring toher company

• She knows that these new clients’ homes are similar innature to her existing client base, so the existingcustomers’ usage behavior should serve as a solidgauge for predicting future usage by new customers

1. Business Understanding• Business is booming, her sales team is signing up

thousands of new clients, and she wants to be sure thecompany will be able to meet this new level of demand

• Sarah’s new data mining objective is pretty clear: shewants to anticipate demand for a consumable product

• We will use a linear regression model to help her withher desired predictions. She has data, 1,218observations that give an attribute profile for eachhome, along with those homes’ annual heating oilconsumption

• She wants to use this data set as training data topredict the usage that 42,650 new clients will bring toher company

• She knows that these new clients’ homes are similar innature to her existing client base, so the existingcustomers’ usage behavior should serve as a solidgauge for predicting future usage by new customers

• Business is booming, her sales team is signing upthousands of new clients, and she wants to be sure thecompany will be able to meet this new level of demand

• Sarah’s new data mining objective is pretty clear: shewants to anticipate demand for a consumable product

• We will use a linear regression model to help her withher desired predictions. She has data, 1,218observations that give an attribute profile for eachhome, along with those homes’ annual heating oilconsumption

• She wants to use this data set as training data topredict the usage that 42,650 new clients will bring toher company

• She knows that these new clients’ homes are similar innature to her existing client base, so the existingcustomers’ usage behavior should serve as a solidgauge for predicting future usage by new customers

167

Page 168: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Sarah has assembled separate Comma Separated Values filecontaining all of these same attributes, for her 42,650 newclients

• She has provided this data set to us to use as the scoringdata set in our model

• Data set comprised of the following attributes:• Insulation: This is a density rating, ranging from one to ten,

indicating the thickness of each home’s insulation. A home witha density rating of one is poorly insulated, while a home with adensity of ten has excellent insulation

• Temperature: This is the average outdoor ambient temperatureat each home for the most recent year, measure in degreeFahrenheit

• Heating_Oil: This is the total number of units of heating oilpurchased by the owner of each home in the most recent year

• Num_Occupants: This is the total number of occupants living ineach home

• Avg_Age: This is the average age of those occupants• Home_Size: This is a rating, on a scale of one to eight, of the

home’s overall size. The higher the number, the larger the home

2. Data Understanding• Sarah has assembled separate Comma Separated Values file

containing all of these same attributes, for her 42,650 newclients

• She has provided this data set to us to use as the scoringdata set in our model

• Data set comprised of the following attributes:• Insulation: This is a density rating, ranging from one to ten,

indicating the thickness of each home’s insulation. A home witha density rating of one is poorly insulated, while a home with adensity of ten has excellent insulation

• Temperature: This is the average outdoor ambient temperatureat each home for the most recent year, measure in degreeFahrenheit

• Heating_Oil: This is the total number of units of heating oilpurchased by the owner of each home in the most recent year

• Num_Occupants: This is the total number of occupants living ineach home

• Avg_Age: This is the average age of those occupants• Home_Size: This is a rating, on a scale of one to eight, of the

home’s overall size. The higher the number, the larger the home

• Sarah has assembled separate Comma Separated Values filecontaining all of these same attributes, for her 42,650 newclients

• She has provided this data set to us to use as the scoringdata set in our model

• Data set comprised of the following attributes:• Insulation: This is a density rating, ranging from one to ten,

indicating the thickness of each home’s insulation. A home witha density rating of one is poorly insulated, while a home with adensity of ten has excellent insulation

• Temperature: This is the average outdoor ambient temperatureat each home for the most recent year, measure in degreeFahrenheit

• Heating_Oil: This is the total number of units of heating oilpurchased by the owner of each home in the most recent year

• Num_Occupants: This is the total number of occupants living ineach home

• Avg_Age: This is the average age of those occupants• Home_Size: This is a rating, on a scale of one to eight, of the

home’s overall size. The higher the number, the larger the home168

Page 169: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Filter Examples: attribute value filter or custom filter• Avg_Age>=15.1• Avg_Age<=72.2

• Deleted Records= 42650-42042 = 508

3. Data Preparation• Filter Examples: attribute value filter or custom filter

• Avg_Age>=15.1• Avg_Age<=72.2

• Deleted Records= 42650-42042 = 508

• Filter Examples: attribute value filter or custom filter• Avg_Age>=15.1• Avg_Age<=72.2

• Deleted Records= 42650-42042 = 508

169

Page 170: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

170

Page 171: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

3. Modeling

171

Page 172: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

4. Evaluation

172

Page 173: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

5. Deployment

173

Page 174: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Karena bantuan data mining sebelumnya, Sarah akhirnya mendapatkanpromosi menjadi VP marketing, yang mengelola ratusan marketer

• Sarah ingin para marketer dapat memprediksi pelanggan potensialmereka masing-masing secara mandiri. Masalahnya, dataHeatingOil.csv hanya boleh diakses oleh level VP (Sarah), dan tidakdiperbolehkan diakses oleh marketer secara langsung

• Sarah ingin masing-masing marketer membuat proses yang dapatmengestimasi kebutuhan konsumsi minyak dari client yang merekaapproach, dengan menggunakan model yang sebelumnya dihasilkanoleh Sarah, meskipun tanpa mengakses data training (HeatingOil.csv)

• Asumsikan bahwa data HeatingOil-Marketing.csv adalah data calonpelanggan yang berhasil di approach oleh salah satu marketingnya

• Yang harus dilakukan Sarah adalah membuat proses untuk:1. Mengkomparasi algoritma yang menghasilkan model yang memiliki akurasi

tertinggi (LR, NN, SVM), gunakan 10 Fold X Validation2. Menyimpan model ke dalam suatu file (operator Write Model)

• Yang harus dilakukan Marketer adalah membuat proses untuk:1. Membaca model yang dihasilkan Sarah (operator Read Model)2. Menerapkannya di data HeatingOil-Marketing.csv yang mereka miliki

• Mari kita bantu Sarah dan Marketer membuat dua proses tersebut

Latihan• Karena bantuan data mining sebelumnya, Sarah akhirnya mendapatkan

promosi menjadi VP marketing, yang mengelola ratusan marketer• Sarah ingin para marketer dapat memprediksi pelanggan potensial

mereka masing-masing secara mandiri. Masalahnya, dataHeatingOil.csv hanya boleh diakses oleh level VP (Sarah), dan tidakdiperbolehkan diakses oleh marketer secara langsung

• Sarah ingin masing-masing marketer membuat proses yang dapatmengestimasi kebutuhan konsumsi minyak dari client yang merekaapproach, dengan menggunakan model yang sebelumnya dihasilkanoleh Sarah, meskipun tanpa mengakses data training (HeatingOil.csv)

• Asumsikan bahwa data HeatingOil-Marketing.csv adalah data calonpelanggan yang berhasil di approach oleh salah satu marketingnya

• Yang harus dilakukan Sarah adalah membuat proses untuk:1. Mengkomparasi algoritma yang menghasilkan model yang memiliki akurasi

tertinggi (LR, NN, SVM), gunakan 10 Fold X Validation2. Menyimpan model ke dalam suatu file (operator Write Model)

• Yang harus dilakukan Marketer adalah membuat proses untuk:1. Membaca model yang dihasilkan Sarah (operator Read Model)2. Menerapkannya di data HeatingOil-Marketing.csv yang mereka miliki

• Mari kita bantu Sarah dan Marketer membuat dua proses tersebut

• Karena bantuan data mining sebelumnya, Sarah akhirnya mendapatkanpromosi menjadi VP marketing, yang mengelola ratusan marketer

• Sarah ingin para marketer dapat memprediksi pelanggan potensialmereka masing-masing secara mandiri. Masalahnya, dataHeatingOil.csv hanya boleh diakses oleh level VP (Sarah), dan tidakdiperbolehkan diakses oleh marketer secara langsung

• Sarah ingin masing-masing marketer membuat proses yang dapatmengestimasi kebutuhan konsumsi minyak dari client yang merekaapproach, dengan menggunakan model yang sebelumnya dihasilkanoleh Sarah, meskipun tanpa mengakses data training (HeatingOil.csv)

• Asumsikan bahwa data HeatingOil-Marketing.csv adalah data calonpelanggan yang berhasil di approach oleh salah satu marketingnya

• Yang harus dilakukan Sarah adalah membuat proses untuk:1. Mengkomparasi algoritma yang menghasilkan model yang memiliki akurasi

tertinggi (LR, NN, SVM), gunakan 10 Fold X Validation2. Menyimpan model ke dalam suatu file (operator Write Model)

• Yang harus dilakukan Marketer adalah membuat proses untuk:1. Membaca model yang dihasilkan Sarah (operator Read Model)2. Menerapkannya di data HeatingOil-Marketing.csv yang mereka miliki

• Mari kita bantu Sarah dan Marketer membuat dua proses tersebut174

Page 175: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Proses Komparasi Algoritma (Sarah)

175

Page 176: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

Proses Pengujian Data (Marketer)

176

Page 177: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Pahami dan lakukan eksperimen berdasarkanseluruh studi kasus yang ada di buku DataMining for the Masses (Matthew North)

• Pahami bahwa metode CRISP-DM membantukita memahami penggunaan metode datamining yang lebih sesuai dengan kebutuhanorganisasi

Latihan

• Pahami dan lakukan eksperimen berdasarkanseluruh studi kasus yang ada di buku DataMining for the Masses (Matthew North)

• Pahami bahwa metode CRISP-DM membantukita memahami penggunaan metode datamining yang lebih sesuai dengan kebutuhanorganisasi

• Pahami dan lakukan eksperimen berdasarkanseluruh studi kasus yang ada di buku DataMining for the Masses (Matthew North)

• Pahami bahwa metode CRISP-DM membantukita memahami penggunaan metode datamining yang lebih sesuai dengan kebutuhanorganisasi

177

Page 178: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

• Analisis masalah dan kebutuhan yang ada di organisasilingkungan sekitar anda

• Kumpulkan dan review dataset yang tersedia, danhubungkan masalah dan kebutuhan tadi dengan datayang tersedia (analisis dari 5 peran data mining). Bilamemungkinkan pilih beberapa peran untuk mengolahdata tersebut, misalnya: lakukan association (analisisfaktor), sekaligus estimation.

• Lakukan proses menggunakan CRISP-DM untukmenyelesaikan masalah yang ada di organisasi andasesuai dengan data yang didapatkan

• Pada proses data preparation, lakukan data cleaning (replacemissing value, replace, filter attribute) sehingga data siapdimodelkan

• Lakukan juga komparasi algoritma untuk memilih algoritmaterbaik

• Rangkumkan dalam bentuk slide (lihat contoh di slide02-proses)

Tugas• Analisis masalah dan kebutuhan yang ada di organisasi

lingkungan sekitar anda• Kumpulkan dan review dataset yang tersedia, dan

hubungkan masalah dan kebutuhan tadi dengan datayang tersedia (analisis dari 5 peran data mining). Bilamemungkinkan pilih beberapa peran untuk mengolahdata tersebut, misalnya: lakukan association (analisisfaktor), sekaligus estimation.

• Lakukan proses menggunakan CRISP-DM untukmenyelesaikan masalah yang ada di organisasi andasesuai dengan data yang didapatkan

• Pada proses data preparation, lakukan data cleaning (replacemissing value, replace, filter attribute) sehingga data siapdimodelkan

• Lakukan juga komparasi algoritma untuk memilih algoritmaterbaik

• Rangkumkan dalam bentuk slide (lihat contoh di slide02-proses)

• Analisis masalah dan kebutuhan yang ada di organisasilingkungan sekitar anda

• Kumpulkan dan review dataset yang tersedia, danhubungkan masalah dan kebutuhan tadi dengan datayang tersedia (analisis dari 5 peran data mining). Bilamemungkinkan pilih beberapa peran untuk mengolahdata tersebut, misalnya: lakukan association (analisisfaktor), sekaligus estimation.

• Lakukan proses menggunakan CRISP-DM untukmenyelesaikan masalah yang ada di organisasi andasesuai dengan data yang didapatkan

• Pada proses data preparation, lakukan data cleaning (replacemissing value, replace, filter attribute) sehingga data siapdimodelkan

• Lakukan juga komparasi algoritma untuk memilih algoritmaterbaik

• Rangkumkan dalam bentuk slide (lihat contoh di slide02-proses)

178

Page 179: Data Mining: 2. Proses Data Mining - Gunadarmaamutiara.staff.gunadarma.ac.id/Downloads/files/66341/02-proses.pdf · Untuk mengontrol aliran proses, seperti loop atau conditional branch

1. Jiawei Han and Micheline Kamber, Data Mining: Concepts andTechniques Third Edition, Elsevier, 2012

2. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: PracticalMachine Learning Tools and Techniques 3rd Edition, Elsevier, 2011

3. Markus Hofmann and Ralf Klinkenberg, RapidMiner: Data MiningUse Cases and Business Analytics Applications, CRC Press Taylor &Francis Group, 2014

4. Daniel T. Larose, Discovering Knowledge in Data: an Introductionto Data Mining, John Wiley & Sons, 2005

5. Ethem Alpaydin, Introduction to Machine Learning, 3rd ed., MITPress, 2014

6. Florin Gorunescu, Data Mining: Concepts, Models andTechniques, Springer, 2011

7. Oded Maimon and Lior Rokach, Data Mining and KnowledgeDiscovery Handbook Second Edition, Springer, 2010

8. Warren Liao and Evangelos Triantaphyllou (eds.), Recent Advancesin Data Mining of Enterprise Data: Algorithms and Applications,World Scientific, 2007

Referensi1. Jiawei Han and Micheline Kamber, Data Mining: Concepts and

Techniques Third Edition, Elsevier, 20122. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical

Machine Learning Tools and Techniques 3rd Edition, Elsevier, 20113. Markus Hofmann and Ralf Klinkenberg, RapidMiner: Data Mining

Use Cases and Business Analytics Applications, CRC Press Taylor &Francis Group, 2014

4. Daniel T. Larose, Discovering Knowledge in Data: an Introductionto Data Mining, John Wiley & Sons, 2005

5. Ethem Alpaydin, Introduction to Machine Learning, 3rd ed., MITPress, 2014

6. Florin Gorunescu, Data Mining: Concepts, Models andTechniques, Springer, 2011

7. Oded Maimon and Lior Rokach, Data Mining and KnowledgeDiscovery Handbook Second Edition, Springer, 2010

8. Warren Liao and Evangelos Triantaphyllou (eds.), Recent Advancesin Data Mining of Enterprise Data: Algorithms and Applications,World Scientific, 2007

1. Jiawei Han and Micheline Kamber, Data Mining: Concepts andTechniques Third Edition, Elsevier, 2012

2. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: PracticalMachine Learning Tools and Techniques 3rd Edition, Elsevier, 2011

3. Markus Hofmann and Ralf Klinkenberg, RapidMiner: Data MiningUse Cases and Business Analytics Applications, CRC Press Taylor &Francis Group, 2014

4. Daniel T. Larose, Discovering Knowledge in Data: an Introductionto Data Mining, John Wiley & Sons, 2005

5. Ethem Alpaydin, Introduction to Machine Learning, 3rd ed., MITPress, 2014

6. Florin Gorunescu, Data Mining: Concepts, Models andTechniques, Springer, 2011

7. Oded Maimon and Lior Rokach, Data Mining and KnowledgeDiscovery Handbook Second Edition, Springer, 2010

8. Warren Liao and Evangelos Triantaphyllou (eds.), Recent Advancesin Data Mining of Enterprise Data: Algorithms and Applications,World Scientific, 2007

179