Data Mining: 2. Proses Data Mining -...

Data Mining:2. Proses Data Mining

Data Mining:2. Proses Data Mining

ABMABM

1

2. Proses Data Mining

1. Pengantar Data Mining

Course Outline

6. Algoritma Asosiasi

5. Algoritma Klastering

4. Algoritma Klasifikasi

3. Persiapan Data

8. Text Mining

7. Algoritma Estimasi dan Forecasting

6. Algoritma Asosiasi

2

1. Sebutkan 5 peran utama data mining!2. Jelaskan perbedaan estimasi dan prediksi!3. Jelaskan perbedaan prediksi dan klasifikasi!4. Jelaskan perbedaan klasifikasi dan klastering!5. Jelaskan perbedaan klastering dan association!6. Jelaskan perbedaan estimasi dan klasifikasi!7. Jelaskan perbedaan estimasi dan klastering!8. Jelaskan perbedaan supervised dan unsupervised

learning!9. Sebutkan tahapan utama proses data mining!

Recap: Latihan





3

Recap: Peran Utama Data Mining

1. Estimasi

2. Forecasting5. Asosiasi

4

3. Klasifikasi4. Klastering

2. Proses Data Mining2.1 Proses Data Mining2.2 Tool Aplikasi Data Mining2.3 Penerapan Proses Data Mining (Dataset – Model)2.4 Evaluasi dan Validasi terhadap Model yang Terbentuk2.5 Proses Standard pada Data Mining (CRISP-DM)

2.1 Proses Data Mining2.2 Tool Aplikasi Data Mining2.3 Penerapan Proses Data Mining (Dataset – Model)2.4 Evaluasi dan Validasi terhadap Model yang Terbentuk2.5 Proses Standard pada Data Mining (CRISP-DM)

5

2.1 Proses Data Mining

6

Proses Data Mining

1. HimpunanData

(Pemahaman danPengolahan Data)

2. MetodeData Mining

(Pilih MetodeSesuai Karakter Data)

3. Pengetahuan

(Pola/Model/Rumus/Tree/Rule/Cluster)

4. Evaluation

(Akurasi, AUC,RMSE, Lift Ratio,…)

7

DATA PRE-PROCESSINGData Cleaning

Data IntegrationData Reduction

Data Transformation

EstimationPrediction

ClassificationClustering

Association

• Atribut adalah faktor atau parameter yang menyebabkanclass/label/target terjadi

• Jenis dataset ada dua: Private dan Public• Private Dataset: data set dapat diambil dari organisasi

yang kita jadikan obyek penelitian• Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc

• Public Dataset: data set dapat diambil dari repositoripubik yang disepakati oleh para peneliti data mining

• UCI Repository (http://www.ics.uci.edu/~mlearn/MLRepository.html)• ACM KDD Cup (http://www.sigkdd.org/kddcup/)• PredictionIO (http://docs.prediction.io/datacollection/sample/)

• Trend penelitian data mining saat ini adalah mengujimetode yang dikembangkan oleh peneliti dengan publicdataset, sehingga penelitian dapat bersifat: comparable,repeatable dan verifiable

1. Himpunan Data (Dataset)• Atribut adalah faktor atau parameter yang menyebabkan

class/label/target terjadi• Jenis dataset ada dua: Private dan Public• Private Dataset: data set dapat diambil dari organisasi





• Atribut adalah faktor atau parameter yang menyebabkanclass/label/target terjadi

• Jenis dataset ada dua: Private dan Public• Private Dataset: data set dapat diambil dari organisasi





8

Dataset (Himpunan Data)

Class/Label/TargetAttribute/Feature/Dimension

Record/Object/Sample/Tuple

Record/Object/Sample/Tuple

9

Nominal

Numerik

1. Estimation (Estimasi):• Linear Regression, Neural Network, Support Vector Machine, etc

2. Prediction/Forecasting (Prediksi/Peramalan):• Linear Regression, Neural Network, Support Vector Machine, etc

3. Classification (Klasifikasi):• Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant

Analysis, Logistic Regression, etc

4. Clustering (Klastering):• K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc

5. Association (Asosiasi):• FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc

2. Metode Data Mining (DM)













10

1. Formula/Function (Rumus atau Fungsi Regresi)• WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN

2. Decision Tree (Pohon Keputusan)

3. Tingkat Korelasi

4. Rule (Aturan)• IF ips3=2.8 THEN lulustepatwaktu

5. Cluster (Klaster)

3. Pengetahuan (Pola/Model)



3. Tingkat Korelasi





3. Tingkat Korelasi



11

1. Estimation:• Error: Root Mean Square Error (RMSE), MSE, MAPE, etc

2. Prediction/Forecasting (Prediksi/Peramalan):• Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc

3. Classification:• Confusion Matrix: Accuracy• ROC Curve: Area Under Curve (AUC)

4. Clustering:• Internal Evaluation: Davies–Bouldin index, Dunn index,• External Evaluation: Rand measure, F-measure, Jaccard index,

Fowlkes–Mallows index, Confusion matrix

5. Association:• Lift Charts: Lift Ratio• Precision and Recall (F-measure)

4. Evaluasi (Akurasi, Error, etc)













12

1. 0.90 - 1.00 = excellent classification2. 0.80 - 0.90 = good classification3. 0.70 - 0.80 = fair classification4. 0.60 - 0.70 = poor classification5. 0.50 - 0.60 = failure

(Gorunescu, 2011)

Guide for Classifying the AUC


(Gorunescu, 2011)


(Gorunescu, 2011)

13

1. Akurasi• Ukuran dari seberapa baik model mengkorelasikan antara hasil

dengan atribut dalam data yang telah disediakan• Terdapat berbagai model akurasi, tetapi semua model akurasi

tergantung pada data yang digunakan2. Kehandalan

• Ukuran di mana model data mining diterapkan pada datasetyang berbeda

• Model data mining dapat diandalkan jika menghasilkan polaumum yang sama terlepas dari data testing yang disediakan

3. Kegunaan• Mencakup berbagai metrik yang mengukur apakah model

tersebut memberikan informasi yang berguna

Kriteria Evaluasi dan Validasi Model1. Akurasi

• Ukuran dari seberapa baik model mengkorelasikan antara hasildengan atribut dalam data yang telah disediakan

• Terdapat berbagai model akurasi, tetapi semua model akurasitergantung pada data yang digunakan

2. Kehandalan• Ukuran di mana model data mining diterapkan pada dataset

yang berbeda• Model data mining dapat diandalkan jika menghasilkan pola

umum yang sama terlepas dari data testing yang disediakan3. Kegunaan

• Mencakup berbagai metrik yang mengukur apakah modeltersebut memberikan informasi yang berguna

1. Akurasi• Ukuran dari seberapa baik model mengkorelasikan antara hasil

dengan atribut dalam data yang telah disediakan• Terdapat berbagai model akurasi, tetapi semua model akurasi

tergantung pada data yang digunakan2. Kehandalan

• Ukuran di mana model data mining diterapkan pada datasetyang berbeda

• Model data mining dapat diandalkan jika menghasilkan polaumum yang sama terlepas dari data testing yang disediakan

3. Kegunaan• Mencakup berbagai metrik yang mengukur apakah model

tersebut memberikan informasi yang berguna

14

Keseimbangan diantaranya ketiganya diperlukan karena belum tentu modelyang akurat adalah handal, dan yang handal atau akurat belum tentu berguna

2.2 Tool Aplikasi Data Mining

15

Magic Quadrant for AdvancedAnalytics Platform (Gartner, 2015)

16

Magic Quadrant for AdvancedAnalytics Platform (Gartner, 2016)

17

Big Data Analytics Solution 2015 (The Forrester Wave)

18

• Pengembangan dimulai pada 2001 olehRalf Klinkenberg, Ingo Mierswa, dan SimonFischer di Artificial Intelligence Unit dariUniversity of Dortmund, ditulis dalambahasa Java

• Open source berlisensi AGPL (GNU AfferoGeneral Public License) versi 3

• Meraih penghargaan sebagai softwaredata mining dan data analytics terbaik diberbagai lembaga kajian, termasuk IDC,Gartner, KDnuggets, dsb

Sejarah Rapidminer







19

• Menyediakan prosedur data mining danmachine learning termasuk: ETL (extraction,transformation, loading), data preprocessing,visualisasi, modelling dan evaluasi

• Proses data mining tersusun atas operator-operator yang nestable, dideskripsikandengan XML, dan dibuat dengan GUI

• Mengintegrasikan proyek data mining Wekadan statistika R

Fitur Rapidminer







20

1. Atribut: karakteristik atau fitur daridata yang menggambarkan sebuahproses atau situasi• ID, atribut biasa

2. Atribut target: atribut yang menjaditujuan untuk diisi oleh proses datamining• Label, cluster, weight

Atribut Pada Rapidminer





21

1. nominal: nilai secara kategori2. binominal: nominal dua nilai3. polynominal: nominal lebih dari dua nilai4. numeric: nilai numerik secara umum5. integer: bilangan bulat6. real: bilangan nyata7. text: teks bebas tanpa struktur8. date_time: tanggal dan waktu9. date: hanya tanggal10. time: hanya waktu

Tipe Nilai Atribut pada Rapidminer



22

• Data menyebutkan obyek-obyek dari sebuahkonsep

• Ditunjukkan sebagai baris dari tabel• Metadata menggambarkan karakteristik dari

konsep tersebut• Ditunjukkan sebagai kolom dari tabel

• Dukungan Format data• Oracle, IBM DB2, Microsoft SQL Server, MySQL,

PostgreSQL, Ingres, Excel, Access, SPSS, CSV filesdan berbagai format lain

Data dan Format Data











23

• Menjalankan RapidMiner untuk pertama kali, akanmenanyakan pembuatan repositori baru

• Repositori ini berfungsi sebagai lokasi penyimpananterpusat untuk data dan proses analisa kita

Repositori

• Menjalankan RapidMiner untuk pertama kali, akanmenanyakan pembuatan repositori baru

• Repositori ini berfungsi sebagai lokasi penyimpananterpusat untuk data dan proses analisa kita

24

Perspektif dan View

1. Perspektif Selamat Datang(Welcome perspective)

2. Perspektif Desain(Design perspective)

3. Perspektif Hasil(Result perspective)




25




• Perspektif pusat di manasemua proses analisadibuat dan dimanage

• Pindah ke PerspektifDesain dengan:

• Klik tombol paling kiri• Atau gunakan menu

View → Perspectives → Design

Perspektif Desain









26

• Process ControlUntuk mengontrol aliran proses, seperti loop atauconditional branch

• UtilityUntuk mengelompokkan subprocess, juga macrodan logger

• Repository AccessUntuk membaca dan menulis repositori

• ImportUntuk membaca data dari berbagai formateksternal

• ExportUntuk menulis data ke berbagai format eksternal

• Data TransformationUntuk transformasi data dan metadata

• ModellingUntuk proses data mining yang sesungguhnyaseperti klasifikasi, regresi, clustering, aturanasosiasi dll

• EvaluationUntuk menghitung kualitas dan perfomansi darimodel

View Operator• Process Control

Untuk mengontrol aliran proses, seperti loop atauconditional branch








• Process ControlUntuk mengontrol aliran proses, seperti loop atauconditional branch








27

Layanan untuk manajemen proses analisa, baik data,metadata, proses maupun hasil

View RepositoriLayanan untuk manajemen proses analisa, baik data,metadata, proses maupun hasil

28

View Proses

29

• Operator kadang memerlukan parameter untukbisa berfungsi

• Setelah operator dipilih di view Proses,parameternya ditampilkan di view ini

View Parameter• Operator kadang memerlukan parameter untuk

bisa berfungsi• Setelah operator dipilih di view Proses,

parameternya ditampilkan di view ini

30

• View Help menampilkan deskripsi dari operator• View Comment menampilkan komentar yang dapat

diedit terhadap operator

View Help dan View Comment

• View Help menampilkan deskripsi dari operator• View Comment menampilkan komentar yang dapat

diedit terhadap operator

31

View Problems and View Log

32

• Proses data mining pada dasarnya adalahproses analisa yang berisi alur kerja darikomponen data mining

• Komponen dari proses ini disebut operator,yang didefinisikan dengan:

1. Deskripsi input2. Deskripsi output3. Aksi yang dilakukan4. Parameter yang diperlukan

Operator dan Proses







33

• Sebuah operator bisa disambungkan melalui portmasukan (kiri) dan port keluaran (kanan)

• Indikator status dari operator:• Lampu status: merah (tak tersambung), kuning (lengkap

tetapi belum dijalankan), hijau (sudah behasil dijalankan)• Segitiga warning: bila ada pesan status• Breakpoint: bila ada breakpoint sebelum/sesudahnya• Comment: bila ada komentar• Subprocess: bila mempunyai subprocess

Operator dan Proses







34

Pilih menu File → New

Pilih repositori dan lokasi, lalu beri nama

Membuat Proses Baru Pilih menu File → New


Pilih menu File → New


35

• Repositori terstruktur ke dalam proyek-proyek• Masing-masing proyek terstruktur lagi ke dalam

data, processes, dan results

Struktur Repositori• Repositori terstruktur ke dalam proyek-proyek• Masing-masing proyek terstruktur lagi ke dalam

data, processes, dan results

36

Menjalankan Proses

37

Proses dapat dijalankan dengan:• Menekan tombol Play• Memilih menu Process → Run• Menekan kunci F11

Menjalankan Proses

Proses dapat dijalankan dengan:• Menekan tombol Play• Memilih menu Process → Run• Menekan kunci F11

38

Melihat Hasil

39

2.3 Penerapan Proses Data Mining(Dataset – Model)

40

Proses Data Mining

1. HimpunanData




3. Pengetahuan


4. Evaluation


41



Data Transformation



Association

• Instal Rapidminer versi 7• Registrasi account di rapidminer.com, dan lakukan dapatkan lisensi

Educational Program untuk mengolah data tanpa batasan record

Instalasi dan Registrasi Lisensi Rapidminer• Instal Rapidminer versi 7• Registrasi account di rapidminer.com, dan lakukan dapatkan lisensi

Educational Program untuk mengolah data tanpa batasan record

42

1. Lakukan training pada data golf (ambildari repositories rapidminer) denganmenggunakan algoritma decision tree

2. Tampilkan himpunan data (dataset) danpengetahuan (model tree) yangterbentuk

Latihan: Rekomendasi Main Golf





43

1. Lakukan training pada data Bunga Iris (ambil darirepositories rapidminer) dengan menggunakanalgoritma decision tree

2. Tampilkan himpunan data (dataset) danpengetahuan (model tree) yang terbentuk

Latihan: Penentuan Jenis Bunga Iris

1. Lakukan training pada data Bunga Iris (ambil darirepositories rapidminer) dengan menggunakanalgoritma decision tree


54

Latihan: Klastering Jenis Bunga Iris

1. Lakukan training pada data Bunga Iris (ambil darirepositories rapidminer) dengan menggunakanalgoritma k-Means


3. Tampilkan grafik dari cluster yang terbentuk

1. Lakukan training pada data Bunga Iris (ambil darirepositories rapidminer) dengan menggunakanalgoritma k-Means


3. Tampilkan grafik dari cluster yang terbentuk

55

1. Lakukan training pada data Sonar (ambil darirepositories rapidminer) dengan menggunakanalgoritma decision tree (C4.5)


Latihan: Penentuan Mine/Rock

1. Lakukan training pada data Sonar (ambil darirepositories rapidminer) dengan menggunakanalgoritma decision tree (C4.5)


56

1. Lakukan training pada data Contact Lenses (contact-lenses.xls) dengan menggunakan algoritma decisiontree (http://romisatriawahono.net/lecture/dm/dataset/)

2. Gunakan operator Read Excel atau langsungmenggunakan fitur Add Data

3. Tampilkan himpunan data (dataset) dan pengetahuan(model tree) yang terbentuk

Latihan: Rekomendasi Contact Lenses1. Lakukan training pada data Contact Lenses (contact-

lenses.xls) dengan menggunakan algoritma decisiontree (http://romisatriawahono.net/lecture/dm/dataset/)

2. Gunakan operator Read Excel atau langsungmenggunakan fitur Add Data

3. Tampilkan himpunan data (dataset) dan pengetahuan(model tree) yang terbentuk

57

1. Lakukan training pada data CPU (cpu.xls) denganmenggunakan algoritma linear regression

2. Tampilkan himpunan data (dataset) danpengetahuan (model regresi) yang terbentuk

3. Lakukan pengujian terhadap data baru (cpu-testing.xls), untuk model yang dihasilkan daritahapan 1

Latihan: Estimasi Performance CPU

1. Lakukan training pada data CPU (cpu.xls) denganmenggunakan algoritma linear regression

2. Tampilkan himpunan data (dataset) danpengetahuan (model regresi) yang terbentuk

3. Lakukan pengujian terhadap data baru (cpu-testing.xls), untuk model yang dihasilkan daritahapan 1

58

Rumus Performace dari Data CPU.xlsPerformance CPU = 0.038 * MYCT

+ 0.017 * MMIN+ 0.004 * MMAX+ 0.603 * CACH+ 1.291 * CHMIN+ 0.906 * CHMAX- 43.975

Performance CPU = 0.038 * MYCT+ 0.017 * MMIN+ 0.004 * MMAX+ 0.603 * CACH+ 1.291 * CHMIN+ 0.906 * CHMAX- 43.975

cpu.xls

59cpu-testing.xls

1. Lakukan training pada data pemilu(datapemilukpu.xls) dengan algoritma yangtepat

2. Tentukan tipe data atribut dan class dari“Import Configuration Wizard”

3. Tampilkan himpunan data (dataset) danpengetahuan (pola/model) yang terbentuk

4. Gunakan model yang dihasilkan untukmemprediksi datapemilukpu-testing.xls

Latihan: Prediksi Elektabilitas Caleg









60

Latihan: Aturan Asosiasi Data Transaksi

1. Lakukan training pada data transaksi(transaksi.xlsx)

2. Pilih metode yang tepat supayamenghasilkan pola

1. Lakukan training pada data transaksi(transaksi.xlsx)


61

1. Lakukan training pada data konsumsi minyak(HeatingOil.csv)

2. Pilih metode yang tepat supaya menghasilkanmodel

3. Apply model yang dihasilkan ke datapelanggan baru di file HeatingOil-Scoring.csv,supaya kita bisa mengestimasi berapakebutuhan konsumsi minyak mereka, untukmengatur stok penjualan minyak

Latihan: Estimasi Konsumsi Minyak







62

1. Lakukan training pada data kankerpayudara (breasttissue.xls)


Latihan: Deteksi Kanker Payudara

1. Lakukan training pada data kankerpayudara (breasttissue.xls)


63

1. Lakukan training pada data seranganjaringan (intrusion-training.xls)


Latihan: Deteksi Serangan Jaringan





64

1. Lakukan training pada data resiko kredit(CreditRisk.csv)(http://romisatriawahono.net/lecture/dm/dataset/)


Latihan: Klasifikasi Resiko Kredit

1. Lakukan training pada data resiko kredit(CreditRisk.csv)(http://romisatriawahono.net/lecture/dm/dataset/)


65

1. Lakukan training pada data Music Genre(musicgenre-small.csv)(http://romisatriawahono.net/lecture/dm/dataset/)


Latihan: Klasifikasi Music Genre

1. Lakukan training pada data Music Genre(musicgenre-small.csv)(http://romisatriawahono.net/lecture/dm/dataset/)


66

1. Lakukan training pada data Harga Saham(hargasaham-training.xls) denganmenggunakan algoritma yang tepat

2. Tampilkan himpunan data (dataset) danpengetahuan (model regresi) yangterbentuk

3. Lakukan pengujian terhadap data baru(hargasaham-testing.xls), untuk modelyang dihasilkan dari tahapan 1

4. Lakukan plot berupa grafik dari data yangterbentuk dengan menggunakan ScatterMultiple

Latihan: Forecasting Harga Saham









67

1. Dataset – Methods – Knowledge1. Dataset Main Golf2. Dataset Iris (Klasifikasi)3. Dataset Iris (Klastering)4. Dataset CPU5. Dataset Credit Risk6. Dataset Heating Oil7. Dataset Transaksi8. Dataset Harga Saham9. Dataset Pemilu

Competency Check1. Dataset – Methods – Knowledge

1. Dataset Main Golf2. Dataset Iris (Klasifikasi)3. Dataset Iris (Klastering)4. Dataset CPU5. Dataset Credit Risk6. Dataset Heating Oil7. Dataset Transaksi8. Dataset Harga Saham9. Dataset Pemilu

1. Dataset – Methods – Knowledge1. Dataset Main Golf2. Dataset Iris (Klasifikasi)3. Dataset Iris (Klastering)4. Dataset CPU5. Dataset Credit Risk6. Dataset Heating Oil7. Dataset Transaksi8. Dataset Harga Saham9. Dataset Pemilu

69

• Download berbagai dataset yang ada dihttp://romisatriawahono.net/lecture/dm/dataset/

• Gunakan rapidminer untuk mengolahdataset tersebut sehingga menjadipengetahuan

• Pilih algoritma yang sesuai dengan jenis datapada dataset

Tugas: Mencari dan Mengolah Dataset

• Download berbagai dataset yang ada dihttp://romisatriawahono.net/lecture/dm/dataset/

• Gunakan rapidminer untuk mengolahdataset tersebut sehingga menjadipengetahuan

• Pilih algoritma yang sesuai dengan jenis datapada dataset

70

1. Pahami dan kuasai satu metode data mining dari berbagailiterature:1. Naïve Bayes 2. k Nearest Neighbor3. k-Means 4. C4.55. Neural Network 6. Logistic Regression7. FP Growth 8. Fuzzy C-Means9. Self-Organizing Map 0. Support Vector Machine

2. Rangkumkan dengan detail dalam bentuk slide,dengan format:1. Definisi2. Tahapan Algoritma (lengkap dengan formulanya)3. Penerapan Tahapan Algoritma untuk Studi Kasus Dataset Main

Golf, Iris, Transaksi, CPU, dsb(hitung manual (gunakan excel) dan tidak dengan menggunakanrapidminer, harus sinkron dengan tahapan algoritma)

3. Presentasikan di depan kelas pada mata kuliah berikutnyadengan bahasa manusia yang baik dan benar

Tugas: Menguasai Satu Metode DM1. Pahami dan kuasai satu metode data mining dari berbagai

literature:1. Naïve Bayes 2. k Nearest Neighbor3. k-Means 4. C4.55. Neural Network 6. Logistic Regression7. FP Growth 8. Fuzzy C-Means9. Self-Organizing Map 0. Support Vector Machine




1. Pahami dan kuasai satu metode data mining dari berbagailiterature:1. Naïve Bayes 2. k Nearest Neighbor3. k-Means 4. C4.55. Neural Network 6. Logistic Regression7. FP Growth 8. Fuzzy C-Means9. Self-Organizing Map 0. Support Vector Machine




71

1. Kembangkan Java Code dari algoritma yang dipilih2. Gunakan hanya 1 class (file) dan beri nama sesuai

nama algoritma, boleh membuat banyak methoddalam class tersebut

3. Buat account di Trello.Com dan register kehttps://trello.com/b/ZOwroEYg/course-assignment

4. Buat card dengan nama sendiri dan upload semuafile (pptx, xlsx, pdf, etc) laporan ke card tersebut

5. Deadline: sehari sebelum pertemuan berikutnya

Tugas: Kembangkan Code dari Algoritma DM











72

Algoritma k-MeansFormat Template TugasFormat Template Tugas

73

• K-means adalah ..... (John, 2016)

Definisi

• K-means adalah ..... (John, 2016)

74

1. Siapkan dataset

2. Tentukan A dengan rumus A = x + y

3. Tentukan B dengan rumus B = d + e

4. Ulangi proses 1-2-3 sampai tidak ada perubahan

Tahapan Algoritma k-Means

1. Siapkan dataset




1. Siapkan dataset




75

1. Siapkan dataset

76

• blablabla

2. Tentukan A

77

• blablabla

3. Tentukan B

78

• blablabla

4. Iterasi 1

79

• blablabla

4. Iterasi 2 ... dst

80

2.4 Evaluasi dan Validasi terhadapModel yang Terbentuk

81

Proses Data Mining

1. HimpunanData




3. Pengetahuan


4. Evaluation


82



Data Transformation



Association







Evaluasi Data Mining













83

• Pembagian dataset:• Dua bagian: data training dan data testing• Tiga bagian: data training, data validation dan data testing

• Data training untuk pembentukan model, dandata testing digunakan untuk pengujian model

• Pemisahan data training dan testing1. Data dipisahkan secara manual2. Data dipisahkan otomatis dengan operator Split Data3. Data dipisahkan otomatis dengan X Validation

Pengujian Model Data Mining• Pembagian dataset:

• Dua bagian: data training dan data testing• Tiga bagian: data training, data validation dan data testing



• Pembagian dataset:• Dua bagian: data training dan data testing• Tiga bagian: data training, data validation dan data testing



84

1. Pemisahan Data Manual

85

Latihan: Penentuan Kelayakan Kredit• Gunakan dataset di bawah:

• creditapproval-training.xls: untuk membuat model• creditapproval-testing.xls: untuk menguji model

• Data di atas terpisah dengan perbandingan:data testing (10%) dan data training (90%)

• Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testing untukpengujian model

• Ukurperformancenya

• Gunakan dataset di bawah:• creditapproval-training.xls: untuk membuat model• creditapproval-testing.xls: untuk menguji model




86

• Gunakan dataset di bawah:• creditapproval-training.xls: untuk membuat model• creditapproval-testing.xls: untuk menguji model




Confusion Matrix Accuracy

• pred MACET- true MACET: Jumlah data yang diprediksimacet dan kenyataannya macet (TP)

• pred LANCAR-true LANCAR: Jumlah data yang diprediksilancar dan kenyataannya lancer (TN)

• pred MACET-true LANCAR: Jumlah data yang diprediksimacet tapi kenyataannya lancer (FP)

• pred LANCAR-true MACET: Jumlah data yang diprediksilancar tapi kenyataanya macet (FN)

• pred MACET- true MACET: Jumlah data yang diprediksimacet dan kenyataannya macet (TP)

• pred LANCAR-true LANCAR: Jumlah data yang diprediksilancar dan kenyataannya lancer (TN)

• pred MACET-true LANCAR: Jumlah data yang diprediksimacet tapi kenyataannya lancer (FP)

• pred LANCAR-true MACET: Jumlah data yang diprediksilancar tapi kenyataanya macet (FN)

87

Binary classification should be both sensitive andspecific as much as possible:1. Sensitivity measures the proportion of true

’positives’ that are correctly identified (TruePositive Rate (TP Rate) or Recall)

2. Specificity measures the proportion of true’negatives’ that are correctly identified (FalseNegative Rate (FN Rate or Precision)

Sensitivity and Specificity







88

We need to know the probability that the classifier willgive the correct diagnosis, but the sensitivity andspecificity do not give us this information

• Positive Predictive Value (PPV) is the proportion of caseswith ’positive’ test results that are correctly diagnosed

• Negative Predictive Value (NPV) is the proportion of caseswith ’negative’ test results that are correctly diagnosed

PPV and NPVWe need to know the probability that the classifier willgive the correct diagnosis, but the sensitivity andspecificity do not give us this information



We need to know the probability that the classifier willgive the correct diagnosis, but the sensitivity andspecificity do not give us this information



89

• ROC curves are two-dimensional graphs in which the TP rate isplotted on the Y-axis and the FP rate is plotted on the X-axis

• ROC curve depicts relative trade-offs between benefits (’truepositives’) and costs (’false positives’)

• Two types of ROC curves: discrete and continuous

Kurva ROC - AUC (Area Under Curve)• ROC curves are two-dimensional graphs in which the TP rate is

plotted on the Y-axis and the FP rate is plotted on the X-axis• ROC curve depicts relative trade-offs between benefits (’true

positives’) and costs (’false positives’)• Two types of ROC curves: discrete and continuous

90

Kurva ROC - AUC (Area Under Curve)

91


(Gorunescu, 2011)

Guide for Classifying the AUC


(Gorunescu, 2011)


(Gorunescu, 2011)

92

• Gunakan dataset di bawah:• intrusion-training.xls: untuk membuat model• intrusion-testing.xls: untuk menguji model



• Ukur performance(AUC dan Accuracy)

Latihan: Deteksi Serangan Jaringan









93

• Gunakan dataset di bawah:• hargasaham-training.xls: untuk membuat model• hargasaham-testing.xls: untuk menguji model



• Ukur performance

Latihan: Prediksi Harga Saham









94

• The square root of the mean/average of the square of all ofthe error

• The use of RMSE is very common and it makes an excellentgeneral purpose error metric for numerical predictions

• To construct the RMSE, we first need to determine theresiduals

• Residuals are the difference between the actual values and thepredicted values

• We denoted them by• where is the observed value for the ith observation and• is the predicted value

• They can be positive or negative as the predicted value underor over estimates the actual value

• You then use the RMSE as a measure of the spread of the yvalues about the predicted y value

Root Mean Square Error• The square root of the mean/average of the square of all of

the error







• The square root of the mean/average of the square of all ofthe error







96

2. Pemisahan Data Otomatis (Split Data)

97

• The Split Data operator takes a dataset as its input anddelivers the subsets of that dataset through its outputports

• The sampling type parameter decides how theexamples should be shuffled in the resultant partitions:

1. Linear sampling: Linear sampling simply divides thedataset into partitions without changing the order ofthe examples• Subsets with consecutive examples are created

2. Shuffled sampling: Shuffled sampling builds randomsubsets of the dataset• Examples are chosen randomly for making subsets

3. Stratified sampling: Stratified sampling builds randomsubsets and ensures that the class distribution in thesubsets is the same as in the whole dataset• In the case of a binominal classification, stratified sampling

builds random subsets so that each subset contains roughly thesame proportions of the two values of the label

Split Data Otomatis













98

1. Dataset: datakelulusanmahasiswa.xls2. Pisahkan data menjadi dua secara otomatis

(Split Data): data testing (10%) dan datatraining (90%)

3. Ujicoba parameter pemisahan data baikmenggunakan Linear Sampling, ShuffledSampling dan Stratified Sampling

4. Jadikan data training sebagai pembentukmodel/pola/knowledge, dan data testinguntuk pengujian model

5. Terapkan algoritma yang sesuai dan ukurperformance dari model yang dibentuk

Latihan: Prediksi Kelulusan Mahasiswa











100

1. Dataset: HeatingOil.csv2. Pisahkan data menjadi dua secara otomatis













101

3 Pemisahan Data Otomatis(Cross-Validation)

102

• Metode cross-validation digunakan untukmenghindari overlapping pada data testing

• Tahapan cross-validation:1. Bagi data menjadi k subset yg berukuran sama2. Gunakan setiap subset untuk data testing dan sisanya

untuk data training

• Disebut juga dengan k-fold cross-validation• Seringkali subset dibuat stratified (bertingkat)

sebelum cross-validation dilakukan, karenastratifikasi akan mengurangi variansi dari estimasi

Metode Cross-Validation



untuk data training





untuk data training



103

• Metode evaluasi standard: stratified 10-foldcross-validation

• Mengapa 10? Hasil dari berbagai percobaanyang ekstensif dan pembuktian teoritis,menunjukkan bahwa 10-fold cross-validationadalah pilihan terbaik untuk mendapatkanhasil validasi yang akurat

• 10-fold cross-validation akan mengulangpengujian sebanyak 10 kali dan hasilpengukuran adalah nilai rata-rata dari 10 kalipengujian

10 Fold Cross-Validation







104

10 Fold Cross-Validation

Eksperimen Dataset Akurasi1 93%

2 91%2 91%

3 90%

4 93%

5 93%

6 91%

7 94%

Orange: k-subset (data testing)105

8 93%

9 91%

10 90%

Akurasi Rata-Rata 92%

1. Lakukan training pada data pemilu(datapemilukpu.xls)

2. Lakukan pengujian dengan menggunakan 10-fold XValidation

3. Ukur performance-nya dengan confusion matrix danROC Curve

4. Lakukan ujicoba, ubah algoritma menjadi Naive Bayesdan k-NN, analisis mana algoritma yangmenghasilkan model yang lebih baik (akurasi tinggi)










106

C4.5

Accuracy 92.45%

AUC 0.851

1. Gunakan dataset harga saham(hargasaham-training.xls) untuk membuatmodel

2. Lakukan pengujian dengan menggunakan10-fold X Validation

3. Ukur performance-nya dengan RMSE


1. Gunakan dataset harga saham(hargasaham-training.xls) untuk membuatmodel


3. Ukur performance-nya dengan RMSE

107

Komparasi Algoritma Data Mining

108







Metode Data Mining (DM)













109

1. Lakukan training pada data pemilu(datapemilukpu.xls) dengan menggunakanalgoritma1. Decision Tree (C4.5)2. Naïve Bayes (NB)3. K-Nearest Neighbor (K-NN)

2. Lakukan pengujian dengan menggunakan 10-foldX Validation


1. Lakukan training pada data pemilu(datapemilukpu.xls) dengan menggunakanalgoritma1. Decision Tree (C4.5)2. Naïve Bayes (NB)3. K-Nearest Neighbor (K-NN)


110

C4.5 NB K-NN

Accuracy 92.45% 77.46% 88.72%

AUC 0.851 0.840 0.5

1. Lakukan training pada data pemilu(datapemilukpu.xls) dengan menggunakanalgoritma C4.5, NB dan K-NN


3. Ukur performance-nya dengan confusion matrixdan ROC Curve

4. Uji beda dengan t-Test untuk mendapatkanmodel terbaik










112

• Komparasi Accuracy dan AUC

• Uji Beda (t-Test)

• Urutan model terbaik: 1. C4.5 2. NB 3. K-NN

Hasil Prediksi Elektabilitas Caleg

C4.5 NB K-NN

Accuracy 92.45% 77.46% 88.72%



• Urutan model terbaik: 1. C4.5 2. NB 3. K-NN

Accuracy 92.45% 77.46% 88.72%

AUC 0.851 0.840 0.5



• Urutan model terbaik: 1. C4.5 2. NB 3. K-NN114

1. Statistik Deskriptif• Nilai mean (rata-rata), standar deviasi,

varians, data maksimal, data minimal, dsb

2. Statistik Inferensi• Perkiraan dan estimasi• Pengujian Hipotesis

Analisis Statistik







115

Penggunaan Parametrik Non ParametrikDua sampel salingberhubungan(Two Dependent samples)

T TestZ Test

Sign testWilcoxon Signed-RankMc Nemar Change test

Statistik Inferensi

Dua sampel salingberhubungan(Two Dependent samples)

Sign testWilcoxon Signed-RankMc Nemar Change test

Dua sampel tidak berhubungan(Two Independent samples)

T TestZ Test

Mann-Whitney U testMoses Extreme reactionsChi-Square testKolmogorov-Smirnov testWalt-Wolfowitz runs

Beberapa sampel berhubungan(Several Dependent Samples)

Friedman testKendall W testCochran’s Q

Beberapa sampel berhubungan(Several Dependent Samples)

Friedman testKendall W testCochran’s Q

Beberapa sampel tidakBerhubungan(Several Independent Samples)

Anova test (F test) Kruskal-Wallis testChi-Square testMedian test

116

• Metode parametrik dapat dilakukan jikabeberapa persyaratan dipenuhi, yaitu:

• Sampel yang dianalisis haruslah berasal daripopulasi yang berdistribusi normal

• Jumlah data cukup banyak• Jenis data yang dianalisis adalah biasanya

interval atau rasio

Metode Parametrik




interval atau rasio




interval atau rasio

117

• Metode ini dapat dipergunakan secara lebih luas,karena tidak mengharuskan datanya berdistribusinormal

• Dapat dipakai untuk data nominal dan ordinal sehinggasangat berguna bagi para peneliti sosial untuk menelitiperilaku konsumen, sikap manusia, dsb

• Cenderung lebih sederhana dibandingkan dengan metodeparametrik

• Selain keuntungannya, berikut kelemahan metode nonparametrik:

• Tidak adanya sistematika yang jelas seperti metodeparametrik

• Terlalu sederhana sehingga sering meragukan• Memakai tabel-tabel yang lebih bervariasi dibandingkan

dengan tabel-tabel standar pada metode parametrik

Metode Non Parametrik















118

• Ho = tidak ada perbedaan signifikan• Ha = ada perbedaan signifikan

alpha=0.05Bila p < 0.05, maka Ho ditolak

• Contoh: kasus p=0.03, maka dapatditarik kesimpulan?

Interpretasi







119

1. Lakukan training pada data mahasiswa(datakelulusanmahasiswa.xls) denganmenggunakan C4.5, NB, K-NN dan LogR



Latihan: Prediksi Kelulusan Mahasiswa

1. Lakukan training pada data mahasiswa(datakelulusanmahasiswa.xls) denganmenggunakan C4.5, NB, K-NN dan LogR



120



• Urutan model terbaik: 1. C4.5 2. NB1 2.k-NN 2. LogR

Hasil Prediksi Kelulusan Mahasiswa

C4.5 NB K-NN LogR

Accuracy 91.55% 82.58% 83.63% 77.47%



• Urutan model terbaik: 1. C4.5 2. NB1 2.k-NN 2. LogR

Accuracy 91.55% 82.58% 83.63% 77.47%

AUC 0.909 0.894 0.5 0.721



• Urutan model terbaik: 1. C4.5 2. NB1 2.k-NN 2. LogR121

1. Lakukan training pada data cpu (cpu.xls) denganmenggunakan algoritma linear regression, neuralnetwork dan support vector machine

2. Lakukan pengujian dengan XValidation(numerical)

3. Ukur performance-nya dengan menggunakanRMSE (Root Mean Square Error)

4. Urutan model terbaik: 1. LR 2. NN 3. SVM

Latihan: Estimasi Performance CPU





LR NN SVM





122

LR NN SVM

RMSE 57.707 61.276 101.559

1. Lakukan training pada data minyak pemanas(HeatingOil.csv) dengan menggunakan algoritmalinear regression, neural network dan supportvector machine



4. Urutan model terbaik: 1. 2. 3.










123

LR NN SVM

RMSE

1. Lakukan training pada data pemilu (datapemilukpu.xls)dengan menggunakan algoritma Naive Bayes,K-Nearest Neighbor, RandomForest, Logistic Regression

2. Lakukan pengujian dengan menggunakan XValidation3. Ukur performance-nya dengan confusion matrix dan

ROC Curve4. Masukkan setiap hasil percobaan ke dalam file Excel


1. Lakukan training pada data pemilu (datapemilukpu.xls)dengan menggunakan algoritma Naive Bayes,K-Nearest Neighbor, RandomForest, Logistic Regression

2. Lakukan pengujian dengan menggunakan XValidation3. Ukur performance-nya dengan confusion matrix dan

ROC Curve4. Masukkan setiap hasil percobaan ke dalam file Excel

124

DT NB K-NN RF LR LDA

Accuracy 92.21% 76.89% 89.63%

AUC 0.851 0.826 0.5

1. Lakukan training pada data harga saham(hargasaham-training.xls) dengan neural network,linear regression, support vector machine

2. Lakukan pengujian dengan menggunakanXValidation



1. Lakukan training pada data harga saham(hargasaham-training.xls) dengan neural network,linear regression, support vector machine

2. Lakukan pengujian dengan menggunakanXValidation


125

LR NN SVM

RMSE

1. Lakukan training pada data iris (ambil darirepositories rapidminer) dengan menggunakanalgoritma clustering k-means

2. Gunakan pilihan nilai untuk k, isikan dengan 3, 4, 5,6, 7

3. Ukur performance-nya dengan Cluster DistancePerformance, dari analisis Davies Bouldin Indeks(DBI), tentukan nilai k yang paling optimal

Latihan: Klastering Jenis Bunga Iris1. Lakukan training pada data iris (ambil dari

repositories rapidminer) dengan menggunakanalgoritma clustering k-means

2. Gunakan pilihan nilai untuk k, isikan dengan 3, 4, 5,6, 7

3. Ukur performance-nya dengan Cluster DistancePerformance, dari analisis Davies Bouldin Indeks(DBI), tentukan nilai k yang paling optimal

126

k=3 k=4 k=5 k=6 k=7DBI 0.666 0.764 0.806 0.910 0.99

• The Davies–Bouldin index (DBI) (introduced by David L. Daviesand Donald W. Bouldin in 1979) is a metric for evaluatingclustering algorithms

• This is an internal evaluation scheme, where the validation ofhow well the clustering has been done is made using quantitiesand features inherent to the dataset

• As a function of the ratio of the within cluster scatter, to thebetween cluster separation, a lower value will mean that theclustering is better

• This affirms the idea that no cluster has to be similar to another,and hence the best clustering scheme essentially minimizes theDavies–Bouldin index

• This index thus defined is an average over all the i clusters, andhence a good measure of deciding how many clusters actuallyexists in the data is to plot it against the number of clusters it iscalculated over

• The number i for which this value is the lowest is a good measureof the number of clusters the data could be ideally classified into

Davies–Bouldin index (DBI)• The Davies–Bouldin index (DBI) (introduced by David L. Davies

and Donald W. Bouldin in 1979) is a metric for evaluatingclustering algorithms






• The Davies–Bouldin index (DBI) (introduced by David L. Daviesand Donald W. Bouldin in 1979) is a metric for evaluatingclustering algorithms






127







Evaluasi Data Mining













128

1. Lakukan ujicoba terhadap semua dataset yang ada difolder datasets, dengan menggunakan berbagai metodedata mining yang sesuai (estimasi, prediksi, klasifikasi,clustering, association)

2. Kombinasikan pengujian dengan pemecahan datatraining-testing, dan pengujian dengan menggunakanmetode X validation

3. Ukur performance dari model yang terbentuk denganmenggunakan metode pengukuran sesuai denganmetode data mining yang dipilih

4. Jelaskan secara mendetail tahapan ujicoba yangdilakukan, kemudian lakukan analisis dan sintesis, danbuat laporan dalam bentuk slide

5. Presentasikan di depan kelas

Tugas: Mengolah Semua Dataset1. Lakukan ujicoba terhadap semua dataset yang ada di

folder datasets, dengan menggunakan berbagai metodedata mining yang sesuai (estimasi, prediksi, klasifikasi,clustering, association)




5. Presentasikan di depan kelas

1. Lakukan ujicoba terhadap semua dataset yang ada difolder datasets, dengan menggunakan berbagai metodedata mining yang sesuai (estimasi, prediksi, klasifikasi,clustering, association)




5. Presentasikan di depan kelas129

• Technical Paper:• Judul: Application and Comparison of Classification

Techniques in Controlling Credit Risk• Author: Lan Yu, Guoqing Chen, Andy Koronios, Shiwu

Zhu, and Xunhua Guo• Download:

http://romisatriawahono.net/lecture/dm/paper/

• Baca dan pahami paper di atas dan jelaskan apayang dilakukan peneliti pada paper tersebut:

1. Object Penelitian2. Masalah Penelitian3. Tujuan Penelitian4. Metode Penelitian5. Hasil Penelitian

Tugas: Mereview Paper













130

• Technical Paper:• Judul: A Comparison Framework of Classification Models for

Software Defect Prediction• Author: Romi Satria Wahono, Nanna Suryana Herman,

Sabrina Ahmad• Publications: Adv. Sci. Lett. Vol. 20, No. 10-12, 2014• Download: http://romisatriawahono.net/lecture/dm/paper

• Baca dan pahami paper di atas dan jelaskan apa yangdilakukan peneliti pada paper tersebut:


Tugas: Mereview Paper











131

• Technical Paper:• Judul: An experimental comparison of classification

algorithms for imbalanced credit scoring data sets• Author: Iain Brown and Christophe Mues• Publications: Expert Systems with Applications 39 (2012)

3446–3453• Download: http://romisatriawahono.net/lecture/dm/paper



Tugas Mereview Paper











132

• Cari dataset yang ada di sekitar kita• Lakukan penelitian berupa komparasi dari (minimal)

5 algoritma machine learning untuk meminingknowledge dari dataset tersebut

• Gunakan uji beda (baik parametrik dan nonparametric) untuk analisis dan pembuatan rankingdari algoritma machine learning

• Tulis makalah tentang penelitian yang kita buat• Contoh-contoh makalah komparasi ada di:

http://romisatriawahono.net/lecture/dm/paper/method%20comparison/

• Upload seluruh file laporan ke Card di Trello.Com• Deadline: sehari sebelum mata kuliah berikutnya

Tugas: Menulis Paper Penelitian













133

• Ikuti template dan contoh paper dari:http://journal.ilmukomputer.org

• Isi paper:• Abstract: Harus berisi obyek-masalah-metode-hasil

• Introduction: Latar belakang masalah penelitian dan struktur paper

• Related Work: Penelitian yang berhubungan

• Theoretical Foundation: Landasan dari berbagai teori yang digunakan

• Proposed Method: Metode yang diusulkan

• Experimental Results: Hasil eksperimen

• Conclusion: Kesimpulan dan future works

Paper Formatting

















134

1. Dataset – Methods – Knowledge1. Dataset Main Golf2. Dataset Harga Saham3. Dataset Kelulusan Mahasiswa4. Dataset Pemilu5. Dataset Credit Risk6. Dataset Heating Oil7. Dataset Transaksi

2. Dataset – Methods – Knowledge – Evaluation1. Manual2. Data Split3. Cross Validation

3. Methods Comparison• Uji t-Test

4. Paper Reading1. Lan Yu (t-Test)2. Wahono (Friedman Test)

Competency Check1. Dataset – Methods – Knowledge

1. Dataset Main Golf2. Dataset Harga Saham3. Dataset Kelulusan Mahasiswa4. Dataset Pemilu5. Dataset Credit Risk6. Dataset Heating Oil7. Dataset Transaksi




1. Dataset – Methods – Knowledge1. Dataset Main Golf2. Dataset Harga Saham3. Dataset Kelulusan Mahasiswa4. Dataset Pemilu5. Dataset Credit Risk6. Dataset Heating Oil7. Dataset Transaksi




135

2.5 Proses Standard pada Data Mining(CRISP-DM)

136

• A cross-industry standard was clearlyrequired that is industry neutral, tool-neutral, and application-neutral

• The Cross-Industry Standard Process for DataMining (CRISP–DM) was developed in 1996(Chapman, 2000)

• CRISP-DM provides a nonproprietary andfreely available standard process for fittingdata mining into the general problem-solvingstrategy of a business or research unit

Data Mining Standard Process







137

CRISP-DM

138

• Enunciate the project objectives andrequirements clearly in terms of the businessor research unit as a whole

• Translate these goals and restrictions intothe formulation of a data mining problemdefinition

• Prepare a preliminary strategy for achievingthese objectives

• Designing what you are going to build

1. Business Understanding









139

• Collect the data• Use exploratory data analysis to familiarize

yourself with the data and discover initialinsights

• Evaluate the quality of the data• If desired, select interesting subsets that may

contain actionable patterns

2. Data Understanding









140

• Prepare from the initial raw data the finaldata set that is to be used for all subsequentphases

• Select the cases and variables you want toanalyze and that are appropriate for youranalysis

• Perform data cleaning, integration, reductionand transformation, so it is ready for themodeling tools

3. Data Preparation







141

• Select and apply appropriate modelingtechniques

• Calibrate model settings to optimize results• Remember that often, several different

techniques may be used for the same datamining problem

• If necessary, loop back to the datapreparation phase to bring the form of thedata into line with the specific requirementsof a particular data mining technique

4. Modeling









142

• Evaluate the one or more models delivered inthe modeling phase for quality andeffectiveness before deploying them for use inthe field

• Determine whether the model in fact achievesthe objectives set for it in the first phase

• Establish whether some important facet of thebusiness or research problem has not beenaccounted for sufficiently

• Come to a decision regarding use of the datamining results

5. Evaluation









143

• Make use of the models created:• model creation does not signify the completion of a

project

• Example of a simple deployment:• Generate a report

• Example of a more complex deployment:• Implement a parallel data mining process in another

department

• For businesses, the customer often carriesout the deployment based on your model

6. Deployment


project



department



project



department


144

Studi Kasus CRISP-DM

Heating Oil Consumption – Correlational Methods(Matthew North, Data Mining for the Masses 2nd Edition, 2016,Chapter 4 Correlational Methods, pp. 69-76)Dataset: HeatingOil.csv

Heating Oil Consumption – Correlational Methods(Matthew North, Data Mining for the Masses 2nd Edition, 2016,Chapter 4 Correlational Methods, pp. 69-76)Dataset: HeatingOil.csv

145

CRISP-DM

146

CRISP-DM: Detail Flow

147

• Motivation:• Sarah is a regional sales manager for a nationwide supplier of

fossil fuels for home heating• She feels a need to understand the types of behaviors and

other factors that may influence the demand for heating oil inthe domestic market

• She recognizes that there are many factors that influenceheating oil consumption, and believes that by investigatingthe relationship between a number of those factors, she willbe able to better monitor and respond to heating oil demand

• She has selected correlation as a way to model therelationship between the factors she wishes to investigate.Correlation is a statistical measure of how strong therelationships are between attributes in a data set

• Objective:• To investigate the relationship between a number of factors

that influence heating oil consumption

1. Business Understanding















148

• In order to investigate her question, Sarah has enlisted ourhelp in creating a correlation matrix of six attributes

• Using employer’s data resources which are primarily drawnfrom the company’s billing database, we create a data setcomprised of the following attributes:

1. Insulation: This is a density rating, ranging from one to ten,indicating the thickness of each home’s insulation. A homewith a density rating of one is poorly insulated, while a homewith a density of ten has excellent insulation

2. Temperature: This is the average outdoor ambienttemperature at each home for the most recent year, measurein degree Fahrenheit

3. Heating_Oil: This is the total number of units of heating oilpurchased by the owner of each home in the most recent year

4. Num_Occupants: This is the total number of occupants livingin each home

5. Avg_Age: This is the average age of those occupants6. Home_Size: This is a rating, on a scale of one to eight, of the

home’s overall size. The higher the number, the larger thehome

2. Data Understanding• In order to investigate her question, Sarah has enlisted our

help in creating a correlation matrix of six attributes• Using employer’s data resources which are primarily drawn

from the company’s billing database, we create a data setcomprised of the following attributes:







• In order to investigate her question, Sarah has enlisted ourhelp in creating a correlation matrix of six attributes

• Using employer’s data resources which are primarily drawnfrom the company’s billing database, we create a data setcomprised of the following attributes:







149

Data set: HeatingOil.csv3. Data Preparation

150

• Data set appears to be very clean with:• No missing values in any of the six attributes• No inconsistent data apparent in our ranges (Min-Max)

or other descriptive statistics

3. Data Preparation• Data set appears to be very clean with:

• No missing values in any of the six attributes• No inconsistent data apparent in our ranges (Min-Max)

or other descriptive statistics

151

4. Modeling

152

• Hasil correlation matrix berupa tabel• Semakin tinggi nilainya (semakin tebal warna

ungu), semakin tinggi tingkat korelasinya

4. Modeling

• Hasil correlation matrix berupa tabel• Semakin tinggi nilainya (semakin tebal warna

ungu), semakin tinggi tingkat korelasinya

153

5. EvaluationPositiveCorrelation

NegativeCorrelationNegativeCorrelation

154

• Atribut (faktor) yang paling signifikan berpengaruh (hubungan positif)pada konsumsi minyak pemanas (Heating Oil) adalah Average Age (Rata-Rata Umur) penghuni rumah

• Atribut (faktor) kedua yang paling berpengaruh adalah Temperature(hubungan negatif)

• Atribut (faktor) ketiga yang paling berpengaruh adalah Insulation(hubungan positif)

• Atribut Home Size, pengaruhnya sangat kecil, sedangkan Num_Occupantboleh dikatakan tidak ada pengaruh ke konsumsi minyak pemanas

5. Evaluation• Atribut (faktor) yang paling signifikan berpengaruh (hubungan positif)

pada konsumsi minyak pemanas (Heating Oil) adalah Average Age (Rata-Rata Umur) penghuni rumah

• Atribut (faktor) kedua yang paling berpengaruh adalah Temperature(hubungan negatif)

• Atribut (faktor) ketiga yang paling berpengaruh adalah Insulation(hubungan positif)

• Atribut Home Size, pengaruhnya sangat kecil, sedangkan Num_Occupantboleh dikatakan tidak ada pengaruh ke konsumsi minyak pemanas

155

5. Evaluation 1

2

• Grafik menunjukkan bahwa konsumsi minyak memiliki korelasipositif dengan rata-rata usia

• Meskipun ada beberapa anomali juga terjadi:1. Ada beberapa orang yang rata-rata usia tinggi, tapi kebutuhan

minyaknya rendah (warna biru muda di kolom kiri bagian atas)2. Ada beberapa orang yang rata-rata usia rendah, tapi kebutuhan

minyaknya tinggi (warna merah di kolom kanan bagian bawah)156

5. Evaluation 2 dan 3

2 dan 3

1. Grafik menunjukkan hubungan antara temperature dan insulation, dengan warna adalah konsumsi minyak(semakin merah kebutuhan minyak semakin tinggi)

2. Secara umum dapat dikatakan bahwa hubungan temperatur dengan insulation dan konsumsi minyak adalahnegatif. Jadi temperatur semakin rendah, kebutuhan minyak semakin tinggi (kolom kiri bagian atas) ditunjukkandengan banyak yang berwarna kuning dan merah

3. Insulation juga berhubungan negatif dengan temperatur, sehingga makin rendah temperatur, semakin butuhinsulation

4. Beberapa anomali terdapat pada Insulation yang rendah nilainya, ada beberapa yang masih memerlukan minyakyang tinggi

2 dan 3

4

1. Grafik menunjukkan hubungan antara temperature dan insulation, dengan warna adalah konsumsi minyak(semakin merah kebutuhan minyak semakin tinggi)

2. Secara umum dapat dikatakan bahwa hubungan temperatur dengan insulation dan konsumsi minyak adalahnegatif. Jadi temperatur semakin rendah, kebutuhan minyak semakin tinggi (kolom kiri bagian atas) ditunjukkandengan banyak yang berwarna kuning dan merah

3. Insulation juga berhubungan negatif dengan temperatur, sehingga makin rendah temperatur, semakin butuhinsulation

4. Beberapa anomali terdapat pada Insulation yang rendah nilainya, ada beberapa yang masih memerlukan minyakyang tinggi 157

5. Evaluation

4

1. Grafik tiga dimensi menunjukkan hubungan antara temperatur, rata-ratausia dan insulation

2. Warna menunjukkan kebutuhan minyak, semakin memerah makasemakin tinggi

3. Temperatur semakin tinggi semakin tidak butuh minyak (warna biru tua4. Rata-rata usia dan insulation semakin tinggi semakin butuh minyak

2

1. Grafik tiga dimensi menunjukkan hubungan antara temperatur, rata-ratausia dan insulation

2. Warna menunjukkan kebutuhan minyak, semakin memerah makasemakin tinggi

3. Temperatur semakin tinggi semakin tidak butuh minyak (warna biru tua4. Rata-rata usia dan insulation semakin tinggi semakin butuh minyak

158

Dropping the Num_Occupants attribute

• While the number of people living in a home mightlogically seem like a variable that would influenceenergy usage, in our model it did not correlate in anysignificant way with anything else

• Sometimes there are attributes that don’t turn out tobe very interesting

6. DeploymentDropping the Num_Occupants attribute

• While the number of people living in a home mightlogically seem like a variable that would influenceenergy usage, in our model it did not correlate in anysignificant way with anything else

• Sometimes there are attributes that don’t turn out tobe very interesting

159

Adding additional attributes to the data set

• It turned out that the number of occupants in thehome didn’t correlate much with other attributes,but that doesn’t mean that other attributes wouldbe equally uninteresting

• For example, what if Sarah had access to thenumber of furnaces and/or boilers in each home?

• Home_size was slightly correlated with Heating_Oilusage, so perhaps the number of instruments thatconsume heating oil in each home would tell aninteresting story, or at least add to her insight

6. Deployment









160

Investigating the role of home insulation

• The Insulation rating attribute was fairly stronglycorrelated with a number of other attributes

• There may be some opportunity there to partnerwith a company that specializes in adding insulationto existing homes

6. Deployment

Investigating the role of home insulation

• The Insulation rating attribute was fairly stronglycorrelated with a number of other attributes

• There may be some opportunity there to partnerwith a company that specializes in adding insulationto existing homes

161

Focusing the marketing efforts to the city with lowtemperature and high average age of citizen

• The temperature attribute was fairly strongly negativecorrelated with a heating oil consumption

• The average age attribute was strongest positivecorrelated with a heating oil consumption

6. DeploymentFocusing the marketing efforts to the city with lowtemperature and high average age of citizen



Focusing the marketing efforts to the city with lowtemperature and high average age of citizen



162

Adding greater granularity in the data set

• This data set has yielded some interesting results, but it’spretty general

• We have used average yearly temperatures and totalannual number of heating oil units in this model

• But we also know that temperatures fluctuatethroughout the year in most areas of the world, and thusmonthly, or even weekly measures would not only belikely to show more detailed results of demand and usageover time, but the correlations between attributes wouldprobably be more interesting

• From our model, Sarah now knows how certain attributesinteract with one another, but in the day-to-day businessof doing her job, she’ll probably want to know aboutusage over time periods shorter than one year

6. Deployment











163

Studi Kasus CRISP-DM

Heating Oil Consumption – Linear Regression(Matthew North, Data Mining for the Masses 2nd Edition, 2016,Chapter 8 Linear Regression, pp. 159-171)Dataset: HeatingOil.csvDataset: HeatingOil-scoring.csvhttp://romisatriawahono.net/lecture/dm/dataset/

Heating Oil Consumption – Linear Regression(Matthew North, Data Mining for the Masses 2nd Edition, 2016,Chapter 8 Linear Regression, pp. 159-171)Dataset: HeatingOil.csvDataset: HeatingOil-scoring.csvhttp://romisatriawahono.net/lecture/dm/dataset/

164

CRISP-DM

165

CRISP-DM: Detail Flow

166

• Business is booming, her sales team is signing upthousands of new clients, and she wants to be sure thecompany will be able to meet this new level of demand

• Sarah’s new data mining objective is pretty clear: shewants to anticipate demand for a consumable product

• We will use a linear regression model to help her withher desired predictions. She has data, 1,218observations that give an attribute profile for eachhome, along with those homes’ annual heating oilconsumption

• She wants to use this data set as training data topredict the usage that 42,650 new clients will bring toher company

• She knows that these new clients’ homes are similar innature to her existing client base, so the existingcustomers’ usage behavior should serve as a solidgauge for predicting future usage by new customers

1. Business Understanding• Business is booming, her sales team is signing up

thousands of new clients, and she wants to be sure thecompany will be able to meet this new level of demand





• Business is booming, her sales team is signing upthousands of new clients, and she wants to be sure thecompany will be able to meet this new level of demand





167

• Sarah has assembled separate Comma Separated Values filecontaining all of these same attributes, for her 42,650 newclients

• She has provided this data set to us to use as the scoringdata set in our model

• Data set comprised of the following attributes:• Insulation: This is a density rating, ranging from one to ten,

indicating the thickness of each home’s insulation. A home witha density rating of one is poorly insulated, while a home with adensity of ten has excellent insulation

• Temperature: This is the average outdoor ambient temperatureat each home for the most recent year, measure in degreeFahrenheit

• Heating_Oil: This is the total number of units of heating oilpurchased by the owner of each home in the most recent year

• Num_Occupants: This is the total number of occupants living ineach home

• Avg_Age: This is the average age of those occupants• Home_Size: This is a rating, on a scale of one to eight, of the

home’s overall size. The higher the number, the larger the home

2. Data Understanding• Sarah has assembled separate Comma Separated Values file

containing all of these same attributes, for her 42,650 newclients








home’s overall size. The higher the number, the larger the home

• Sarah has assembled separate Comma Separated Values filecontaining all of these same attributes, for her 42,650 newclients








home’s overall size. The higher the number, the larger the home168

• Filter Examples: attribute value filter or custom filter• Avg_Age>=15.1• Avg_Age<=72.2

• Deleted Records= 42650-42042 = 508

3. Data Preparation• Filter Examples: attribute value filter or custom filter

• Avg_Age>=15.1• Avg_Age<=72.2

• Deleted Records= 42650-42042 = 508

• Filter Examples: attribute value filter or custom filter• Avg_Age>=15.1• Avg_Age<=72.2

• Deleted Records= 42650-42042 = 508

169

3. Modeling

171

4. Evaluation

172

5. Deployment

173

• Karena bantuan data mining sebelumnya, Sarah akhirnya mendapatkanpromosi menjadi VP marketing, yang mengelola ratusan marketer

• Sarah ingin para marketer dapat memprediksi pelanggan potensialmereka masing-masing secara mandiri. Masalahnya, dataHeatingOil.csv hanya boleh diakses oleh level VP (Sarah), dan tidakdiperbolehkan diakses oleh marketer secara langsung

• Sarah ingin masing-masing marketer membuat proses yang dapatmengestimasi kebutuhan konsumsi minyak dari client yang merekaapproach, dengan menggunakan model yang sebelumnya dihasilkanoleh Sarah, meskipun tanpa mengakses data training (HeatingOil.csv)

• Asumsikan bahwa data HeatingOil-Marketing.csv adalah data calonpelanggan yang berhasil di approach oleh salah satu marketingnya

• Yang harus dilakukan Sarah adalah membuat proses untuk:1. Mengkomparasi algoritma yang menghasilkan model yang memiliki akurasi

tertinggi (LR, NN, SVM), gunakan 10 Fold X Validation2. Menyimpan model ke dalam suatu file (operator Write Model)

• Yang harus dilakukan Marketer adalah membuat proses untuk:1. Membaca model yang dihasilkan Sarah (operator Read Model)2. Menerapkannya di data HeatingOil-Marketing.csv yang mereka miliki

• Mari kita bantu Sarah dan Marketer membuat dua proses tersebut

Latihan• Karena bantuan data mining sebelumnya, Sarah akhirnya mendapatkan

promosi menjadi VP marketing, yang mengelola ratusan marketer• Sarah ingin para marketer dapat memprediksi pelanggan potensial

mereka masing-masing secara mandiri. Masalahnya, dataHeatingOil.csv hanya boleh diakses oleh level VP (Sarah), dan tidakdiperbolehkan diakses oleh marketer secara langsung






• Mari kita bantu Sarah dan Marketer membuat dua proses tersebut

• Karena bantuan data mining sebelumnya, Sarah akhirnya mendapatkanpromosi menjadi VP marketing, yang mengelola ratusan marketer

• Sarah ingin para marketer dapat memprediksi pelanggan potensialmereka masing-masing secara mandiri. Masalahnya, dataHeatingOil.csv hanya boleh diakses oleh level VP (Sarah), dan tidakdiperbolehkan diakses oleh marketer secara langsung






• Mari kita bantu Sarah dan Marketer membuat dua proses tersebut174

Proses Komparasi Algoritma (Sarah)

175

Proses Pengujian Data (Marketer)

176

• Pahami dan lakukan eksperimen berdasarkanseluruh studi kasus yang ada di buku DataMining for the Masses (Matthew North)

• Pahami bahwa metode CRISP-DM membantukita memahami penggunaan metode datamining yang lebih sesuai dengan kebutuhanorganisasi

Latihan





177

• Analisis masalah dan kebutuhan yang ada di organisasilingkungan sekitar anda

• Kumpulkan dan review dataset yang tersedia, danhubungkan masalah dan kebutuhan tadi dengan datayang tersedia (analisis dari 5 peran data mining). Bilamemungkinkan pilih beberapa peran untuk mengolahdata tersebut, misalnya: lakukan association (analisisfaktor), sekaligus estimation.

• Lakukan proses menggunakan CRISP-DM untukmenyelesaikan masalah yang ada di organisasi andasesuai dengan data yang didapatkan

• Pada proses data preparation, lakukan data cleaning (replacemissing value, replace, filter attribute) sehingga data siapdimodelkan

• Lakukan juga komparasi algoritma untuk memilih algoritmaterbaik

• Rangkumkan dalam bentuk slide (lihat contoh di slide02-proses)

Tugas• Analisis masalah dan kebutuhan yang ada di organisasi

lingkungan sekitar anda• Kumpulkan dan review dataset yang tersedia, dan

hubungkan masalah dan kebutuhan tadi dengan datayang tersedia (analisis dari 5 peran data mining). Bilamemungkinkan pilih beberapa peran untuk mengolahdata tersebut, misalnya: lakukan association (analisisfaktor), sekaligus estimation.





• Analisis masalah dan kebutuhan yang ada di organisasilingkungan sekitar anda

• Kumpulkan dan review dataset yang tersedia, danhubungkan masalah dan kebutuhan tadi dengan datayang tersedia (analisis dari 5 peran data mining). Bilamemungkinkan pilih beberapa peran untuk mengolahdata tersebut, misalnya: lakukan association (analisisfaktor), sekaligus estimation.





178

1. Jiawei Han and Micheline Kamber, Data Mining: Concepts andTechniques Third Edition, Elsevier, 2012

2. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: PracticalMachine Learning Tools and Techniques 3rd Edition, Elsevier, 2011

3. Markus Hofmann and Ralf Klinkenberg, RapidMiner: Data MiningUse Cases and Business Analytics Applications, CRC Press Taylor &Francis Group, 2014

4. Daniel T. Larose, Discovering Knowledge in Data: an Introductionto Data Mining, John Wiley & Sons, 2005

5. Ethem Alpaydin, Introduction to Machine Learning, 3rd ed., MITPress, 2014

6. Florin Gorunescu, Data Mining: Concepts, Models andTechniques, Springer, 2011

7. Oded Maimon and Lior Rokach, Data Mining and KnowledgeDiscovery Handbook Second Edition, Springer, 2010

8. Warren Liao and Evangelos Triantaphyllou (eds.), Recent Advancesin Data Mining of Enterprise Data: Algorithms and Applications,World Scientific, 2007

Referensi1. Jiawei Han and Micheline Kamber, Data Mining: Concepts and

Techniques Third Edition, Elsevier, 20122. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical

Machine Learning Tools and Techniques 3rd Edition, Elsevier, 20113. Markus Hofmann and Ralf Klinkenberg, RapidMiner: Data Mining

Use Cases and Business Analytics Applications, CRC Press Taylor &Francis Group, 2014






1. Jiawei Han and Micheline Kamber, Data Mining: Concepts andTechniques Third Edition, Elsevier, 2012

2. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: PracticalMachine Learning Tools and Techniques 3rd Edition, Elsevier, 2011

3. Markus Hofmann and Ralf Klinkenberg, RapidMiner: Data MiningUse Cases and Business Analytics Applications, CRC Press Taylor &Francis Group, 2014






179

Data Mining: 2. Proses Data Mining -...

Documents

Transcript of Data Mining: 2. Proses Data Mining -...