scdc.binus.ac.idscdc.binus.ac.id/bslc/wp-content/uploads/sites/49/2018/0... · Web viewUntuk setiap...

Ringkasan Kisi – Kisi UAS Data Mining

1. Clustering.Diketahui data sebagai berikut :A(1,2), B(2,5), C(3,3), D(6,4), E(4,5), F(5,7), G(1,1), H(3,6), I(7,8), J(5,4). Tentukan cluster untuk masing – masing data menggunakan clustering K – Means dengan k = 3.Jawab :

a. Bagi menjadi k cluster. Dalam kasus ini 3.

E – Learning BSLC, by :

Timothy Orvin Edwardo1901456205

b. Tentukan means untuk setiap cluster.Means C1 = {(7/4),(11/4)} = (1.75, 2.75)Means C2 = {(18/4),(19/4)} = (4.5, 4.75)Means C3 = {(12/2),(15/2)} = (6, 7.5)



c. Hitung untuk setiap data, lebih dekat ke means cluster yang mana, lalu update centroidnya. Untuk perhitungan jarak, kita gunakan metode Euclidian. Ulang hingga tidak ada perubahan cluster / centroid.

Means Cluster 1 Means Cluster 2 Means Cluster 3A(1,2) C1 1.061 4.451 7.433B(2,5) C1 2.264 2.512 4.717C(3,3) C1 1.275 1.82 5.048D(6,4) C2 4.43 1.677 3.5E(4,5) C2 3.182 0.559 3.202F(5,7) C3 5.35 2.305 1.118G(1,1) C1 1.904 5.13 8.2H(3,6) C2 3.482 1.953 3.041I(7,8) C3 7.425 4.1 1.118J(5,4) C2 3.482 0.901 3.64

d. Dalam kasus ini, cluster sama seperti inisialisasi awal sehingga nilai centroid tetap. Jadi hasilnya adalah :A = Cluster 1B = Cluster 1C = Cluster 1D = Cluster 2E = Cluster 2F = Cluster 3G = Cluster 1H = Cluster 2I = Cluster 3J = Cluster 2

2. Clustering.



Menggunakan data nomor 1, tetapi menggunakan cara K – Medoids dengan K = 3.Jawab :

Pilih 3 medoids (sesuai k)

Hitung jarak sehingga kita menemukan cluster – clusternya

M1 (1,2)

M2 (2,5)

M3 (5,7)

A (C1) 0 3.162 6.403B (C2) 3.162 0 3.606C (C1) 2.236 2.236 4.472D (C3) 5.385 4.123 3.162E (C2) 4.243 2 2.236F (C3) 6.403 3.606 0G (C1) 1 4.123 7.211H (C2) 4.472 1.414 2.236I (C3) 8.485 5.831 2.236J (C3) 4.472 3.162 3



Pilih objek non medoid lain (random), lalu hitung cost function nya. Ketika < dari yang lama maka tukar medoid.

a. TC1 lama = 2.236 + 1 = 3.236 b. TC1 baru = 2.828 + 2.236 = 5.064 (TIDAK TUKAR)



c. TC2 lama = 2 + 1.414 = 3.414d. TC2 baru = 2.236 + 2 = 4.236 (TIDAK TUKAR)e. TC3 lama = 3.162 + 2.236 + 3 = 8.398 f. TC3 baru = 1 + 3.162 + 4.123 = 8.285 (TUKAR)

M1 (1,2)

M2 (2,5)

M3 (6,4)

A (C1) 0 3.162 5.385B (C2) 3.162 0 4.123C (C1) 2.236 2.236 3.162D (C3) 5.385 4.123 0E (C2) 4.243 2 2.236F (C3) 6.403 3.606 3.162G (C1) 1 4.123 5.831H (C2) 4.472 1.414 3.606I (C3) 8.485 5.831 4.123J (C3) 4.472 3.162 1

Tentukan medoid lain



a. TC1 lama = 3.236b. TC1 baru = 1 + 2.828 = 3.828 (TIDAK TUKAR)c. TC2 lama = 3.414d. TC2 baru = 1.414 + 1.414 = 2.828 (TUKAR)e. TC3 lama = 8.398f. TC3 baru = 4.472 + 2.236 + 4.123 = 10.831 (TIDAK

TUKAR)

M1 (1,2)

M2 (3,6)

M3 (6,4)

A (C1) 0 4.472 5.385B (C2) 3.162 1.414 4.123C (C1) 2.236 3 3.162D (C3) 5.385 3.606 0E (C2) 4.243 1.414 2.236F (C2) 6.403 2.236 3.162G (C1) 1 5.385 5.831H (C2) 4.472 0 3.606I (C3) 8.485 4.472 4.123J (C3) 4.472 2.828 1



Tentukan medoid lain di c3 :

a. TC3 lama = 8.398b. TC3 Baru = 1 + 3.162 + 4.472 = 8.634 (TIDAK TUKAR)

Berhenti ketika cost function sudah minimum / medoid tidak ada perubahan.



Clusternya adalah medoid terdekat. Sehingga hasil akhir cluster :

3. Clustering.Menggunakan cara AGNES (Agglomerative Nesting)Ada beberapa cara dalam menentukan jarak :

Single linkage berdasar jarak terdekat. Complete linkage berdasar jarak terjauh. Average linkage berdasarkan jarak rerata. Centroid berdasarkan jarak centroid 2 cluster. Medoid berdasarkan jarak medoid 2 cluster.

Contoh soal : Bagilah ke 3 cluster.

ID attr1 attr2 attr3 attr4 Cluster

id_36 5.0 3.2 1.2 0.2 Cluster_0

id_46 4.8 3.0 1.4 0.3 Cluster_1

id_86 6.0 3.4 4.5 1.6 Cluster_2

id_96 5.7 3.0 4.2 1.2 Cluster_3

id_136 7.7 3.0 6.1 2.3 Cluster_4



Jawab :

Langkah 1 : hitung jarak antar cluster

Cluster_0 0

Cluster_1 0.361 0

Cluster_2 3.727 3.592 0

Cluster_3 3.245 3.076 0.707 0

Cluster_4 5.979 5.874 2.470 2.970 0

Cluster_0 Cluster_1 Cluster_2 Cluster_3 Cluster_4

Langkah 2 : Lihat jarak terkecil (karena single linkage) lalu merge. Disini kita melihat jarak terdekat adalah cluster 0 dan cluster 1. Maka merge

Langkah 3 : Ulangi langkah 1, tetapi sekarang cluster 0 dan cluster 1 sudah diganti cluster 5. Untuk jarak cluster 5 dengan cluster lain, cari dengan jarak terdekat antara cluster 5 dan cluster lain.


id_36 5.0 3.2 1.2 0.2 Cluster_5

id_46 4.8 3.0 1.4 0.3 Cluster_5



id_86 6.0 3.4 4.5 1.6 Cluster_2

id_96 5.7 3.0 4.2 1.2 Cluster_3

id_136 7.7 3.0 6.1 2.3 Cluster_4

Cluster_5 0

Cluster_2 3.592 0

Cluster_3 3.076 0.707 0

Cluster_4 5.874 2.470 2.970 0

Cluster_5 Cluster_2 Cluster_3 Cluster_4

Langkah 4 : merge yang jarak terdekat

Langkah 5 : sama dengan langkah 3


id_36 5.0 3.2 1.2 0.2 Cluster_5

id_46 4.8 3.0 1.4 0.3 Cluster_5

id_86 6.0 3.4 4.5 1.6 Cluster_6

id_96 5.7 3.0 4.2 1.2 Cluster_6

id_136 7.7 3.0 6.1 2.3 Cluster_4

Cluster_5 0



Cluster_6 3.076 0

Cluster_4 5.874 2.470 0

Cluster_5 Cluster_6 Cluster_4




id_36 5.0 3.2 1.2 0.2 Cluster_5

id_46 4.8 3.0 1.4 0.3 Cluster_5

id_86 6.0 3.4 4.5 1.6 Cluster_7

id_96 5.7 3.0 4.2 1.2 Cluster_7

id_136 7.7 3.0 6.1 2.3 Cluster_7

Cluster_5 0

Cluster_7 3.076 0

Cluster_5 Cluster_7




Langkah 9 : kita ingin dibagi menjadi 3 cluster, maka kita potong, hingga hanya ada cluster 6, cluster 5, cluster 4

Hasil akhir :

Cluster Member

Cluster-1 {Id_36, Id_46}

Cluster-2 {Id_86, Id_96}

Cluster-3 {Id_136}



4. Clustering.Menggunakan data nomor 3 (abaikan kolom cluster), tetapi menggunakan cara DIANA (Divisive Analysis) dengan kriteria Single linkage. Maximum – depth = 3Jawab :Langkah 1 : Hitung jarak yang terdekat antar cluster. Maka itu dijadikan satu cluster. Dan sisanya adalah cluster lain (menggunakan konsep K – Means, misalkan dalam kasus ini K = 2).

Cluster Member

Cluster_1 id_36, id_46

Cluster_2 id_86, id_96, id_136

Langkah 2 : lakukan hal yang sama sampai depth nya mencapai yang kita inginkan. Pada langkah kedua ini, cluster 1 dan cluster 2 dipecah lagi.Cluster 1 menjadi 3 dan 4

Cluster Member

Cluster_3 id_36

Cluster_4 id_46

Cluster 2 menjadi 5 dan 6Cluster Member

Cluster_5 id_86, id_96



Cluster_6 id_136

Langkah 3 : Cluster 3, cluster 4, dan cluster 6 hanya memiliki 1 elemen. Maka dari itu yang bisa dipecah hanya cluster 6 (menjadi cluster 7 dan 8)

Cluster Member

Cluster_7 id_86

Cluster_8 id_96

Hasil akhir :



Cluster Member

Cluster_3 id_36

Cluster_4 id_46

Cluster_7 id_86

Cluster_8 id_96

Cluster_9 id_136

5. Classification.Diketahui data sebagai berikut. Buatkanlah decision treenya. Metode pemilihan attribut adalah information gain.

Jawab :a. Tentukan Info (D). Dihitung dengan jumlah (sesuai banyaknya

kategori) dari -(banyak cat1 / total data)*2 log (banyak cat1 / total data). Dalam kasus ini ada 2 kategori class yaitu tepat waktu dan terlambat, sehingga Info (D) adalah :

Info (D) = -(4/10)log(4/10) – (6/10)log(6/10) = 0.529 + 0.442 = 0.971



b. Untuk setiap attribut, tentukan nilai Info attr (D) nya. Caranya mirip dengan mencari Info(D), akan tetapi kali ini kita melihat sesuai attributnya. Rumus : (banyak data cat1 / total data)*(-(banyak data cat1 cl1/total data cat1)log(banyak data cat1 cl1/total data cat1)) Jumlahkan untuk semua kategori dan class. Dan lakukan langkah ini untuk setiap atribut. Lalu hitung Gain (attr) dengan rumus Info(D) – Info attr (D). Dalam kasus ini :

Info kondisi jalan (D) = (6/10)*(-(4/6)log(4/6) – (2/6)log(2/6)) + (4/10)*(-(4/4)log(4/4)) = 0.551

Gain(kondisi jalan) = 0.971 – 0.551 = 0.42 ...(1)

Info kondisi mobil (D) = (4/10)*(-(2/4)log(2/4) – (2/4)log(2/4)) + (3/10)*(-(2/3)log(2/3) – (1/3)log(1/3)) + (3/10)*(-(3/3)log(3/3)) = 0.4 + 0.274 = 0.674

Gain(kondisi mobil) = 0.971 – 0.674 = 0.297 ...(2)

Info kondisi supir (D) = (5/10)*(-(2/5)log(2/5) – (3/5)log(3/5)) + (5/10)*(-(2/5)log(2/5) – (3/5)log(3/5)) = 0.971

Gain(kondisi supir) = 0.971 – 0.9709 = 0.0001 ...(3)

c. Urutkan dari gain terbesar ke terkecil.Gain(kondisi jalan) = 0.42Gain(kondisi mobil) = 0.297



Gain(kondisi supir) = 0.0001

d. Yang gain terbesar akan jadi root untuk decision tree kita. Decision treenya seperti ini :

Hasil akhir :

6. Classification.Dengan training data dari tabel nomor 4, buatlah hasil prediksi apakah mereka akan tiba tepat waktu atau terlambat jika kondisinya seperti ini :Kondisi jalan = MacetKondisi mobil = Kurang baik



Kondisi supir = Tidak fitJawab :a. Hitung kemungkinan.

P(Macet, Tepat Waktu) = 0/4 = 0P(Macet, Terlambat) = 4/4 = 1P(Kurang baik, Tepat Waktu) = 2/3P(Kurang baik, Terlambat) = 1/3P(Tidak fit, Tepat Waktu) = 2/5P(Tidak fit, Terlambat) = 3/5

b. Kalikan semua untuk setiap prediksi (Tepat Waktu / Terlambat).P(Macet, Kurang baik, Tidak fit, Tepat Waktu) = 0 * 2/3 * 2/5 = 0.

P(Macet, Kurang baik, Tidak fit, Terlambat) = 1 * 1/3 * 3/5 = 3/15.

c. Lihat nilai yang lebih besar. Maka itulah kesimpulannya. Dalam kasus ini nilai yang lebih besar adalah untuk P(Macet, Kurang baik, Tidak fit, Tepat Waktu) lebih besar dibanding P(Macet, Kurang baik, Tidak fit, Terlambat). Maka kesimpulan apabila kondisi jalan macet, kondisi mobil kurang baik, kondisi supir tidak fit adalah Terlambat.

7. Performance measurement classification menggunakan Confusion Matrix.Format confusion matrix adalah sebagai berikut : (perhatikan posisi TP, TN, FN, FP dan Actual / predicted class)



Actual Class \ Predicted Class buy_computer = yes buy_computer = nobuy_computer = yes True Positive (TP) False Negative (FN)buy_computer = no False Positive (FP) True Negative (TN)

Predicted Class \ Actual Class buy_computer = yes buy_computer = nobuy_computer = yes True Positive (TP) False Positive (FP)buy_computer = no False Negative (FN) Trus Negative (TN)

Contoh soal :Actual Class \ Predicted Class buy_computer = yes buy_computer = no Totalbuy_computer = yes 6954 46 7000buy_computer = no 412 2588 3000Total 7366 2634 10000

Hitunglah :a. Accuracyb. Error Ratec. Sensitivityd. Specificitye. Precisionf. Recallg. F – Measureh. Fβ jika β = 2

Jawab :a. Accuracy = (TP + TN)/All

Accuracy = (6954 + 2588)/10000 = 0.9542b. Error rate = (FP + FN)/All

Error rate = (412 + 46)/10000 = 0.0458c. Sensitivity = TP/P



Sensitivity = 6954 / 7000 = 0.9934d. Specificity = TN/N

Specificity = 2588/3000 = 0.8627e. Precision = TP / (TP + FP)

Precision = 6954 / (6954 + 412) = 0.944f. Recall = TP / (TP + FN)

Recall = 6954 / (6954 + 46) = 0.993g. F – Measure = (2 * precision * recall) / (precision + recall)

F – Measure = (2 * 0.944 * 0.993) / (0.944 + 0.993) = 0.968h. Fβ = ((1 + β2) * precision * recall) / (β2 * precision + recall)

F2 = ((1+4) * 0.944 * 0.993) / (4 * 0.944 + 0.993) = 0.983

8. Outlier analysis data object yang berbeda berdasarkan ukuran tertentu dan jaraknya jauh dari data yang dianggap normal. Outlier ini merupakan hal yang ingin kita deteksi.

9. Noise muncul karena adanya kesalahan pengukuran (ketelitian alat ukur atau human error). Noise bukanlah hal yang ingin dicari.

10. Outlier yang menarik adalah yang melanggar mekanisme yang generate data normal.

11. Novelty detection mendeteksi tren, misal tren berita. Kita bisa mendeteksi perubahan tren.

12. Contoh aplikasi outlier analysis : Credit card fraud detection. Medical analysis.



Customer segmentation.

13. Jenis outlier : Global ketika berbeda signifikan secara global.

Contoh : deteksi intrusion di jaringan komputer. Isu : temukan pengukuran deviasi yang tepat.

Contextual ketika pada konteks tertentu menjadi outlier. Atribut dibagi menjadi 2 kelompok :

Contextual attribute menentukan konteksnya. Contoh : waktu dan lokasi.

Behavioral attribute karakteristik dari objek yang digunakan untuk evaluasi, contoh : temperatur.

Selain itu bisa dilihat sebagai generalisasi local outlier yang density (kerapatannya) secara signifikan berbeda dari area lokalnya.

Collective menjadi outlier jika diukur secara berkelompok atau collective, tetapi tidak menjadi outlier ketika dianalisa secara per individual.

Contoh : deteksi intrusion ketika komputer mengirim denial – of – services package satu sama lain.

Deteksi collective outlier :o Mempertimbangkan behavior kelompok objek.o Butuh latar belakang pengetahuan tentang

hubungan data objek seperti jarak dan ukuran kesamaan dalam objek.

o Sebuah data set mungkin punya banyak tipe outlier.

o Satu objek bisa merupakan dari 1 tipe outlier.



14. Tantangan melakukan outlier detection : Modelling objek normal dan outlier secara sesuai

kesulitan menentukan behavior normal dan batas antara objek normal dan outlier terkadang tidak jelas.

Application specific outlier detection menentukan pengukuran jarak antar objek dan model hubungan antarobjek seringkali tergantung aplikasi. Contoh pada data klinik, deviasi kecil bisa dianggap outlier. Padahal di aplikasi marketing tidak.

Handling noise di outlier detection noise bisa mengganggu objek normal dan membuat kabur perbedaan normal dan outlier. Ini menyebabkan kurangnya efektifitas dalam deteksi outlier.

Understandability agar knowledge yang kita temukan berguna. Tentukan degree outlier, objek yang berbeda dari mekanisme normal.

15. Metode outlier detection : Berdasarkan ketersediaan user label example

Supervised Semi – supervised Unsupervised

Berdasarkan asumsi yang digunakan metode tentang normal dan outlier

Statistic Proximity – based Clustering – based



16. Supervised method : Memodelkan outlier detection sebagai masalah klasifikasi

sample diuji oleh expert untuk training dan testing. Metode learning sebagai classifier untuk outlier detection

secara efektif memodelkan objek normal dan melaporkan yang tidak match sebagai outlier atau sebaliknya.

Tantangan : Class yang tidak balance outlier biasanya jarang. Mendeteksi outlier sebanyak mungkin. Recall lebih

penting dari akurasi.

17. Unsupervised method : Asumsikan objek normal di cluster ke kelompok – kelompok

yang memiliki distinct feature. Outlier seharusnya jauh dari kelompok normal object. Kelemahan : tidak bisa deteksi outlier collective secara

efektif, karena objek normal bisa saja tidak share pattern kuat.

Contoh pada intrusion atau deteksi virus : Memiliki false positive rate yang tinggi, tapi masih

kekurangan outlier asli. Supervised method bisa lebih efektif misalnya untuk

identifikasi attacking key resources. Contoh clustering method :

Menemukan cluster, lalu outlier tidak tergabung dalam cluster apapun.

Masalah 1 : sulit membedakan noise dari outlier.



Masalah 2 : lebih costly sejak clustering pertama, tapi less outlier dari objeck normal.

Metode lebih baru : tackle outlier secara langsung.

18. Semi – supervised method : Label tersedia tapi terbatas. Jika sebagian label objek normal tersedia menggunakan

label dan memperkirakan unlabeled object untuk train model objek baru. Yang tidak cocok dengan model normal dideteksi sebagai outlier.

Jika sebagian label outlier tersedia sedikitnya outlier label tidak mengcover outlier yang mungkin terjadi. Untuk meningkatkan kualitas deteksi outlier, bisa menggunakan bantuan objek normal yang dipelajari dari unsupervised method.

19. Deteksi outlier dengan statistik : Asumsi objek di data set digenerate oleh sthocastic process

(generative model). Dibagi menjadi 2 metode : parametrik dan non parametrik. Parametrik :

Asumsi data normal digenerate oleh distribusi parametrik.

Peluang density function memberikan peluang objek x digenerate oleh distribusi.

Semakin kecil value, semakin besar peluang x adalah outlier.



Contoh : Grubb’s test, detection multivariative outlier, mixture parametric distribution

Non – parametrik : Tidak mengasumsikan apriori statistical model dan

menentukan model dari input data. Tidak sepenuhnya tanpa parameter, namun

mempertimbangkan banyaknya parameter secara felksibel.

Contoh : histogram dan kernel density estimation.

20. Proximity based approach (Distance based vs density based) :

Distance based objek o adalah outlier jika neighborhood tidak punya cukup point lain.

Density based objek o adalah outlier jika kerapatannya lebih kecil dibanding neighbornya.

21. Clustering based method outlier detection : Sebuah objek disebut outlier jika :

Bukan milik sebuah cluster. Adanya jarak besar antara objek dan cluster terdekat. Milik cluster kecil atau sparse cluster.

Jika bukan milik cluster menggunakan density based method.

Jika jauh dari cluster terdekat menggunakan k – means. Kelebihan :

Deteksi outlier tanpa membutuhkan labeled data. Bekerja untuk berbagai tipe data.



Cluster bisa jadi ringkasan data. Ketika cluster ditentukan, hnya butuh compare objek

lain dengan cluster untuk menentukan outlier Kelemahan :

Efektifitas tergantung metode clustering. High computational cost. Metode mengurangi cost fixed width clustering.

22. Classification based method outlier detection : One – class model

Train model klasifikasi yang membedakan data normal dan outlier.

Bruteforce approach mempertimbangkan training set yang mengandung label normal dan outlier.

One class model dirancang untuk mendeksripsikan class normal. Yang bukan milik normal class dianggap outlier.

Semi – supervised learning Mengombinasikan classification based dan clustering

based. Pada classification based kelebihannya adalah outlier

detection berlangsung cepat. Kelemahan classification based adalah kualitas sangat

tergantung pada ketersediaan dan kualitas training set, terkadang sulit menentukan representative dan high – quality training data.

23. Tantangan deteksi outlier pada high – dimensional data :



Interpretasi outlier mendeteksi outlier tanpa mengatakan mengapa outlier tidak terlalu berguna di high dimension, karena banyak dimensi yang terlibat.

Data sparsity data di high dimension biasanya menyebar (sparse). Jarak antar objek didominasi oleh noise.

Data subspace adaptif pada subspace yang menandakan outlier dan capture local behavior data.

Scalable dengan respect ke dimensionality banyaknya subspace meningkan secara exponensial.

24. Complex data types untuk mining, contoh datanya : Mining sequence data

Time series intervalnya fix (misal suhu harian). Symbolic sequences interval tidak terlalu jelas (bisa

beda). Biological sequences contoh : urutan DNA.

Mining graphs dan network data berbentuk graph (contoh : peta).

Mining jenis data lain contoh : multimedia data, wrapper text, audio, video, hasil sensor.

25. Contoh aplikasi dan tren data mining : Multimedia indexing dan retrieval. Sentiment analysis Jenis musik yang sesuai dengan behavior seseorang. Content based retrieval CRM (Customer Relationship Management) Fraud detection



Intrusion detection Segmentasi pelanggan Analisis riset Bioinformatika

26. Metode lain dalam data mining : Statistical data mining menggunakan teknik regresi, linear

models, analisis varians, analisis faktor, quality control. Pandangan mengenai dasar data mining :

Data reduction berkaitan dengan akurasi untuk kecepatan respon.

Data compression compress data dengan encoding ke bits, association rule, decision tree.

Probability dan statistical theory menemukan distribusi peluang.

Microeconomic view menemukan pattern menarik untuk pengambilan keputusan suatu perusahaan.

Pattern discovery dan inductive database menemukan pattern pada data untuk melihat hubungannya. Teori yang mendasari adalah machine learning, neural network, association mining, sequential pattern mining, clustering. o Inductive database adalah ketika user

berinteraksi dengan sistem dengan query data dan teori (pattern) dalam knowledge base. Knowledge base inilah yang disebut inductive database.



27. Yang menjadi perhatian pada sosial di data mining adalah privasi data dan keamanan data. Privacy preserving data mining berkaitan dengan hasil valid data mining dengan value yang sensitif. Tujuannya meyakinkan proteksi privasi dan keamanan ketika menyajikan keseluruhan hasil data mining.



scdc.binus.ac.idscdc.binus.ac.id/bslc/wp-content/uploads/sites/49/2018/0... · Web viewUntuk setiap...

Documents

Transcript of scdc.binus.ac.idscdc.binus.ac.id/bslc/wp-content/uploads/sites/49/2018/0... · Web viewUntuk setiap...