Achmad Fahri 1210701002 UTS Data Mining

Data Mining

Nama : Achmad Fahri

NIM : 1210701002

Data Mining

Apa itu data mining ? Dilihat dari pengertiannya “mining” berarti tambang/penggalian. Jadi secara makna data mining merupakan penggalian lebih untuk mendapatkan informasi yang berguna dari data yang sudah ada. Untuk apa ?? tentunya sekumpulan informasi yang kita terima dikumpulkan, dianalisa dan disimpulkan untuk memprediksi suatu permasalahan yang mungkin akan terjadi dimasa datang dan pengambilan keputusan.

Definisi Data Mining Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database. Data mining adalah proses yang menggunakan teknik statistic, matematika, kecerdasan buatan, dan machine Learning untuk mengekstrasi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar [Turban, 2005].

Langkah-langkah Data mining

1. Identity The Business Problem Yang pertama dan juga dasar dari virtous cycle adalah mengetahui masalah yang kita hadapi. Karena kita tidak bisa mengolah data jika kita tidak tau yang sedang kita hadapi. Kita harus mengetahui masalah-masalah apa yang sedang dihadapi. Dengan mengetahui masalah yang dihadapi kita dapat menentukan data-data mana saja yang kita butuhkan untuk dapat dilakukan tahap analisa.

2. Mine The Data For Actionable Information Setelah mengetajui identifikasi masalah, kita memperolah data-data mana saja yang diperlukan untuk analisa. Barulah kita melakukan analisa terhadap data-data tersebut. Dan dari analisa tersebut analisis akan dapat memperolah sebuah knowledge baru dan baru lah dapat diambil suatu keputusan/kebijaksanaan.

3. Take The Action Dan dari keputusan/kebijaksanaan yang didapat dari proses data mining itu barulah kita terapkan dengan aksi berupa tindakan-tindakan yang kongkrit/nyata.

4. Measure Results Setelah diambil tindakan-tindakan dan keputusan, kita memonitori hasil tersebut. Apakah sudah sesuai(memuaskan) dengan target2 yang ingin kita capai, apakah bisa mengatasi masalah-masalah yang dihadapi. Pengelompokkan data mining bisa dibuat seperti berikut.

Data mining memiliki beberapa metode sesuai fungsinya masing-masing , Beberapa metode yang sering di gunakan dalam Data Mining :

- Kalsifikasi - Klustering - Assosiation Rule

Klasifikasi Metode klasifikasi mengacu pada pembentukan kelompok data dengan menerapkan algoritma dikenal ke gudang data di bawah pemeriksaan. Metode ini berguna untuk proses bisnis yang membutuhkan informasi kategoris seperti pemasaran atau penjualan. Hal ini dapat menggunakan berbagai algoritma seperti sebagai tetangga terdekat, pohon keputusan dan lain-lain. Fungsi Klasifikasi secara garis besar yaitu

- Memprediksi kelas suatu item - Membuat model berdasarkan data pelatihan dan digunakan untuk mengklasifikasi data.

secara umum, proses klasifikasi terdapat 2 tahap :

- Proses "belajar" (training data set) : berasal dari data pelatihan (yg sudah ada) - Kasus baru (new case) :

METODE DECISION TREE Metode ini merupakan salah satu metode yang ada pada teknik klasifikasi dalam data mining. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan. Pohon keputusan juga berguna untuk mengekplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target. Data dalam pohon keputusan biasanya dinyatakan dalam bentuk tabel dengan atribut dan record. Atribut menyatakan suatu parameter yang disebut sebagai kriteria dalam pembentukan pohon. Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca, angin, dan suhu. Salah satu atribut merupakan atribut yang menyatakan data solusi per item data yang disebut atribut hasil. Banyak algoritma yang dapat dipakai dalam pembentukan pohon keputusan, antara lain ID3, C4.5, CART.

Sebagai pembahasan disini kita menggunakan algoritma C4.5

Kita akan mengambil contoh untuk memperjalas bagaimana algortima C4.5 membentuk pohon keputusan. Ada sebuah kasus yang akan ditunjukan dibawah ini

Dalam kasus diatas, akan dibuat pohon keputusan untuk menentukan main tenis atau tidak dengan melihat keadaan cuaca, temperatur, kelembaban dan keadaan angin. Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut:

a. Pilih atribut sebagai akar b. Buat cabang untuk masing-masing nilai c. Bagi kasus dalam cabang d. Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang

sama. Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain digunakan rumus seperti tertera dalam Rumus berikut :

Dengan : S : Himpunan kasus A : Atribut n : Jumlah partisi atribut A |Si| : Jumlah kasus pada partisi ke i |S| : Jumlah kasus dalam S Danuntuk menghitung Entropy (S) dapat menggunakan rumus

dengan S : Himpunan Kasus A : Fitur n : Jumlah partisi S pi : Proporsi dari S terhadap Si Berikut tahap – tahap perhitungan untuk menyelesaikan kasus pada tabel diatas

- Menghitung jumlah kasus, jumlah kasus untuk keputusan Yes, jumlah kasus untuk keputusan No, dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut OUTLOOK, TEMPERATURE, HUMIDITY dan WINDY. Setelah itu lakukan penghitungan Gain untuk masing-masing atribut. Hasil perhitungan ditunjukkan oleh

Baris TOTAL kolom Entropy pada Tabel diatas dihitung dengan rumus, sebagai berikut:

𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 (𝐸𝐸𝐸𝐸𝐸𝐸𝑡𝑡𝑡𝑡) = �− 4

14∗ log2 �

414�� + �−

1014

∗ 𝑡𝑡𝐸𝐸𝑙𝑙2 �1014��

𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 (𝑇𝑇𝐸𝐸𝐸𝐸𝑡𝑡𝑡𝑡) = 0.863120569

Sementara itu nilai Gain pada baris OUTLOOK dihitung dengan menggunakan sebagai berikut:

Dari hasil pada Tabel dapat diketahui bahwa atribut dengan Gain tertinggi adalah HUMIDITY yaitu sebesar 0.37. Dengan demikian HUMIDITY dapat menjadi node akar. Ada 2 nilai atribut dari HUMIDITY yaitu HIGH dan NORMAL. Dari kedua nilai atribut tersebut, nilai atribut NORMAL sudah mengklasifikasikan kasus menjadi 1 yaitu keputusan-nya Yes, sehingga tidak perlu dilakukan perhitungan lebih lanjut, tetapi untuk nilai atribut HIGH masih perlu dilakukan perhitungan lagi.

Maka didapatlah keputusan sementara hasil perhitungan node 1

- Menghitung jumlah kasus, jumlah kasus untuk keputusan Yes, jumlah kasus untuk keputusan No, dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut OUTLOOK, TEMPERATURE dan WINDY yang dapat menjadi node akar dari nilai atribut HIGH. Setelah itu lakukan penghitungan Gain untuk masing-masing atribut. Maka didapatlah:

Dari hasil dapat diketahui bahwa atribut dengan Gain tertinggi adalah OUTLOOK yaitu sebesar 0.69. Dengan demikian OUTLOOK dapat menjadi node cabang dari nilai atribut HIGH. Ada 3 nilai atribut dari OUTLOOK yaitu CLOUDY, RAINY dan SUNNY. Dari ketiga nilai atribut tersebut, nilai atribut CLOUDY sudah mengklasifikasikan kasus menjadi 1 yaitu keputusan-nya Yes dan nilai atribut SUNNY sudah mengklasifikasikan kasus menjadi satu dengan keputusan No, sehingga tidak perlu dilakukan perhitungan lebih lanjut, tetapi untuk nilai atribut RAINY masih perlu dilakukan perhitungan lagi. Dan pojon keputusan yang terbentuk pada tahap ini ialah

- Menghitung jumlah kasus, jumlah kasus untuk keputusan Yes, jumlah kasus untuk keputusan No, dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut TEMPERATURE dan WINDY yang dapat menjadi node cabang dari nilai atribut RAINY. Setelah itu lakukan penghitungan Gain untuk masing-masing atribut. Hasil perhitungan ditunjukkan oleh Tabel 3.4.

Dari hasil pada tabel dapat diketahui bahwa atribut dengan Gain tertinggi adalah WINDY yaitu sebesar 1. Dengan demikian WINDY dapat menjadi node cabang dari nilai atribut RAINY. Ada 2 nilai atribut dari WINDY yaitu FALSE dan TRUE. Dari kedua nilai atribut tersebut, nilai atribut FALSE sudah mengklasifikasikan kasus menjadi 1 yaitu keputusan-nya Yes dan nilai atribut TRUE sudah mengklasifikasikan kasus menjadi satu dengan keputusan No, sehingga tidak perlu dilakukan perhitungan lebih lanjut untuk nilai atribut ini.

Dengan memperhatikan pohon keputusan pada Gambar Terakhir, diketahui bahwa semua kasus sudah masuk dalam kelas. Dengan demikian, pohon keputusan pada Gambar Terakhir merupakan pohon keputusan terakhir yang terbentuk.

Itulah Contoh dari klarifikasi dengan metode Decision tree (Pohon Keputusan) dengan algoritma C4.5 merupakan pengembangan dari algoritma ID3. Algoritma C4.5 dan ID3 diciptakan oleh seorang peneliti

dibidang kecerdasan buatan bernama j. Rose quinlan pada akhir tahun 1970-an. Algoritma C4.5 membuat pohon keputusan dari atas ke bawah, dimana atribut paling atas merupakan akar, dan yang paling bawah dinamakan daun.

Klustering

Data Clustering merupakan salah satu metode Data Mining yang bersifat tanpa arahan (unsupervised). Ada dua jenis data clustering yang sering dipergunakan dalam proses pengelompokan data yaitu hierarchical (hirarki) data clustering dan non-hierarchical (non hirarki) data clustering.

Metode ini mempartisi data ke dalam cluster/kelompok sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok yang lain. Adapun tujuan dari data clustering ini adalah untuk meminimalisasikan objective function yang diset dalam proses clustering, yang pada umumnya berusaha meminimalisasikan variasi di dalam suatu cluster dan memaksimalisasikan variasi antar cluster.

• K-Means merupakan salah satu metode data clustering non hirarki yang berusaha mempartisi data

yang ada ke dalam bentuk satu atau lebih cluster/kelompok.

Disini kita akan membahas algoritma dari klustering yaitu k-means yang secara umum atau garis besar mempunyai algoritma sebagai berikut 1. Tentukan jumlah cluster

2. Alokasikan data ke dalam cluster secara random

3. Hitung centroid/rata-rata dari data yang ada di masing-masing cluster 4. Alokasikan masing-masing data ke centroid/rata-rata terdekat 5. Kembali ke Step 3, apabila masih ada data yang berpindah cluster atau apabila perubahan nilai

centroid, ada yang di atas nilai threshold yang ditentukan atau apabila perubahan nilai pada objective function yang digunakan di atas nilai threshold yang ditentukan.

Model Klasifikasi

- Perkembangan Penerapan K-Means

Beberapa alternatif penerapan K-Means dengan beberapa pengembangan teori-teori penghitungan terkait telah diusulkan. Hal ini termasuk pemilihan: 1. Distance space untuk menghitung jarak di antara suatu data dan centroid 2. Metode pengalokasian data kembali ke dalam setiap cluster 3. Objective function yang digunakan

1. Distince Space Untuk Menghitung Jarak Antara Data dan Centroid

Beberapa distance space telah diimplementasikan dalam menghitung jarak (distance) antara data dan centroid termasuk di antaranya L1 , L2 ,dan Lp ]. Jarak antara dua titik x1 dan x2 pada Manhattan/City Block distance space dihitung dengan menggunakan rumus sebagai berikut:

dimana: p : Dimensi data | . | : Nilai absolut Sedangkan untuk L2 (Euclidean) distance space, jarak antara dua titik dihitung menggunakan rumus sebagai berikut:

dimana: p : Dimensi data

Atribut Set (x) Clasification Model Class Label Y

OutputInput

L (Minkowski) distance space yang merupakan generalisasi dari beberapa distance space yang ada seperti Lp1 (Manhattan/City Block) dan L (Euclidean), juga telah diimplementasikan. Tetapi secara umum distance space yang sering digunakan adalah Manhattan dan Euclidean. Euclidean sering digunakan karena penghitungan jarak dalam distance space ini merupakan jarak terpendek yang bisa didapatkan antara dua titik yang diperhitungkan, sedangkan Manhattan sering digunakan karena kemampuannya dalam mendeteksi keadaan khusus seperti keberadaaan outliers dengan lebih baik.

2. Metode Pengalokasian Ulang Data ke Dalam Masing-Masing Cluster

Secara mendasar, ada dua cara pengalokasian data kembali ke dalam masing-masing cluster pada saat proses iterasi clustering. Kedua cara tersebut adalah pengalokasian dengan cara tegas (hard), dimana data item secara tegas dinyatakan sebagai anggota cluster yang satu dan tidak menjadi anggota cluster lainnya, dan dengan cara fuzzy, dimana masing-masing data item diberikan nilai kemungkinan untuk bisa bergabung ke setiap cluster yang ada. Kedua cara pengalokasian tersebut diakomodasikan pada dua metode Hard K-Means dan Fuzzy K-Means. Perbedaan di antara kedua metode ini terletak pada asumsi yang dipakai sebagai dasar pengalokasian. Hard K-Means. Pengalokasian kembali data ke dalam masing-masing cluster dalam metode Hard K-Means didasarkan pada perbandingan jarak antara data dengan centroid setiap cluster yang ada. Data dialokasikan ulang secara tegas ke cluster yang mempunyai centroid terdekat dengan data tersebut. Pengalokasian ini dapat dirumuskan sebagai berikut:

dimana: aik : Keanggotaan data ke-k ke cluster ke-i vi : Nilai centroid cluster ke-i

3. Objective Function Yang Digunakan

Objective function yang digunakan khususnya untuk Hard K-Means dan Fuzzy K-Means ditentukan berdasarkan pada pendekatan yang digunakan dalam poin diatas Untuk metode Hard K-Means, objective function yang digunakan adalah sebagai berikut:

dimana: N : Jumlah data c : Jumlah cluster

aik : Keanggotaan data ke-k ke cluster ke-i v i : Nilai centroid cluster ke-i aik mempunyai nilai 0 atau 1. Apabila suatu data merupakan anggota suatu kelompok maka nilai aik = 1 dan sebaliknya. Untuk metode Fuzzy K-Means, objective function yang digunakan adalah sebagai berikut:

dimana: N : Jumlah data c : Jumlah cluster m : Weighting exponent u ik : Membership function data ke-k ke cluster ke-i v i : Nilai centroid cluster ke-i

Di sini u i bisa mengambil nilai mulai dari 0 sampai 1.

- K-Means untuk Data yang Mempunyai Bentuk Khusus

beberapa dataset yang mempunyai bentuk tertentu memerlukan suatu metode pemecahan khusus yang disesuaikan dengan keadaan data tersebut. Gambar dibawah mengilustrasikan suatu dataset yang mempunyai bentuk khusus yang kalau dimodel dengan metode K-Means, baik Hard K-Means dan Fuzzy K-Means akan memberikan hasil yang tidak mewakili keadaan dataset tersebut. Pengembangan metode K-Means yang secara khusus memanfaatkan kernel trik, dimana data space untuk data awal di-mapping ke feature space yang berdimensi tinggi. Beberapa hal yang perlu diperhatikan dalam pengembangan metode K-Means dengan kernel trik ini adalah bahwa data pada feature space tidak lagi dapat didefinisikan secara eksplisit, sehingga penghitungan nilai membership function dan centroid tidak dapat dilakukan secara langsung. Beberapa trik penghitungan telah diusulkan dalam menurunkan nilai kedua variabel yang diperlukan tersebut. Dengan penerapan trik perhitungan terhadap kedua variabel tersebut, objective function yang digunakan dalam menilai apakah suatu proses pengelompokan sudah converge atau tidak juga akan berubah.

- Algoritma K-Means

Hard K-Means Metode Hard K-Means melakukan proses clustering dengan mengikuti algoritma sebagai Berikut:

a. Tentukan jumlah cluster b. Alokasikan data sesuai dengan jumlah cluster yang ditentukan c. Hitung nilai centroid masing-masing cluster d. Alokasikan masing-masing data ke centroid terdekat e. Kembali ke Step c. apabila masih terdapat perpindahan data dari satu cluster ke cluster

yang lain, atau apabila perubahan pada nilai centroid masih di atas nilai threshold yang ditentukan, atau apabila perubahan pada nilai objective function masih di atas nilai threshold yang ditentukan.

Untuk menghitung centroid cluster ke-i, v i , digunakan rumus sebagai berikut:

dimana: Ni : Jumlah data yang menjadi anggota cluster ke-i Untuk penghitungan membership function digunakan rumus pada persamaan

dimana: a ik : Keanggotaan data ke-k ke cluster ke-i v : Nilai centroid cluster ke-i

i Fuzzy K-Means Metode Fuzzy K-Means melakukan proses clustering dengan mengikuti algoritma sebagai berikut:

a. Tentukan jumlah cluster b. Alokasikan data sesuai dengan jumlah cluster yang ditentukan c. Hitung nilai centroid dari masing-masing cluster d. Hitung nilai membership function masing-masing data ke masing-masing cluster e. Kembali ke Step c. apabila perubahan nilai membership function masih di atas nilai

threshold yang ditentukan, atau apabila perubahan pada nilai centroid masih di atas nilai threshold yang ditentukan, atau apabila perubahan pada nilai objective function masih di atas nilai threshold yang ditentukan.

Untuk menghitung centroid cluster ke-i, vi , digunakan rumus sebagai berikut:

dimana: N : Jumlah data m : Weighting exponent u ik : Membership function data ke-k ke cluster ke-i Sedangkan untuk menghitung membership function data ke-k ke cluster ke-i digunakan rumus pada persamaan

dimana: u ik : Membership function data ke-k ke cluster ke-i v i : Nilai centroid cluster ke-i m : Weighting Exponent Mixture Modelling Berbagai algoritma memungkinkan untuk digunakan dalam memecahkan proses optimasi mixture modelling termasuk di antaranya random search, simulated annealing, Markov Chain Monte Carlo (MCMC) maupun algoritma genetika. Untuk makalah ini, dipaparkan Metode random search yang

memberikan nilai jumlah cluster secara random di awal setiap proses optimasi. Algoritma yang digunakan adalah sebagai berikut: a. Tentukan jumlah cluster b. Alokasikan data secara random ke masing-masing cluster yang telah ditentukan

1. Hitung means (sama dengan centroid pada K-Means) dari masing-masing cluster 2. Hitung standar deviasi/variance covariance dari masing-masing cluster 3. Hitung nilai probabilitas masing-masing data ke masing-masing cluster 4. Kembali ke Step b.1, apabila perubahan nilai probabilitas masih di atas nilai threshold yang

ditentukan, atau apabila perubahan pada nilai centroid masih di atas nilai threshold yang ditentukan, atau apabila perubahan pada nilai objective function masih di atas nilaithreshold yang ditentukan.

c. Kembali ke Step a. apabila masih ada jumlah cluster yang ingin dianalisa. Dengan asumsi bahwa data terdistribusi secara normal, means cluster ke-i, 𝜇𝜇𝑖𝑖 , dihitung dengan menggunakan rumus sama dengan metode Fuzzy K-Means dengan uik merupakan nilai probabilitas data tersebut termasuk di dalam cluster ke - i. Sedangkan standar deviasi/ variance covariance cluster ke-i, 𝜎𝜎𝑖𝑖/ ∑𝑖𝑖 , dihitung dengan menggunakan rumus sebagai berikut:

dimana: N : Jumlah data 𝜇𝜇i : Means cluster ke-i sedangkan untuk menghitung nilai probabilitas data ke-k ke cluster ke-i digunakan rumus penghitungan probabilitas seperti pada persamaan.

Jadi Ada beberapa permasalahan yang perlu untuk diperhatikan dalam menggunakan metode K-Means termasuk model clustering yang berbeda-beda, pemilihan model yang paling tepat untuk dataset yang dianalisa, kegagalan untuk converge, pendeteksian outliers, bentuk masing-masing cluster dan permasalahan overlapping ASSOCIATION RULE

Analisis asosiasi atau association rule mining adalah teknik data mining untuk menemukan aturan assosiatif antara suatu kombinasi item. Contoh aturan assosiatif dari analisa pembelian di suatu pasar swalayan adalah dapat diketahuinya berapa besar kemungkinan seorang pelanggan membeli roti bersamaan dengan susu. Dengan pengetahuan tersebut pemilik pasar swalayan dapat mengatur

penempatan barangnya atau merancang kampanye pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu. Analisis asosiasi menjadi terkenal karena aplikasinya untuk menganalisa isi keranjang belanja di pasar swalayan. Analisis asosiasi juga sering disebut dengan istilah market basket analysis Analisis asosiasi dikenal juga sebagai salah satu teknik data mining yang menjadi dasar dari berbagai teknik data mining lainnya. Khususnya salah satu tahap dari analisis asosiasi yang disebut analisis pola frequensi tinggi (frequent pattern mining) menarik perhatian banyak peneliti untuk menghasilkan algoritma yang efisien. Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support (nilai penunjang) yaitu persentase kombinasi item tersebut dalam database dan confidence (nilai kepastian) yaitu kuatnya hubungan antar item dalam aturan assosiatif. Aturan assosiatif biasanya dinyatakan dalam bentuk : {roti, mentega} {susu} (support = 40%, confidence = 50%)

Yang artinya : "50% dari transaksi di database yang memuat item roti dan mentega juga memuat item susu. Sedangkan 40% dari seluruh transaksi yang ada di database memuat ketiga item itu." Dapat juga diartikan : "Seorang konsumen yang membeli roti dan mentega punya kemungkinan 50% untuk juga membeli susu. Aturan ini cukup signifikan karena mewakili 40% dari catatan transaksi selama ini." Analisis asosiasi didefinisikan suatu proses untuk menemukan semua aturan assosiatif yang memenuhi syarat minimum untuk support (minimum support) dan syarat minimum untuk confidence (minimum confidence).

- Analisa pola frekuensi tinggi Tahap ini mencari kombinasi item yang memenuhi syarat minimum dari nilai support dalam database. Nilai support sebuah item diperoleh dengan rumus berikut:

Support (A) =Jumlah Transaksi mengandung A

Total Transaksi

sedangkan nilai support dari 2 item diperoleh dari rumus berikut:

Support (A ∩ B) ==Jumlah Transaksi mengandung A dan B

Total Transaksi

- Pembentukan aturan assosiatif

Setelah semua pola frekuensi tinggi ditemukan, barulah dicari aturan assosiatif yang memenuhi syarat minimum untuk confidence dengan menghitung confidence aturan assosiatif A B Nilai confidence dari aturan A B diperoleh dari rumus berikut:

Confidence = 𝑃𝑃(𝐵𝐵 | 𝐴𝐴) =Jumlah Transaksi mengandung A dan B

Jumlah Transaksi mengandung A

Sebagai contoh ambil suatu data transaksi yang didapat dari penjualan sayur dengan data transaksi sebagai berikut : Transaksi Transaksi Item yang di beli 1 Broccoli, Green Peppers, Corn 2 Asparagus, Squash, Corn 3 Corn, Tomatoes, Beans, Squash

4 Green Peppers, Corns, Tomatoes, Beans 5 Beans, Asparagus, Broccoli 6 Squash, Asparagus, Beans, Tomatoes 7 Tomatoes, corn 8 Broccoli, Tomatoes, Green Peppers 9 Squash, Asparagus, Beans 10 Beans, Corn 11 Green Peppers, Broccoli, Beans, Squash 12 Asparagus, Bean, Squash 13 Squash, Corn, Asparagus, Beans 14 Corn, Green Peppers, Tomatoes, Beans, Broccoli

- Definisi-definisi yang terdapat pada Association Rule

1. I adalah himpunan yang tengah dibicarakan. Contoh: {Asparagus, Beans, …, Tomatoes} 2. D adalah Himpunan seluruh transaksi yang tengah dibicarakan Contoh: {Transaksi 1, transaksi 2, …, transaksi 14} 3. Proper Subset adalah Himpunan Bagian murni

Contoh: Ada suatu himpunan A={a,b,c,} Himpunan Bagian dari A adalah

Himpunan Kosong = {} Himpunan 1 Unsur = {a},{b},{c} Himpunan 2 Unsur = {a,b},{a,c},{b,c} Himpunan 3 Unsur = {a,b,c,}

Proper subset nya adalah Himpunan 1 Unsur dan Himpunan 2 Unsur 4. Item set adalah Himpunan item atau item-item di I Contoh: Ada suatu himpunan A={a,b,c,} Item set nya adalah {a};{b}:{c};{a,b};{a,c};{b,c} 5. K- item set adalah Item set yang terdiri dari K buah item yang ada pada I. Intinya K itu adalah jumlah unsur yang terdapat pada suatu Himpunan Contoh: 3-item set adalah yang bersifat 3 unsur 6. Item set Frekuensi adalah Jumlah transaksi di I yang mengandung jumlah item set tertentu. Intinya jumlah transaksi yang membeli suatu item set. Contoh: Kita gunakan tabel transaksi penjualan sayur di atas - frekuensi Item set yang sekaligus membeli Beans dan Brocolli adalah 3 - frekuensi item set yang membeli sekaligus membeli Beans, Squash dan Tomatoes adalah 2 7. Frekuen Item Set adalah item set yang muncul sekurang-kurangnya “sekian” kali di D. Kata “sekian” biasanya di simbolkan dengan Ф. Ф merupakan batas minimum dalam suatu transaksi Contoh: Pertama kita tentukan Ф = 3, karena jika tidak di tentukan maka maka frekuen item set tidak dapat di hitung. Jika Ф=3 untuk {Asparagus, Beans} apakah frekuen Item set? Jika kita hitung maka jumlah transaksi yang membeli asparagus sekaligus membeli beans adalah 5. Karena 5 >= 3 maka {Asparagus, Beans} merupakan Frekuen Item set.

8. Fk adalah Himpunan semua frekuen Item Set yang terdiri dari K item.

Langkah-langkah algoritma pada Association Rule

1. Tentukan Ф 2. Tentukan semua Frekuen Item set 3. Untuk setiap Frekuen Item set lakukan hal sbb:

i. Ambil sebuah unsur, namakanlah s ii. Untuk sisanya namakanlah ss-s iii. Masukkan unsur-unsur yang telah di umpamakan ke dalam rule If (ss-s) then s

Untuk langkah ke 3 lakukan untuk semua unsur. Untuk Lebih jelasnya contoh berikut akan menjelaskan algoritma dari Association Rule.

Ada transaksi seperti yang terlihat dibawah ini.

Transaksi Item yang di beli 1 C, E, D 2 A, F, D 3 D, G, B, F 4 E, D, G, B 5 B, A, C 6 F, A, B, G 7 G, D 8 C, G, E 9 F, A, B 10 B, D

1. Pisahkan masing-masing item yang dibeli

Item yang di A

B C D E F G

2. Kemudian Buat Tabel seperti dibawah ini:

Transaksi A B C D E F G 1 0 0 1 1 1 0 0 2 1 0 0 1 0 1 0 3 0 1 0 1 0 1 1 4 0 1 0 1 1 0 1 5 1 1 1 0 0 0 0 6 1 1 0 0 0 1 1 7 0 0 0 1 0 0 1 8 0 0 1 0 1 0 1 9 1 1 0 0 0 1 0

10 0 1 0 1 0 0 0

3. Kemudian hitung jumlah banyaknya pembelian untuk setiap item.

T A C f 1 0 1 S 2 1 0 S 3 0 0 S 4 0 0 S 5 1 1 P 6 1 0 S 7 0 0 S 8 0 1 S 9 1 0 S

10 0 0 S Σ 1

T A D f 1 0 1 S 2 1 1 P 3 0 1 S 4 0 1 S 5 1 0 S 6 1 0 S 7 0 1 S 8 0 0 S 9 1 0 S

10 0 1 S Σ 1

T A E f 1 0 1 S 2 1 0 S 3 0 0 S 4 0 1 S 5 1 0 S 6 1 0 S 7 0 0 S 8 0 1 S 9 1 0 S

10 0 0 S Σ 0

T B C f 1 0 1 S 2 0 0 S 3 1 0 S 4 1 0 S 5 1 1 P 6 1 0 S 7 0 0 S 8 0 1 S 9 1 0 S

10 1 0 S Σ 1

T B D f 1 0 1 S 2 0 1 S 3 1 1 P 4 1 1 P 5 1 0 S 6 1 0 S 7 0 1 S 8 0 0 S 9 1 0 S

10 1 1 P Σ 3

Transaksi A B C D E F G 1 0 0 1 1 1 0 0 2 1 0 0 1 0 1 0 3 0 1 0 1 0 1 1 4 0 1 0 1 1 0 1 5 1 1 1 0 0 0 0 6 1 1 0 0 0 1 1 7 0 0 0 1 0 0 1 8 0 0 1 0 1 0 1 9 1 1 0 0 0 1 0

10 0 1 0 1 0 0 0 Σ 4 6 3 6 3 4 5

4. Tentukan Ф.

Misalkan kita tentukan Ф = 3, maka kita dapat menentukan frekuen itemset. Dari tabel di atas diketahui total Ф untuk transaksi k = 1, semuanya lebih besar dari Ф. Maka:

F1 = {{A}, {B}, {C}, {D}, {E}, {F}, {G}} Untuk k = 2 (2 unsur), diperlukan tabel untuk tiap-tiap pasang item. Himpunan yang mungkin terbentuk adalah: {A,B}, {A,C}, {A,D}, {A,E}, {A,F}, {A,G}, {B,C}, {B,D}, {B,E}, {B,F}, {B,G}, {C,D}, {C,E}, {C,F}, {C,G}, {D,E}, {D,F}, {D,G}, {E,F}, {E,G}, {F,G}. Tabel-tabel untuk calon 2 item set:

T A F f 1 0 0 S 2 1 1 P 3 0 1 S 4 0 0 S 5 1 0 S 6 1 1 P 7 0 0 S 8 0 0 S 9 1 1 P

10 0 0 S Σ 3

T A B f 1 0 0 S 2 1 0 S 3 0 1 S 4 0 1 S 5 1 1 P 6 1 1 P 7 0 0 S 8 0 0 S 9 1 1 P

10 0 1 S Σ 3

T A G f 1 0 0 S 2 1 0 S 3 0 1 S 4 0 1 S 5 1 0 S 6 1 1 P 7 0 1 S 8 0 1 S 9 1 0 S

10 0 0 S Σ 1

T B E f 1 0 1 S 2 0 0 S 3 1 0 S 4 1 1 P 5 1 0 S 6 1 0 S 7 0 0 S 8 0 1 S 9 1 0 S

10 1 0 S Σ 1

T B F f 1 0 0 S 2 0 1 S 3 1 1 P 4 1 0 S 5 1 0 S 6 1 1 P 7 0 0 S 8 0 0 S 9 1 1 P

10 1 0 S Σ 3

T B G f 1 0 0 S 2 0 0 S 3 1 1 P 4 1 1 P 5 1 0 S 6 1 1 P 7 0 1 S 8 0 1 S 9 1 0 S

10 1 0 S Σ 3

T C D f 1 1 1 P 2 0 1 S 3 0 1 S 4 0 1 S 5 1 0 S 6 0 0 S 7 0 1 S 8 1 0 S 9 0 0 S

10 0 1 S Σ 1

T C E f 1 1 1 P 2 0 0 S 3 0 0 S 4 0 1 S 5 1 0 S 6 0 0 S 7 0 0 S 8 1 1 P 9 0 0 S 10 0 0 S

Σ 2

T D F f 1 1 0 S 2 1 1 P 3 1 1 P 4 1 0 S 5 0 0 S 6 0 1 S 7 1 0 S 8 0 0 S 9 0 1 S

10 1 0 S Σ 2

T C F f 1 1 0 S 2 0 1 S 3 0 1 S 4 0 0 S 5 1 0 S 6 0 1 S 7 0 0 S 8 1 0 S 9 0 1 S

10 0 0 S Σ 0

T D G f 1 1 0 S 2 1 0 S 3 1 1 P 4 1 1 P 5 0 0 S 6 0 1 S 7 1 1 P 8 0 1 S 9 0 0 S

10 1 0 S Σ 3

T C G f 1 1 0 S 2 0 0 S 3 0 1 S 4 0 1 S 5 1 0 S 6 0 1 S 7 0 1 S 8 1 1 P 9 0 0 S

10 0 0 S Σ 1

T E F f 1 1 0 S 2 0 1 S 3 0 1 S 4 1 0 S 5 0 0 S 6 0 1 S 7 0 0 S 8 1 0 S 9 0 1 S

10 0 0 S Σ 0

T D E f 1 1 1 P 2 1 0 S 3 1 0 S 4 1 1 P 5 0 0 S 6 0 0 S 7 1 0 S 8 0 1 S 9 0 0 S

10 1 0 S Σ 2

T E G f 1 1 0 S 2 0 0 S 3 0 1 S 4 1 1 P 5 0 0 S 6 0 1 S 7 0 1 S 8 1 1 P 9 0 0 S

10 0 0 S Σ 2

T B D F f 1 0 1 0 S 2 0 1 1 S 3 1 1 1 P 4 1 1 0 S 5 1 0 0 S 6 1 0 1 S 7 0 1 0 S 8 0 0 0 S 9 1 0 1 S

10 1 1 0 S Σ 1

T B D G f 1 0 1 0 S 2 0 1 0 S 3 1 1 1 P 4 1 1 1 P 5 1 0 0 S 6 1 0 1 S 7 0 1 1 S 8 0 0 1 S 9 1 0 0 S

10 1 1 0 S Σ 2

T B F G f 1 0 0 0 S 2 0 1 0 S 3 1 1 1 P 4 1 0 1 S 5 1 0 0 S 6 1 1 1 P 7 0 0 1 S 8 0 0 1 S 9 1 1 0 S

10 1 0 0 S Σ 2

Dari tabel-tabel 2 unsur di atas, P artinya item-item yang dijual bersamaan, sedangkan S berarti tidak ada item yang dijual bersamaan atau tidak terjadi transaksi. Σ melambangkan jumlah Frekuensi item set. Jumlah frekuensi item set harus lebih besar atau sama dengan jumlah Frekuensi item set (Σ >= Ф). Dari tabel diatas, maka didapat:

F2 = {{A,B}, {A,F}, {B,D}, {B,F}, {B,G}, {D,G}

Kombinasi dari itemset dalam F2, dapat kita gabungkan menjadi calon 3-itemset. Itemset-itemset yang dapat digabungkan adalah itemset-itemset yang memiliki kesamaan dalam k-1 item pertama. Misalnya {A,B} dan {A,F} memiliki itemset k-1 pertama yg sama, yaitu A, maka dapat digabungkan menjadi 3- itemset baru yaitu {A, B, F}. Untuk k = 3 (3 unsur), himpunan yang mungkin terbentuk adalah: {A, B, F}, {B, D, F}, {B, D,G}, {B, F, G}

T A B F f 1 0 0 0 S 2 1 0 1 S 3 0 1 1 S 4 0 1 0 S 5 1 1 0 S 6 1 1 1 P 7 0 0 0 S 8 0 0 0 S 9 1 1 1 P

10 0 1 0 S Σ 2

Dari tabel-tabel di atas, didapat F3 = { }, karena tidak ada Σ >= Ф sehingga F4, F5, F6 dan F7 juga merupakan himpunan kosong.

T F G f 1 0 0 S 2 1 0 S 3 1 1 P 4 0 1 S 5 0 0 S 6 1 1 P 7 0 1 S 8 0 1 S 9 1 0 S

10 0 0 S Σ 2

5. Rule yang dipakai adalah if x then y, dimana x adalah antecendent dan y adalah consequent. Berdasarkan

rule tersebut, maka dibutuhkan 2 buah item yang mana salah satunya sebagai antecedent dan sisanya sebagai consequent. Dari langkah 4 didapat 1 buah Fk yaitu F2. F1 tidak disertakan karena hanya terdiri dari 1 item saja. Untuk antecedent boleh lebih dari 1 unsur, sedangkan untuk consequent terdiri dari 1 unsur.

6. Tentukan (ss-s) sebagai antecedent dan s sebagai consequent dari Fk yang telah di dapat berdasarkan rule pada langkah 5. Pada F2 didapat himpunan F2 = {{A,B}, {A,F}, {B,D}, {B,F}, {B,G}, {D,G} Maka dapat disusun:

Untuk {A,B}: - Jika (ss-s) = A, Jika s = B, Maka -+ If buy A then buy B - Jika (ss-s) = B, Jika s = A, Maka -+ If buy B then buy A Untuk {A,F}: - Jika (ss-s) = A, Jika s = F, Maka -+ If buy A then buy F - Jika (ss-s) = F, Jika s = A, Maka -+ If buy F then buy A Untuk {B,D}: - Jika (ss-s) = B, Jika s = D, Maka -+ If buy B then buy D - Jika (ss-s) = D, Jika s = B, Maka -+ If buy D then buy B Untuk {B,F}: - Jika (ss-s) = B, Jika s = F, Maka -+ If buy B then buy F - Jika (ss-s) = F, Jika s = B, Maka -+ If buy F then buy B Untuk {B,G}: - Jika (ss-s) = B, Jika s = G, Maka -+ If buy B then buy G - Jika (ss-s) = G, Jika s = B, Maka -+ If buy G then buy B Untuk {D,G}: - Jika (ss-s) = D, Jika s = G, Maka -+ If buy D then buy G - Jika (ss-s) = G, Jika s = D, Maka -+ If buy G then buy D

7. Dari langkah 6, kita mendapatkan 12 rule yang dapat digunakan yaitu If buy A then buy B If buy B then buy A If buy A then buy F If buy F then buy A If buy B then buy D If buy D then buy B If buy B then buy F If buy F then buy B If buy B then buy G If buy G then buy B If buy D then buy G If buy G then buy D

8. Dari langkah 7 dibuat tabel kandidat asosiasi rule untuk 1 antecedent

If antecedent then consequent Support Confidence If buy A then buy B If buy B then buy A If buy A then buy F If buy F then buy A If buy B then buy D If buy D then buy B If buy B then buy F If buy F then buy B If buy B then buy G If buy G then buy B If buy D then buy G If buy G then buy D

9. Hitung support dan confidence.

SUPPORT

item. yang.dibeli.sekaligus x100% jumlah.seluruh.transaksi

CONFIDENCE item. yang.dibeli.sekaligus jumlah.transaksi. pada.bagian.antecedent

x100%

Untuk Σ item yang dibeli sekaligus pada If buy A then buy B, ada 3 transaksi. Jumlah seluruh transaksi adalah 10 transaksi, sehingga support-nya adalah:

SUPPORT 3 x100%

10

33,33%

Untuk Σ item yang dibeli sekaligus pada If buy A then buy B, ada 3 transaksi, sedangkan jumlah transaksi yang membeli A adalah 4 transaksi, sehingga confidence-nya adalah:

CONFIDENCE

3 x100% 4

75%

10. Setelah di dapat support dan confidence untuk masing-masing kandidat, lakukan perkalian antara support dan confidence, dimana confidence-nya diambil 70% ke atas, sehingga di dapat tabel sbb:

If antecedent then consequent Support Confidence Support x confidence If buy A then buy B 33,33% 75% 0.249975 If buy A then buy F 33,33% 75% 0.249975 If buy F then buy A 33,33% 75% 0.249975 If buy F then buy B 33,33% 75% 0.249975

11. Setelah didapat hasil perkalian antara support dan confidence, pilihlah yang hasil

perkaliannya paling besar. Hasil paling besar dari perkalian perkalian tersebut merupakan rule yang dipakai pada saat menjual. Karena hasil perkalian dari ke-4 penjualan diatas bernilai sama, maka semuanya bisa dijadikan rule. - Jika membeli A maka akan membeli B dengan support 33,33% dan confidence 75% - Jika membeli A maka akan membeli F dengan support 33,33% dan confidence 75% - Jika membeli F maka akan membeli A dengan support 33,33% dan confidence 75% - Jika membeli F maka akan membeli B dengan support 33,33% dan confidence 75%

Berikut Contoh untuk Assosiation Rule.

Achmad Fahri 1210701002 UTS Data Mining

Documents

Transcript of Achmad Fahri 1210701002 UTS Data Mining