Manajemen
DATAAdamMukharil Bachtiar, M.T.
Data Mining Association Rule
Pemahaman Awal Data Mining
apa itu Data Mining?
Ekstraksi pengetahuan yang menarik dalam bentuk rule, regularities, pola, constraint, dan lain-lain dari data yang
tersimpan dalam sejumlah besar basis data
Gambaran Umum Data Mining
Data mining atau dikenal juga sebagai KDD (Knowledge Discovery in Databases) menggunakan data historical untukmengekstraksi pengetahuan
Bagaimana proses untukmelakukan Data Mining?
Fungsional data mining adadua, yaitu fungsi predictive dan fungsi descriptive
Fungsi Predictive
Memprediksi nilai suatu atribut berdasarkan atribut-atribut lainnya
Fungsi Descriptive
Memperoleh pola yang merangkum relasi pokok pada data yang digunakan
What is Know Your Customer (KYC)(https://www.youtube.com/watch?v=vLeC6khWzpM)
Business Analytics: Data Trends Let Businesses Spot New Opportunities
(https://www.youtube.com/watch?v=HbHTvqZE3D8)
Metode data mining adatiga, yaitu Association Rule, Classification, dan Clustering
Dalam bab ini akan dijelaskandata mining menggunakanmetode Association Rule
Penjelasan Association Rule
Metode Association Rule sering juga disebut sebagaiMarket Basket Analysis
Association Rule digunakanuntuk mengekstraksiketerhubungan asosiatif ataukorelasi yang menarik antar item
Gambaran Hubungan Asosiatif Antar Item
if then
Sebagai contoh:
if antecedent then consequent
Artinya:1.Adahubunganasosiatifantararotidenganselai.2.Jikaseseorangmembelirotimakadiaberkemungkinan jugasebesarn%untukmembeliselaidalamsatupembelian
Ada dua parameter yang perludiketahui pada metodeAssociation Rule, yaitu nilaisupport dan nilai confidence
Nilai support:Rasio antara jumlah transaksi yang memuat antecedent dan consequent terhadap jumlah transaksi
Nilai confidence:Rasio antara jumlah transaksi yang memuat antecedent dan consequent terhadap jumlah transaksi yang meliputisemua item dalam antecedent
IF A THEN B,CSupport = 0.5 (50%)Confidence = 1 (100%)
IF B THEN CSupport = 1 (100%)Confidence = 1 (100%)
IF B THEN C,ASupport = 0.5 (50%)Confidence = 0.5 (50%)
Cara menghitung nilai support dan confidence
Terdapat dua transaksi yang terjadi:
Terdapat beberapa algoritmayang bisa digunakan untukassociation rule di antaranyaalgoritma apriori dan FP-Growth
Section 1:Algoritma Apriori
Ide dasar:Mengembangkan frequent itemset danmemangkas item yang tingkatfrekuensinya di bawah minimum support (Support >= Minimal Support)
Pseudocode algoritma apriori
Bagaimana cara kerjanya?
Contoh Kasus Algoritma Apriori
Terdapat 9 transaksi yang terjadi:
Langkah 1:Tentukan nilai minimum support danminimum confidence
Minimum support:Menyatakan nilai minimum kemunculan itemset padasuatu kumpulan transaksi
Minimum confidence:Menyatakan nilai minimum kepercayaan terhadap rule yang dihasilkan
Dalam kasus ini, ditentukannilai minimum support = 2 (22%) dan minimum confidence = 70%
Langkah 2:Generate frequent pattern 1-itemset
Pada iterasi pertama ini, semua itemset memenuhi aturan minimum supportnyasehingga semua item menjadi kandidat.
Langkah 3:Generate frequent pattern 2-itemset
1. C2 adalah hasil dari L1 join L12. L2 adalah itemset C2 yang memenuhi aturan minimum support
L1
Langkah 4:Generate frequent pattern 3-itemset. Lakukan untuk n-itemset apabila masihmungkin terbentuk itemset.
1. Algoritma apriori mulai berjalan di langkah ini
2. Join step: {{I1, I2, I3}, {I1, I2, I5}, {I1, I3, I5}, {I2, I3, I4}, {I2, I3, I5}, {I2, I4, I5}}
3. {I1, I3, I5}, {I2, I3, I4}, {I2, I3, I5}, {I2, I4, I5} tidak dijadikan itemset karena ada
subset dari set tersebut yang tidak memenuhi minimum support (prune)
Langkah 5:Bentuk Association Rule dari frequent itemset yang sudah dibentuk. Rule yang nilai confidencenya lebih dari minimum confidence akan digunakan (Strong Association Rule).
Itemset terpilih:{{I1}, {I2}, {I3}, {I4}, {I5}, {I1,I2}, {I1,I3}, {I1,I5}, {I2,I3}, {I2,I4}, {I2,I5}, {I1,I2,I3}, {I1,I2,I5}}
Sebagai contoh dipilih{I1,I2,I5} untuk mencariStrong Association Rule
{I1,I2,I5} à Subset = {{I1,I2}, {I1,I5}, {I2,I5}, {I1}, {I2}, {I5}} Minimum confidence: 70%
• IF {I1,I2} THEN {I5} Confidence: sc{I1,I2,I5}/sc {I1,I2} = 2/4 = 50% (Rule Rejected!)
• IF {I1,I5} THEN {I2} Confidence: sc{I1,I2,I5}/sc {I1,I5} = 2/2 = 100%(Rule Selected!)
• IF {I2,I5} THEN {I1} Confidence: sc{I1,I2,I5}/sc {I2,I5} = 2/2 = 100% (Rule Selected!)
• IF {I1} THEN {I2,I5} Confidence: sc{I1,I2,I5}/sc {I1} = 2/6 = 33% (Rule Rejected!)
• IF {I2} THEN {I1,I5} Confidence: sc{I1,I2,I5}/sc {I2} = 2/7 = 29% (Rule Rejected!)
• IF {I5} THEN {I1,I2} Confidence: sc{I1,I2,I5}/sc {I5} = 2/2 = 100% (Rule Selected!)
Setelah Strong Association Rule terbentuk maka langkahselanjutnya adalahmerepresentasikan pengetahuan
Bentuk representasipengetahuan didasarkanpada tujuan data mining yang dideskripsikan berdasarkankebutuhan pengguna
Representasi pengetahuan
No. Strong Association Rule Representasi Pengetahuan
1 if {I1,I2} then {I5} Item I1, I2, dan I5 harus ditempatkan pada rak yang berdekatan/pada satu lorong rak
2 if {I3} then {I1,I2} Item I3, I1, dan I2 harus ditempatkan pada rak yang berdekatan/pada satu lorong rak
.. .. ..
Misalkan tujuan data mining adalah penempatan item yang memiliki hubungan asosiatif harus ditempatkan berdekatan agar keuntungan lebih optimal
Section 2:Algoritma FP-Growth
Ide dasar:Mengembangkan FP-Tree danConditional FP-Tree sebagai penggantiFrequent Itemset
Bagaimana cara kerjanya?
Langkah 1:Tentukan nilai minimum support danminimum confidence
Dalam kasus ini, ditentukannilai minimum support = 2 (22%) dan minimum confidence = 70%
Langkah 2:Generate frequent pattern 1-itemset seperti yang dilakukan pada algoritmaapriori
Langkah 3:Urutkan tabel transaksi berdasarkanfrequent 1-itemset yang sudah diurutkansupport count-nya secara descending
Apabila ada dua item atau lebih yang memiliki support count yang sama maka urutan didasarkanpada item mana yang ada di transaksi yang lebih awal muncul (T1 terjadi lebih dahulu dibanding T2)
Sort menurut support count (Descending):𝐿 = { 𝐼2: 7 , 𝐼1: 6 , 𝐼3: 6 , 𝐼4: 2 , 𝐼5: 2 }
TID List of Items
T1 I2, I1, I5
T2 I2, I4
T3 I2, I3
T4 I2, I1, I4
T5 I1, I3
T6 I2, I3
T7 I1, I3
T8 I2, I1, I3, I5
T9 I2, I1, I3
Langkah 4:Bentuk FP-Tree sesuai algoritma FP-Tree
null akan menjadi root dan child dari root dipilih berdasarkan scan List of Items
TID List of Items
T1 I2, I1, I5
T2 I2, I4
T3 I2, I3
T4 I2, I1, I4
T5 I1, I3
T6 I2, I3
T7 I1, I3
T8 I2, I1, I3, I5
T9 I2, I1, I3
null
I2:1
I1:1
I5:1
TID List of Items
T1 I2, I1, I5
T2 I2, I4
T3 I2, I3
T4 I2, I1, I4
T5 I1, I3
T6 I2, I3
T7 I1, I3
T8 I2, I1, I3, I5
T9 I2, I1, I3
null
I2:2
I1:1
I5:1
I4:1
TID List of Items
T1 I2, I1, I5
T2 I2, I4
T3 I2, I3
T4 I2, I1, I4
T5 I1, I3
T6 I2, I3
T7 I1, I3
T8 I2, I1, I3, I5
T9 I2, I1, I3
null
I2:3
I1:1
I5:1
I4:1 I3:1
TID List of Items
T1 I2, I1, I5
T2 I2, I4
T3 I2, I3
T4 I2, I1, I4
T5 I1, I3
T6 I2, I3
T7 I1, I3
T8 I2, I1, I3, I5
T9 I2, I1, I3
null
I2:4
I1:2
I5:1
I4:1 I3:1
I4:1
TID List of Items
T1 I2, I1, I5
T2 I2, I4
T3 I2, I3
T4 I2, I1, I4
T5 I1, I3
T6 I2, I3
T7 I1, I3
T8 I2, I1, I3, I5
T9 I2, I1, I3
null
I2:4
I1:2
I5:1
I4:1 I3:1
I4:1
I1:1
I3:1
TID List of Items
T1 I2, I1, I5
T2 I2, I4
T3 I2, I3
T4 I2, I1, I4
T5 I1, I3
T6 I2, I3
T7 I1, I3
T8 I2, I1, I3, I5
T9 I2, I1, I3
null
I2:5
I1:2
I5:1
I4:1 I3:2
I4:1
I1:1
I3:1
TID List of Items
T1 I2, I1, I5
T2 I2, I4
T3 I2, I3
T4 I2, I1, I4
T5 I1, I3
T6 I2, I3
T7 I1, I3
T8 I2, I1, I3, I5
T9 I2, I1, I3
null
I2:5
I1:2
I5:1
I4:1 I3:2
I4:1
I1:2
I3:2
TID List of Items
T1 I2, I1, I5
T2 I2, I4
T3 I2, I3
T4 I2, I1, I4
T5 I1, I3
T6 I2, I3
T7 I1, I3
T8 I2, I1, I3, I5
T9 I2, I1, I3
null
I2:6
I1:3
I5:1
I4:1 I3:2
I4:1
I1:2
I3:2
I3:1
I5:1
TID List of Items
T1 I2, I1, I5
T2 I2, I4
T3 I2, I3
T4 I2, I1, I4
T5 I1, I3
T6 I2, I3
T7 I1, I3
T8 I2, I1, I3, I5
T9 I2, I1, I3
null
I2:7
I1:4
I5:1
I4:1 I3:2
I4:1
I1:2
I3:2
I3:2
I5:1
Untuk membantu penelusuranFP-Tree digunakan nodelink
null
I2:7
I1:4
I5:1
I4:1 I3:2
I4:1
I1:2
I3:2
I3:2
I5:1
Ilustrasi FP-Tree tanpa node-link Ilustrasi FP-Tree dengan node-link
Langkah 5:Bentuk Conditional Pattern Base dimulaidari item dengan support count terendahke item dengan support count tertinggi
Item Conditional Pattern Base
I5 {I2, I1:1}, {I2, I1, I3:1}
I4
I3
I1
null
I2:7
I1:4
I5:1
I4:1 I3:2
I4:1
I1:2
I3:2
I3:2
I5:1
I2 tidak diikutsertakan karena prefixnya adalah null (root)
Item Conditional Pattern Base
I5 {I2, I1:1}, {I2, I1, I3:1}
I4 {I2, I1:1}, {I2:1}
I3
I1
null
I2:7
I1:4
I5:1
I4:1 I3:2
I4:1
I1:2
I3:2
I3:2
I5:1
Item Conditional Pattern Base
I5 {I2, I1:1}, {I2, I1, I3:1}
I4 {I2, I1:1}, {I2:1}
I3 {I2, I1, I3:2}, {I2:2}, {I1:2}
I1 {I2:4}
null
I2:7
I1:4
I5:1
I4:1 I3:2
I4:1
I1:2
I3:2
I3:2
I5:1
Item Conditional Pattern Base
I5 {I2, I1:1}, {I2, I1, I3:1}
I4 {I2, I1:1}, {I2:1}
I3 {I2, I1:2}, {I2:2}, {I1:2}
I1
null
I2:7
I1:4
I5:1
I4:1 I3:2
I4:1
I1:2
I3:2
I3:2
I5:1
Langkah 6:Bentuk Conditional FP-Tree dimulai dariitem dengan support count terendah keitem dengan support count tertinggi(gunakan konsep minimum support)
null
I2:7
I1:4
I5:1
I4:1 I3:2
I4:1
I1:2
I3:2
I3:2
I5:1
null
I2:2
I1:2
I5:1 I3:1
I5:1
Tahap 1: Conditional FP-Tree untuk I5 = {I2:2, I1:2}
Tidak memenuhi minimum support
null
I2:7
I1:4
I5:1
I4:1 I3:2
I4:1
I1:2
I3:2
I3:2
I5:1
Tahap 2: Conditional FP-Tree untuk I4 = {I2:2}
null
I2:2
I1:1 I4:1
I4:1
null
I2:7
I1:4
I5:1
I4:1 I3:2
I4:1
I1:2
I3:2
I3:2
I5:1
Tahap 3: Conditional FP-Tree untuk I3 = {I2:4, I1:2}, {I1:2}
null
I2:4
I1:2 I3:2
I1:2
I3:2
I3:2
null
I2:7
I1:4
I5:1
I4:1 I3:2
I4:1
I1:2
I3:2
I3:2
I5:1
Tahap 4: Conditional FP-Tree untuk I1 = {I2:4}
null
I2:4
I1:4
Item Conditional Pattern Base Conditional FP-Tree
I5 {I2, I1:1}, {I2, I1, I3:1} {I2:2, I1:2}
I4 {I2, I1:1}, {I2:1} {I2:2}
I3 {I2, I1, I3:2}, {I2:2}, {I1:2} {I2:4, I1:2}, {I1:2}
I1 {I2:4} {I2:4}
Langkah 7:Bentuk Frequent Patterns dengan caramenjoinkan set dan subset conditional FP-Tree dengan item
ItemConditionalPattern Base
ConditionalFP-Tree
Frequent Patterns Generated
I5 {I2, I1:1}, {I2, I1, I3:1} {I2:2, I1:2} {I2, I5:2}, {I1, I5:2}, {I2, I1, I5:2}
I4 {I2, I1:1}, {I2:1} {I2:2} {I2, I4:2}
I3 {I2, I1, I3:2}, {I2:2}, {I1:2} {I2:4, I1:2}, {I1:2} {I2, I3:4}, {I1, I3:4}, {I2, I1, I3:2}
I1 {I2:4} {I2:4} {I2, I1:4}
Langkah 8:Cari Strong Association Rule berdasarkan Frequent Pattern yang terbentuk dengan cara yang samadengan apriori sampai terbentukrepresentasi pengetahuan
Exercise Time
Transaction ID Items
1 Bread, Milk
2 Bread, Diaper, Beer, Eggs
3 Milk, Diaper, Beer, Coke
4 Bread, Milk, Diaper, Beer
5 Bread, Milk, Diaper, Coke
Terdapat 5 transaksi yang terjadi:
Kasus:1. Tujuan data mining adalah membentuk paket ekonomis dari item yang punya hubungan asosiasi
2. Ditentukan minimum support 2 dan minimum confidence 70%
Top Related