Perbedaan Data Mining Dengan KDD
description
Transcript of Perbedaan Data Mining Dengan KDD
Perbedaan data Mining dengan KDD (Knowledge Discovery In Database ) :Data MiningKnowledge Discovery In Database
1. Merupakan salah Satu step KDDTahapan Dalam :1. Data Selection ( Pemilihan Data )2. Data Cleaning ( Pebersihan Data ), merupakan data Optional ( Pilihan )3. Adanya Proses data Transformasi ( Perubhan nilai data ), merupakan data Optional ( Pilihan ) Tahapan 1,2,3 merupakan data Procesing4. Data Mining5. Eavaluation of Knowledge6. Representation of Knowladge1. If ... Then2. Grapht ( 2D 3D )3. Hierachy4. Decision Tree
Ket :Data Mining :
DBProses pengekstraksian powerful / interesting knowlage dari data yang tersimpan di dalam database berukuran besar.
KnowlageData Mining
Standart mathematikaTeknik AINeural NetworkFuzzy LogicAlgoritma GenetikRhouge SetSoft Set
Membaca dan Memahami Jurnal ( membuat peper dan di publis dengan melakukan pembayaran ) dan Prosiding ( membuat paper dan dikrim melalui seminar dan melakukan persentasi )
Rule Assosiation : Assosiasi / korelasi dari sejumlah item ( set of items ) dari data yang tersimpan di dalam database
Bentuk umum :X --------- Y [ Support, Confidence ] Nilai yang digunakan untuk mengevaluasi rule asosiasi
Prinsip Concept :1. Support x --- y = X U Y N --- Jumlah Transaksi
Support y --- x = Y U X N --- Jumlah TransaksiKet : Support x - -- y = Suport y --- x
2. Confidence x --- y = Support x --- y Support x
Confidence y --- x = Support y --- x Support yKet : Confidence x --- y # Confidence y --- x
3. Sebuah rule asosiasi dikatakan Interisting apabila mempunyai Support >= Minimum Support Dan Confidence >= Minimum Confidence.
Catatan : Nilai minimum Support dan minimum confidence ditentukan oleh DOMAIN EXPERT.
X ---- Y [ Support, Confidence ]
Contoh :1. Nilai minimum Support = 50%Nilai Minimum Confidence = 50%Transaction Item Bought
2000A,B,C
1000A,C
4000A,D
5000B,E, F
Jawab :Support x --- y = X U Y = 2 = 0,5 = 50 % N 4Support y --- x = Y U X = 2 = 0,5 = 50 % N 4Confidence x --- y = Support x --- y = 2 /4 = 2/3 = 0,666 = 66,7 % Support x 3/4
Confidence y --- x = Support y --- x = 2 /4 = 2/2 = 1 = 100 % Support y 2/4Jadi : MakaA ---- C Support { 50%, 66,6% } merupakan InteristingC ---- A Support { 50%,100% }
Association Rule Algoritma : APRIORI :Input : Database Transaksi Output : Assosiation Rule
Proses :1. Menentukan FREQUENT ITEMSETSItem atau set of item yang mempunyai support >= minimum support.Catatan : 1. Subset dari Frequent item set harus merupakan frequent item set.Mis : { A,B } adalah frequent item set maka {A} dan {B} juga harus frequent item set.2. Penemuan Frequen item set dimulai dari 1-Item s/d K-Item set.
2. Menggunakan Frequent Item Set ( mulai dari 2-Item set ) untuk mendapatkan RuleAsosiasi. Contoh :Transaction Item Bought
2000A,B,C
1000A,C
4000A,D
5000B,E, F
1. Menentukan Frequent Item Seta. 1- Item SetItem Support
A = 75%Merupakan Foundensial Item Set
B2/4 = 50%
C2/4 = 50%
D = 25%
E = 25%
F = 25%
b. 2-Item SetItem Support
A,B1/4 = 25%
A,C2/4 = 50%Merupakan Foundensial Item Set
B,C1/4 = 25%
2. Menggunakan Fourent Item Set ( mulai dari item set ).A --- C { s = 50%, C = 66,7% }C --- D { s = 50%, C = 100% }
A --- C dan C --- A merupakan Interisting Assosiation Rules
Program Yang digunakan : Untuk Asosiation : XL Miner, WEKA, dan TANAGRA Untuk Rought Set : Roseta, Rose2, dan Rsfs
ROUGHT SET TEORY DAN DATA MINING
KnowlageIF --- ThenDBRought Set
Proses Rought Set :1. Decision System2. Equivalence Class3. Discervnibility Matrix / Discernibility Matrix Modulo D4. Reduction5. Generate Rules ( Knowladge => IF .. Then ...
Penyajian data Dalam Rought Set ( RS ) :1. Informasion System ( IS ), memiliki semua atribut kondisi ( condisional Atribut )IS = { U,A }, ket : U = object, A = Kondisional Atribut
2. Descision System ( DS ), DS = { U, (A,C)}, ket : U = objek, A = kondisional Atribut ( A1, A2, ... An-1 )C = Decision Atribut ( An )
Atribut dalam RS :1. Condisional Atribut2. Decision Atribut
Atribut dalam Databese/information system :1. Atribut Key2. Atribut non Key
Rought set :1. Decision System 2. Equivalen ClassDengan menentukan Kondisi pada atribut yang samaSoal : Pada Slide Rought Set, Hal : 9 , tablePenyelesaian :1. Menentukan Atribut kondisi yang sama ( Studies, Education, Works ):E1, E5, E6E2, E99E3E4, E7, E100E8, E9, E102. Menentukan Equevalen Yang TerbentukStudies ( A )Education ( B )Work ( C )Income
Ec1PoorSMUPoorNone
Ec2PoorSMUGoodLow
Ec3ModeratSMUPoorLow
Ec4ModeratDiplomaPoorLow
Ec5,1GoodMscGoodMedium
Ec5,2GoodMscGoodHight
3. Discernibilyty MatrixDengan melihat kondisi yang berbedaEc1Ec2Ec3Ec4Ec5
Ec1XCAABABC
Ec2CXACABCAB
Ec3AACXBABC
Ec4ABABCBXABC
Ec5ABCABABCABCX
Mis : i = 1 dan j = 4Ec1Ec2
Ec1XStudy dan Education
Ec2Study dan EducationX
Discernibility Matrix Modulo DDengan melihat perbedaan pada keputusan dan kondisi yang berbedaEc1Ec2Ec3Ec4Ec5
Ec1XCAABABC
Ec2CX AB
Ec3A X ABC
Ec4AB XABC
Ec5ABCABABCABCX
4. Reduction1. Dilihat dari Modulo D dan Matrix, dengan mengunakan aljabar Boolean :a. Cara pencarian dalam bentuk booleean :Ket : ^ = * ( Perkalian ), dan V = + ( Penjumlahan ) Untuk Nilai : AA = A A + AB = A ( 1+B ), dimana ( 1+B ) = 1 = AMenentukan nilai boolean paada Modulo D, apabila ada yang memiliki nilai yang sama di ambil salah satunya contoh { ( A v B v C ) ^ ( A v B v C ) maka (A v B v C):1. C ^ A ^( A v B ) ^ ( A v B v C )Cara menyederhanakan :C * A * ( A + B ) * ( A + B + C ) = C * A * AA * AB *AC * BA * BB * BC = CA * A * AB * AC * BA * B * BC = C ( 1 + A ) 2. C ^ ( A v B )Cara menyederhanakan :C * ( A + B ) = CA + CB = 3. A ^ ( A v B v C )Cara menyederhakan :A ^ ( A v B v C ) = AA + AB + AC = A + AB + AC = A ( 1 + B ) + AC = A + AC = A ( 1 + C ) = A4. ( A v B ) ^ ( A v B v C )Cara menyederhanakan :
5. ( A v B v C ) ^ ( A v B )Cara menyederhanakan :
Jadi : Hasil Reduction :1. {A,C} = { Studies, Works }2. {B,C} = { Education, Works }3. { A } = { Studies }4. { B } = { Education }
5. Generade Rules Dengan mengunkan atribut Reducta. { Studies, Work }1. IF Studies = Poor and Work = Poor, Then Income = Low2. IF Studies = Poor and Work = Good, Then Income = Low3. IF Studies = Moderate and Work = Poor, Then Income = Low4. IF Studies = Good and Work = Good, Then Income = Medium Or Income = Good
b. { Education, Work }1. IF Education = Smu and Work = Poor, Then Income = None2. IF Education = Smu and Work = Good, Then Income = Low3. IF Education = Diploma and Work = Poor, Then Income = Low4. IF Education = Msc and Work = Good, Then Income = Medium Or Income = Hight
c. { Studies }1. IF Student = Poor Then Income = None Or Income = Low2. IF Student = Moderate Then Income = Low3. IF Student = Good Then Income = Medium Or Income = Hight
d. { Education }1. IF Education = Smu then Income = None Or Income = Low2. IF Education = Diploma then Income = Low3. IF Education = Msc then Income = Medium Or Income = Hight
Jadi : Terdapat 14 pengetahuan.......
Tugas :1. Analisa Hasil yang di peroleh oleh Roseta : LHS Support Jumlah object yang memenuhi bagian if RHS Supoort Jumlah object yang memenuhi bagian then RHS Accuracy LHS Coverage= RHS Coverage= RHS Stability= LHS Lenght= Jumlah atribut pada bagian if RHS Lenght= Jumlah atribut pada bagian then
2. Lakukan Proses Reduct Berdasarkan Discrinibility Matrix, apakah hasilnya sama atau tidak dengan Discrinibility Matrix Modulo D?Data CleningIncomplete completeCaranya :1. Remove incomplete data2. Mean and mode FillMean untuk nilai angka(continius)Modus untuk nilai categorical
Data transformation A = (pa2Vpa3Vpa4Vpb2)(pa2Vpa3Vpb2Vpb3)(pa3Vpb1Vpb2Vpb3) (pa1Vpa4Vpb1Vpb2)Sistem akan mengambil No 1Kita menguji no 4
pa1Vpa4Vpb1Vpb2Aabd
U10,821
U210,50
U31,330
U41,411
U51,420
U61,631
U71,311
Aabd
U1*,1.21.5,*1
U2*,1.2*,1.50
U31.2,1.41.5,*0
U41.4,1.5*,1.51
U51.4,1.51.5,*0
U61.5,*1.5,*1
U71.2,1.4*,1.51
Algoritma MD-Heuristic Langkah- langkah :1. Menyiapkan tabel , Misal tabel A, berdasarkan Discernibility formula2. Memilih kolom dari tabel A yang mepunyai angka 1 paling banyak3. Menghapus Kolom yang dipilih pada step 2 dan semua baris dari kolom tersebut yang punya angka 14. Jika tabel belum kosong, ulangi langkah 2,jika sudah kosong STOP
A* Pa1 Pa2 Pa3 Pa4 Pb1 Pb2 Pb3 D*
(U1,U2) 1 0 0 0 1 1 0 1
(U1, U3) 1 1 0 0 0 0 1 1
(U1, U5) 1 1 1 0 0 0 0 1
(U4, U2) 0 1 1 0 1 0 0 1
(U4, U3) 0 0 1 0 0 1 1 1
(U4, U5) 0 0 0 0 0 1 0 1
(U6, U2) 0 1 1 1 1 1 11
(U6, U3) 0 0 1 1 0 0 0 1
(U6, U5) 0 0 0 1 0 0 1 1
(U7, U2) 0 1 0 0 1 0 0 1
(U7, U3) 0 0 0 0 0 1 1 1
(U7, U5) 0 0 1 0 0 1 0 1
New 0 0 0 0 0 0 0 1
Jumlah angka 1356