Klasifikasi Berdasarkan Aturan Asosiasi an

download Klasifikasi Berdasarkan Aturan Asosiasi an

of 9

Transcript of Klasifikasi Berdasarkan Aturan Asosiasi an

KLASIFIKASI BERDASARKAN ATURAN ASOSIASI PERTAMBANGAN- TEKNIK: Sebuah SURVEY UMUM DAN EMPIRIS PERBANDINGAN EVALUASI ABSTRAK Dalam klasifikasi ini kertas dan algoritma pertambangan aturan asosiasi yang dibahas dan menunjukkan. Khususnya, masalah association rule mining, dan investigasi dan perbandingan algoritma populer aturan asosiasi. Masalah klasik dari klasifikasi dalam data mining juga akan dibahas. Makalah ini juga mempertimbangkan penggunaan association rule mining dalam pendekatan klasifikasi di mana algoritma yang diusulkan baru-baru ini ditunjukkan untuk tujuan ini. Akhirnya, sebuah studi eksperimental yang komprehensif terhadap 13 data set UCI disajikan untuk mengevaluasi dan membandingkan tradisional dan asosiasi teknik klasifikasi berdasarkan aturan berkaitan dengan akurasi klasifikasi, jumlah aturan yang diturunkan, fitur aturan dan waktu pemrosesan. 1.Pendahuluan Membangun pengklasifikasi cepat dan akurat untuk set data yang besar adalah tugas penting dalam data mining dan penemuan pengetahuan. Ada bukti yang berkembang bahwa penggabungan klasifikasi dan pertambangan asosiasi aturan bersama-sama dapat menghasilkan sistem klasifikasi yang lebih efisien dan akurat daripada teknik klasifikasi tradisional [26]. Dalam makalah ini, baru-baru ini diusulkan klasifikasi algoritma [37] akan dibahas secara rinci. lasifikasi merupakan salah satu tugas yang paling penting dalam data mining. Ada banyak pendekatan klasifikasi untuk mengekstraksi pengetahuan dari data seperti statistik [21], membagi-dan-menaklukkan [15] dan meliputi [6] pendekatan. Sejumlah algoritma telah diturunkan dari pendekatan ini, seperti Naiave Bayes [21], See5 [34], C4.5 [30], BAGIAN [14], Prism [6] dan IREP [16]. Namun klasifikasi, tradisional teknik sering menghasilkan subset kecil dari aturan, dan karena itu biasanya ketinggalan aturan rinci yang mungkin memainkan peran penting dalam beberapa kasus [29]. Tugas lain yang penting dalam data mining adalah penemuan aturan asosiasi di data set yang lulus pengguna kendala tertentu [1, 2]. klasifikasi dan aturan asosiasi penemuan serupa kecuali bahwa klasifikasi melibatkan prediksi dari satu atribut, yaitu, kelas, sementara aturan asosiasi penemuan dapat memprediksi setiap atribut dalam kumpulan data. Dalam beberapa tahun terakhir, baru pendekatan yang mengintegrasikan association rule mining dengan klasifikasi telah muncul [26, 37, 22]. sedikit akurat dan pengklasifikasi efektif berdasarkan asosiatif pendekatan klasifikasi telah disajikan baru-baru, seperti CPAR [39], CMAR [22], MMAC [37] dan CBA [26]. Banyak penelitian eksperimental [26, 39, 37] menunjukkan bahwa klasifikasi berdasarkan aturan asosiasi pertambangan adalah pendekatan potensi tinggi yang membangun sistem klasifikasi yang lebih prediktif dan akurat daripada metode klasifikasi tradisional seperti pohon keputusan [30, 34]. Selain itu, banyak aturan ditemukan oleh metode klasifikasi asosiatif tidak dapat ditemukan dengan teknik klasifikasi tradisional. Dalam tulisan ini, rincian yang diusulkan baru-baru ini klasifikasi berdasarkan teknik asosiasi aturan adalah disurvei dan dibahas, yang memperluas ide dasar dari Aturan asosiasi [1] dan terintegrasi dengan klasifikasi untuk menghasilkan subset dari aturan yang efektif. usulan ini menggunakan pendekatan asosiasi aturan pertambangan di kerangka klasifikasi. Ini telah dinamakan multi-kelas klasifikasi berdasarkan aturan asosiasi [37]. Ini menggunakan sebuah teknik yang efisien untuk menemukan itemset yang sering dan menggunakan metode aturan peringkat untuk memastikan bahwa aturan umum dan rinci dengan keyakinan yang tinggi merupakan bagian dari sistem klasifikasi. Kontribusi utama dari makalah ini adalah bahwa beberapa yang populer asosiasi aturan-teknik pertambangan secara teoritis dibandingkan dalam hal sejumlah kriteria. Selanjutnya, perbandingan beberapa klasifikasi algoritma dilakukan. Selain itu, integrasi asosiasi aturan pertambangan dengan klasifikasi juga diselidiki, untuk itu algoritma baru yang diusulkan (algoritma MMAC) dirancang dan diimplementasikan. Akhirnya, sebuah studi eksperimental untuk membandingkan MMAC dengan lima set algoritma klasifikasi populer dan MMAC algoritma dilakukan dengan menggunakan sekelompok nyata dan buatan patokan UCI dataset. lebih khusus, testbed kami melibatkan 13 dataset buatan dan 10 dataset dunia nyata aplikasi. Temuan-temuan utama dari makalah ini adalah: Kinerja dari beberapa klasifikasi sederhana algoritma seperti penipuan cukup baik pada data aplikasi dunia nyata, bahkan jika mereka melakukan yang buruk pada set data buatan. Ada konsistensi pada akurasi klasifikasi dan jumlah peraturan yang dihasilkan oleh pohon keputusan C.45 dan algoritma BAGIAN. Naif Bayes dan algoritma penipuan adalah tercepat yang untuk membangun sistem klasifikasi karena yang kesederhanaan metode tersebut dalam membangun aturan. ripper di sisi lain, adalah algoritma paling lambat dalam membangun sistem klasifikasi karena tahap optimasi ini mempekerjakan untuk menyimpulkan ukuran aturan yang ditetapkan. Dalam hal akurasi, algoritma MMAC adalah terbaik, mungkin karena jumlah yang relatif besar aturan itu dapat mengidentifikasi. 2.Asosiasi Pertambangan Peraturan Karena presentasi dari association rule mining oleh Agrawal, Imielinski dan Swami dalam makalah mereka "Pertambangan aturan hubungan antara set item dalam database besar" pada tahun 1993 [1], daerah ini tetap menjadi salah satu daerah penelitian yang paling aktif dalam pembelajaran mesin dan penemuan pengetahuan . Saat ini, asosiasi aturan pertambangan adalah salah satu yang paling penting tugas dalam data mining. Hal ini dianggap sebagai kuat alat untuk analisis pasar keranjang yang bertujuan untuk menyelidiki perilaku belanja pelanggan di berharap untuk menemukan keteraturan [1]. Dalam menemukan asosiasi aturan, seseorang berusaha untuk menemukan kelompok item yang sering dijual bersama-sama dalam rangka untuk menyimpulkan item dari kehadiran item lain dalam keranjang belanja pelanggan. untuk Misalnya, aturan asosiasi mungkin menyatakan bahwa "80% dari pelanggan yang membeli popok dan es juga membeli sereal ". Informasi seperti ini mungkin bermanfaat dan dapat digunakan untuk keputusan strategis seperti item, target rak pemasaran promosi penjualan, dan strategi diskon. Aturan asosiasi adalah alat berharga yang telah telah digunakan secara luas dalam berbagai industri seperti supermarket, memesan mail, telemarketing, asuransi penipuan, dan aplikasi lain di mana menemukan keteraturan ditargetkan. Tugas asosiasi aturan pertambangan atas keranjang pasar telah dijelaskan dalam [1], formal, misalkan D menjadi database transaksi penjualan, dan biarkan I = {i1, i2, ..., im} adalah sebuah himpunan biner disebut literal item. T transaksi di D berisi satu set item itemset yang disebut, seperti bahwa T _ I. Secara umum, jumlah item dalam suatu itemset disebut panjang suatu itemset. Itemset yang memiliki panjang k dilambangkan oleh k-itemset. Itemset masing-masing terkait dengan ambang statistik bernama dukungan. Dukungan dari itemset adalah jumlah transaksi di D yang berisi itemset tersebut. sebuah aturan asosiasi adalah ekspresi X Y, dimana X, Y _ Aku adalah dua set item dan X Y = |. X disebut yg, dan Y disebut konsekuen dari asosiasi aturan. Aturan asosiasi X Y memiliki ukuran kepercayaan bernama kebaikan, yang dapat didefinisikan sebagai, probabilitas transaksi berisi Y mengingat bahwa itu mengandung X, dan diberikan sebagai dukungan (XY) / support (X). Mengingat database transaksional D, Masalah association rule adalah untuk menemukan semua aturan yang memiliki dukungan dan kepercayaan yang lebih besar dari pengguna tertentuambang yang ditentukan, dilambangkan dengan minsupp dan minconf, masing-masing. Masalah menghasilkan semua aturan asosiasi dari database transaksional dapat didekomposisi menjadi dua submasalah [1]. Gambar/ 1. Generasi dari semua itemset dengan dukungan yang lebih besar dari minsupp tersebut. Itemset ini sering disebut itemset. Semua itemset lainnya disebut jarang terjadi. 2. Untuk setiap itemset yang sering dihasilkan dalam Langkah 1, menghasilkan semua aturan yang lolos ambang batas minconf. Sebagai contoh jika Item XYZ sering, maka kita mungkin mengevaluasi kepercayaan dari aturan Z XY, XZ Y dan YZ X Untuk kejelasan, pertimbangkan misalnya database ditampilkan bawah pada Tabel 1, dan biarkan minsupp dan minconf menjadi 0,70 dan 1,0, masing-masing. Para sering itemset pada Tabel 1 adalah {roti}, {susu}, {jus}, {roti, susu} dan {roti, jus}. Asosiasi aturan yang lulus minconf antara itemset tersebut sering adalah susu roti dan jus roti Sedangkan langkah kedua asosiasi pemerintahan Penemuan yang melibatkan generasi aturan adalah jauh masalah langsung mengingat bahwa itemset sering dan dukungan mereka dikenal [1, 2, 18, 23]. Langkah pertama untuk menemukan itemset sering adalah masalah yang relatif memakan sumber daya yang memerlukan perhitungan luas dan kapasitas sumber daya besar terutama jika ukuran database dan itemset yang besar [1, 28, 4]. Umumnya, untuk sejumlah yang berbeda m item dalam transaksi database pelanggan D, ada Mungkin 2m jumlah itemset. Pertimbangkan misalnya toko kelontong yang berisi 2100 item yang berbeda berbeda. Maka ada 22100 kemungkinan kombinasi yang berbeda potensial sering itemset, yang dikenal oleh calon itemset, di mana beberapa dari mereka tidak muncul bahkan sekali dalam database, dan dengan demikian biasanya hanya kecil subset dari sejumlah besar calon itemset sering. Masalah ini telah secara ekstensif yang diteliti dalam dekade terakhir untuk tujuan meningkatkan kinerja kandidat itemsets generasi [4, 28, 17, 23, 25, 40]. Dalam makalah ini, kami hanya mempertimbangkan sejumlah association rule terkenal pertambangan algoritma yang memberikan kontribusi perbaikan pada kinerja pada langkah pertama dari proses pertambangan. para Langkah kedua, bagaimanapun, tidak dipertimbangkan dalam makalah ini. Salah satu algoritma pertama yang memiliki signifikan perbaikan atas aturan asosiasi sebelumnya algoritma adalah algoritma Apriori [2]. para Apriori algoritma menyajikan properti kunci baru bernama "Bawah-penutupan" dari dukungan, yang menyatakan bahwa jika itemset yang melewati minsupp maka semua subset yang harus juga lulus minsupp tersebut. Ini berarti bahwa setiap subset dari itemset yang sering harus sering,, mana lagi ada

superset dari itemset jarang harus jarang terjadi. sebagian besar dari algoritma asosiasi aturan klasik yang telah dikembangkan setelah algoritma Apriori seperti [28, 4] telah menggunakan properti ini dalam langkah pertama dari asosiasi aturan penemuan. Mereka algoritma yang disebut sebagai algoritma Apriori seperti atau teknik. Apriori-liketechniquessuchas [28,4,25]can successfullyachievegoodlevelofperformancewheneverthesizeofthecandidate itemsetsissmall.However,incircumstanceswithlargecandidateitemsetssize,low minimumsupportthresholdandlongpatterns,thesetechniquesmaystillsufferfromthe following costs [17]: + Memegang sejumlah besar kandidat itemsets. untuk Misalnya, untuk menemukan itemset sering ukuran 50, salah satu perlu untuk memperoleh lebih dari 250 kandidat itemsets. ini signifikan adalah mahal di runtime dan penggunaan memori terlepas dari metode pelaksanaan yang digunakan. + Saat melintasi database beberapa kali untuk memeriksa besar jumlah calon itemset oleh pola pencocokan. Para apriori-seperti algoritma memerlukan lengkap melewati database untuk menemukan kandidat item pada setiap tingkat. Jadi, untuk menemukan kandidat potensial itemset ukuran n +1, gabungan dari semua kemungkinan kombinasi itemset sering ukuran n dan lengkap scan database untuk memperbarui frekuensi terjadinya calon itemset ukuran n +1 akan dilakukan. Proses berulang-ulang memindai database pada setiap tingkat secara signifikan mahal dalam waktu pemrosesan. + Langka item dengan keyakinan yang tinggi dan dukungan yang rendah di database akan pada dasarnya diabaikan. 3.Klasifikasi data dipertambangan 3.1Sastra Tinjauan Klasifikasi saat ini dianggap sebagai salah satu tugas pertambangan yang paling umum data [14, 24, 30, 39]. Klasifikasi contoh dunia nyata adalah hal yang umum siapa pun praktek melalui hidupnya. Satu dapat mengklasifikasikan umat manusia berdasarkan ras atau dapat mengkategorikan produk di supermarket berdasarkan konsumen belanja pilihan. Secara umum, klasifikasi melibatkan memeriksa fitur dari objek baru dan mencoba untuk menetapkan ke salah satu set standar kelas [38]. Mengingat koleksi catatan dalam satu set data, catatan masing-masing terdiri dari kelompok atribut, salah satu atribut yang kelas. Tujuan klasifikasi adalah untuk membangun sebuah model dari benda-benda diklasifikasikan dalam rangka mengklasifikasikan sebelumnya benda gaib seakurat mungkin. Ada pendekatan klasifikasi banyak penggalian pengetahuan dari data seperti membagi-dan- menaklukkan [31], yang terpisah-dan-menaklukkan [15], yang meliputi dan pendekatan statistik [24, 6]. Yang membagi-dan-menaklukkan Pendekatan dimulai dengan memilih atribut sebagai node root, dan kemudian membuat cabang untuk setiap tingkat kemungkinan atribut itu. Hal ini akan membagi contoh pelatihan ke himpunan bagian, satu untuk setiap nilai kemungkinan atribut. para proses yang sama akan diulang sampai semua kasus yang jatuh dalam satu cabang memiliki klasifikasi yang sama atau kasus yang tersisa tidak dapat dibagi lebih lanjut. para terpisah-dan-menaklukkan pendekatan, di sisi lain, dimulai dengan membangun aturan dalam mode rakus (satu per satu). Setelah aturan ditemukan, semua kasus yang dicakup oleh aturan akan dihapus. Proses yang sama diulang sampai aturan terbaik yang ditemukan memiliki tingkat kesalahan yang besar. statistik pendekatan seperti Bayes Sederhana [21] menggunakan langkah-langkah probabilistik, kemungkinan yaitu, untuk mengklasifikasikan benda uji. Akhirnya, pendekatan yang meliputi [6] memilih masing-masing tersedia kelas pada gilirannya, dan mencari cara untuk menutupi sebagian besar objek pelatihan ke kelas bahwa dalam rangka untuk datang dengan aturan akurasi maksimum. Sejumlah Algoritma Telah diturunkan Dari pendekatan ini, seperti pohon keputusan [32, 30], BAGIAN [14], Ripper [7] murah Prism [6] Sementara label Klasifikasi tunggal, Yang memberikan setiap Aturan Dalam, pengklasifikasi UNTUK label Yang pagar Jelas, Telah BANYAK diteliti [30, 14, 7, 6, 19, 21]. , Sedikit kerja Telah dilakukan PADA multi- Klasifikasi label. Sebagian Besar Penelitian sebelumnya UNTUK Tanggal PADA multi-label Klasifikasi Terkait DENGAN kategorisasi Teks [20]. Dalam, Tulisan ini, Hanya tradisional Klasifikasi Algoritma Yang Aturan-Aturan menghasilkan DENGAN kelas tunggal Akan dipertimbangkan. 3.2Klasifikasi Masalah Sebagian besar penelitian yang dilakukan pada klasifikasi dalam data mining telah dikhususkan untuk tunggal masalah label. Masalah klasifikasi tradisional dapat didefinisikan sebagai berikut: misalkan D melambangkan domain contoh pelatihan mungkin dan Y daftar label kelas, biarkan H melambangkan set pengklasifikasi untuk D Y, masing-masing Misalnya d e D adalah ditugaskan y kelas tunggal yang dimiliki Y. Tujuannya adalah untuk menemukan h classifier e H yang memaksimalkan probabilitas bahwa h (d) = y untuk setiap kasus uji (d, y). Dalam multi-label masalah, bagaimanapun, masing-masing Misalnya d e D dapat ditugaskan beberapa label y1, y2, ..., yk untuk yi y e, dan diwakili sebagai pasangan (d, (y1, y2, ..., yk)) di mana (y1, y2, ..., yk) adalah daftar dari label kelas peringkat dari y berhubungan dengan d contoh dalam data pelatihan. Dalam karya ini, kita hanya mempertimbangkan masalah klasifikasi kelas tunggal tradisional. 4.Klasifikasi asosiatif Umumnya, dalam aturan asosiasi pertambangan, item apapun yang lewat minsupp dikenal sebagai itemset sering. Jika item yang sering hanya terdiri dari atribut tunggal nilai, dikatakan menjadi satu item-sering. Sebagai contoh, dengan minsupp = 20%, yang sering satu item dalam Tabel 4 adalah , , , dan . Saat ini klasifikasi asosiatif teknik menghasilkan barang sering dengan membuat lebih dari satu memindai melalui set data pelatihan. Pada scan pertama, mereka menemukan dukungan dari satu item, dan kemudian di masing-masing memindai berikutnya, mereka mulai dengan item ditemukan sering di scan sebelumnya dalam rangka untuk menghasilkan baru item yang sering melibatkan nilai atribut yang mungkin lebih. Dengan kata lain, item tunggal sering digunakan untuk Penemuan sering dua item, dan sering dua-item adalah input untuk penemuan sering tiga-item dan sebagainya. Ketika barang-barang yang sering telah ditemukan, klasifikasi berdasarkan algoritma asosiasi aturan mengekstrak set lengkap kelas-asosiasi-aturan (CAR) untuk barang-barang yang sering yang lulus minconf. Gambar 5.KLASIFIKASI BERDASARKAN ASOSIASI ATURAN MASALAH Salah satu algoritma pertama untuk menggabungkan klasifikasi dengan aturan asosiasi diusulkan pada [22]. Pendekatan klasifikasi terdiri dari dua fase utama; fase satu mengimplementasikan algoritma apriori yang terkenal [2] dalam rangka untuk menemukan item sering. Tahap kedua melibatkan pembangunan pengklasifikasi tersebut. Hasil eksperimen menunjukkan bahwa pendekatan yang dikembangkan di [26] aturan diproduksi yang kompetitif untuk metode pembelajaran populer seperti pohon keputusan [34]. gambar Misalkan T menjadi data pelatihan himpunan dengan m atribut AT1,, AT2 ..., ATM dan | T | baris. Misalkan P daftar label kelas. Item didefinisikan oleh asosiasi atribut dan nilainya (ATI, ai), atau kombinasi dari antara 1 dan m yang berbeda nilai-nilai atribut. Sebuah r aturan untuk klasifikasi direpresentasikan dalam bentuk: (AT = x) . (AT = x) . . (AT = x) i1 i1 i2 i1 i2 di dalam dimana anteseden aturan adalah item dan akibatnya adalah sebuah kelas. unculnya aturan dalam kumpulan data (Appr) dari r aturan di T adalah jumlah kali anteseden dari aturan tersebut telah muncul di T. dukungan frekuensi (SuppFreq) dari r adalah jumlah kasus di T yang cocok yg r, dan milik kelas pi. Sebuah aturan r melewati ambang batas dukungan minimal (minsupp) jika untuk r, SuppFreq (r) / | T | minsupp, di mana | T | adalah jumlah contoh di T. Sebuah r aturan melewati ambang batas minimal kepercayaan (minconf) jika SuppFreq (r) / appr (r) minconf. Setiap item dalam T yang melewati minsupp yang dikatakan item yang sering Pertimbangkan misalnya data pelatihan set ditunjukkan pada Tabel 3 dan menganggap minsupp yang diatur untuk 0,2 dan minconf adalah 0,50. Dukungan dari aturan < (AT 1, z 1) > p 1 adalah 0,30, yang memenuhi minsupp ambang batas. Kepercayaan dari aturan < (AT 1, z 1) > p 1 adalah 0,60, dan dengan demikian aturan ini juga memenuhi ambang minconf dan karena itu adalah aturan potensi tinggi dalam sistem klasifikasi. 6.Terkait berkerja 7.