1. Pengantar Data Mining
-
Upload
anjaz-moru -
Category
Documents
-
view
201 -
download
4
Transcript of 1. Pengantar Data Mining
Konsep dan Teknik Data Mining
Edward Purba
Pengantar DM
1/52
Pengantar Data Mining (DM)Motivasi Mengapa? Apa? Aplikasi Proses KDD Tinjauan DM Isu UtamaEdward Purba
Pengantar DM
2/52
Motivasi: Kebutuhan Merupakan Sumber Penemuan Problem ledakan data Tool koleksi data otomatis dan perkembangan teknologi database menyebabkan banyak sekali data yang bisa dikumpulkan di dalam database, data warehouse, dan alat peyimpanan informasi lainnya, untuk dianalisa
Kita berkubang data tetapi kelaparan pengetahuan!Edward Purba
Pengantar DM
3/52
Motivasi: Kebutuhan Merupakan Sumber Penemuan Solusi: Penggudangan data dan penambangan data (Data warehousing and data mining) Data warehousing dan on-line analytical processing (OLAP) Penyaringan pengetahuan yang menarik (kaidah, keberaturan, pola, kendala) dari data dalam database yang besarEdward Purba
Pengantar DM
4/52
Komputer Tahun 1940-an (ENIAC)
Edward Purba
Pengantar DM
5/52
Personal Home Network Tahun 2000-anFile Edit Locate500
View
H elp
400
E D C B A
Storage
300
200
100
0
1
2
3
4
5
6
7
Network Traffic
Mount 431 7437 1950 79% / 02 631963 47358 H elp 93% /us
Storage
Storage Storage Storage
Storage
Storage
InternetStorage
Edward Purba
Pengantar DM
6/52
Evolusi atau Perkembangan Teknologi Database 1960an: Koleksi data, pembuatan data, IMS dan network DBMS 1970an: Model data relasional dan implementasi DBMS relasional 1980an: RDBMS, model data lanjut (extendedrelational, OO, deduktif, dsb.) DBMS berorientasi aplikasi(spasial, saintifik, teknik, dsb.) 1990an 2000an: Data mining dan data warehousing, database multimedia, teknologi WebEdward Purba
Pengantar DM
7/52
Apa Itu Data Mining? Pada dasarnya: Perolehan pengetahuan dari data Ekstraksi informasi atau pola yang menarik (tidak sepele, implisit, tak-diketahui sebelumnya, mungkin bermanfaat) dari data didalam database yang besar" Seringkali hanya: Memberitahu sesuatu yang menarik dari data ini", Menguraikan data ini" Penyelidikan: analisa data semi-otomatis atas sekumpulan data yang besarEdward Purba
Pengantar DM
8/52
Apa Itu Data Mining? Istilah yang rada baku:
Data mining Biasanya DM adalah salah satu proses KDD Knowledge discovery in databases (KDD) Istilah umum yang meliputi, preprocessing data, DM, dan postprocessing Istilah yang tidak terlalu sering digunakan: Ekstraksi pengetahuan, arkeologi data, pengerukan data, penuaian informasi, analisa data/pola Publisitas terbaru: Kecerdasan bisnis, manajemen pengetahuanEdward Purba
Pengantar DM
9/52
Mengapa Data Mining? Ketersediaan data dalam jumlah yang sangat besar: Tool koleksi data otomatis dan perkembangan teknologi database menyebabkan banyak sekali data yang bisa dikumpulkan di dalam database, data warehouse, dan alat peyimpanan informasi lainnya Pemeriksaan data manual adalah membosankan dan terkadang tidak masuk akalEdward Purba
Pengantar DM
10/52
Apa Manfaat Dari DM?Meningkatkan pengetahuan agar bisa membuat keputusan berdasarkan:
MarketingMisal, pengaruh pada marketing Peran dan pengaruh DM yang bertumbuh pesat dan masih bertumbuh! Tetapi DM tidaklah sekedar marketing...Edward PurbaDatabase Marketing
Data Warehousing
KDD & Data Mining
Pengantar DM
11/52
Potensi Aplikasi? Analisis database dan dukungan keputusan: Analisis dan manajemen pasar Target pasar, manajemen relasi customer (CRM), analisis keranjang pasar, penjualan silang, segmentasi pasar Analisis dan manajemen resiko Peramalan, tindakan mempertahankan customer, peningkatan asuransi, kontrol kualitas, analisis kompetitif Deteksi dan manajemen kecuranganEdward Purba
Pengantar DM
12/52
Potensi Aplikasi? Aplikasi lain: Text mining (news group, email, dokumen) dan Web mining Stream data mining Analisis DNA dan bio data
Edward Purba
Pengantar DM
13/52
Analisis dan Manajemen Pasar Dari mana data berasal? Transaksi kartu kredit, loyalty cards, kupon discount, keluhan customer, kajian lifestyle publik
Target Pasar Mendapatkan kelompok model customer yang berbagi karakteristik yang sama: minat, tingkat pendapatan, kebiasaan belanja, dsb. Menentukan pola pembelian customer berdasarkan waktu
Analisis lintas pasar Asosiasi/korelasi antara penjualan produk & taksiran berdasarkan asosiasi demikianEdward Purba
Pengantar DM
14/52
Analisis dan Manajemen Pasar Profil customer Tipe customer apa membeli produk apa (pengelompokan atau klasifikasi)
Analisa kebutuhan customer Mengenali produk terbaik untuk customer berbeda Meramalkan faktor apa yang akan memikat customer baru
Penyediaan rangkuman informasi Rangkuman laporan multidimensi Rangkuman informasi statistik (kecenderungan data terpusat dan variasi)Edward Purba
Pengantar DM
15/52
Analisis dan Manajemen Resiko Perusahaan Perencanaan keuangan dan evaluasi aset Analisis dan peramalan cash flow
Analisis ganti rugi yang mungkin untuk mengevaluasi aset Analisis cross-sectional dan time series (financialratio, analisa trend, dsb.) Perencanaan sumberdaya Merangkum dan membandingkan sumberdaya dan pengeluaranEdward Purba
Pengantar DM
16/52
Analisis dan Manajemen Resiko Perusahaan Kompetisi Memantau pesaing dan arah pasar
Mengelompokkan customer kedalam kelas dan prosedur harga berbasis kelas Menetapkan strategi harga dalam suatu pasar dengan kompetitif tinggi
Edward Purba
Pengantar DM
17/52
Aplikasi Lain Olah raga IBM Advanced Scout menganalisa statistik (shots blocked, assists, dan fouls) pertandingan NBA untuk mendapatkan keuntungan kompetitif bagi New York Knicks dan Miami Heats Astronomi Observatory JPL dan Palomar menemukan 22 quasars dengan bantuan data mining Internet Web Surf-Aid IBM Surf-Aid menerapkan algoritma data mining untuk akses logs halaman Web yang terkait dengan pasar dalam upaya mendapatkan kesukaan dan perilaku customer, mengenalisa efektifitas pemasaran Web, perbaikan situs Web organisasi, dsb.Edward Purba
Pengantar DM
18/52
Contoh (1) Anda seorang manajer marketing untuk perusahaan telepon cellular: Pelanggan menerima sebuah telepon gratis (nilai 1.5 juta) dengan kontrak satu tahun; anda memberikan suatu komisi penjualan sebesar 2.5 juta per kontrak
Problem: Turnover (setelah kontrak berakhir) adalah 25% Memberikan suatu telepon baru ke setiap orang yang kontraknya habis sangatlah mahal Membawa kembali customer setelah keluar adalah juga sukar dan mahalPengantar DM19/52
Edward Purba
Contoh (1) Tiga bulan sebelum suatu kontrak berakhir, cari tahu customer mana yang akan keluar: Jika anda ingin mempertahankan customer yang diduga akan keluar, tawarkan customer tersebut suatu telepon baru
Yippee! I won't leave!
Edward Purba
Pengantar DM
20/52
Contoh (2) Anda seorang petugas asuransi dan anda harus mendefinisikan suatu pembayaran bulanan yang pantas untuk seorang pemuda berusia 18 tahun yang membeli sebuah Ferrari apa yang anda akan lakukan?
Oh, yes! I love my Ferrari!
Edward Purba
Pengantar DM
21/52
Contoh (2) Kaji seluruh data customer dan data kompensasi pembayaran sebelumnya Kaji peluang penyebab kecelakaan paling banyak berdasarkan dugaan
Kelamin pengendara (pria/wanita) dan usia Model dan usia mobil, tempat tinggal
dsb. Jika peluang kecelakaan lebih besar dari rata-rata, aturlah pembayaran bulanan yang sesuai!Edward Purba
Pengantar DM
22/52
Contoh (3) Anda berada diluar negeri dan seseorang mencuri atau menggandakan kartu kredit atau telepon mobile anda Perusahaan kartu kredit Menggunakan data histori untuk membangun model prilaku penipuan dan gunakan data mining untuk membantu didalam mengenali kejadian yang mirip Perusahaan telepon Menganalisis pola yang menyimpang dari suatu kebiasaan yang diharapkan (tujuan, durasi, dsb.)Edward Purba
Pengantar DM
23/52
Contoh (4) Log pengaksesan Web bisa dianalisis untuk Excellent surfing experience!
Mendapatkan apa kesukaan customer
Memperbaiki situs Web organisasi
Demikian pula Seluruh jenis analisis log informasi Adaptasi antarmuka/layanan user
Edward Purba
Pengantar DM
24/52
Data Mining: Suatu Proses KDD Data mininginti dari proses penemuan pengetahuanEvaluasi Pola
Data Mining
Task-relevant Data Data Warehouse Pembersihan Data Integrasi Data Databases Edward Purba Pemilihan
Pengantar DM
25/52
Langkah-Langkah dari Proses KDD (1)Pemahaman domainPembuatan suatu data set target Pembersihan/preprocessing data Reduksi/proyeksi data Pemilihan tugas DMEdward Purba
Pengantar DM
26/52
Langkah-Langkah dari Proses KDD (2)Pemilihan Algoritma DMData mining: Pencarian Evaluasi pola Penyajian pengetahuan Penggunaan pengetahuan yang diperolehEdward Purba
Pengantar DM
27/52
Ciri Khas Proses KDDSeleksi Berdasarkan waktu Database Operasional Eval. of interestingness Raw data
Input data
Preprocessing
Data mining
Postprocessing
Hasil-Hasil
1
Bersih Benar Fokus
2
3Pola berguna yg terpilih 28/52
Utilisasi
Edward Purba
Pengantar DM
UtilisasiPeningkatan potensi untuk mendukung keputusan bisnis
Pembuatan keputusanPenyajian Data Teknik Visualisasi Data Mining Penemuan informasi
End User
Business Analyst Data Analyst
Eksplorasi data Analisa statistik, query, dan pelaporan Data Warehouses / Data Marts OLAP, MDA Sumber data Kertas, Files, Penyedia informasi, Sistem database, OLTP
DBA
Edward Purba
Pengantar DM
29/52
Arsitektur: Sistem Data MiningAntarmuka user grafis (GUI)
Evaluasi Pola
Mesin data miningDatabase atau data warehouse serverPembersihan & integrasi data
Penyaringan
Basis pengetahuan
Databases
Data Warehouse
Edward Purba
Pengantar DM
30/52
Rantai NilaiKeputusanPromosikan produk A di Z. Kirim iklan ke keluarga dengan profil P Jual silang layanan B ke klien C
Pengetahuan Sebanyak Y produk A digunakan di Z Customer dari kelas Y menggunakan x% dari C selama periode D
InformasiX
Data Data
tinggal di Z S berumur Y tahun X dan S pindah W punya uang di Z
customer Simpanan data Data grafis Data geografis
Edward Purba
Pengantar DM
31/52
Fungsionalitas Data Mining Konsep deskripsi: karakterisasi & diskriminasi
Generalisasi, rangkuman, dan karakteristik data kontras Daerah kering vs. Daerah basah Asosiasi (korelasi dan hubungan sebab akibat)
Edward Purba
Pengantar DM
32/52
Fungsionalitas Data Mining Klasifikasi dan prediksi Membangun model (fungsi) yang menguraikan dan membedakan kelas atau konsep untuk peramalan kedepan Misal, mengklasifikasikan negara berdasarkan iklim, atau mengklasifikasikan mobil berdasarkan gas mileage Presentasi: pohon-keputusan, kaidah klasifikasi, neural network Menaksir beberapa nilai numerik yang tidak diketahui atau hilangEdward Purba
Pengantar DM
33/52
Fungsionalitas Data Mining Analisis cluster (analisis pengelompokan) Label kelas tidak diketahui: kelompokkan data untuk membentuk kelas baru, misal mengelompokkan rumah untuk mendapatkan pola distribusi Memaksimalkan kemiripan antar kelas dan meminimumkan kemiripan didalam kelas
Analisis outlier Outlier: suatu objek data yang tidak mengikuti perilaku umum dari data Gangguan atau pengecualian? Tidak! Berguna dalam deteksi kecurangan, analisis peristiwa yang jarang terjadiEdward Purba
Pengantar DM
34/52
Fungsionalitas Data Mining Analisis trend dan evolusi Trend dan deviasi: analisis regresi Penggalian pola sekuensial, analisis periodisitas
Analisis arah pola lain atau statistik
Edward Purba
Pengantar DM
35/52
Adakah Seluruh Pola Yang Ditemukan Menarik? Penambangan data bisa membuat ribuan pola: tidak semua pola tersebut menarik Pendekatan yang disarankan: berpusatkan kepada manusia, berbasis query, penggalian terfokus Ukuran ketertarikan
Suatu pola adalah menarik jika pola tersebut mudah dipahami oleh manusia, valid (berlaku) pada data baru atau uji dengan suatu derajat kepastian, potensial berguna, baru atau membenarkan suatu hipotesa yang dicari user untuk konfirmasiEdward Purba
Pengantar DM
36/52
Adakah Seluruh Pola Yang Ditemukan Menarik? Ukuran ketertarikan objektif vs. subjektif Objektif: berdasarkan statistik dan struktur pola, misal, dukungan, kepercayaan, dsb. Subjektif: berdasarkan keyakinan user terhadap data, misal, ketakterdugaan, pengalaman baru, tindakan yang bisa diperkarakan, dsb.
Edward Purba
Pengantar DM
37/52
Bisakah Memperoleh Seluruh Atau Hanya Pola Yang Menarik? Dapatkan seluruh pola yang menarik: Kelengkapan
Bisakah suatu sistem data mining mendapatkan seluruh pola yang menarik? Pencarian heuristik vs. exhaustive (melelahkan) Asosiasi vs. klasifikasi vs. clustering
Edward Purba
Pengantar DM
38/52
Bisakah Memperoleh Seluruh Atau Hanya Pola Yang Menarik? Cari hanya pola yang menarik: suatu problem optimasi
Bisakah suatu sistem data mining mendapatkan hanya pola yang menarik? Pendekatan Pertama dapatkan seluruh pola lalu saring atau keluarkan yang tidak diminati
Buatlah hanya pola yang diminatioptimisasi query penggalianEdward Purba
Pengantar DM
39/52
Data Mining: Tempat Pertemuan Banyak DisiplinSistem Database Statistik
Mesin Pembelajaran
Data Mining
Visualisasi
Algoritma
Disiplin LainnyaPengantar DM40/52
Edward Purba
Tinjauan Data Mining: Skema Klasifikasi Fungsionalitas umum: Uraian data mining:
Uraikan hal menarik apa yang bisa ditemukan dalam data ini! Terangkan data ini ke saya!
Peramalan data mining: Berdasarkan data ini dan sebelumnya, beritahu saya apa yang akan terjadi kemudian! Tunjukkan ke saya trend kedepan!Edward Purba
Pengantar DM
41/52
Tinjauan Data Mining: Skema Klasifikasi Tinjauan multi-dimensi Databases yang akan digali Pengetahuan yang akan dicari Teknik-teknik yang digunakan Aplikasi yang disesuaikan
Mari kita lihat lebih dekat pada tinjauan ini ...
Edward Purba
Pengantar DM
42/52
Tinjauan Data MiningDatabases yang akan digali Databases Relasional Data warehouse Transaksional Object-oriented Objectrelational Aktif Spasial Time-seriesPengantar DM
Teks, XML Multi-media Heterogen Warisan Induktif WWW dsb.
Edward Purba
43/52
Tinjauan Data MiningAplikasi yang disesuaikan Applic. Retail (supermarkets etc.) Telecom Banking Fraud analysis DNA miningPengantar DM
Analisa stock market Web mining Analisa data log dsb.
Edward Purba
44/52
OLAP Mining: Integrasi Dari Data Mining dan Data Warehouse Sistem data mining, DBMS, Data warehouse
systems coupling No coupling, loose-coupling, semi-tight-coupling,
tight-coupling
Data on-line analytical mining (OLAM) Integrasi dari penggalian dan teknologi OLAP
Edward Purba
Pengantar DM
45/52
OLAP Mining: Integrasi Dari Data Mining dan Data Warehouse Penggalian pengetahuan multi-level secara
interaktif Kebutuhan penggalian pengetahuan dan pola pada
suatu level berbeda dari abstraksi dengandrilling/rolling, pivoting, slicing/dicing, dsb.
Integrasi dari banyak fungsi penggalian Klasifikasi berkarakter, pertama clustering dan kemudian asosiasiEdward Purba
Pengantar DM
46/52
Isu Utama dalam Data Mining Metodologi dan interaksi penambangan Penambangan berbagai jenis pengetahuan Penambangan pengetahuan secara interaktif Penggabungan latar belakang pengetahuan Bahasa query DM dan DM khusus Visualisasi hasil DM Penanganan gangguan dan data tak lengkap Ketertarikan problem Kinerja dan skalabilitas: Efisiensi dan skalabilitas dari algoritma DM Metoda penambangan paralel, tersebar dan bertumbuhEdward Purba
Pengantar DM
47/52
Isu Utama dalam Data Mining Aneka ragam tipe data: Penanganan tipe data kompleks Penambangan informasi dari database heterogen (Web misalnya) Aplikasi dan integrasi pengetahuan yang didapat: Tool DM khusus domain Jawaban query cerdas dan pembuatan keputusan Integrasi dari pengetahuan yang didapat dengan pengetahuan yang ada Proteksi data Keamanan Integritas KerahasiaanEdward Purba
Pengantar DM
48/52
Historis Aktivitas Data Mining 1989 IJCAI Workshop 1991-1994 KDD Workshops 1995-1998 KDD Conferences 1998 ACM SIGKDD 1999- SIGKDD Conferences dan banyak lagi konferensi kecil / baru dari DM PAKDD, PKDD SIAM-Data Mining, (IEEE) ICDM dsb.Pengantar DM49/52
Edward Purba
Rujukan Yang Berguna untuk Data MiningStandards DM:Conferences: Journals: Conferences: Journals: KDD, PKDD, PAKDD, ... Data Mining and Knowledge Discovery, CACM ACM-SIGMOD/PODS, VLDB, ... ACM-TODS, J. ACM, IEEE-TKDE, JIIS, ...
DM/DB:
AI/ML:
Conferences: Journals:
Machine Learning, AAAI, IJCAI, ... Machine Learning, Artific. Intell., ...
Edward Purba
Pengantar DM
50/52
Kesimpulan Data mining: penemuan pola menarik dari data set yang besar secara semi-otomatis Knowledge discovery adalah suatu proses: Preprocessing Data mining Postprocessing Untuk digali, digunakan atau dimanfaatkan Databases (relasional, object-oriented, spasial, WWW, ) Pengetahuan (karakterisasi, pengumpulan, asosiasi, ) Teknik (mesin pembelajaran, statistik, visualisasi, ) Aplikasi (retail, telecom, Web mining, analisa log, )Edward Purba
Pengantar DM
51/52
Pengantar Data Mining
Edward Purba
Pengantar DM
52/52