Penggalian Data

5
Penggalian data Penggalian data (bahasa Inggris: data mining) adalah ekstraksi pola yang menarik dari data dalam jumlah besar [1] . Suatu pola dikatakan menarik apabila pola tersebut tidak sepele, implisit, tidak diketahui sebelumnya, dan berguna. Pola yang disajikan haruslah mudah dipahami, berlaku untuk data yang akan diprediksi dengan derajat kepastian tertentu, berguna, dan baru. Penggalian data memiliki beberapa nama alternatif, meskipun definisi eksaknya berbeda, seperti KDD (knowledge discovery in database), analisis pola, arkeologi data, pemanenan informasi, dan intelegensia bisnis. Penggalian data diperlukan saat data yang tersedia terlalu banyak (misalnya data yang diperoleh dari sistem basis data perusahaan, e-commerce , data saham , dan data bioinformatika ), tapi tidak tahu pola apa yang bisa didapatkan. Proses Pencarian Pola Penggalian data adalah salah satu bagian dari proses pencarian pola. Berikut ini urutan proses pencarian pola: 1. Pembersihan Data : yaitu menghapus data pengganggu (noise) dan mengisi data yang hilang. 2. Integrasi Data : yaitu menggabungkan berbagai sumber data. 3. Pemilihan Data : yaitu memilih data yang relevan. 4. Transformasi Data : yaitu mentransformasi data ke dalam format untuk diproses dalam penggalian data. 5. Penggalian Data: yaitu menerapkan metode cerdas untuk ekstraksi pola. 6. Evaluasi pola : yaitu mengenali pola-pola yang menarik saja. 7. Penyajian pola : yaitu memvisualisasi pola ke pengguna. Latar belakang Perkembangan yang pesat di bidang pengumpulan data dan teknologi penyimpanan di berbagai bidang, menghasilkan basis data yang terlampau besar . Namun, data yang dikumpulkan jarang dilihat lagi, karena terlalu panjang, membosankan, dan tidak menarik. Seringkali, keputusan -yang katanya berdasarkan data- dibuat tidak lagi berdasarkan data, melainkan dari intuisi para pembuat keputusan. Sehingga, lahirlah cabang ilmu penggalian data ini. Analisis data tanpa menggunakan otomasi dari penggalian data adalah tidak memungkinkan lagi, kalau 1) data terlalu banyak, 2) dimensionalitas data terlalu besar, 3) data terlalu kompleks untuk dianalisis manual (misalnya: data time series , data spatiotemporal , data multimedia , data streams ).

Transcript of Penggalian Data

Page 1: Penggalian Data

Penggalian dataPenggalian data (bahasa Inggris: data mining) adalah ekstraksi pola yang menarik dari data dalam jumlah besar [1]. Suatu pola dikatakan menarik apabila pola tersebut tidak sepele, implisit, tidak diketahui sebelumnya, dan berguna. Pola yang disajikan haruslah mudah dipahami, berlaku untuk data yang akan diprediksi dengan derajat kepastian tertentu, berguna, dan baru. Penggalian data memiliki beberapa nama alternatif, meskipun definisi eksaknya berbeda, seperti KDD (knowledge discovery in database), analisis pola, arkeologi data, pemanenan informasi, dan intelegensia bisnis. Penggalian data diperlukan saat data yang tersedia terlalu banyak (misalnya data yang diperoleh dari sistem basis data perusahaan, e-commerce, data saham, dan data bioinformatika), tapi tidak tahu pola apa yang bisa didapatkan.

Proses Pencarian Pola

Penggalian data adalah salah satu bagian dari proses pencarian pola. Berikut ini urutan proses pencarian pola:

1. Pembersihan Data : yaitu menghapus data pengganggu (noise) dan mengisi data yang hilang.2. Integrasi Data : yaitu menggabungkan berbagai sumber data.

3. Pemilihan Data : yaitu memilih data yang relevan.

4. Transformasi Data : yaitu mentransformasi data ke dalam format untuk diproses dalam penggalian data.

5. Penggalian Data: yaitu menerapkan metode cerdas untuk ekstraksi pola.

6. Evaluasi pola : yaitu mengenali pola-pola yang menarik saja.

7. Penyajian pola : yaitu memvisualisasi pola ke pengguna.

Latar belakang

Perkembangan yang pesat di bidang pengumpulan data dan teknologi penyimpanan di berbagai bidang, menghasilkan basis data yang terlampau besar. Namun, data yang dikumpulkan jarang dilihat lagi, karena terlalu panjang, membosankan, dan tidak menarik. Seringkali, keputusan -yang katanya berdasarkan data- dibuat tidak lagi berdasarkan data, melainkan dari intuisi para pembuat keputusan. Sehingga, lahirlah cabang ilmu penggalian data ini.

Analisis data tanpa menggunakan otomasi dari penggalian data adalah tidak memungkinkan lagi, kalau 1) data terlalu banyak, 2) dimensionalitas data terlalu besar, 3) data terlalu kompleks untuk dianalisis manual (misalnya: data time series, data spatiotemporal, data multimedia, data streams).

Teknik Penggalian Data

Pada dasarnya penggalian data dibedakan menjadi dua fungsionalitas, yaitu deskripsi dan prediksi. Berikut ini beberapa fungsionalitas penggalian data yang sering digunakan:

Karakterisasi dan Diskriminasi : yaitu menggeneralisasi, merangkum, dan mengkontraskan karakteristik data. Penggalian pola berulang : yaitu pencarian pola asosiasi (association rule) atau pola intra-transaksi, atau pola

pembelian yang terjadi dalam satu kali transaksi.

Klasifikasi : yaitu membangun suatu model yang bisa mengklasifikasikan suatu objek berdasar atribut-atributnya. Kelas target sudah tersedia dalam data sebelumnya, sehingga fokusnya adalah bagaimana mempelajari data yang ada agar klasifikator bisa mengklasifikasikan sendiri.

Page 2: Penggalian Data

Prediksi : yaitu memprediksi nilai yang tidak diketahui atau nilai yang hilang, menggunakan model dari klasifikasi.

Penggugusan/Cluster analysis : yaitu mengelompokkan sekumpulan objek data berdasarkan kemiripannya. Kelas target tidak tersedia dalam data sebelumnya, sehingga fokusnya adalah memaksimalkan kemiripan intrakelas dan meminimalkan kemiripan antarkelas.

Analisis outlier : yaitu proses pengenalan data yang tidak sesuai dengan perilaku umum dari data lainnya. Contoh: mengenali noise dan pengecualian dalam data.

Analisis trend dan evolusi : meliputi analisis regresi, penggalian pola sekuensial, analisis periodisitas, dan analisis berbasis kemiripan.

Berikut ini adalah 10 algoritma penggalian data yang paling populer berdasarkan konferensi ICDM '06, semua algoritma dinominasikan oleh para pemenang ACM KDD Innovation Award dan IEEE ICDM Research Contributions Award [2]:

1. C4.5 (61 suara) [3]

2. k-Means (60 suara): [4]

3. SVM (58 suara): [5]

4. Apriori (52 suara): [6]

5. EM (48 suara): [7]

6. PageRank (46 suara): [8]

7. AdaBoost (45 suara): [9]

8. kNN (45 suara): [10]

9. Naive Bayes (34 suara): [11]

Berikut ini adalah yang hanya masuk nominasi:

CART : [12]

FP-Tree : [13]

HITS : [14]

BIRCH : [15]

GSP : [16]

PrefixSpan : [17]

CBA : [18]

Finding Reduct : [19]

gSpan : [2

Penambangan teksDari Wikipedia bahasa Indonesia, ensiklopedia bebas

Langsung ke: navigasi, cari

Page 3: Penggalian Data

Penambangan teks (bahasa Inggris: text mining) adalah proses ekstraksi pola berupa informasi dan pengetahuan yang berguna dari sejumlah besar sumber data teks, seperti dokumen Word, PDF, kutipan teks, dll. Jenis masukan untuk penambangan teks ini disebut data tak terstruktur dan merupakan pembeda utama dengan penambangan data yang menggunakan data terstruktur atau basis data sebagai masukan. Penambangan teks dapat dianggap sebagai proses dua tahap yang diawali dengan penerapan struktur terhadap sumber data teks dan dilanjutkan dengan ekstraksi informasi dan pengetahuan yang relevan dari data teks terstruktur ini dengan menggunakan teknik dan alat yang sama dengan penambangan data. Proses yang umum dilakukan oleh penambangan teks di antaranya adalah perangkuman otomatis, kategorisasi dokumen, penggugusan teks, dll. (Turban, et.al., 2011)

Penambangan Data

Posted May 21, 2010 by restya in science_art_technology. 1 Comment

Assalammu’alaikum..

Sekedar berbagi hasil UAS Take Home Jurnalisme tentang data mining. Semoga bermanfaat ^^

“Kita kaya akan data, tapi miskin akan informasi” begitulah kalimat yang diungkapkan oleh Jiawei

Han, pakar basis data. Perkembangan teknologi informasi telah memungkinkan kita untuk menyimpan berbagai macam data. Mulai dari data transaksi penjualan dan pembelian barang, data pengiriman SMS, hingga data-data yang bersifat rahasia. Namun, tentu saja tidak semua data bersifat penting dan dapat menjadi informasi bagi pemilik datanya. Bagaikan kumpulan bahan tambang yang mahal di antara batu-batu yang kurang bernilai artinya, informasi atau data yang penting dan menarik tersembunyi di antara setumpuk data yang tidak menarik. Oleh karena itu, kita membutuhkan cara untuk menambang informasi dari data. Teknologi tersebut dinamakan penambangan data atau data mining.

Data mining merupakan suatu cara untuk mengekstraksi pola dari data berukuran besar.  Pola yang dihasilkan dapat menjadi informasi yang menarik bagi pemilik data. Misalnya, pola gejala penyakit atau pola pembelian suatu produk makanan dan minuman bayi. Karena dihasilkan dari data yang merupakan representasi fakta yang tercatat, pola yang dihasilkan dari proses data mining ini juga merupakan representasi fakta yang kebenarannya tergantung pada kebenaran data.

Data mining merupakan multidisiplin ilmu yang terdiri atas teknologi basis data, statistik, pembelajaran mesin, komputasi performansi tinggi, pengenalan pola, visualisasi data, temu balik informasi, dan pemrosesan gambar dan sinyal. Pada dasarnya, kita dapat menghasilkan pola dari tumpukan data mentah dengan menggunakan perhitungan statistik biasa. Namun, menghasilkan pola dari data yang berukuran sangat besar tentu saja tidak manusiawi. Oleh karena itu, pekerjaan menghasilkan pola diserahkan kepada mesin.

Bagaimana data mining dapat menghasilkan pola dari tumpukan data mentah? Metode paling sederhana yaitu dengan menghitung kemunculan suatu kejadian terhadap kejadian lainnya dalam data. Kemungkinan kemunculan suatu kejadian terhadap kejadian lain merupakan sebuah pola. Misalnya, perhitungan pembelian susu bayi dan pembelian tisu dalam satu transaksi di supermarket menghasilkan pola:  70% pembeli susu bayi juga membeli tisu. Metode penghitungan munculnya beberapa kejadian yang muncul secara bersamaan tersebut lazim disebut dengan analisis keranjang atau market basket analysis.

Membuat mesin belajar dari data merupakan metode lain yang dapat digunakan untuk menghasilkan pola pada data. Dalam metode ini, data dibagi menjadi dua jenis yaitu data latih (training data) dan data uji (testing data). Mesin

Page 4: Penggalian Data

mengolah training data untuk membentuk suatu pola. Pola tersebut lalu diuji kebenarannya dengan mengelompokkan testing data. Semakin banyak testing data yang dikelompokkan dengan benar, semakin akurat suatu pola. Contohnya, melalui pembelajaran mesin dihasilkan pola yang menghubungkan jenis mobil yang dibeli terhadap pendapatan dan pekerjaan pembeli mobil. Untuk menguji kebenaran pola tersebut, kita menggunakan pola untuk ‘menebak’ jenis mobil bila diketahui pendapatan dan pekerjaan pembeli mobil. Semakin banyak jumlah ‘tebakan’ yang benar, semakin akurat pola yang dihasilkan.

Pola yang dihasilkan berguna untuk ‘menebak’ fakta yang belum terjadi terhadap catatan data. Sebagai contoh, jika kita ingin mengetahui prediksi jenis mobil yang akan dibeli oleh seseorang, kita dapat menggunakan pola pembelian mobil yang sudah terbentuk sebelumnya. Mesin akan secara otomatis menghasilkan ‘tebakan’ jenis mobil terhadap data pendapatan dan pekerjaan orang tersebut berdasarkan pola yang sudah terbangun.

Salah satu perusahaan konsultan internasional, Nielsen Company memanfaatkan teknologi data mining ini dalam membantu klien-kliennya. Nielsen Buzzmetrics  yang merupakan anak perusahaan dari Nielsen Company membantu klien-kliennya dengan menganalisis tulisan pelanggan yang bersebaran di internet tentang sebuah produk. Penelitiannya membuktikan bahwa tulisan  pelangan terhadap suatu produk relatif lebih dipercaya bila dibandingkan dengan iklan dari produk itu sendiri.  Nielsen Buzzmetrics lalu menggunakan teknologi data mining untuk menganalisis pesan-pesan yang ditulis oleh pelanggan dalam media internet secara otomatis. Misalnya, data mining dipergunakan untuk menganalisis kepuasan pelanggan terhadap produk tertentu. Dengan demikian, perusahaan penghasil produk tersebut terbantu untuk merumuskan strategi untuk memperbaiki produknya.

Teknologi data mining dapat membantu kita untuk menemukan pola yang menarik dari tumpukan data. Pola yang telah ditambang tersebut dapat membantu manusia untuk merumuskan kebijakan dan strategi. Namun, pola yang telah ditambang tidak akan benar bila data yang ada bukan merupakan catatan fakta yang sebenarnya. Manusia sebagai pengguna teknologi berperan penting dalam kebermanfaatan teknologi itu sendiri.