Teknik & Metode Data Mining

47
Teknik-Teknik Data Mining 1. Classification Classification adalah tindakan untuk memberikan kelompok pada setiap keadaan. Setiap keadaan berisi sekelompok atribut, salah satunya adalah class attribute. Metode ini butuh untuk menemukan sebuah model yang dapat menjelaskan class attribute itu sebagai fungsi dari input attribute. Contohnya kita lihat pada contoh kasus College Plan Class adalah attribute CollegePlans yang berisi dua pernyataan, Yes dan No, perhatikan ini. Sebuah Classification Model akan menggunakan atribut lain dari kasus tersebut (input attribut; yaitu kolom IQ, Gender, ParentIncome, dan ParentEncouragement) untuk dapat menentukan pola (pattern) class (Output Attribute; yaitu Kolom CollegePlans yang berisi Yes atau No). Algoritma Data Mining yang membutuhkan variabel target untuk belajar (sampai mendapatkan rule / pola yang berlaku pada data tersebut) kita standarkan dengan sebutan dengan Supervised Algorithm. Yang termasuk kepada Classification Algorithm adalah Decision Trees, Neural Network dan Naives Bayes. 2. Clustering

Transcript of Teknik & Metode Data Mining

Page 1: Teknik & Metode Data Mining

Teknik-Teknik Data Mining

1.     Classification

Classification adalah tindakan untuk memberikan kelompok pada setiap keadaan. Setiap keadaan berisi sekelompok atribut, salah satunya adalah class attribute. Metode ini butuh untuk menemukan sebuah model yang dapat menjelaskan class attribute itu sebagai fungsi dari input attribute.

Contohnya kita lihat pada contoh kasus College Plan

Class adalah attribute CollegePlans yang berisi dua pernyataan, Yes dan No, perhatikan ini.

Sebuah Classification Model akan menggunakan atribut lain dari kasus tersebut (input attribut; yaitu kolom IQ, Gender, ParentIncome, dan ParentEncouragement) untuk dapat menentukan pola (pattern) class (Output Attribute; yaitu Kolom CollegePlans yang berisi Yes atau No).

Algoritma Data Mining yang membutuhkan variabel target untuk belajar (sampai mendapatkan rule / pola yang berlaku pada data tersebut) kita standarkan dengan sebutan dengan Supervised Algorithm. Yang termasuk kepada Classification Algorithm adalah Decision Trees, Neural Network dan Naives Bayes.

2.     Clustering

Page 2: Teknik & Metode Data Mining

Clustering juga disebut sebagai segmentation. Metoda ini digunakan untuk mengidentifikasi kelompok alami dari sebuah kasus yang di dasarkan pada sebuah kelompok atribut, mengelompokkan data yang memiliki kemiripan atribut. Gambar ini menunjukkan kelompok data pelanggan sederhana yang berisi dua atribut, yaitu Age (Umur) dan Income (Pendapatan). Algoritma Clustering mengelompokkan kelompok data kedalam tiga segment berdasarkan kedua atribut ini.

Cluster 1 berisi populasi berusia muda dengan pendapatan rendah

Cluster 2 berisi populasi berusia menengah dengan pendapatan yang lebih tinggi

Cluster 3 berisi populasi berusia tua dengan pendapatan yang relatif rendah.

Clustering adalah metode data mining yang Unsupervised, karena tidak ada satu atributpun yang digunakan untuk memandu proses pembelajaran, jadi seluruh atribut input diperlakukan sama. Kebanyakan Algoritma Clustering membangun sebuah model melalui serangkaian pengulangan dan berhenti ketika model tersebut telah memusat atau berkumpul (batasan dari segmentasi ini telah stabil).

3.     Association

Association juga disebut sebagai Market Basket Analysis. Sebuah problem bisnis yang khas adalah menganalisa tabel transaksi penjualan dang mengidentifikasi produk-produk yang seringkali dibeli bersamaan oleh customer, misalnya apabila orang membeli sambal, biasanya juga dia membeli kecap. Kesamaan yang ada dari data pembelian digunakan untuk

Page 3: Teknik & Metode Data Mining

mengidentifikasi kelompok kesamaan dari produk dan kebiasaan apa yang terjadi guna kepentingan cross-selling seperti gambar dibawah ini.

Beberapa hal dapat kita baca, misalnya :

Ketika orang membeli susu, dia biasanya membeli keju

Ketika orang membeli pepsi atau coke, biasanya dia membeli juice

Didalam istilah association, setiap item dipertimbangkan sebagai informasi.

Metode association memiliki dua tujuan:

Untuk mencari produk apa yang biasanya terjual bersamaan

Untuk mencari tahu apa aturan yang menyebabkan kesamaan tersebut.

4.     Regression

Metode Regression mirip dengan metode Classification, yang membedakannya adalah metode regression tidak bisa mencari pola yang dijabarkan sebagai class (kelas). Metoda regression bertujuan untuk mecari pola dan menentukan sebuah nilai numerik.

Sebuah Teknik Linear Line-fitting sederhana adalah sebuah contoh dari Regression, dimana hasilnya adalah sebuah fungsi untuk menentukan hasil yang berdasarkan nilai dari input. Bentuk yang lebih canggih dari regression sudah mendukung input berupa kategori, jadi tidak hanya input berupa numerik. Teknik paling popular yang digunakan untuk regression adalah linear regression dan logistic regression. Teknik lain yang didukung oleh SQL Server Data mining adalah Regression Trees (bagian dari dari algoritma Microsoft Decission Trees) dan Neural Network.

Regression digunakan untuk memecahkan banyak problem bisnis, contohnya untuk memperkirakan metode distribusi, kapasitas distribusi, musim dan untuk memperkirakan kecepatan angin berdasarkan temperatur, tekanan udara, dan kelembaban.

5.     Forecasting

Forecasting adalah metode data mining yang sangat penting. Contohnya digunakan untuk menjawab pertanyaan seperti berikut:

       Seperti apa jadinya nilai saham dari Microsoft Corporation (pada NASDAQ, disimbolkan sebagai MSFT) pada keesokan hari?

       Sebanyak apa penjualan produk tertentu pada bulan depan?

Page 4: Teknik & Metode Data Mining

Teknik Forecasting dapat membantu menjawab pertanyaan-pertanyaan diatas. Sebagai inputnya teknik Forecasting akan mengambil sederetan angka yang menunjukkan nilai yang berjalan seiring waktu dan kemudian Teknik Forecasting ini akan menghubungkan nilai masa depan dengan menggunakan bermacam-macam teknik machine-learning dan teknik statistik yang berhubungan dengan musim, trend, dan noise pada data.

Gambar diatas menunjukkan dua kurva, garis yang tegas adalah time-series data sebenarnya dari nilai saham Microsoft, dan garis putus-putus adalah time series model yang memprediksi nilai saham berdasarkan nilai saham pada masa lalu.

6.     Sequence Analysis

Sequence Anlysis digunakan untuk mencari pola pada serangkaian kejadian yang disebut dengan Sequence. Sebagai contoh sebuah DNA terdiri dari rangaian bagian: A, G, C, dan T. dan rangkaian klik pada sebuah website berisi rentetan URL. Pada kejadian nyata anda mungkin memodelkan pembelian oleh pelanggan sebagai sebuah sequence (rangkaian) data, rangkaian tersebut adalah:

Pertama-tama Seorang pelanggan membeli komputer

kemudian membeli speaker

dan akhirnya membeli sebuah webcam.

Baik Sequence maupun time-series data mempunyai kemiripan, mereka sama sama berisi tinjauan berdekatan yang urutannya bergantung. Bedanya adalah sebuah time-series berisi data bertipe numerik, dan sebuah sequence series berisi bagian yang khas.

Page 5: Teknik & Metode Data Mining

Gambar ini menunjukan rangkaian klik pada sebuah website berita. Setiap node adalah sebuah kategori URL. Dan garis melambangkan transisi antar kategori URL tersebut. Setiap transisi di kelompokan dengan sebuah bobot yang menggambarkan kemungkinan transisi antara satu URL dan URL yang lain.

TEKNIK DAN METODE DATA MINING

Kami akan membahas mengenai Teknik dan Metode dari Data Mining , dimana Teknik data Mining terbagi atas :

Association Rule Mining Classification   Clustering

Dan Metode Data Mining terbagi atas tiga :

Predictive Modelling, Discovery, dan Deviation Detection.

Teknik – Teknik Data Mining1. Association Rule Mining

Association rule mining adalah teknik mining untuk menemukan aturan assosiatif antara suatu kombinasi item. Contoh dari aturan assosiatif dari analisa pembelian di suatu pasar swalayan adalah bisa diketahui berapa besar kemungkinan seorang pelanggan membeli roti bersamaan dengan susu. Dengan pengetahuan tsb. pemilik pasar swalayan dapat mengatur penempatan barangnya atau merancang kampanye pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu. Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support yaitu persentase kombinasi item tsb. dalam database dan confidence yaitu kuatnya hubungan antar item dalam aturan assosiatif.

2. Classification

Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan “jika-maka”, berupa decision tree, formula matematis atau neural network.

Decision tree adalah salah satu metode classification yang paling populer karena mudah untuk diinterpretasi oleh manusia. Contoh dari decision tree dapat dilihat pada gambar diatas. Disini setiap percabangan menyatakan kondisi yang harus dipenuhi dan tiap ujung pohon menyatakan kelas data. Contoh di Gambar 3 adalah identifikasi pembeli komputer, dari decision tree tsb. diketahui bahwa salah satu kelompok yang potensial membeli komputer adalah orang yang berusia di bawah 30 tahun dan juga pelajar.

Page 6: Teknik & Metode Data Mining

3. Clustering

Berbeda dengan association rule mining dan classification dimana kelas data telah ditentukan sebelumnya, clustering melakukan pengelompokan data tanpa berdasarkan kelas data tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang belum diketahui itu. Karena itu clustering sering digolongkan sebagai metode unsupervised learning. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster. Clustering dapat dilakukan pada data yan memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi.

Metode Data Mining

Banyak teknik dan metode yang ada untuk melakukan berbagai jenis tugas data mining. Metode ini dikelompokkan dalam 3 paradigma utama data mining:

Predictive Modeling, Discovery, dan Deviation Detection.

1. Predictive Modeling

Aplikasi Predictive Modeling menghasilkan klasifikasi atau prediksi. Tujuan dari predictive modeling adalah menemukan pola yang melibatkan variabel untuk memprediksi dan mengklasifikasi perilaku masa depan dari sebuah entitas. Ada dua tipe masalah yang diselesaikan oleh predictive modeling: klasifikasi dan regresi.

1.1 Klasifikasi melibatkan model pembelajaran yang memetakan (atau mengklasifikasi) data contoh ke dalam satu atau beberapa kelas yang telah didefinisikan. Sebagai contoh, bank dapat menggunakan skema klasifikasi untuk menentukan pengajuan pinjaman yang akan disetujui. Teknik klasifikasi meliputi Naive Bayesian, neural networks, dan decision trees.

1.2 Regresi melibatkan model yang memetakan data contoh ke prediksi real-valued. Teknik regresi meliputi neural networks dan decision (atau regression) trees.

2. Discovery

Aplikasi discovery adalah pendekatan eksploratoris untuk analisis data. Aplikasi discovery menggunakan teknik yang menganalisis data set yang besar untuk menemukan association rules(atau pola), atau menemukan kluster dari sampel yang dapat dikelompokan. Hasil dari metode discovery umumnya dimaksudkan untuk pengguna. Walau begitu, hasilnya juga dapat diaplikasikan ke metode data mining yang lain

3. Deviation Detection

Deviation Detection melakukan deteksi anomali secara otomatis. Tujuannya untuk mengidentifikasi kebiasaan suatu entitas dan menetapkan sejumlah norm melalui pattern discovery. Sampel yang berdeviasi dari norm lalu diidentifikasi sebagai tidak biasa. teknik Deviation Detection melalui visualisasi melalui parallel coordinates, scatterplots, dan surface plots.

Page 7: Teknik & Metode Data Mining

Data Mining – Proses, Tahapan dan   Penerapannya April 24, 2009 at 4:36 am (Management Database)

Oleh Rezqiwati

Abstrak

Perkembangan data mining (DM) yang pesat tidak dapat lepas dari perkembangan teknologi

informasi yang memungkinkan data dalam jumlah besar terakumulasi sejalan dengan pertumbuhan

teknologi informasi. Mining berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah

besar material dasar. Olehnya itu, data mining memiliki akar yang panjang dari bidang ilmu seperti

kecerdasan buatan (artificial intelligent), machine learning, statistik dan database.

Data Mining (DM) sendiri adalah serangkaian proses untuk menggali nilai tambah berupa

pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data.Seorang analis

menerapkan tahapan-tahapan data mining tersebut. Sebagai prasyarat penerapan data mining,

diperlukan pemahaman terhadap data dan proses diperolehnya data tersebut. Yang lebih mendasar

lagi adalah diperlukannya pemahaman mengapa menerapkan data mining dan target yang ingin

dicapai. Sehingga secara garis besar sudah ada hipotesa mengenai aksi-aksi yang dapat diterapkan

dari hasilnya nanti. Penulis juga mencoba merangkum perkembangan terakhir dari teknik-teknik DM

beserta implikasinya di dunia bisnis.

 

Kata Kunci: data mining, process, tahapan, penerapan

Pendahuluan

Perkembangan data mining (DM) yang pesat tidak dapat lepas dari perkembangan teknologi

informasi yang memungkinkan data dalam jumlah besar terakumulasi. Sebagai contoh, toko swalayan

merekam setiap penjualan barang dengan memakai alat POS (point of sales). Database data

penjualan tsb. bisa mencapai beberapa GB setiap harinya untuk sebuah jaringan toko swalayan

berskala nasional. Perkembangan internet juga punya andil cukup besar dalam akumulasi data.

Page 8: Teknik & Metode Data Mining

Tetapi pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering disebut

sebagai “rich of data but poor of information” karena data yang terkumpul itu tidak dapat digunakan

untuk aplikasi yang berguna. Tidak jarang kumpulan data itu dibiarkan begitu saja seakan-akan

“kuburan data” (data tombs).

Patut diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga

dari sejumlah besar material dasar. Karena itu data mining sebenarnya memiliki akar yang panjang

dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan

database. Beberapa teknik yang sering disebut-sebut dalam literatur DM antara lain: clustering,

classification, association rule mining, neural network, genetic algorithm dan lain-lain. Yang

membedakan persepsi terhadap DM adalah perkembangan teknik-teknik DM untuk aplikasi pada

database skala besar yang ternyata penerapan pada data berskala besar memberikan tantangan-

tantangan baru yang akhirnya memunculkan metodologi baru. Sebelum populernya data mining,

teknik-teknik tersebut hanya dapat dipakai untuk data skala kecil saja.

Bermula dari penerapan di dunia bisnis, sekarang ini data mining juga diterapkan pada bidang-bidang

lain yang memerlukan analisa data berskala besar seperti bioinformasi dan pertahanan Negara.

Apa dan Bagaimana Proses Data Mining

Ada beberapa definisi dari data mining yang dikenal di buku-buku teks data mining, diantaranya

adalah :

Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data

berupa pengetahuan yang selama ini tidak diketahui secara manual.

Data mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks dengan

tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari

keberadaannya

Dari definisi-definisi itu, dapat dilihat ada beberapa faktor yang mendefinisikan data mining :

1. Data mining adalah proses otomatis terhadap data yang dikumpulkan di masa lalu

2. Objek dari data mining adalah data yang berjumlah besar atau kompleks

3. Tujuan dari data mining adalah menemukan hubungan-hubungan atau pola-pola yang mungkin

memberikan indikasi yang bermanfaat

Sejarah Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan untuk

mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan teknik

dari bidang-bidang ilmu yang sudah mapan terlebih dulu. Gambar 1, menunjukkan bahwa data mining

Page 9: Teknik & Metode Data Mining

memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine

learning, statistic, database dan juga information retrieval.

Gambar 1

Beberapa teknik yang sering disebut-sebut dalam literatur data mining seperti classification, neural

network, genetic algorithm dll. sudah lama dikenal di dunia kecerdasan buatan. Statistik memberikan

kontribusi pada data mining dengan teknik-teknik untuk menyeleksi data dan evaluasi hasil data

mining selain teknik-teknik data mining seperti clustering. Yang membedakan persepsi terhadap data

mining adalah perkembangan teknik-teknik data mining untuk aplikasi pada database skala besar.

Sebelum populernya data mining, teknik-teknik tersebut pada umunya diterapkan untuk data skala

kecil saja. Selain itu beberapa teknik dari bidang database untuk transformasi data juga merupakan

bagian integral dari proses data mining.

Akhir-akhir ini ada beberapa bidang ilmu seperti information retrieval yang juga terlibat dalam proses

data mining untuk mengekstrak sumber data bagi data mining dari sumber-sumber seperti teks dan

website. Walaupun data mining memiliki sumber dari beberapa bidang ilmu, data mining berbeda

dalam beberapa aspek dibandingkan dengan bidang ilmu seperti berikut :

Statistik : model statistik dipersiapkan oleh para ahli statistik, sedangkan data mining

mengembangkan statistik untuk menangani data berjumlah besar secara otomatis -

Expert system (sistem cerdas) : model pada expert system dibuat berupa aturan-aturan

berdasar pada pengalaman-pengalaman para ahli

Data Warehouse (DWH) : sering terjadi kerancuan antara data mining dan data warehouse

karena keduanya sering dipakai bersamaan. Pada umumnya data warehouse lebih merujuk

pada tempat untuk menyimpan data yang terkonsolidasi sedangkan data mining bisa dianggap

sebagai perkakas untuk menganalisa otomatis nilai dari data itu

Page 10: Teknik & Metode Data Mining

OLAP : seperti data warehouse, OLAP juga sering dibahas bersama data mining. Tetapi OLAP

memiliki tujuan untuk memastikan hipotesa yang sudah diformulasikan terlebih dulu oleh

penggunanya.

Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalah diperlukan

metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika mempersiapkan

data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi aksi ataupun keputusan

yang bermanfaat. Karenanya data mining seharusnya dipahami sebagai suatu proses, yang memiliki

tahapan-tahapan tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya.

Pada umumnya proses data mining berjalan interaktif karena tidak jarang hasil data mining pada

awalnya tidak sesuai dengan harapan analisnya sehingga perlu dilakukan desain ulang prosesnya.

Disini akan diuraikan tahap-tahap umum dari data mining tapi perlu diingat sebelum seorang analis

menerapkan tahapan-tahapan data mining tersebut, sebagai prasyarat penerapan data mining,

diperlukan pemahaman terhadap data dan proses diperolehnya data tersebut. Yang lebih mendasar

lagi adalah diperlukannya pemahaman mengapa menerapkan data mining dan target yang ingin

dicapai. Sehingga secara garis besar sudah ada hipotesa mengenai aksi-aksi yang dapat diterapkan

dari hasilnya nanti. Pemahaman-pemahaman tersebut akan sangat membantu dalam mendesain

proses data mining dan juga pemilihan teknik data mining yang akan diterapkan. Selain itu, bagi dunia

bisnis akan memudahkan untuk melakukan pengukuran return on investment-nya (ROI).

 

Page 11: Teknik & Metode Data Mining

Gambar 2 : Tahap-

Tahap Data Mining

Tahap-Tahap Data Mining

Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap yang

diilustrasikan pada Gambar 2 di atas. Tahap-tahap tersebut bersifat interaktif di mana pemakai terlibat

langsung atau dengan perantaraan knowledge base. Tahapan-tahapan tersebut, diantaranya :

1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise)

Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil

eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak

valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak

relevan dengan hipotesa data mining yang kita miliki. Data-data yang tidak relevan itu juga lebih

baik dibuang karena keberadaannya bisa mengurangi mutu atau akurasi dari hasil data mining

nantinya. Garbage in garbage out (hanya sampah yang akan dihasilkan bila yang dimasukkan

juga sampah) merupakan istilah yang sering dipakai untuk menggambarkan tahap ini.

Pembersihan data juga akan mempengaruhi performasi dari sistem data mining karena data

yang ditangani akan berkurang jumlah dan kompleksitasnya.

2. Integrasi data (penggabungan data dari beberapa sumber)

Page 12: Teknik & Metode Data Mining

Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal dari satu database

tetapi juga berasal dari beberapa database atau file teks. Integrasi data dilakukan pada atribut-

aribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut nama, jenis produk,

nomor pelanggan dsb. Integrasi data perlu dilakukan secara cermat karena kesalahan pada

integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan

pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk

ternyata menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi

antar produk yang sebenarnya tidak ada. Dalam integrasi data ini juga perlu dilakukan

transformasi dan pembersihan data karena seringkali data dari dua database berbeda tidak

sama cara penulisannya atau bahkan data yang ada di satu database ternyata tidak ada di

database lainnya.

3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)

Beberapa teknik data mining membutuhkan format data yang khusus sebelum bisa

diaplikasikan. Sebagai contoh beberapa teknik standar seperti analisis asosiasi dan klastering

hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang

berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering disebut binning. Disini

juga dilakukan pemilihan data yang diperlukan oleh teknik data mining yang dipakai.

Transformasi dan pemilihan data ini juga menentukan kualitas dari hasil data mining nantinya

karena ada beberapa karakteristik dari teknik-teknik data mining tertentu yang tergantung pada

tahapan ini.

4. Aplikasi teknik data mining

Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari proses data mining.

Ada beberapa teknik data mining yang sudah umum dipakai. Kita akan membahas lebih jauh

mengenai teknik-teknik yang ada di seksi berikutnya. Perlu diperhatikan bahwa ada kalanya

teknik-teknik data mining umum yang tersedia di pasar tidak mencukupi untuk melaksanakan

data mining di bidang tertentu atau untuk data tertentu. Sebagai contoh akhir-akhir ini

dikembangkan berbagai teknik data mining baru untuk penerapan di bidang bioinformatika

seperti analisa hasil microarray untuk mengidentifikasi DNA dan fungsi-fungsinya.

5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)

Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model

prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata

hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti :

menjadikannya umpan balik untuk memperbaiki proses data mining, mencoba teknik data

Page 13: Teknik & Metode Data Mining

mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan

yang mungkin bermanfaat.

Ada beberapa teknik data mining yang menghasilkan hasil analisa berjumlah besar seperti

analisis asosiasi. Visualisasi hasil analisa akan sangat membantu untuk memudahkan

pemahaman dari hasil data mining.

6. Presentasi pola yang ditemukan untuk menghasilkan aksi

Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau

aksi dari hasil analisa yang didapat. Ada kalanya hal ini harus melibatkan orang-orang yang

tidak memahami data mining. Karenanya presentasi hasil data mining dalam bentuk

pengetahuan yang bisa dipahami semua orang adalah satu tahapan yang diperlukan dalam

proses data mining. Dalam presentasi ini, visualisasi juga bisa membantu mengkomunikasikan

hasil data mini

Penerapan Data Mining

Terkadang muncul pertanyaan tentang penerapan data mining itu sendiri. Di bidang apa saja

penerapannya dapat dilakukan? Artikel singkat ini berusaha memberikan jawabannya.

Analisa Pasar dan Manajemen

Untuk analisa pasar, banyak sekali sumber data yang dapat digunakan seperti transaksi kartu kredit, kartu

anggota club tertentu, kupon diskon, keluhan pembeli, ditambah dengan studi tentang gaya hidup publik.

Beberapa solusi yang bisa diselesaikan dengan data mining diantaranya:

Menembak target pasar 

Data mining dapat melakukan pengelompokan (clustering) dari model-model pembeli dan

melakukan klasifikasi terhadap setiap pembeli sesuai dengan karakteristik yang diinginkan

seperti kesukaan yang sama, tingkat penghasilan yang sama, kebiasaan membeli dan

karakteristik lainnya.

Melihat pola beli pemakai dari waktu ke waktu 

Data mining dapat digunakan untuk melihat pola beli seseorang dari waktu ke waktu. Sebagai

contoh, ketika seseorang menikah bisa saja dia kemudian memutuskan pindah dari single

account ke joint account (rekening bersama) dan kemudian setelah itu pola beli-nya berbeda

dengan ketika dia masih bujangan.

Page 14: Teknik & Metode Data Mining

Cross-Market Analysis 

dengan produk lainnya. Berikut ini saya sajikan beberapa contoh:

o Cari pola penjualan Coca Cola sedemikian rupa sehingga kita dapat mengetahui barang

apa sajakah yang harus kita sediakan untuk meningkatkan penjualan Coca Cola?

o Cari pola penjualan IndoMie sedemikian rupa sehingga kita dapat mengetahui barang apa

saja yang juga dibeli oleh pembeli IndoMie. Dengan demikian kita bisa mengetahui

dampak jika kita tidak lagi menjual IndoMie.

o Cari pola penjualan

Profil Customer 

Data mining dapat membantu Anda untuk melihat profil customer/pembeli/nasabah sehingga

kita dapat mengetahui kelompok customer tertentu suka membeli produk apa saja.

Identifikasi Kebutuhan Customer 

Anda dapat mengidentifikasi produk-produk apa saja yang terbaik untuk tiap kelompok customer

dan menyusun faktor-faktor apa saja yang kira-kira dapat menarik customer baru untuk

bergabung/membeli.

Menilai Loyalitas Customer 

VISA International Spanyol menggunakan data mining untuk melihat kesuksesan program-

program customer loyalty mereka. Anda bisa lihat dihttp://www.visa.es/ingles/info/300300.html  

Informasi Summary 

Anda juga dapat memanfaatkan data mining untuk membuat laporan summary yang bersifat

multi-dimensi dan dilengkapi dengan informasi statistik lainnya.

Data Mining – Yang Bisa dan Tidak Bisa Dilakukan

Secara umum, data mining dapat melakukan dua hal yaitu :

Memberikan kesempatan untuk menemukan informasi menarik yang tidak terduga.

Dapat menangani data berskala besar.

Dalam menemukan informasi yang menarik ini, ciri khas data mining adalah kemampuan pencarian

secara hampir otomatis. Mengapa disebut hampir otomatis karena dalam banyak teknik data mining

ada beberapa parameter yang masih harus ditentukan secara manual atau semi manual. Penelitian

Page 15: Teknik & Metode Data Mining

untuk melakukan setting secara adaptif merupakan bidang yang hangat diteliti. Data mining juga

dapat memanfaatkan pengalaman atau bahkan kesalahan di masa lalu untuk meningkatkan kualitas

dari model maupun hasil analisanya, salah satunya dengan kemampuan pembelajaran yang dimiliki

beberapa teknik data mining seperti klasifikasi. Data Mining juga memiliki kemampuan, diantaranya :

Mampu menangani data dalam jumlah besar.

Memungkinkan data mining untuk diterapkan pada masalah-masalah kompleks yang ukurannya

tidak dibatasi lagi oleh otak manusia.

Selain itu penelitian tentang algoritma parallel dari data mining juga membuka jalan agar data

mining dapat diterapkan pada program skala yang lebih besar lagi.

Sebaliknya, disamping memiliki kemampuan ada beberapa hal yang tidak bisa dilakukan oleh data

mining, diantaranya :

Perlu disadari bahwa data mining bukanlah solusi yang cocok untuk setiap masalah. Ada

banyak masalah yang justru lebih baik diselesaikan dengan statistic yang sederhana.

Data mining juga tidak bisa menemukan pengetahuan yang bermanfaat secara instan.

Beberapa hal yang perlu diperhatikan oleh seorang analis :

Seorang analis data mining perlu tahu perbedaan, kelebihan dan kekurangan dari teknik-teknik

data mining yang ada sebelumnya mengaplikasikan yang paling cocok untuk masalah yang

dihadapinya.

Ketika menjalankan teknik data mining itu sendiri, si analis juga perlu mengarahkan programnya

dengan melakukan persiapan-persiapan dan pemilihan parameternya.

Setelah data mining dilaksanakan pun si analis harus melakukan evaluasi terhadap pola-pola

yang dihasilkan sebelumnya bisa merumuskan hasilnya.

Terakhir perlu diingat bahwa data mining tidak bisa memberikan hasil yang bisa langsung

digunakan. Banyak hasil dari data mining yang tidak bisa langsung diinterpretasikan dengan

mudah.

Hal-hal ini juga disadari oleh perusahaan-perusahaan yang menerapkan data mining dan OLAP,

yang sering dirangkum dalam istilah business intelligence (BI). Untuk memecahkan masalah ini,

mulai banyak perusahaan yang membuat pusat untuk business intelligence yang membantu

karyawan biasa untuk menggunakan piranti OLAP maupun data mining dengan menyediakan

pelatihan dan informasi praktis pemakaian dan aplikasi hasilnya.

Kesimpulan dan Saran

Kesimpulan

Page 16: Teknik & Metode Data Mining

Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data

berupa pengetahuan yang selama ini tidak diketahui secara manual, juga diartikan sebagai

analisa otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk

menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari

keberadaannya

Disamping memiliki kemampuan, data mining juga memiliki keterbatasan yang tidak bisa

dilakukannya.

Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalah

diperlukan metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika

mempersiapkan data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi aksi

ataupun keputusan yang bermanfaat. Karenanya data mining seharusnya dipahami sebagai

suatu proses, yang memiliki tahapan-tahapan tertentu dan juga ada umpan balik dari setiap

tahapan ke tahapan sebelumnya.

Saran

Tulisan ini masih butuh pengembangan, karenanya kritik dan saran yang sifatnya membangun tetap

penulis nantikan.

Daftar Pustaka

Yudho Giri Sucahyo, 2003, Penerapan Data Mining, Artikel Populer

IlmuKomputer.Com (Artikel Internet www.google.com)

Iko Pramudiono, 2003, Pengantar Data Mining, Kuliah Umum IlmuKomputer.Com (Artikel

Internet www.google.com)

Iko Pramudiono, 2006, Indo Data Mining, (Artikel Internet www.google.com)

Page 17: Teknik & Metode Data Mining

Data Mininggorbyrashid Filed Under: Labels: Data Mining

Apa itu Data MiningPendahuluan Perkembangan data mining(DM) yang pesat tidak dapat lepas dari perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi. Sebagai contoh, toko swalayan merekam setiap penjualan barang dengan memakai alat POS(point of sales). Database data penjualan tsb. bisa mencapai beberapa GB setiap harinya untuk sebuah jaringan toko swalayan berskala nasional. Perkembangan internet juga punya andil cukup besar dalam akumulasi data. Tetapi pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering disebut sebagai rich of data but poor of information karena data yang terkumpul itu tidak dapat digunakan untuk aplikasi yang berguna. Tidak jarang kumpulan data itu dibiarkan begitu saja seakan-akan kuburan data (data tombs). Investasi yang besar di bidang IT untuk mengumpulkan data berskala besar ini perlu dijustifikasi dengan didapatnya nilai tambah dari kumpulan data ini.Kebutuhan dari dunia bisnis yang ingin memperoleh nilai tambah dari data yang telah mereka kumpulkan telah mendorong penerapan teknik-teknik analisa data dari berbagai bidang seperti statistik, kecerdasan buatan dsb pada data berskala besar itu. Ternyata penerapan pada data berskala besar memberikan tantangan-tantangan baru yang akhirnya memunculkan metodologi baru yang disebut data mining ini. Bermula dari penerapan di dunia bisnis, sekarang ini data mining juga diterapkan pada bidang-bidang lain yang memerlukan analisa data berskala besar seperti bioinformasi dan pertahanan negara.Dalam tulisan ini, penulis mencoba memperkenalkan data mining dengan membandingkannya dengan bidang ilmu yang sudah ada, dan juga memberikan beberapa ilustrasi tentang teknik-teknik yang umum dipakai di data mining,DefinisiAda beberapa definisi dari data mining yang dikenal di buku-buku teks data mining. Diantaranya adalah :

Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.

Data mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya

Menarik untuk diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Dari definisi-definisi itu, dapat dilihat ada beberapa faktor yang mendefinisikan data mining :

1. data mining adalah proses otomatis terhadap data yang dikumpulkan di masa lalu2. objek dari data mining adalah data yang berjumlah besar atau kompleks3. tujuan dari data mining adalah menemukan hubungan-hubungan atau pola-pola

yang mungkin memberikan indikasi yang bermanfaatSejarah Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dulu. Gambar 1 menunjukkan bahwa data mining memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistic, database dan juga information retrieval.Beberapa teknik yang sering disebut-sebut dalam literatur data mining seperti classification, neural network, genetic algorithm dll. sudah lama dikenal di dunia kecerdasan buatan. Statistik memberikan kontribusi pada data mining dengan teknik-teknik untuk menyeleksi

Page 18: Teknik & Metode Data Mining

data dan evaluasi hasil data mining selain teknik-teknik data mining seperti clustering. Yang membedakan persepsi terhadap data mining adalah perkembangan teknik-teknik data mining untuk aplikasi pada database skala besar. Sebelum populernya data mining, teknik-teknik tersebut pada umunya diterapkan untuk data skala kecil saja. Selain itu beberapa teknik dari bidang database untuk transformasi data juga merupakan bagian integral dari proses data mining.Akhir-akhir ini ada beberapa bidang ilmu seperti information retrieval yang juga terlibat dalam proses data mining untuk mengekstrak sumber data bagi data mining dari sumber-sumber seperti teks dan website. Walaupun data mining memiliki sumber dari beberapa bidang ilmu, data mining berbeda dalam beberapa aspek dibandingkan dengan bidang ilmu seperti berikut :

statistik : model statistik dipersiapkan oleh para ahli statistik, sedangkan data mining mengembangkan statistik untuk menangani data berjumlah besar secara otomatis -

expert system (sistem cerdas) : model pada expert system dibuat berupa aturan-aturan berdasar pada pengalaman-pengalaman para ahli

data warehouse (DWH) : sering terjadi kerancuan antara data mining dan data warehouse karena keduanya sering dipakai bersamaan. Pada umumnya data warehouse lebih merujuk pada tempat untuk menyimpan data yang terkonsolidasi sedangkan data mining bisa dianggap sebagai perkakas untuk menganalisa otomatis nilai dari data itu

OLAP : seperti data warehouse, OLAP juga sering dibahas bersama data mining. Tetapi OLAP memiliki tujuan untuk memastikan hipotesa yang sudah diformulasikan terlebih dulu oleh penggunanya.

Kemampuan kita dalam memperoleh dan mengolah data telah meningkat secara drastis belakangan ini. Banyak faktor yang mempengaruhi peningkatan data ini, diantaranya komputerisasi dalam bisnis, pemerintahan dan juga ilmiah. Semakin tingginya kapasitas media penyimpanan dengan harga yang relatif terjangkau serta meluasnya penggunaan kamera digital, alat-alat publik, penggunaan bar code dalam proses transaksi produk menjadikan data tumbuh secara ekplosif dalam berbagai bidang. Selain itu, perkembangan jaringan internet sebagai sarana informasi global menjadikan penumpukan data ini semakin tak terkendali.Pertumbuhan data yang ekplosif itu disimpan dalam database-database sementara yang bersifat operasional. Dengan berjalannya waktu, databse tersebut menjadi gudang data atau lebih dikenal dengan data warehouse. Di dalam data warehouse ini tersimpan banyak sekali data yang telah direkap setiap harinya. Melalui data-data ini lah terdapat informasi yang harus digali untuk menunjang proses bisnis yang ada dalam menjalankan visi misi perusahaan.Dibutuhkan suatu teknik untuk menggali informasi yang terdapat pada data warehouse tersebut. Lahirlah data mining, yaitu suatu teknik untuk meng-ekstrasi suatu pola dari data. Data mining diterapkan dengan paradigma untuk melihat informasi yang tersembunyi. Proses pencarian ini dilakukan secara otomatis terhadap pola dalam data dengan jumlah besar dengan menggunakan teknik-teknik seperti klasifikasi, clustering, dll. Data mining adalah suatu multidisiplin ilmu yang kompleks dan beririsan dengan ilmu lain seperti statistika, database, information retrieval, machine learning, pattern recognition, algoritma dan ilmu lainnya.Menurut para ahli, data mining merupakan sebuah analisa dari observasi data dalam jumlah besar untuk menemukan hubungan yang tidak diketahui sebelumnya dan metode baru untuk meringkas data agar mudah dipahami serta kegunaannya untuk pemilik data (David Hand, 2001). Data mining dikenal juga dengan istilah Knowledge Discovery from Data (KDD)Data

Page 19: Teknik & Metode Data Mining

mining merupakan suatu tahapan dalam penemuan pengetahuan dan menjadi core proses dari suatu jumlah data yang besar, tahapan-tahapan tersebut yaitu :

Gambar 1. Data mining sebagai tahapan dalam penemuan pengetahuan (Jiawei Han, 2006)1. Data cleaning, untuk membersihkan data dari noise data dan data yang tidak konsiten2. Data integration, megkombinasikan/mengintegrasikan beberapa sumber data3. Data selection, mengambil data-data yang relevan dari database untuk dianalisis4. Data transformation, mentransformasikan data summary ataupun operasi agregasi5. Data mining, merupakan proses yang esensial dimana metode digunakan untuk mengekstrak

pola data yang tersembunyi6. Pattern evaluation, untuk mengidentifikasi pola sehingga mereperesentasikan pengetahuan

berdasarkan nilai-nilai yang menarik7. Knowledge presentation, dimana teknik representasi dan visualisai data digunakan untuk

mempresentasikan pengetahuan yang diadapat kepada userApa itu Data Mining ?Secara singkat Data Mining adalah sebuah proses penggalian pola dari data, dalam penjabaran yang lebih luas Data mining adalah sebuah proses dari pencarian korelasi yang baru, pola dan trend yang memberikan informasi, dengan cara menyaring data dalam kuantitas yang besar, menggunakan teknologi pola pengenalan yang serupa dengan teknik statistik dan teknik matematika.Data mining semakin menjadi hal yang sangat penting dalam mengubah data menjadi informasi. Tidak seperti statistik yang menggunakan sampel populasi sebagai datanya, data mining membutuhkan data yang besar, semakin besar, proses menambangan akan semakin efektif menemukan pola-pola tertentu.Dimana Data Mining digunakan?Data mining digunakan di banyak tempat, dan bidang penerapannya juga dapat bermacam macam, misalnya:

militer menggunakan data mining untuk mempelajari apa saja yang menjadi fator utama dalam ketepatan sasaran pengeboman

Agen intelejen dapat mengaplikasikan data mining dalam menangkap dan memilah informasi-informasi yang sesuai dengan apa yang ingin dipelajari

Spesialis keamanan jaringan dapat memanfaatkan data mining untuk melihat paket data mana yang berpotensi memicu ancaman

Analis kartu kredit dapat menggunakan data mining dalam memilah calon nasabah kartu kredit yang berpotensi melakukan kredit macet.

Pelaku retail dapat menggunakan data mining untuk melihat karakteristik dan perilaku pembelinya, sehingga dapat selalu menjual produk yang diinginkan oleh customer.

Walaupun metode dan tools yang digunakan untuk data mining dapat diaplikasikan pada banyak hal, saya akan lebih memberikan pendekatan dari sudut pandang bisnis. Beberapa pertanyaan umum berkaitan dengan bisnis dapat di jawab dengan menggunakan Data Mining, termasuk diantaranya adalah:

1. Dari sekian banyak daftar calon customer, kira-kira mana yang akan benar-benar menjadi customer baru? Kita dapat menggunakan teknik klasifikasi (misal: Logistic Regression, Classification Trees, atau metode lainnya) untuk mengenali individu yang mempunya kemiripan faktor dengan customer terbaik yang kita miliki. faktor ini dapat berupa faktor demografi, faktor usia, faktor kelas pendapatan, atau faktor lainnya.

2. Customer mana yang kira kira berpotensi untuk melakukan kejahatan penipuan ?, kita dapat menggunakan metode klasisfikasi untuk mengenali aplikasi kartu kredit

Page 20: Teknik & Metode Data Mining

yang berpotensi tinggi dalam keterlibatan kejahatan penipuan, serta memberikan perhatian lebih kepada mereka-mereka yang masuk dalam klasifikasi tersebut.

3. Mengenali calon nasabah mana yang mungkin akan menunggak pembayaran personal loan ?, kita dapat menggunakan teknik klasifikasi dalam mengidentifikasi mereka (atau dengan metode logistic regression dalam menentukan nilai yang akan menjadi patokan dalam mengidentifikasi calon penunggak)

4. Mengenali pelanggan mana yang kira-kira berpotensi akan mengabaikan tagihan berlangganan (telepon, majalah, dan lainnya) ?. sekali lagi, kita dapat menggunakan teknik klasifikasi untuk mengidentifikasikan mereka (logistic regression dapat digunakan untuk menetapkan nilai "probability of leaving")

Asal Mula Data MiningData Mining sangat dipengaruhi oleh pertemuan statistik dan machine learning (atau yang juga dikenal dengan artificial intelligence / kecerdasan buatan).Beragam teknik yang digunakan untuk mengeksplorasi data dan membangun model, sebenarnya telah ada sejak lama di dalam statistika seperti linear regression, logistic regression, discriminant analysis, dan principal component analysis.{akan saya tambahkan kemudian}Kenapa ada banyak metode yang berbeda-beda?Ada banyak metode pada data mining, anda mungkin bertanya kenapa ada banyak metode klasifikasi dan prediksi, dan metode mana yang terbaik?Masing-masing metode memiliki kelebihan dan kekurangan, metode yang cocok bergantung kepada beberapa faktor, seperti ukuran dari dataset, tipe dari pola yang sudah ada dalam data, apakah data cocok dengan asumsi dari metode yang ditetapkan, seberapa banyak noise dalam data, dan apa tujuan khusus dari analisa. Gunakan metode yang tepat, tidak perlu menghantam nyamuk dengan menggunakan meriam :).Terminologi dan notasi pada data miningKarena data mining berasal dari pertemuan antara statistik dan machine learning, para praktisi sering menggunakan beberapa istilah untuk mengacu kepada hal yang sama. sebagai contoh, machine learning menggunakan istilah target variable atau output variable untuk variabel yang sedang di prediksi, tapi para pengguna statistik menyebutnya dengan dependent variable atau the response.Berikut ini adalah rangkuman dari istilah yang biasa di gunakan:

Algorithm - Mengacu kepada prosedur spesifik yang digunakan untuk menerapkan sebuah teknik khusus dari data mining, seperti: clasification tree, discriminant analysis, dll.

Atribute - Lihat ke Predictor Case - lihat ke Observation Confidence - Confidence mempunyai arti khusus didalam Association Rule, misalnya

di dalam pernyataan "Apabila A dan B dibeli, maka C juga dibeli" maka, Confidence adalah kondisi kemungkinan C juga di beli apabila A dan B dibeli. Confidence juga memiliki arti yang lebih luas didalam statistik (Confidence Interval), mengenai derajat dari kesalahan didalam sebuah estimasi yang dihasilkan dari pemilihan sebuah sample sebagai lawan dari sample lainnya.

Dependent Variable - lihat Response Estiation - Lihat Prediction Feature - Lihat Predictor Holdout Sample - Adalah sebuah sample dari data yang tidak digunakan didalam

fitting sebuah model, digunakan untuk menilai performa dari model tersebut.

Page 21: Teknik & Metode Data Mining

Input Variable - Lihat Predictor Model - Mengacu kepada sebuah algoritma yang diterakan kepada sebuah dataset,

lengkap dengan settingnya (beberapa algoritma mempunyai parameter yang dapat disesuaikan oleh user)

Observation - Adalah sebuah unit dari analisis dimana sebuah pengukuran di ambil (misal; transaksi dari customer) juga dikenal sebagai case, record, pattern atau row (setiap row seringkali merepresentasikan sebuah record setiap kolom adalah satu variabel).

Outcome Variable - Lihat Response Output Variable - Lihat Response Pattern - Adalah sebuah seperangkat pengukuran pada sebuah observasi atau

pengamatan.(misal: tinggi, berat, dan umur dari seseorang) Prediction - Berarti ramalan dalam sebuah nilai yang didapat dari output variabel

yang terus menerus (Juga dikenal sebagai estimation). Predictor - Biasanya di notasikan dengan X juga disebut dengan Feature, Input

Variable, Independent Variable, atau dari perspektif database, predictor disebut dengan field.

Record - Lihat observation Response - Biasanya dinotasikan dengan Y, adalah variabel yang sedang diramalkan

pada supervised learning; juga dikenal dengan dependent variable, output variable, target variable, atau outcome variable.

Score - mengacu kepada value atau class yang di prediksi. Scoring new data berarti menggunakan sebuah model yang dibangun dengan training data untuk memprediksi output value di data yang baru.

Success Class - Adalah sebuah class of interest pada sebuah hasil binary (misal: purchaser didalam outcome purchase / no purchase)

Supervised learning - Mengacu kepada proses dalam penyediaan algoritma (logistic regression, regression tree, dll) dengan record didalam sebuah output variable of interest yang diketahui dan algoritma belajar bagaimana memprediksi nilai dengan record baru dimana outputnya tidak diketahui.

Test Data (atau Test Set) - Mengacu kepada porsi dari data yang digunakan hanya pada akhir dari pembangunan model dan proses seleksi untuk menaksir seberapa bagus final model pada penambahan data.T

Training Data (atau Training Set) - Mengacu kepada porsi dari data yang digunakan untuk mencocokan sebuah model.

Unsupervised Learning - Mengacu kepada analisa tentang analisis mana yang melakukan percobaan untuk mempelajari sesuatu dari data daripada mencari nilai outputnya.

Validation data (atau validation set) - Mengacu kepada porsi dari data yang digunakan untuk menilai seberapa baik model itu cocok, untuk menyesuaikan beberapa model, dan untuk memilih model terbaik dari model-model yang pernah dicoba.

Variable - Segala pengukuran pada record, termasuk variable input (X) dan variable Output (Y).

Mungkin membosankan membaca teori dasarnya ya? :) i know it, tapi ini adalah pondasi dari apa yang akan saya terus tuliskan, tujuan akhirnya adalah membangun sebuah Business Intelligence dengan menggunakan Microsoft Excel (+ beberapa plug in) dan

Page 22: Teknik & Metode Data Mining

Microsoft Access (kalau ada waktu lebih, saya akan tambahkan sentuhan sharepoint disini),kenapa menggunakan dua tools ini? padahal kan di SQL Server 2005 ke atas sudah ada fitur Business Intelligence ? mudah lagi menggunakannya.Jawabannya, yang pertama ada pada harganya, tidak semua orang atau perusahaan mampu membeli lisensi Microsoft SQL 2005 ke atas, dan tidak semua orang bisa dengan cepat menggunakannya, harga microsoft office relatif lebih murah dibanding microsoft SQL Server (memang saya akui ada kesenjangan luar biasa dalam fiturnya), tapi kembali lagi bahwa kita akan fokus kepada fitur business intelligence, dan untuk Usaha Kecil Menengah (UKM),Keluarga Microsoft Office adalah senjata yang tepat. harga terjangkau dan mudah dalam menggunakannya. The Most Cost Effective Solution.Alasan kedua adalah Working Environment yang familiar, ketika saya tanyakan, siapa yang tidak bisa menggunakan microsoft excel ? saya rasa setiap orang yang menggunakan microsoft office dalam perjalanan hidupnya pasti bisa menggunakan microsoft excel. ini yang akan kita gali lebih dalam lagi.Microsoft Office sejatinya adalah tools yang luar biasa, tapi tidak banyak orang mau untuk mengeksplorasinya. kebanyakan pengguna hanya menggunakan microsoft word sebagai pengganti mesin ketik, menggunakan microsoft excel hanya sebagai pengganti kalkulator, Microsoft Outlook hanya sebagai alat untuk mengirim dan menerima e-mail, dll.saya berharap bisa terus berbagi ilmu dan pengalaman saya dalam Industri Retail dengan menggunakan produk Microsoft Office secara optimal.Data Mining merupakan disiplin ilmu yang kini sedang hot dimana-mana. Dipakai di industri perbankan sampai mikrobiologi. Data mining merupakan gabungan dari statistika, machine learning, database dan visualisasi.Ada tiga pilar data mining: data, teknik data mining dan modelling. Jadi harus ada data sebagai bahan untuk diolah. Dan yang penting kemampuan pemodelan. Bagaimana model yang kita pilih untuk menyelesaikan problem yang kita hadapi. Aapakah klstering, klasifikasi atau prediksi. Setelah itu harus ada teknik data mining yang kita kuasai untuk menyelesaikan model yang kita punyai.Tugas utama data mining adalah: Klastering, klasifikasi, prediksi, analisis pola berurutan dan asosiasi. Masing-masing tugas mempunyai tool yang berbeda. Klastering memerlukan kmeans, hirarchical clustering atau fuzzy c means. Klasifikasi memerlukan analisis diskriminan, decision tree, neural networks atau suppur vector machines.Sedangkan prediksi memerlukan regresi, support vector regresi, neural networks. Sebelum kita bisa menerapkan teknik mana yang akan diterapkan, kita harus memahami dulu kasus apa yang kita hadapi. Setelah itu perlu dilakukan data preprocessing sebelum bisa digunakan sebagai input untuk teknik data mining yang dipilih.Dengan meningkatnya transaksi yang disimpan dengan sistem basis data sekarang ini, maka dibutuhkan proses untuk menangani data tersebut. Proses untuk menangani data tersebut dikenal dengan Knowledge Discovery in Databases (KDD). Data Mining adalah kegiatan untuk menemukan informasi atau pengetahuan yang berguna secara otomatis dari data yang jumlahnya besar. Data Mining merupakan salah satu proses dari keseluruhan proses yang ada pada Knowledge Discovery in Databases (KDD). KDD sendiri merupakan sekumpulan proses untuk menemukan pengetahuan yang bermanfaat dari data. KDD terdiri dari serangkaian langkah perubahan, termasuk data preprocessing dan juga post processing. Datapreprocessing merupakan langkah untuk mengubah data mentah menjadi format yang sesuai untuk tahap analisis berikutnya.Selain itu data preprocessing juga digunakan untuk membantu dalam pengenalan atribut dan data segmen yang relevan dengan task data mining. Data preprocessing kemungkinan akan membutuhkan waktu yang sangat lama, hal ini dikarenakan data yang mentah kemungkinan

Page 23: Teknik & Metode Data Mining

disimpan dengan format dan database yang berbeda. Post processing meliputi semua operasi yang harus dilakukan agar hasil dari Data Mining dapat diakses dan lebih mudah untuk diinterpretasikan oleh para analis. Teknik visualisasi juga dapat digunakan untuk mempermudah para analis untuk menggali dan memahami kegunaan dari data mining.Kumpulan proses dalam KDD meliputi : pembersihan data (data cleaning), integrasi data (data integration), pemilihan data (data selection), transformasi data (data transformation), penambangan data (data mining), evaluasi pola (pattern evaluation), dan presentasi pengetahuan (knowledge presentation). Berdasarkan definisi ini terlihat bahwa data mininghanya merupakan salah satu proses dari keseluruhan proses yang ada pada KDD, tetapi merupakan proses yang sangat penting dalam usaha menemukan pola-pola yang berguna dari sejumlah data yang besar (data tersebut bisa disimpan dalam basisdata, data warehouse, atau media penyimpanan informasi lainnya).Data Mining TaskPada umumnya, data mining task dibagi menjadi dua kategori yang penting, yaitu:1. Predictive tasksTujuan dari task ini adalah untuk memprediksi nilai sebuah atribut yang penting berdasarkan nilai dari atribut yang lainnya. Atribut yang diprediksi biasanya dikenal sebagai target ataudependent variable, sedangkan atribut yang digunakan untuk melakukan prediksi dikenal dengan explanatory atau independent variable.2. Descriptive taskTujuan dari task ini adalah untuk menghasilkan pola (correlations, trends, clusters, trajecttories dan anomalies) yang merangkum keterhubungan dalam data.Dari gambar diatas , data yang ada dapat digunakan sebagai inti dari data mining task. Data mining task tersebut antara lain:1) Predictive ModellingPredictive Modelling digunakan untuk membangun sebuah model untuk target variable sebagai fungsi dari explanatory variable. Explanatory variable dalam hal ini merupakan semua atribut yang digunakan untuk melakukan prediksi, sedangkan target variable merupakan atribut yang akan diprediksi nilainya. Predictive modeling task dibagi menjadi dua tipe yaitu : Classification digunakan untuk memprediksi nilai dari target variable yang discrete(diskret) dan regression digunakan untuk memprediksi nilai dari target variable yang continu(berkelanjutan).2) Association AnalysisAssociation analysis digunakan untuk menemukan aturan association yang memperlihatkan kondisi-kondisi nilai atribut yang sering muncul secara bersamaan dalam sebuah himpunan data.3) Cluster AnalysisTidak seperti klasifikasi yang menganalisa kelas data obyek yang mengandung label. Clustering menganalisa objek data tanpa memeriksa kelas label yang diketahui. Label-label kelas dilibatkan di dalam data training. Karena belum diketahui sebelumnya. Clustering merupakan proses pengelompokkan sekumpulan objek yang sangat mirip.4) Anomaly DetectionAnomaly Detection merupakan metode pendeteksian suatu data dimana tujuannya adalah menemukan objek yang berbeda dari sebagian besar objek lain. Anomaly dapat di deteksi dengan menggunakan uji statistik yang menerapkan model distribusi atau probabilitas untuk data.PendahuluanManusia telah “secara manual” mengekstrak pola dari data selama berabad-abad, tetapi meningkatnya volume data yang di zaman modern telah menyerukan pendekatan yang lebih otomatis. Metode awal untuk mengidentifikasi pola-pola dalam data termasuk Bayes

Page 24: Teknik & Metode Data Mining

‘teorema (1700) dan Analisis Regresi (1800). Proliferasi, di mana-mana dan meningkatkan kekuatan teknologi komputer telah meningkat pengumpulan data dan penyimpanan. Seperti kumpulan data telah tumbuh dalam ukuran dan kompleksitas, tangan langsung-analisis data telah semakin telah ditambah dengan tidak langsung, pemrosesan data otomatis. Ini telah dibantu oleh penemuan-penemuan lain dalam ilmu komputer, seperti jaringan saraf, Clustering, Genetic algorithms (1950), Keputusan pohon (1960) dan Dukungan mesin vektor (1980). Diperlukan sebuah metode sebagai penerapan pengumpulan data yang dapat menampung, menganalisis secara akurat data yang bagitu besar, metode tersebut hingga saat ini dikenal sebagai Data Mining.Data MiningData Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan databerupa pengetahuan yang selama ini tidak diketahui secara manual. Patut diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu DM sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database. Data mining adalah proses menerapkan metode ini untuk data dengan maksud untuk mengungkap pola-pola tersembunyi. Dengan arti lain Data mining adalah proses untuk penggalian pola-pola dari data. Data mining menjadi alat yang semakin penting untuk mengubah data tersebut menjadi informasi. Hal ini sering digunakan dalam berbagai praktek profil, seperti pemasaran, pengawasan, penipuan deteksi dan penemuan ilmiah. Telah digunakan selama bertahun-tahun oleh bisnis, ilmuwan dan pemerintah untuk menyaring volume data seperti catatan perjalanan penumpang penerbangan, data sensus dan supermarket scanner data untuk menghasilkan laporan riset pasar.Alasan utama untuk menggunakan data mining adalah untuk membantu dalam analisis koleksi pengamatan perilaku. Data tersebut rentan terhadap collinearity karena diketahui keterkaitan. Fakta yang tak terelakkan data mining adalah bahwa subset/set data yang dianalisis mungkin tidak mewakili seluruh domain, dan karenanya tidak boleh berisi contoh-contoh hubungan kritis tertentu dan perilaku yang ada di bagian lain dari domain . Untuk mengatasi masalah semacam ini, analisis dapat ditambah menggunakan berbasis percobaan dan pendekatan lain, seperti Choice Modelling untuk data yang dihasilkan manusia.Dalam situasi ini, yang melekat dapat berupa korelasi dikontrol untuk, atau dihapus sama sekali, selama konstruksi desain eksperimental. Beberapa teknik yang sering disebut-sebut dalam literatur Data Mining dalam penerapannya antara lain: clustering, classification, association rule mining, neural network, genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap Data Mining adalah perkembangan teknik-teknik Data Mining untuk aplikasi 1 pada database skala besar. Sebelum populernya Data Mining, teknik-teknik tersebut hanya dapat dipakaiuntuk data skala kecil saja.Proses Data MiningTahap-Tahap Data Mining. Karena Data Mining adalah suatu rangkaian proses, Data Mining dapat dibagi menjadi beberapa tahap:1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise)2. Integrasi data (penggabungan data dari beberapa sumber)3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)4. Aplikasi teknik Data Mining5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)6. Presentasi pengetahuan (dengan teknik visualisasi)Tahap-tahap tsb. bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan knowledge base.Teknik Data Mining

Page 25: Teknik & Metode Data Mining

Berikut beberapa jenis teknik Data Mining yang paling populer dikenal dan digunakan:1. Association Rule MiningAssociation rule mining adalah teknik mining untuk menemukan aturan assosiatif antara suatu kombinasi item. Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support yaitu persentase kombinasi item tsb. dalam database dan confidence yaitu kuatnya hubungan antar item dalam aturan assosiatif. Algoritma yang paling populer dikenal sebagai Apriori dengan paradigma generate and test, yaitu pembuatan kandidat kombinasi item yang mungkin berdasar aturan tertentu lalu diuji apakah kombinasi item tsb memenuhi syarat support minimum. Kombinasi item yang memenuhi syarat tsb. disebut frequent itemset, yang nantinya dipakai untuk membuat aturan-aturan yang memenuhi syarat confidence minimum. Algoritma baru yang lebih efisien bernama FP-Tree.2. Classification Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan “jika-maka”, berupa decision tree, formula matematis atau neural network. Decision tree adalah salah satu metode classification yang paling populer karena mudah untukdiinterpretasi oleh manusia. Disini setiap percabangan menyatakan kondisi yang harus dipenuhi dan tiap ujung pohon menyatakan kelas data. Algoritma decision tree yang paling terkenal adalah C4.5, tetapi akhir- akhir ini telah dikembangkan algoritma yang mampu menangani data skala besar yang tidak dapat ditampung di main memory seperti RainForest. Metode-metode classification yang lain adalah Bayesian, neural network, genetic algorithm, fuzzy, case-based reasoning, dan k-nearest neighbor. Proses classification biasanya dibagi menjadi dua fase : learning dan test. Pada fase learning, sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model perkiraan. Kemudian pada fase test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi dari model tsb. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data yang belum diketahui.3. ClusteringBerbeda dengan association rule mining dan classification dimana kelas data telah ditentukan sebelumnya, clustering melakukan penge-lompokan data tanpa berdasarkan kelas data tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang belum diketahui itu. Karena itu clustering sering digolongkan sebagai metode unsupervised learning. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster. Clustering dapat dilakukan pada data yan memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi. Banyak algoritma clustering memerlukan fungsi jarak untuk mengukur kemiripan antar data, diperlukan juga metode untuk normalisasi bermacam atribut yang dimiliki data. Beberapa kategori algoritma clustering yang banyak dikenal adalah metode partisi dimana pemakai harus menentukan jumlah k partisi yang diinginkan lalu setiap data dites untuk dimasukkan pada salah satu partisi, metode lain yang telah lama dikenal adalah metode hierarki yang terbagi dua lagi : bottom-up yang menggabungkan cluster kecil menjadi cluster lebih besar dan top-down yang memecah cluster besar menjadi cluster yang lebih kecil.Kelemahan 3 metode ini adalah bila bila salah satu penggabungan/pemecahan dilakukan pada tempat yang salah, tidak dapat didapatkan cluster yang optimal. Pendekatan yang banyak diambil adalah menggabungkan metode hierarki dengan metode clustering lainnya seperti yang dilakukan oleh Chameleon. Akhir-akhir ini dikembangkan juga metode berdasar kepadatan data, yaitu jumlah data yang ada di sekitar suatu data yang sudah teridentifikasi dalam suatu cluster. Bila jumlah data dalam jangkauan tertentu lebih besar dari nilai ambang

Page 26: Teknik & Metode Data Mining

batas, data-data tsb dimasukkan dalam cluster. Kelebihan metode ini adalah bentuk cluster yang lebih fleksibel. Algoritma yang terkenal adalah DBSCAN.Implementasi (Penerapan)Dalam bidang apasaja data mining dapat diterapkan? Berikut beberapa contoh bidang penerapan data mining:- Analisa pasar dan manajemen.Solusi yang dapat diselesaikan dengan data mining, diantaranya: Menembak target pasar, Melihat pola beli pemakai dari waktu ke waktu, Cross-Market analysis, Profil Customer, Identifikasi kebutuhan Customer, Menilai loyalitas Customer, Informasi Summary.- Analisa Perusahaan dan Manajemen resiko.Solusi yang dapat diselesaikan dengan data mining, diantaranya: Perencanaan keuangan dan Evaluasi aset, Perencanaan sumber daya (Resource Planning), Persaingan (Competition).- Telekomunikasi.Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat dari jutaan transaksi yang masuk, transaksi mana sajakah yang masih harus ditangani secara manual.- Keuangan.Financial Crimes Enforcement Network di Amerika Serikat baru-baru ini menggunakan data mining untuk me-nambang trilyunan dari berbagai subyek seperti property, rekening bank dan transaksi keuangan lainnya untuk mendeteksi transaksi-transaksi keuangan yang mencurigakan (seperti money laundry) .- Asuransi.Australian Health Insurance Commision menggunakan data mining untuk mengidentifikasi layanan kesehatan yang sebenarnya tidak perlu tetapi tetap dilakukan oleh peserta asuransi .- Olahraga.IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan NBA (jumlah shots blocked, assists dan fouls) dalam rangka mencapai keunggulan bersaing (competitive advantage) untuk tim New York Knicks dan Miami Heat.- Astronomi.Jet Propulsion Laboratory (JPL) di Pasadena, California dan Palomar Observatory berhasil menemukan 22 quasar dengan bantuan data mining. Hal ini merupakan salah satu kesuksesan penerapan data mining di bidang astronomi dan ilmu ruang angkasa.- Internet Web surf-aidIBM Surf-Aid menggunakan algoritma data mining untuk mendata akses halaman Web khususnya yang berkaitan dengan pemasaran guna melihat prilaku dan minat customer serta melihat ke- efektif-an pemasaran melalui Web.Contoh kasus penerapan: Implementasi data mining dengan teknik Clustering untuk melakukan Competitive Intelligence perusahaan.Pembangunan perangkat lunak data mining dengan metode clustering menggunakan algoritma hirarki divisive untuk pengelompokan customer dalam studi kasus ini, fungsi – fungsi yang dipakai adalah fungsi untuk menentukan titik-titik pusat yang berguna sebagai pusat-pusat kelompok customer.

Page 27: Teknik & Metode Data Mining

Teknik-teknik/Jenis-jenis Data Mining

Teknik-teknik/Jenis-jenis DataMining

1. Market Basket AnalysisHimpunan data yang dijadikan sebagai objek penelitan pada area data mining. Market basket analysis adalah proses untuk menganalisis kebiasaan pelanggan dalam menyimpan item-item yang akan dibeli ke dalam keranjang belanjaannya. Market basket analysis memanfaatkan data transaksi penjualan untuk dianalisis sehingga dapat ditemukan pola berupa item-item yang cenderung muncul bersama dalam sebuah transaksi. Selanjutnya pola yang ditemukan dapat dimanfaatkan untuk merancang strategi penjualan atau pemasaran yang efektif, yaitu dengan menempatkan item-item yang sering dibeli bersamaan ke dalam sebuah area yang berdekatan, merancang tampilan item-item di katalog, merancang kupon diskon (untuk diberikan kepada pelanggan yang membeli item tertentu), merancang penjualan item-item dalam bentuk paket, dan sebagainya. Dengan menggunakan teknologi data mining, analisis data secara manual tidak diperlukan lagi.

2. Memory-Based ReasoningMetode klasifikasi yang digabungkan dengan penalaran berbasis memori. proses menggunakan satu set data untuk membuat model dari prediksi atau asumsi-asumsi yang dapat dibuat tentang objek baru yang diperkenalkan. Ada dua komponen dasar untuk metode MBR. Yang pertama adalah kesamaan fungsi, yang mengukur bagaimana anggota yang sama dari setiap pasangan object satu sama lain. Yang kedua adalah fungsi kombinasi, yang digunakan untuk menggabungkan hasil dari himpunan tetangga untuk sampai pada keputusan.

3. Cluster DetectionAda dua pendekatan untuk clustering. Pendekatan pertama adalah dengan mengasumsikan bahwa sejumlah cluster sudah tersimpan dalam data, tujuannya adalah untuk memecah data ke dalam cluster. Pendekatan lain, disebut clustering agglomerative, dengan asumsi keberadaan setiap jumlah yang telah ditetapkan cluster tertentu, setiap item keluar di cluster sendiri, dan proses terjadi berulang-ulang yang berupaya untuk menggabungkan cluster, meskipun proses komputasi sama.

4. Link Analysisproses mencari dan membangun hubungan antara object dalam kumpulan data juga mencirikan sifat yang terkait dengan hubungan antara dua object. Link Analysis berguna untuk aplikasi analitis yang mengandalkan teori grafik untuk mengambil kesimpulan. Selain itu Link Analysis berguna untuk proses optimasi.

5. Rule InductionEkstraksi aturan sebab-akibat dari data secara statistic. identifikasi aturan bisnis yang tersimpan di dalam data. Metode berhubungan dengan induksi aturan yang digunakan untuk proses penemuan. Salah satu pendekatan

Page 28: Teknik & Metode Data Mining

untuk penemuan aturan adalah menggunakan pohon keputusan.

6. Neural Networksmodel prediksi non linear yang melakukan pembelajaran melalui latihan dan menyerupai struktur jaringan nerual yang terdapat pada mahluk hidup. Mampu menurunkan pengertian dari data yang kompleks dan tidak jelas dan dapat digunakan pula untuk mengekstrak pola dan mendeteksi tren2 yang sangat kompleks untuk dibicarakan baik oleh manusia maupun teknik komputer lainnya.

Artikel sebelumnya telah membahas perkenalan data warehouse. Baca di sini.

Selanjutnya dalam artikel kali ini akan di bahas metode apa saja yang ada dalam

data mining. Terdapat beberapa metode dalam data mining, antara lain metode

untuk clustering, classification, dan association.

Clustering atau pengelompokan merupakan teknik untuk mengelompokkan data ke

dalam suatu kelompok tertentu. Metode clustering dalam data mining antara lain

DBScan, Simple K-mean, Hierarchical CLustering. Dua terakhir pada metode

clustering dalam data mining ini juga dipelajari pada mata kuliah Statistika

Multivariat Terapan. Sebagai contoh untuk clustering: Terdapat 5 negara: Indonesia,

Singapura, India, Inggris, Jerman. Maka 5 negara tersebut dapat dijadikan dua

klaster berdasarkan letak geografisnya: Eropa (Inggris, Jerman) dan Asia (Indonesia,

Singapura, India). Namun juga dapat dijadikan dua klaster yang berbeda

berdasarkan tingkat sector industri dan jasa: Negara maju (Singapura, Inggris,

Jerman) dan Negara berkembang (Indonesia, India).

Classification merupakan teknik pengklasifikasian data. Bedanya data dengan

clustering pada clustering variabel dependen tidak ada sedangkan pada

classification diharuskan ada variabel dependen. Contohnya pembagian criteria

calon debitur yakni debitur baik dan buruk. Metode classification dalam data mining

banyak sekali, misalnya ID3, C4.5, K Nearest Neighbors.

Associaton merupakan teknik dalam data mining yang mempelajari hubungan data.

Associatin Rule  ini biasa digunakan pada supermarket untuk menganalisis perilaku

Page 29: Teknik & Metode Data Mining

pelanggan dalam berbelanja. Sebagai contoh jika pelanggan membeli barang A, B, C

maka pelanggan akan membeli barang X. Atau dalam notasi biasa ditulis: A, B, C ->

X .

Biasanya dalam software data mining juga ada beberapa metode baik clustering

atau klasifikasi yang berasal dari cabang soft computing, misalnya neural network.

Metode yang berasal dari soft computing yang biasanya juga disinggung dalam data

mining antara lain perceptron , backpropagation (multilayer perceptron), self

organizing map (SOM).

Contoh Kasus Data MiningApakah kalian sudah pernah menonton film jepang yang berjudul Death Note 2: Last Name? Kalau sudah, mungkin bisa mengingat-ingat salah satu scene di mana Light menjelaskan tentang bagaimana cara mengetahui identitas 3rd Kira berdasarkan pembunuhan-pembunuhan yang dilakukan oleh Kira. Saya ga akan bercerita lebih jauh tentang film ini, namun saya ingin mengacu kepada scene tersebut. Di scene tersebut, ditunjukkan bagaimana Light dapat mengetahui identitas 3rd kira berdasarkan modus operandinya. Cara mendapatkan modus operandinya dilakukan dengan melakukan analisis terhadap kumpulan data pembunuhan. Data pembunuhan (yang mungkin juga dilakukan oleh orang lain) dikelompokkan berdasarkan waktu dan metode pembunuhan. Persoalannya adalah polisi tidak tahu bahwa pembunuhan itu dilakukan oleh siapa, apakah sudah pasti itu dilakukan oleh Kira atau mungkin juga dilakukan oleh orang lain yang membunuh dengan meniru metode pembunuhan Kira. Persoalan pengelompokan data ini dalam bidang informatik adalah salah satu contoh aplikasi Data Clustering di bidang riset/kajian Data Mining.

Data Mining menurut saya adalah teknik untuk mengekstrak pengetahuan ataupun pola yang menarik dari kumpulan besar data (biasanya tersimpan di dalam database) menjadi sebuah informasi bernilai dan bermanfaat. Pengetahuan ini bersifattersirat karena pengetahuan itu tersembunyi di dalam data dalam bentuk suatu pola. Kalau kita pengen tahu data penjualan tahun 2007, dan ternyata itu udah ada di database, yaa berarti (sesuai namanya) data penjualan tahun 2007 bukanlah pengetahuan. Selain itu pengetahuan juga non-trivial karena ya tentu saja, buat apa kita mendapatkan pengetahuan yang telah kita ketahui (trivial/common knowledge). Contoh common knowledge adalah semua yang melahirkan adalah wanita. Semua orang pasti mengetahuinya! Tapi kalau kita bisa mendapatkan informasi bahwa, misalnya, wanita yang melahirkan pada usia di atas 35 tahun mempunyai kecenderungan untuk meminta mobil pada saat ngidam, sekali lagi ini cuma misalnya loh, nah ini baru sebuah informasi baru yang menarik.

Apa sebenarnya pentingnya data mining bagi perusahaan? Ok, mari kita bayangkan kasus di bidang penggunaan kartu kredit. Apakah anda punya kartu kredit? saya mempunyai contoh kasus yang berkaitan dengan kartu kredit. Suatu hari ayah ditelpon oleh bank yang menginformasikan dan mengkonfirmasi penggunaan kartu kredit yang tidak biasa, yaitu kartu kredit ayah digunakan di Malaysia untuk membeli sejumlah besar barang dengan pengeluaran yang sangat besar. Cerita cukup di sana saja, persoalannya sekarang adalah dari mana bank tahu bahwa sebuah transaksi itu

Page 30: Teknik & Metode Data Mining

tergolong sebuah transaksi yang aneh. Hal ini dapat dideteksi secara otomatis dengan data mining.Data mining dapat mencari dengan pengetahuannya bahwa transaksi kartu kredit ayah tergolong aneh. Contoh kasus lain adalah program penawaran jasa/barang kepada customer. Kalau penyedia layanan tahu bahwa sekelompok pelanggan biasa menelpon pada jam 17.00-18.00 (misalnya karena macet, maka iseng ngegosip dengan teman-temannya), maka perusahaan dapat menarik pelanggan dari kelompok ini dengan menawarkan tarif yang bersaing dan menarik pada jam-jam tersebut. So, data mining dapat membantu meningkatkan kemampuan layanan sebuah perusahaan, baik di bidang keamanan ataupun juga kualitas layanan.

Data Mining merupakan disiplin ilmu yang kini sedang hot dimana-mana. Dipakai di industri perbankan sampai mikrobiologi. Data mining merupakan gabungan dari statistika, machine learning, database dan visualisasi. Ada tiga pilar data mining: data, teknik data mining dan modelling. Jadi harus ada data sebagai bahan untuk diolah. Dan yang penting kemampuan pemodelan. Bagaimana model yang kita pilih untuk menyelesaikan problem yang kita hadapi. Apakah klstering, klasifikasi atau prediksi. Setelah itu harus ada teknik data mining yang kita kuasai untuk menyelesaikan model yang kita punyai.

Tugas utama data mining adalah: Klastering, klasifikasi, prediksi, analisis pola berurutan dan asosiasi. Masing-masing tugas mempunyai tool yang berbeda. Klastering memerlukan kmeans, hirarchical clustering atau fuzzy c means. Klasifikasi memerlukan analisis diskriminan, decision tree, neural networks atau suppur vector machines. Sedangkan prediksi memerlukan regresi, support vector regresi, neural networks. Sebelum kita bisa menerapkan teknik mana yang akan diterapkan, kita harus memahami dulu kasus apa yang kita hadapi. Setelah itu perlu dilakukan data preprocessing sebelum bisa digunakan sebagai input untuk teknik data mining yang dipilih.

Dengan meningkatnya transaksi yang disimpan dengan sistem basis data sekarang ini, maka dibutuhkan proses untuk menangani data tersebut. Proses untuk menangani data tersebut dikenal dengan Knowledge Discovery  in  Databases (KDD).Data Mining adalah kegiatan untuk menemukan informasi atau pengetahuan yang berguna secara otomatis dari data yang jumlahnya besar. Data Mining merupakan salah satu proses dari keseluruhan proses yang ada pada Knowledge Discovery in Databases (KDD). KDD sendiri merupakan sekumpulan proses untuk menemukan pengetahuan yang bermanfaat dari data. KDD terdiri dari serangkaian langkah perubahan, termasuk data preprocessing dan juga post   processing. Data preprocessingmerupakan langkah untuk mengubah data mentah menjadi format yang sesuai untuk tahap analisis berikutnya.

Page 31: Teknik & Metode Data Mining

Kumpulan proses dalam KDD meliputi : pembersihan data (data   cleaning), integrasi data (data integration), pemilihan data (data selection), transformasi data (data transformation), penambangan data (data  mining), evaluasi pola (pattern  evaluation), dan presentasi pengetahuan (knowledge presentation). Berdasarkan definisi ini terlihat bahwa data  mininghanya merupakan salah satu proses dari keseluruhan proses yang ada pada KDD, tetapi merupakan proses yang sangat penting dalam usaha menemukan pola-pola yang berguna dari sejumlah data yang besar (data tersebut bisa disimpan dalam basisdata, data warehouse, atau media penyimpanan informasi lainnya).

Implementasi (Penerapan)

Dalam bidang apasaja data mining dapat diterapkan? Berikut beberapa contoh bidang penerapan data mining:

- Analisa pasar dan manajemen.

Solusi yang dapat diselesaikan dengan data mining, diantaranya: Menembak target pasar, Melihat pola beli pemakai dari waktu ke waktu, Cross-Market analysis, Profil Customer, Identifikasi kebutuhan Customer, Menilai loyalitas Customer, Informasi Summary.

- Analisa Perusahaan dan Manajemen resiko.

Solusi yang dapat diselesaikan dengan data mining, diantaranya: Perencanaan keuangan dan Evaluasi aset, Perencanaan sumber daya (Resource Planning), Persaingan (Competition).

- Telekomunikasi.

Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat dari jutaan transaksi yang masuk, transaksi mana sajakah yang masih harus ditangani secara manual.

Page 32: Teknik & Metode Data Mining

- Keuangan.

Financial Crimes Enforcement Network di Amerika Serikat baru-baru ini menggunakan data mining untuk me-nambang trilyunan dari berbagai subyek seperti property, rekening bank dan transaksi keuangan lainnya untuk mendeteksi transaksi-transaksi keuangan yang mencurigakan (seperti money laundry) .

- Asuransi.

Australian Health Insurance Commision menggunakan data mining untuk mengidentifikasi layanan kesehatan yang sebenarnya tidak perlu tetapi tetap dilakukan oleh peserta asuransi .

- Olahraga.

IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan NBA (jumlah shots blocked, assists dan fouls) dalam rangka mencapai keunggulan bersaing (competitive advantage) untuk tim New York Knicks dan Miami Heat.

- Astronomi.

Jet Propulsion Laboratory (JPL) di Pasadena, California dan Palomar Observatory berhasil menemukan 22 quasar dengan bantuan data mining. Hal ini merupakan salah satu kesuksesan penerapan data mining di bidang astronomi dan ilmu ruang angkasa.

- Internet Web surf-aid

IBM Surf-Aid menggunakan algoritma data mining untuk mendata akses halaman Web khususnya yang berkaitan dengan pemasaran guna melihat prilaku dan minat customer serta melihat ke- efektif-an pemasaran melalui Web.

Page 33: Teknik & Metode Data Mining

Contoh kasus penerapan: Implementasi data mining dengan teknik Clustering untuk melakukan Competitive Intelligence perusahaan.

Pembangunan perangkat lunak data mining dengan metode clustering menggunakan algoritma hirarki divisive untuk pengelompokan customer dalam studi kasus ini, fungsi – fungsi yang dipakai adalah fungsi untuk menentukan titik-titik pusat yang berguna sebagai pusat-pusat kelompok customer. 

Knowledge Discovery and Data MiningDatabase sekarang dapat memiliki besar sampai hitungan terrabyte. Dalam

data yang besar ini tersembunyi informasi yang bersifat strategik. Tapi dengan

banyaknya data, timbul masalah untuk menggali informasi yang berguna dari data.

Banyak perusahaan telah mengumpulkan data berkuantitas besar. Teknik data

mining dapat diimplementasikan ke platform software dan hardware yang sudah ada

untuk meningkatkan nilai dari sumberdaya informasi yang sudah ada. Implementasi

data mining pada client/server berperforma tingi atau komputasi paralel dapat

menganalisis database yang besae untuk menjawab pertanyaan seperti,”Klien mana

yang paling mungkin merespon surat promosi kami selanjutnya, dan kenapa?”

 

PengertianKnowledge Discovery and Data Mining(KDD) adalah proses yang dibantu

oleh komputer untuk menggali dan menganalisis sejumlah besar himpunan data dan

mengekstrak informasi dan pengetahuan yang berguna. Data mining

tools memperkirakan perilaku dan tren masa depan, memungkinkan bisnis untuk

membuat keputusan yang proaktif dan berdasarkan pengetahuan.Data mining

tools mampu menjawab permasalahan bisnis yang secara tradisional terlalu lama

untuk diselesaikan. Data mining tools menjelajah database untuk mencari pola

tersembunyi, menemukan infomasi yang prediktif yang mungkin dilewatkan para

pakar karena berada di luar ekspektasi mereka.

 

Proses Data MiningProses dalam KDD adalah proses yang digambarkan pada dan terdiri dari

rangkaian proses iteratif sebagai berikut:

1. Data cleaning, menghilangkan noise dan data yang inkonsisten.

2. Data integration, menggabungkan data dari berbagai sumber data yang

berbeda

3. Data selection, mengambil data yang relevan dengan tugas analisis dari

database

Page 34: Teknik & Metode Data Mining

4. Data transformation, Mentransformasi atau menggabungkan data ke dalam

bentuk yang sesuai untuk penggalian lewat

operasi summary atau aggregation.

5. Data mining, proses esensial untuk mengekstrak pola dari data dengan

metode cerdas.

6. Pattern evaluation, mengidentifikasikan pola yang menarik dan

merepresentasikan pengetahuan berdasarkan interestingness measures.

7. Knowledge presentation, penyajian pengetahuan yang digali kepada

pengguna dengan menggunakan visualisasi dan teknik representasi

pengetahuan.

 

MetodeBanyak teknik dan metode yang ada untuk melakukan berbagai jenis tugas

data mining. Metode ini dikelompokkan dalam 3 paradigma utama data

mining: Predictive Modeling,Discovery, dan Deviation Detection. Predictive Modeling

Aplikasi Predictive Modeling menghasilkan klasifikasi atau prediksi. Tujuan

dari predictive modeling adalah menemukan pola yang melibatkan variabel untuk

memprediksi dan mengklasifikasi perilaku masa depan dari sebuah entitas. Ada dua

tipe masalah yang diselesaikan oleh predictive modeling: klasifikasi dan regresi.

Klasifikasi melibatkan model pembelajaran yang memetakan (atau

mengklasifikasi) data contoh ke dalam satu atau beberapa kelas yang telah

didefinisikan. Sebagai contoh, bank dapat menggunakan skema klasifikasi untuk

menentukan pengajuan pinjaman yang akan disetujui. Teknik klasifikasi

meliputi Naive Bayesian, neural networks, dan decision trees.

Regresi melibatkan model yang memetakan data contoh ke prediksi real-

valued. Teknik regresi meliputi neural networks dan decision (atau regression) trees.

Page 35: Teknik & Metode Data Mining

 DiscoveryAplikasi discovery adalah pendekatan eksploratoris untuk analisis data.

Aplikasi discoverymenggunakan teknik yang menganalisis data set yang besar untuk

menemukan association rules(atau pola), atau menemukan kluster dari sampel yang

dapat dikelompokan. Hasil dari metode discovery umumnya dimaksudkan untuk

pengguna. Walau begitu, hasilnya juga dapat diaplikasikan ke metode data mining

yang lain Deviation DetectionDeviation Detection melakukan deteksi anomali secara otomatis. Tujuannya untuk mengidentifikasi

kebiasaan suatu entitas dan menetapkan sejumlah norm melalui pattern discovery. Sampel yang

berdeviasi dari norm lalu diidentifikasi sebagai tidak biasa. teknik Deviation Detection melalui

visualisasi melalui parallel coordinates, scatterplots, dan surface plots.

 AplikasiAplikasi dari KDD dalam bisnis antara lain:

 Market segmentation – Mengidentifikasi karakteristik umum dari

pelanggan yang membeli produk yang sama dari perusahaan

 Customer churn – Memprediksi pelanggan yang mungkin meninggalkan

perusahaan untuk beralih ke kompetitor

 Fraud detection – Mengidentifikasi transaksi yang mungkin merupakan

transaksi curang.

 Direct marketing – Memprediksi prospek yang harus dimasukkan

dalam mailing-listuntuk mendapatkan respon maksimum

 Interactive marketing – Memprediksi hal-hal yang menarik bagi setiap

individu yang mengakses website.

Page 36: Teknik & Metode Data Mining

 Market basket analysis – Memahami produk atau layanan yang

biasanya dibeli bersamaan.

 Trend analysis – Mengungkap perbedaan antara tipikal pelanggan bulan

ini dan bulan lalu dan prediksi tipikal pelanggan bulan depan.

Referensi :

Introduction to Data Mining and Knowledge Discovery Third Edition

Penulis : Herbert A. Edelstein

Publisher : Two Crows Corporation (October 8, 1999)

Penulis : Kurt Thearling

Judul : An Introduction to Data Mining, Discovering hidden value in your

data warehouse

http://www.thearling.com/text/dmwhite/dmwhite.htm

Publisher : Wikipedia Foundation

Judul : Data Mining

http://en.wikipedia.org/wiki/Data_mining

Publisher : ALG (Automated Learning Group), NCSA (National Center for

Supercomputing Applications)

Judul : Data Mining

http://alg.ncsa.uiuc.edu/tools/docs/d2k/manual/dataMining.html

Penulis : Jiawei Han, Micheline Kamber

Judul : Data Mining: Concept and Techniques

Publisher : Academic Press Sand Diego, CA, 2001

Buku TA-ku yang belum jadi.