Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...

7
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu rangkaian proses, DM dapat dibagi menjadi beberapa tahap yang diilustrasikan di Gambar 1[4]: 1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise) 2. Integrasi data (penggabungan data dari beberapa sumber) 3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining) 4. Aplikasi teknik DM 5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai) 6. Presentasi pengetahuan (dengan teknik visualisasi) Gambar 1 : Tahap-Tahap Data Mining Tahap-tahap tsb. bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan knowledge base. Selection – Pemilihan atau penyeleksian data dari sekumpulan data operasional yang dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Dalam tahapan ini, kita memilih data-data seperti apa saja yang kita butuhkan untuk diproses lebih lanjut. 2. Preprocessing – Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian- isian yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan dengan hipotesa data mining yang kita miliki. Data-data yang tidak relevan itu juga lebih baik dibuang karena keberadaannya bisa mengurangi mutu atau akurasi dari hasil data mining nantinya. “Garbage in garbage out” (hanya sampah yang akan dihasilkan bila yang dimasukkan juga sampah) merupakan istilah yang sering dipakai untuk menggambarkan tahap ini. Pembersihan data juga akan mempengaruhi performasi dari sistem data 1 | Page

description

 

Transcript of Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...

Page 1: Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...

Jawaban No. 2

Tahap-Tahap Data Mining Karena DM adalah suatu rangkaian proses, DM dapat dibagi menjadi beberapa tahap yang diilustrasikan di Gambar 1[4]: 1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise) 2. Integrasi data (penggabungan data dari beberapa sumber) 3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining) 4. Aplikasi teknik DM 5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai) 6. Presentasi pengetahuan (dengan teknik visualisasi)

Gambar 1 : Tahap-Tahap Data Mining Tahap-tahap tsb. bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan knowledge base.

Selection – Pemilihan atau penyeleksian data dari sekumpulan data operasional yang dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Dalam tahapan ini, kita memilih data-data seperti apa saja yang kita butuhkan untuk diproses lebih lanjut.

2. Preprocessing – Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan dengan hipotesa data mining yang kita miliki. Data-data yang tidak relevan itu juga lebih baik dibuang karena keberadaannya bisa mengurangi mutu atau akurasi dari hasil data mining nantinya. “Garbage in garbage out” (hanya sampah yang akan dihasilkan bila yang dimasukkan juga sampah) merupakan istilah yang sering dipakai untuk menggambarkan tahap ini. Pembersihan data juga akan mempengaruhi performasi dari sistem data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.

3. Transformation – Beberapa teknik data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa teknik standar seperti analisis asosiasi dan klastering hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering disebut binning. Disini juga dilakukan pemilihan data yang diperlukan oleh teknik data mining yang dipakai. Transformasi dan pemilihan data ini juga menentukan kualitas dari hasil data mining nantinya karena ada beberapa karakteristik dari teknik-teknik data mining tertentu yang tergantung pada tahapan ini.

4. Data mining – Data mining merupakan proses untuk mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.

1 | P a g e

Page 2: Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...

5. Interpretation and evaluation – Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti. Tahap ini merupakan bagian dari proses KDD yang mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.

Jawaban No. 6

Ada beberapa teknik dalam Agglomerative methods yaitu: a) Single linkage (nearest neighbor methods)

Metode ini menggunakan prinsip jarak minimum yang diawali dengan mencari dua obyek terdekat dan keduanya membentuk cluster yang pertama. Pada langkah selanjutnya terdapat dua kemungkinan, yaitu :

2 | P a g e

Page 3: Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...

• obyek ketiga akan bergabung dengan cluster yang telah terbentuk, atau

• dua obyek lainnya akan membentu cluster baru.

Proses ini akan berlanjut sampai akhirnya terbentuk cluster tunggal. Pada metode ini jarak antar cluster didefinisikan sebagai jarak terdekat antar anggotanya.

Langkah penyelesaiannya : 1. Mencari obyek dengan jarak minimum

A dan B mempunyai jarak terdekat, yaitu 1.0 maka obyek A dan A bergabung menjadi satu cluster. 2. Menghitung jarak antara cluster AB dengan obyek lainnya.

D(AB)C = min {dAC, dBC}= dBC = 3.0 D(AB)D = min {dAD, dBD}= dAD = 6.0 D(AB)E = min {dAE, dBE}= dBE = 7.0 Dengan demikian terbentu matriks jarak yang baru

Mencari obyek dengan jarak terdekat D dan E mempunyai jarak yang terdekat yaitu 2.0 maka obyek D dan E bergabung menjadi satu cluster. 4. menghitung jarak antara cluster dengan obyek lainnya.

D(AB)C = 3.0 D(AB)(DE) = min {dAD, dAE, dBD, dBE} = dAD = 6.0D(DE)C = min {dCD, dCE} = dCD = 4.0 5. Mencari jarak terdekat antara cluster dengan obyek dan diperoleh obyek C bergabung dengan cluster AB

6. Pada langkah yang terakhir, cluster ABC bergabung dengan DE sehingga terbentuk cluster tunggal.

3 | P a g e

Page 4: Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...

Jawaban No. 4

Proses untuk mengelompokkan secara fisik atau abstrak obyek-obyek ke dalambentuk kelas-kelas atau obyek-obyek yang serupa,disebut dengan clustering atauunsupervised classification. Melakukan analisa dengan clustering, akan sangatmembantu untuk membentuk partisi-parti si yang berguna terhadap sejumlah besarhimpunan obyek dengan didasarkan pada prinsip "divide and conquer" yangmendekomposisikan suatu sistem skala besar, menjadi komponen-komponen yang lebihkecil, untuk menyederhanakan proses desain dan implementasi

Jawaban no. 3

DATA WAREHOUSE adalah suatu koleksi data yang bisa digunakan untuk menunjang pengambilan keputusan manajemen, yang berorientasi subjek (topik), terpadu, time variant, dan tidak mudah berubah (W.H.Inmon)

Data Warehouse membantu para pekerja teknologi (manager,executive,analyst) untuk pengambilan keputusan yang lebih cepat dan mudah

Data warehouse memungkinkan user untuk memeriksa history data dan melakukan analisis terhadap data sehingga dapat mengambil keputusan berdasarkan analisa yang dibuat

DATA MINING adalah usaha penemuan pengetahuan di intelejensia buatan (bidang machine learning) atau analisis statistik dengan mencari atau menemukan aturan-aturan, pola-pola dan struktur dari himpunan data yang besar.

Data mining mengotomatisasi proses pencarian informasi pemprediksi di dalam basis data yang besar. Pertanyaan-pertanyaan yang berkaitan dengan prediksi ini dapat cepat dijawab langsung dari data yang tersedia.

Contoh dari masalah prediksi ini misalnya target pemasaran,peramalan kebangkrutan dan bentuk bentuk kerugian lainnya.

Beda data mining dengan data warehouse dan OLAP (On-line Analytical Processing)? Adalah teknologi yang ada di data warehouse dan OLAP dimanfaatkan penuh untuk melakukan data mining. bahwa teknologi data warehouse digunakan untuk melakukan OLAP, sedangkan data mining digunakan untuk melakukan information discovery yang informasinya lebih ditujukan untuk seorang Data Analyst dan Business Analyst (dengan ditambah visualisasi tentunya). Dalam prakteknya, data mining juga mengambil data dari data warehouse. Hanya saja aplikasi dari data mining lebih khusus dan lebih spesifik dibandingkan OLAP mengingat database bukan satu-satunya bidang ilmu yang mempengaruhi data mining, banyak lagi bidang ilmu yang turut memperkaya data mining seperti: information science (ilmu informasi), high performance computing, visualisasi, machine learning, statistik, neural networks (jaringan syaraf tiruan), pemodelan matematika, information retrieval dan information extraction serta pengenalan pola. Bahkan pengolahan citra (image processing) juga digunakan dalam rangka melakukan data mining terhadap data image/spatial.

4 | P a g e

Page 5: Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...

JAWABAN NO. 1

Model Data Mining • Prediction Methods

– Menggunakan beberapa variabel untuk memprediksi sesuatu atau suatu nilai yang akan datang.

• Description Methods– Mendapatkan pola penafsiran (human-interpretable patterns) untuk menjelaskan

data.

Data Mining

Salah satu model klasifikasi yang mudah di interpretasikan Contoh : identifikasi pembeli komputer ( dari decision tree di bawah ini ternyata salah satu

kelompok yang potensial adalah orang yang berusia < 30 dan pelajar

5 | P a g e

Prediktif Deskriptif

Klasifikasi

Decision tree

Analisis Time series

Regresi

Prediksi

Jaringan syaraf tiruan

Klastering

Summarization

Aturan Asosiasi (Assosiation Rule)

Sequence Discovery

Page 6: Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...

Regression Digunakan untuk memetakan data dengan prediksi atribut bernilai real Contoh:

– Memprediksi jumlah penjualan produk baru pada advertising expenditure.– Memprediksi kecepatan memutar (wind velocities) pada fungsi temperatur, tekanan

udara , dll

6 | P a g e

Decision tree (Pohon keputusan)

age

studen Credit ratingyes

yesnoyesno

<=30

31-40

>40

yesno excelent

fair

Page 7: Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...

7 | P a g e