BukuReferensi - univbsi.idunivbsi.id/pdf/2014/602/602-P01.pdfuntuk melakukan information discovery...

Post on 15-Aug-2019

256 views 3 download

Transcript of BukuReferensi - univbsi.idunivbsi.id/pdf/2014/602/602-P01.pdfuntuk melakukan information discovery...

Buku Referensi:

1. Hermawati, Fajar Astuti. 2013.Data Mining. Yogyakarta: AndiOffset

2. Larose, Daniel T.2005. Discovering Knowledge in Data, An Introduction To Data Mining. New Jersey : John Wiley & Sons, Inc. Publication.

3. Han, Jiawei dan Michelin Kamber. 2006. Data Mining Concept and Techniques. San Fransisco: Elseiver Inc.

4. Kusrini dan Luthfi, Emha Taufiq.2009. Algoritma Data Mining. Yogyakarta : Andi Offset

PERTEMUAN I

PENGERTIAN DATA MINING

Definisi

Data Mining berisi pencarian trend atau pola yang diinginkan

dalam database yang besar untuk membantu pengambilan

keputusan diwaktu yang akan datang. Harapannya, perangkat

data mining mampu mengenali pola-pola ini dalam data dengan

masukan yang minimal. Pola-pola ini dikenali oleh perangkat

tertentu yang dapat memberikan suatu analisa data yang

berguna dan berwawasan yang kemudian dapat dipelajari

dengan lebih teliti, yang mungkin saja menggunakan perangkat

pendukung keputusan yang lain.

Definisi Lanjutan

Menurut Gartner Group Data Mining adalah suatu proses

menemukan hubungan yang berarti, pola dan kecenderungan

dengan memeriksa dalam sekumpulan besar data yang

tersimpan dalam penyimpanan dengan menggunakan teknik

pengenalan pola seperti teknik statistik dan matematika (Larose,

2005)

Definisi Lanjutan

Data Mining adalah analisis otomatis dari data yang berjumlah

besar atau kompleks dengan tujuan untuk menemukan pola atau

kecenderungan yang penting yang biasanya tidak disadari

keberadaannya.

Definisi Lanjutan

Data Mining merupakan bidang dari beberapa bidang keilmuan

yang menyatukan teknik dari pembelajaran mesin, pengenalan

pola, statistik, database, dan visualisasi untuk penanganan

permasalahan pengambilan informasi dari database yang besar.

Definisi Lanjutan

Proses yang mempekerjakan satu atau lebih teknik pembelajaran

computer (machine learning) untuk menganalisis dan

mengekstraksi pengetahuan (knowledge) secara otomatis

Definisi Lanjutan

Pembelajaran berbasis induksi (induction-based learning) adalah

pembentukan definisi-definisi konsep umum yang dilakukan

dengan cara mengobservasi contoh-contoh spesifik dari konsep-

konsep yang akan dipelajari

Definisi Lanjutan

Merupakan proses iteratif dan interaktif untuk menemukan pola atau

model baru yang sahih (sempurna), bermanfaat dan dapat dimengerti

dalam suatu database yang sangat besar (massive database).

Sahih : dapat digeneralisasi untuk masa yang akan dating

Baru : apa yang sedang tidak diketahui

Bermanfaat : dapat digunakan untuk melakukan suatu tindakan

Iteratif : memerlukan sejumlah proses yang diulang

Interaktif : memerlukan interaksi manusia dalam prosesnya

Definisi Lanjutan

Dalam dunia nyata, data mining lebih dari sekedar menerapkan satu dari algoritma-algortima tersebut secara sederhana. Seringkali data terlalu ramai dan tidak lengkap. Jika hal ini dibenarkan, besar kemungkinan banyak pola yang diinginkan akan hilang dan kemampuan deteksi pola pun akan turun. Lebih lanjut, analis harus memutuskan jenis dari algoritma mining yang digunakan, menerapkannya kedalam himpunan bagian data-data sample dan variable (seperti tuple atau atribut), mencerna hasilnya, menerapkan perangkat decision support dan mining

dan mengiterasi proses tersebut.

Contoh data mining

Mencari nama-nama khusus yang lazim dilokasi tertentu,

misalnya di Amerika (O’Brien, O’Rurke, O’Reilly, dll di daerah

Boston) dan mengelompokkan dokumen-dokumen yang sama

yang diperoleh dari search engine menurut konteksnya (missal,

Amazon rainforest, Amazon.com)

Contoh yang bukan data mining

1. Mencari nomor telepon dalam direktori telepon

2. Query suatu web search engine untuk informasi mengenai

amazon.

Faktor yang mendorong perkembangan dalam

bidang data mining:

1. Pertumbuhan yang cepat dalam koleksi data, sebagai contoh adalah banyaknya koleksi barang di supermarket

2. Penyimpanan data dalam data warehouse, sehingga seluruh perusahaan memiliki akses kedalam database yang handal

3. Adanya peningkatan akses data melalui navigasi web dan intranet

4. Tekanan kompetisi bisnis untuk meningkatkan penguasaan pasar dalam globalisasi ekonomi

5. Perkembangan teknologi perangkat lunak untuk data mining

6. Perkembangan yang hebat dalam kemampuan komputasi dan pengembangan kapasistas media penyimpanan

Data mining dapat menyelesaikan masalah:

1. Description

2. Estimation

3. Prediction

4. Classification

5. Clustering

6. Association

Data Mining vs Data Warehouse

• Teknologi data warehouse digunakan untuk melakukan OLAP

(Online Analytic Processing) sedangkan data mining digunakan

untuk melakukan information discovery yang informasinya lebih

ditujukan untuk seorang data analyst dan business analyst.

• Dalam prakteknya data mining juga mengambil data dari data

warehouse

• Aplikasi dari data mining lebih khusus dan lebih spesifik dibanding

OLAP mengingat database bukan satu-satunya ilmu yang

mempengaruhi data mining.

Bidang ilmu yang berhubungan dengan data mining

• Ilmu informasi (information science)

• High performance computing

• Visualisasi

• Machine learning

• Statistik

• Jaringan syaraf tiruan (neural network)

• Pemodelan matematika

• Information retrieval

• Information extraction

• Pengenalan pola

• Pengolahan citra

Tantangan dalam data mining

1. Scalability besarnya ukuran basis data yang digunakan

2. Dimensionality banyaknya jumlah atribut dalam data yang akan diproses

3. Complex and heterogeneous data data yang kompleks dan mempunyai variasi yang beragam

4. Data quality kualitas data yang akan diproses seperti data yang bersih dari noise, missing value, dsb

5. Data ownership and distribution siapa yang memiliki data dan bagaimana distribusinya

6. Privacy Preservation menjaga kerahasiaan data yang banyak diterapkan pada data nasabah perbankan

7. Streaming data aliran data itu sendiri

Latihan Soal

1. Tujuan utama dari data mining adalah

A. Pencarian data

B. Pencarian pola

C. Pencarian database

D. Pencarian relationship

E. Pengeditan data

2. Masalah yang dapat diselesaikan dengan metode data mining adalah sebagai berikut,kecuali

A. Estimasi

B. Prediksi

C. Klasifikasi

D. Relationship

E. Asosiasi

Latihan Soal Lanjutan

2. Masalah yang dapat diselesaikan dengan metode data mining adalah sebagai berikut,kecuali

A. Estimasi

B. Prediksi

C. Klasifikasi

D. Relationship

E. Asosiasi

3. Salah satu bidang ilmu yang berhubungan dengan data mining adalah sistem pemrosesinformasi dengan karakteristik dan performa yang mendekati syaraf biologis, yang disebutdengan

A. Information science

B. Machine learning

C. Neural network

D. Information retrieval

E. High performance computing

Latihan Soal Lanjutan3. Salah satu bidang ilmu yang berhubungan dengan data mining adalah sistem pemroses

informasi dengan karakteristik dan performa yang mendekati syaraf biologis, yang disebutdengan

A. Information science

B. Machine learning

C. Neural network

D. Information retrieval

E. High performance computing

4. Banyaknya jumlah atribut dalam data yang akan diproses pada data mining, disebut

A. Scalability

B. Dimensionality

C. Data quality

D. Streaming data

E. Privacy preservation

Latihan Soal Lanjutan4. Banyaknya jumlah atribut dalam data yang akan diproses pada data mining, disebut

A. Scalability

B. Dimensionality

C. Data quality

D. Streaming data

E. Privacy preservation

5. Data mining digunakan untuk melakukan information discovery yang ditujukan untuk:

A. data analyst

B. programmer

C. network enginer

D. database administrator

E. operator komputer

Latihan Soal Lanjutan5. Data mining digunakan untuk melakukan information discovery yang ditujukan

untuk:

A. data analyst

B. programmer

C. network enginer

D. database administrator

E. operator komputer

1. Tujuan utama dari data mining adalah

A. Pencarian data

B. Pencarian pola

C. Pencarian database

D. Pencarian relationship

E. Pengeditan data