Pengantar Data Mining FIX.docx

90
PENGANT AR DATA MINING PROGRAM PASCA SARJANA PROGRAM STUDI MAGISTER TEKNIK ELEKTRO UNIVERSITAS UDAYANA NI KADEK ARIASIH,S.KOM 1) PUTU BENNY ADNYANA,S.KOM 2), SATRIA PRATAMA,ST 3), I GUSTI AYU AGUNG DIATRI INDRADEWI,S.KOM 4)

Transcript of Pengantar Data Mining FIX.docx

Page 1: Pengantar Data Mining FIX.docx

PENGANTAR DATA MINING

PROGRAM PASCA SARJANA PROGRAM STUDI MAGISTER

TEKNIK ELEKTRO UNIVERSITAS UDAYANA

NI KADEK ARIASIH,S.KOM 1)

PUTU BENNY ADNYANA,S.KOM 2),

SATRIA PRATAMA,ST 3),

I GUSTI AYU AGUNG DIATRI INDRADEWI,S.KOM 4)

Page 2: Pengantar Data Mining FIX.docx

ii

KATA PENGANTAR

Puji syukur penulis panjatkan kehadapan Ida Sang Hyang Widhi Wasa atas

segala berkat dan rahmat-Nya sehingga paper mata kuliah Data Mining yang

berjudul “Pengantar Data Mining” ini dapat diselesaikan tepat pada waktunya.

Paper ini merupakan sebuah pengantar awal sebelum memahami lebih

mendalam mengenai Data Mining. Penulis berharap paper ini dapat memberikan

gambaran secara umum yang cukup jelas mengenai apa itu Data Mining.

Penulis menyadari sepenuhnya bahwa paper ini masih jauh dari sempurna

mengingat keterbatasan pengetahuan dan kemampuan penulis, oleh karena itu

kritik dan saran dari semua pihak yang bersifat membangun selalu penulis

harapkan demi kesempurnaan paper ini. Akhir kata, penulis berharap semoga

paper ini bermanfaat bagi semua pihak yang berkompeten.

Denpasar, 26 Februari 2011

Penulis

Page 3: Pengantar Data Mining FIX.docx

iii

DAFTAR ISI

Page 4: Pengantar Data Mining FIX.docx

iv

DAFTAR TABEL

Page 5: Pengantar Data Mining FIX.docx

v

DAFTAR GAMBAR

Page 6: Pengantar Data Mining FIX.docx

1

Bab 1

PENGANTAR DATA MINING DAN

PROSES DATA MINING

Bab ini merupakan pengantar awal mengenai data mining yang akan

memberikan gambaran mengenai apa yang dimaksud dengan data mining dan

aktivitas apa saja yang yang terkait dengan data mining.

1.Mengapa Data Mining?

Orang-orang telah mencatat dan mengekstraksi pengetahuan dari sekumpulan

data sejak awal peradaban. Gambar-gambar yang terdapat pada dinding-dinding di

gua Arles, tulisan-tulisan kuno pada lempengan tanah liat yang

mendokumentasikan bongkar muat kapal pada zaman Babilonia kuno, dan batu

Rosetta merupakan beberapa contoh yang menggambarkan karakteristik manusia

dalam memahami dunia melalui catatan-catatan simbolis atau numeris. Gambar-

gambar pada dinding gua merupakan catatan yang menceritakan pengalaman

mereka sehari-hari di zaman itu, seperti kehidupan, kematian, masa perburuan,

masa panen, merayakan hari besar (berpesta), dan masa berkeluarga. Tulisan-

tulisan kuno pada lempengan tanah liat merupakan catatan mengenai rincian

aktivitas perdagangan mereka di zaman itu, seperti mengukur bobot dan

menghitung jumlah batu berharga atau menghitung jumlah dan volume dari

amphorae yang diisi dengan minyak zaitun. Sedangkan batu Rosetta membuka

jalan dalam memecahkan makna dari tulisan hieroglif milik bangsa Mesir [1].

Di manapun dan kapanpun, orang-orang selalu menggambarkan dan mencatat

peristiwa-peristiwa pada kehidupannya dalam berbagai media perekaman. Pelaku

data mining yang pertama kali mencatat peristiwa dalam kehidupannya melalui

gambar-gambar yang dibuat pada dinding gua untuk menggambarkan dan

memprediksi aktivitas manusia di masa itu. Di wilayah Laut Mediterania kuno,

Page 7: Pengantar Data Mining FIX.docx

2

orang-orang telah dapat menggambarkan dan memprediksi pola perdagangan dan

akibat dari cuaca yang berubah-ubah terhadap hasil panen dari pohon zaitun.

Catatan-catatan yang mereka buat di lempengan tanah liat sebenarnya merupakan

cikal bakal dari lahirnya sistem database modern [1].

Kemajuan dalam akuisisi data digital dan teknologi penyimpanan telah

berdampak pada berkembangnya database yang menjadikannya berukuran sangat

besar. Hal ini telah terjadi di segala bidang yang ditekuni oleh manusia, mulai dari

bidang umum (data transaksi supermarket, rekaman penggunaan kartu kredit,

rincian panggilan telepon, dan statistik pemerintahan) hingga bidang yang lebih

khusus (citra benda-benda luar angkasa, database molekular, dan rekam medis).

Kini, ukuran database telah mencapai satuan terabytes yang berarti telah

mencapai lebih dari 1.000.000.000.000 bytes data. Di dalam data berukuran sangat

besar ini terdapat informasi tersembunyi yang sangat berharga. Sehingga tidak

mengherankan jika kini perhatian telah bergeser dari perekaman data ke ekstraksi

informasi berharga yang dapat dimanfaatkan oleh pemilik database. Ketika

terdapat banyak sekali pohon di suatu hutan, bagaimana cara memperoleh

gambaran yang berarti mengenai hutan tersebut? Hal tersebutlah yang dilakukan

oleh data mining. Ketika tersedia data yang jumlahnya sangat besar, data mining

digunakan untuk memperoleh informasi berharga dari kumpulan data tersebut [2].

Dalam beberapa tahun terakhir, data mining telah menarik sejumlah besar

perhatian dalam industri informasi dan masyarakat secara keseluruhan, karena

ketersediaan sejumlah besar data yang beragam dan kebutuhan untuk mengubah

data tersebut menjadi informasi dan pengetahuan yang berguna. Informasi dan

pengetahuan yang dihasilkan dapat digunakan untuk berbagai aplikasi, mulai dari

analisis pasar, deteksi penipuan, retensi pelanggan, mengendalikan produksi, dan

eksplorasi ilmu pengetahuan [3].

Data mining dapat dipandang sebagai hasil evolusi alami dari statistical

computing, market research/cognitive science, artificial inteligence, executive

information/decision support, data warehousing, dan business intelligence/OLAP

[1]. Industri sistem database telah menjadi saksi mata dari jalur evolusioner dalam

pengembangan kemampuan-kemampuan seperti koleksi data dan pembuatan

database, manajemen data (termasuk penyimpanan dan pencarian data, dan

Page 8: Pengantar Data Mining FIX.docx

3

pengolahan transaksi database), dan analisis data lanjutan (meliputi data mining

dan data warehouse) [3].

Gambar 1.1 Asal Usul Data Mining [1]

2. Evolusi Teknologi Sistem Database

Semenjak tahun 1960-an, database dan teknologi informasi telah berkembang

secara sistematis dari sistem pengolahan file primitif ke sistem database yang

canggih dan tangguh. Penelitian dan pengembangan sistem database pada tahun

1970-an telah mengalami kemajuan dari sistem database hierarki dan jaringan ke

pengembangan sistem database relasional (data disimpan dalam struktur tabel

relasional), tools pemodelan data, dan metode pengaksesan dan pengindeksan.

Sebagai tambahan, user memperoleh akses data yang sesuai dan fleksibel melalui

bahasa query, antarmuka pengguna, pemrosesan query teroptimisasi, dan

manajemen transaksi. Metode yang efisien untuk on-line transaction procesing

(OLTP), dimana suatu query dipandang sebagai transaksi read-only, telah

berkontribusi secara substansial kepada suatu evolusi dan penerimaan yang luas

terhadap teknologi relasional sebagai tool utama untuk penyimpanan yang efisien,

pencarian, dan manajemen jumlah data yang besar [3].

Page 9: Pengantar Data Mining FIX.docx

4

Teknologi database sejak pertengahan tahun 1980-an telah dikarakteristikkan

dengan mengadopsi teknologi relasional dan penelitian yang semakin meningkat

serta aktivitas pengembangan pada sistem database yang baru dan tangguh. Hal

ini memberikan kemajuan terhadap pengembangan model data lanjutan seperti

extended-relational, object-oriented, object-relational, dan model deduktif.

Sistem database berorientasi aplikasi, meliputi spasial, temporal, multimedia,

aktif, stream, sensor, database ilmiah dan rekayasa, basis pengetahuan, dan basis

informasi perkantoran telah mengalami perkembangan yang pesat. Permasalahan

yang terkait dengan distribusi, diversifikasi, dan berbagi data telah dipelajari

secara ekstensif. Sistem database yang heterogen dan sistem informasi global

berbasis internet seperti World Wide Web (WWW) juga telah muncul dan

memainkan peran yang vital dalam industri informasi [3].

Gambar 1.2 Evolusi Teknologi Sistem Database [3]

Page 10: Pengantar Data Mining FIX.docx

5

Kini, data dapat disimpan dalam berbagai jenis database dan repositori

informasi yang berbeda. Arsitektur repositori data yang telah muncul adalah data

warehouse, yang merupakan repositori dari sejumlah sumber data heterogen yang

diatur berdasarkan skema kesatuan pada sebuah lokasi untuk memfasilitasi

manajemen pembuat keputusan. Teknologi data warehouse meliputi pembersihan

data, integrasi data, dan on-line analytical processing (OLAP) yang merupakan

teknik analisis dengan fungsionalitas seperti summarization, konsolidasi, dan

agregasi sebaik kemampuan untuk menampilkan informasi dari sudut pandang

yang berbeda. Walaupun tools OLAP mendukung analisis multidimensional dan

pembuatan keputusan, tools analisis data tambahan diperlukan untuk analisis yang

lebih mendalam seperti klasifikasi data, clustering, dan perubahan karakteristik

data seiring dengan waktu. Sebagai tambahan, volume data yang berukuran sangat

besar dapat dihimpun di luar lingkup database dan data warehouse. Contoh yang

khas meliputi, World Wide Web dan data streams, dimana arus data masuk dan

keluar menyerupai aliran, seperti aplikasi pengawasan melalui video,

telekomunikasi, dan jaringan sensor. Analisis data yang efisien dan efektif dalam

bentuk yang berbeda berkembang menjadi tugas yang menantang [3].

Ketersediaan data yang berlimpah, disertai dengan kebutuhan terhadap tools

analisis data yang tangguh telah digambarkan sebagai suatu situasi dimana data

yang dimiliki berlimpah, tetapi miskin informasi (data rich but information poor).

Perkembangan pesat dalam jumlah data, dihimpun dan disimpan pada repositori

berkapasitas besar yang berjumlah banyak, telah jauh melampaui kemampuan

manusia dalam memahami himpunan data yang tersedia tanpa bantuan tools yang

tangguh. Hal ini menyebabkan data-data yang dihimpun dalam repositori

berukuran besar lambat laun hanya akan menjadi pusara data (arsip data yang

jarang disinggahi). Sebagi konsekuensi, keputusan penting seringkali dihasilkan

tanpa menggunakan dasar berlimpahnya informasi yang dimiliki oleh data yang

tersimpan pada repositori data, tetapi cenderung didasarkan pada intuisi pembuat

keputusan hanya dikarenakan mereka tidak memiliki tools yang dapat digunakan

untuk mengekstrak pengetahuan berharga dari data yang berlimpah tersebut.

Namun patut disayangkan, prosedur ini cenderung menghasilkan informasi yang

bias dan mengandung kesalahan, dan tentunya memakan waktu dan biaya yang

Page 11: Pengantar Data Mining FIX.docx

6

tidak sedikit. Data mining tools melakukan analisis data dan dapat menyingkap

pola data penting, yang berkontribusi besar dalam strategi bisnis, basis

pengetahuan, dan penelitian ilmiah serta medis. Adanya jurang pemisah antara

data dan informasi telah memicu pengembangan yang sistematis dari data mining

tools yang akan mengubah pusara data menjadi “bongkahan emas” pengetahuan

[3].

Gambar 1.3 Data Berlimpah, Tetapi Miskin Informasi [3]

3. Definisi Data Mining

Page 12: Pengantar Data Mining FIX.docx

7

Terdapat beragam pendapat mengenai definisi dari data mining. Pada bagian

ini dicantumkan beberapa pendapat mengenai apa sebenarnya yang dimaksud

dengan data mining yang diperoleh dari beberapa sumber berbeda.

Menurut Han and Kamber, secara sederhana, data mining mengacu pada

pernyataan “ekstraksi atau menggali pengetahuan dari sejumlah data yang besar”.

Istilah lain yang juga mengacu pada data mining adalah knowledge mining from

data (penggalian pengetahuan dari data), knowledge extraction (ekstraksi

pengetahuan), data/pattern analysis (analisis data/pola), data archaelogy

(arkeologi data), dan data dredging (pengerukan data). Selain istilah-istilah

tersebut, istilah lain yang juga populer sebagai sinonim dari data mining adalah

knowledge discovery from data (KDD) [3].

Gambar 1.4 Data Mining, Pencarian Pengetahuan (Pola Menarik) Dalam Data [3]

Page 13: Pengantar Data Mining FIX.docx

8

Pandangan lain menyatakan bahwa data mining merupakan langkah utama

dalam proses knowledge discovery. Sebagai bagian dalam suatu proses,

knowledge discovery digambarkan pada gambar berikut ini:

Gambar 1.5 Proses Knowledge Discovery [3]

Page 14: Pengantar Data Mining FIX.docx

9

Proses-proses yang terdapat pada knowledge discovery terdiri dari rangkaian

iteratif, seperti [3]:

a. Data cleaning, untuk menghapus noise dan data yang tidak konsisten.

b. Data integration, mengkombinasikan beberapa sumber data.

c. Data selection, mengambil kembali data-data dari database yang relevan

untuk keperluan analisis.

d. Data transformation, dimana data ditransformasi dan dihimpun ke dalam

bentuk yang sesuai, sebagai contoh dengan menggunakan summary atau

operasi aggregation.

e. Data mining, proses utama dimana metode cerdas digunakan untuk

mengekstrak pola-pola pada data.

f. Pattern evaluation, untuk mengidentifikasi pola yang benar-benar menarik

dan mewakili pengetahuan berdasarkan beberapa ukuran ketertarikan.

g. Knowledge presentation, dimana visualisasi dan pengetahuan mewakili

teknik-teknik yang digunakan untuk menampilkan pengetahuan yang telah

diperoleh kepada user.

Berdasarkan proses-proses tersebut, arsitektur dari sistem data mining dapat

terdiri dari beberapa komponen utama seperti berikut ini [3]:

a. Database, data warehouse, World Wide Web, atau repositori informasi

lainnya: merupakan sebuah atau sekumpulan database, data warehouse,

spreadsheets, atau jenis lainnya dari repositori informasi. Data cleaning dan

teknik data integration dapat digunakan pada data.

b. Database atau data warehouse server: database atau data warehouse

server bertanggung jawab untuk menampilkan data yang relevan,

berdasarkan permintaan dari user.

c. Knowledge base: merupakan domain pengetahuan yang digunakan untuk

memandu pencarian atau mengevaluasi hal yang menarik dari pola yang

dihasilkan. Pengetahuan tersebut dapat terdiri dari concepts hierarchies,

yang digunakan untuk mengorganisasikan atribut-atribut atau nilai atribut ke

dalam tingkat abstraksi yang berbeda.

d. Data mining engine: merupakan hal yang penting dalam sistem data mining

dan secara ideal terdiri dari sekumpulan modul-modul fungsional yang

Page 15: Pengantar Data Mining FIX.docx

10

digunakan untuk characterization, association dan correlation analysis,

classification, prediction, cluster analysis, outlier analysis, dan evolution

analysis.

Gambar 1.5 Arsitektur Sistem Data Mining [3]

e. Pattern evaluation module: komponen ini biasanya digunakan untuk

mengukur ketertarikan dan berinteraksi dengan modul-modul data mining

sehingga fokus mencari alur pola yang menarik.

f. User interface: modul ini berkomunikasi antara user dan sistem data

mining, yang mengizinkan user untuk berinteraksi dengan sistem dengan

cara menentukan data mining query, menyediakan informasi untuk

membatu fokus pencarian, dan melakukan eksplorasi data mining

berdasarkan hasil data mining lanjutan. Komponen ini juga mengizinkan

user untuk melakukan browsing pada database dan skema data warehouse

Page 16: Pengantar Data Mining FIX.docx

11

atau struktur data, mengevaluasi pola penggalian, dan memvisualisasikan

pola-pola pada bentuk yang berbeda-beda.

Menurut McCue, data mining memiliki banyak istilah seperti knowledge

management, knowledge discovery, dan sense making. Data mining merupakan

suatu aktivitas ekstraksi informasi yang bertujuan untuk mengungkapkan fakta-

fakta tersembunyi yang terdapat pada suatu database. Dengan kata lain, data

mining melibatkan analisis sistematis dari himpunan data yang sangat besar

dengan menggunakan metode otomatis. Dengan penggalian data, sangat

dimungkinkan untuk membuktikan maupun menyanggah hipotesis yang ada atau

ide-ide mengenai suatu data atau informasi, ketika menemukan informasi baru

atau informasi yang sebelumnya tidak diketahui. Secara khusus, hubungan yang

unik dan berharga yang terdapat pada data dapat diidentifikasi dan digunakan

secara proaktif untuk mengkategorikan atau mengantisipasi data tambahan.

Melalui penggunaan exploratory graphics yang dikombinasikan dengan advanced

statistics, machine learning tools, dan artificial intelligence, bongkahan informasi

penting dapat digali dari repositori data yang berukuran besar [4].

Menurut Hand, et al, data mining merupakan suatu analisis terhadap

himpunan data penelitian (seringkali himpunan data dalam jumlah besar) untuk

menemukan hubungan yang belum terungkap dan untuk merangkum data dalam

cara baru yang dapat dipahami dan berguna bagi pemilik data. Hubungan dan

rangkuman yang diperoleh dari penggunaan data mining seringkali mengacu pada

model atau pola. Contohnya meliputi, linear equations, rules, clusters, graphs,

tree structures, dan recurrent patterns pada time series [2].

Data mining biasanya berhubungan dengan data yang telah dihimpun untuk

tujuan tertentu selain analisis data mining. Sebagai contoh, data-data yang telah

dihimpun digunakan untuk memelihara rekaman seluruh transaksi di bank agar

selalu up-to-date. Hal ini berarti tujuan dari penggunaan data mining tidak

berkaitan dengan strategi pengumpulan data. Inilah yang membedakan data

mining dengan statistik. Pada statistik, data biasanya dikumpulkan menggunakan

strategi yang efisien untuk menjawab pertanyaan tertentu. Berkaitan dengan ini,

data mining seringkali dianggap sebagai analisis data kedua. Selain itu disebutkan

juga bahwa data yang digunakan pada data mining seringkali berukuran besar.

Page 17: Pengantar Data Mining FIX.docx

12

Pada saat melibatkan data dalam jumlah besar inilah yang akan memunculkan

pemasalahan baru. Beberapa diantaranya adalah mengenai bagaimana cara

menyimpan atau mengakses data, bagaimana menentukan hal-hal yang dapat

mewakili data-data tersebut, bagaimana cara menganalisis data dalam jangka

waktu yang layak, dan bagaimana memutuskan apakah hubungan yang terlihat

pada data hanyalah suatu kebetulan yang tidak mencerminkan kenyataan

sebenarnya atau bukan. Seringkali data yang tersedia hanya merupakan sebuah

sampel dari suatu populasi yang utuh sehingga tujuan yang diharapkan merupakan

generalisasi dari sampel ke populasi. Sebagai contoh, pada saat memprediksi

bagaimana perilaku pelanggan di waktu mendatang atau bagaimana menentukan

properti yang dimiliki oleh struktur protein yang sebelumnya belum pernah

diketahui. Jika pada kasus tersebut digunakan generalisasi, maka tujuan yang

diharapkan tidak akan sesuai dengan standar yang berlaku di statistik karena data

yang digunakan bukan merupakan random samples, tetapi lebih mengarah ke

convenience atau opportunity samples. Terkadang diinginkan untuk meringkas

atau memampatkan suatu himpunan data yang sangat besar dalam suatu cara

tertentu sehingga hasilnya dapat lebih mudah dipahami tanpa adanya konsep

generalisasi. Permasalan seperti itu akan muncul misalnya ketika memiliki data

sensus yang lengkap untuk suatu kota tertentu atau rekaman database dari jutaan

individu pada transaksi retail [2].

Proses dalam pencarian hubungan pada suatu himpunan data melibatkan

sejumlah langkah yang terdiri dari [2]:

a. Menentukan sifat dan struktur dari representasi yang digunakan.

b. Mememutuskan bagaimana cara mengukur dan membandingkan seberapa

baik representasi yang berbeda bisa sesuai pada data yang dimiliki (memilih

score function).

c. Memilih proses algoritma untuk mengoptimalkan score function.

d. Memutuskan prinsip manajemen data apa yang dibutuhkan untuk

mengimplementasikan algoritma yang telah dipilih dengan efisien.

4. Aktivitas Data Mining

Page 18: Pengantar Data Mining FIX.docx

13

Data mining dapat dikelompokkan ke dalam beragam aktivitas, berkaitan

dengan perbedaan tujuan yang diharapkan oleh orang yang menganalisis data.

a. Classification

b. Estimation

c. Prediction

d. Association rules

e. Clustering

f. Description dan visualization

Tiga aktivitas pertama (classification, estimation, prediction) merupakan

contoh dari directed data mining atau supervised learning. Pada directed data

mining, tujuan yang hendak dicapai adalah menggunakan data yang tersedia untuk

membangun sebuah model yang menggambarkan satu atau lebih atribut-atribut

khusus dari pusat perhatian (atribut target atau atribul kelas) sesuai dengan atribut-

atribut yang tersedia. Sedangkan tiga aktivitas berikutnya (association rules,

clustering, description dan visualization) merupakan contoh dari undirected data

mining, yakni tidak atribut yang dikhususkan sebagai target. Tujuan dari

undirected data mining adalah untuk membangun beberapa hubungan di antara

semua atribut [5].

4.1 Klasifikasi (Classification)

Klasifikasi terdiri dari pengujian terhadap karakteristik yang dimiliki oleh

objek baru dan menentukan di kelas mana objek baru tersebut berada. Pada

klasifikasi, kelas-kelas yang digunakan sudah ditentukan sebelumnya. Tugas

klasifikasi ditandai dengan pendefinisian yang baik dari kelas-kelasnya, dan satu

set pelatihan terdiri dari contoh-contoh yang belum diklasifikasikan. Tujuan dari

klasifikasi adalah untuk membangun suatu model yang dapat digunakan untuk

mengklasifikasikan data-data yang belum terklasifikasi. Contoh dari klasifikasi

meliputi [5]:

a. Pengklasifikasian para pengaju kredit ke dalam kategori resiko rendah,

sedang, atau tinggi

Page 19: Pengantar Data Mining FIX.docx

14

b. Pengklasifikasian jamur ke dalam kategori jamur yang aman dikonsumsi

atau jamur beracun

c. Penentuan saluran telepon rumah yang digunakan untuk mengakses internet

4.2 Perkiraan (Estimation)

Perkiraan berkaitan dengan nilai hasil yang berkelanjutan. Diberikan

sejumlah data masukan, perkiraan digunakan untuk memunculkan nilai dari

beberapa variabel kontinyu yang nilainya tidak diketahui seperti pendapatan atau

jumlah saldo kartu kredit. Beberapa contoh dari perkiraan, yakni [5]:

a. Memperkirakan jumlah anak dalam suatu keluarga berdasarkan data riwayat

pendidikan sang ibu

b. Memperkirakan total pendapatan yang dimiliki oleh suatu rumah tangga

berdasarkan data kendaraan yang dimiliki oleh keluarga tersebut

c. Memperkirakan nilai jual dari sebuah real estate berdasarkan data jarak

kedekatan antara lokasi real estate dari pusat bisnis utama di perkotaan

4.3 Prediksi (Prediction)

Prediksi apapun dapat dianggap sebagai klasifikasi atau perkiraan. Namun

perbedaannya terletak pada hal apa yang menjadi perhatian. Ketika data mining

digunakan untuk mengklasifikasikan saluran telepon yang penggunaan utamanya

adalah untuk mengakses internet atau transaksi kartu kredit yang diklasifikasikan

sebagai penipuan, tidak pernah terpikirkan apakah klasifikasi tersebut benar atau

tidak. Klasifikasi yang dilakukan bisa jadi bernilai benar atau salah. Namun,

ketidakpastian biasanya hanya disebabkan oleh pengetahuan yang tidak lengkap.

Prediksi menjadi tugas yang terasa berbeda karena rekaman-rekaman data

diklasifikasikan menurut beberapa perilaku masa depan yang telah diprediksi atau

nilai masa depan yang telah diperkirakan. Pada prediksi, satu-satunya cara untuk

mengetahui tingkat akurasi dari klasifikasi adalah dengan cara menunggu dan

mengamatinya. Contoh dari prediksi, di antaranya adalah :

a. Memprediksi jumlah saldo yang akan ditransfer jika prospek kartu kredit

dalam menerima transfer ditawarkan

b. Memprediksi pelanggan mana yang akan pergi/berpaling dalam enam bulan

ke depan

Page 20: Pengantar Data Mining FIX.docx

15

c. Memprediksi pelanggan telepon yang akan memesan layanan tambahan

seperti panggilan telepon tiga jalur atau kota suara

Teknik apapun yang digunakan dalam klasifikasi maupun perkiraan dapat

digunakan di dalam melakukan prediksi dengan menggunakan contoh pelatihan di

mana nilai dari variabel yang akan diprediksi telah diketahui, beserta dengan data-

data historisnya. Data historis digunakan untuk membentuk suatu model yang

menjelaskan perilaku yang sedang diteliti. Ketika model ini digunakan untuk

aliran masukan, hasil yang diperoleh berupa prediksi dari perilaku yang akan

terjadi di masa mendatang [5].

4.4 Aturan Asosiasi (Association Rules)

Aturan asosiasi adalah suatu aturan yang menyiratkan hubungan asosiasi

tertentu di antara suatu himpunan objek (seperti “terjadi bersama” atau “saling

melibatkan satu sama lain”) dalam suatu database. Misalkan diberikan suatu

himpunan transaksi, di mana setiap transaksi merupakan suatu himpunan literal

(disebut item). Suatu aturan asosiasi merupakan sebuah ekspresi dalam bentuk X

Y, di mana X dan Y adalah himpunan items. Makna intuitif dari aturan tersebut

yakni, transaksi database yang mengandung X akan cenderung mengandung Y.

Contoh dari aturan asosiasi adalah:

“30% petani yang menanam gandum juga menanam kacang-kacangan; 2%

dari keseluruhan petani menanam dua komoditas tersebut”

Dari pernyataan tersebut, presentase 30% disebut confidence of the rule, dan 2%

menyatakan support of the rule. Permasalahan dalam aturan asosiasi adalah untuk

menemukan semua aturan asosiasi yang memenuhi spesifikasi user dalam hal

minimum support dan minimum confidence constraints [5].

4.5 Klaster (Clustering)

Pengklasteran merupakan suatu tugas untuk membagi grup yang beragam

menjadi sejumlah subgrup yang memiliki kemiripan atau klaster. Hal yang

membedakan klaster dengan klasifikasi adalah pengklasteran tidak bergantung

terhadap penentuan kelas awal. Dalam pengklasteran tidak terdapat pendefinisian

kelas awal. Rekaman data dikelompokkan berdasarkan kemiripan yang terdapat

Page 21: Pengantar Data Mining FIX.docx

16

antar data. Pengklasteran seringkali dilakukan sebagai langkah awal dalam

membentuk pemodelan pada data mining. Sebagai contoh, pengklasteran dapat

dijadikan sebagai langkah awal dalam melakukan segmentasi pasar, jika

dibandingkan harus menerapkan aturan one-size-fits-all untuk menentukan jenis

promosi terbaik untuk setiap klaster [5].

4.6 Deskripsi dan Visualisasi (Description dan Visualization)

Visualisasi data merupakan bentuk yang tangguh dari pendeskripsian data

mining. Memang visualisasi tidak selalu menjadi hal yang mudah untuk dipahami,

tetapi gambar yang tepat benar-benar dapat bernilai seperti ribuan aturan asosiasi

karena manusia telah sangat terbiasa dalam memahami pandangan visual [5].

5. Summary

Data mining merupakan suatu analisis yang dilakukan terhadap suatu

himpunan data untuk mengekstrak informasi yang terkandung di dalamnya

sehingga diperoleh pemahaman terhadap himpunan data tersebut dan dapat

dimanfaatkan oleh pemilik data untuk tujuan yang dikehendakinya. Ekstraksi

informasi dari suatu himpunan data dilakukan sesuai dengan tujuan yang

dikehendaki oleh pemilik data sehingga aktivitas data mining dikelompokkan

menjadi enam kelompok, yakni klasifikasi (classification), perkiraan (estimation),

prediksi (prediction), aturan asosiasi (association rule), klaster (clustering),

deskripsi dan visualisasi (description and visualization).

Page 22: Pengantar Data Mining FIX.docx

17

Bab 2

PERKAKAS DAN TEKNIK DATA MINING

Pada bab ini akan membahas tentang tools apa saja yang dapat digunakan

sebagai acuan untuk melakukan proses data mining, serta teknik-teknik apa saja

yang dapat digunakan untuk melakukan proses data mining.

1. Perkakas Data Mining

Data mining tidak hanya membahas tentang alat atau perangkat lunak

database yang Anda gunakan. Anda dapat melakukan data mining dengan sistem

database relatif sederhana dan alat-alat yang sederhana, termasuk membuat dan

menulis sendiri, atau menggunakan paket perangkat lunak yang ada. Manfaat data

mining yang kompleks dari pengalaman masa lalu dan algoritma didefinisikan

dengan perangkat lunak dan paket perangkat lunak yang ada, dengan alat tertentu

memperoleh afinitas yang lebih besar atau reputasi dengan teknik yang berbeda.

Misalnya, IBM SPSS®, yang memiliki akarnya dalam analisis statistik dan

survei, dapat membangun model prediksi yang efektif dengan melihat tren masa

lalu dan membangun perkiraan yang akurat. IBM InfoSphere® Warehouse

menyediakan data sourcing, preprocessing, mining, dan analisis informasi dalam

satu paket, yang memungkinkan Anda untuk mengambil informasi dari database

sumber langsung ke output yang berupa laporan akhir.

Baru-baru ini bahwa data set yang sangat besar dan cluster dan pengolahan

data skala besar yang dapat memungkinkan data mining untuk menyusun dan

melaporkan kelompok dan korelasi data yang lebih rumit. Sekarang banyak sekali

alat dan sistem baru yang tersedia, termasuk penyimpanan data gabungan dan

sistem pengolahan. Anda dapat menambang data dengan berbagai set data yang

berbeda, termasuk, database SQL tradisional, data teks baku, simpanan kunci /

nilai, dan database dokumen. Clustered database, seperti Hadoop, Cassandra,

Page 23: Pengantar Data Mining FIX.docx

18

CouchDB, dan Couchbase Server, menyimpan dan menyediakan akses ke data

sedemikian rupa sehingga tidak sesuai dengan struktur tabel tradisional.

Secara khusus, format penyimpanan yang lebih fleksibel dari database

dokumen menyebabkan fokus yang berbeda dan kompleksitas dalam hal

pengolahan informasi. Database SQL memiliki struktur yang ketat dan kekakuan

dalam skema, yang membuat proses query mereka dan menganalisis data

langsung dari perspektif bahwa format dan struktur informasi telah diketahui.

Database dokumen yang memiliki standar seperti struktur JSON, atau file yang

memiliki beberapa struktur dapat dibaca oleh mesin, juga lebih mudah untuk

memproses, meskipun mereka bisa menambahkan kompleksitas karena struktur

dan variabel yang berbeda. Misalnya, dengan pengolahan data baku sepenuhnya

dari Hadoop yang dapat menjadi kompleks untuk mengidentifikasi dan

mengekstraksi konten sebelum Anda mulai untuk memproses dan

menghubungkannya [6].

Organisasi-organisasi yang ingin menggunakan alat data mining dapat

membeli program mining yang dirancang untuk perangkat lunak dan platform

perangkat keras yang ada, yang dapat diintegrasikan ke dalam produk baru dan

sistem seperti yang dibeli secara online, atau mereka dapat membangun solusi

custom mining mereka sendiri. Misalnya, memasukkan output dari latihan mining

data ke sistem komputer lain, seperti jaringan saraf, adalah sangat umum dan

dapat memberikan nilai lebih pada data yang di-mining. Hal ini karena alat data

mining mengumpulkan data, sedangkan program kedua (misalnya, jaringan saraf)

membuat keputusan berdasarkan data yang dikumpulkan.

Berbagai jenis alat data mining yang tersedia di pasaran, masing-masing

dengan kekuatan dan kelemahan mereka sendiri. Auditor internal perlu menyadari

pada berbagai jenis alat-alat pertambangan data yang tersedia dan

merekomendasikan pembelian alat yang sesuai dengan kebutuhan organisasi. Hal

ini harus dipertimbangkan sedini mungkin dalam siklus proyek, bahkan mungkin

dalam studi kelayakan. Kebanyakan alat data mining dapat diklasifikasikan ke

dalam salah satu dari tiga kategori: alat data mining tradisional, dashboard, dan

alat teks-mining.

a. Alat Data Mining Tradisional

Page 24: Pengantar Data Mining FIX.docx

19

Program data mining tradisional membantu perusahaan membangun pola

data dan tren dengan menggunakan beberapa algoritma dan teknik yang

kompleks. Beberapa dari alat ini diinstal pada desktop untuk memantau data dan

menyorot tren dan lainnya mengangkap informasi yang berada di luar database.

Mayoritas tersedia di Windows dan versi UNIX, meskipun beberapa spesialisasi

dalam satu sistem operasi saja. Selain itu, beberapa mungkin berkonsentrasi pada

satu jenis database, sebagian besar akan mampu menangani data menggunakan

pengolahan analisis online atau teknologi serupa.

b. Dashboards

Diinstal di komputer untuk memantau informasi dalam database, dashboard

mencerminkan perubahan data dan update onscreen - seringkali dalam bentuk

grafik atau tabel - memungkinkan pengguna untuk melihat bagaimana bisnis

berkinerja. Data historis juga dapat dirujuk, yang memungkinkan pengguna untuk

melihat di mana hal telah berubah (misalnya, peningkatan penjualan dari periode

yang sama tahun lalu). Fungsi ini membuat dashboard mudah digunakan dan

sangat menarik bagi manajer yang ingin memiliki gambaran kinerja perusahaan.

c. Alat Text-Mining

Terkadang disebut alat teks-mining karena kemampuannya untuk

menambang data dari berbagai jenis teks - dari Microsoft Word dan PDF Acrobat

dokumen ke file teks sederhana, misalnya. Alat ini memindai isi dan

mengkonversi data yang dipilih ke format yang kompatibel dengan database alat

tersebut, sehingga memberikan pengguna dengan cara yang mudah dan nyaman

untuk mengakses data tanpa perlu membuka aplikasi yang berbeda. Konten yang

dipindai dapat terstruktur (misalnya, informasi yang tersebar hampir secara acak

di seluruh dokumen, termasuk e-mail, halaman internet, audio dan data video)

atau terstruktur (misalnya, bentuk data dan tujuan yang dikenal, seperti konten

yang ditemukan dalam database). Menangkap masukan ini dapat memberikan

organisasi dengan banyak informasi yang dapat digali untuk menemukan tren,

konsep, dan sikap.

Page 25: Pengantar Data Mining FIX.docx

20

Selain alat ini, aplikasi dan program lain dapat digunakan untuk tujuan data

mining. Misalnya, audit alat interogasi dapat digunakan untuk menyoroti

penipuan, data anomali, dan pola. Contoh dari hal ini telah diterbitkan oleh kantor

Treasury Inggris dalam Fraud Report 2002-2003: Anti-fraud Advice and

Guidance, yang membahas bagaimana menemukan penipuan menggunakan alat

interogasi audit. Contoh lain adalah digunakannya alat pemeriksaan interogasi

untuk mengidentifikasi penipuan yang ditemukan pada tahun 1999 dalam buku

David G. Coderre, Fraud Detection.

Selain itu, auditor internal dapat menggunakan spreadsheet untuk

melakukan latihan sederhana data mining atau untuk menghasilkan tabel

ringkasan. Beberapa komputer desktop, notebook, dan server yang menjalankan

sistem operasi seperti Windows, Linux, dan Macintosh dapat diimpor langsung ke

Microsoft Excel. Menggunakan tabel penting dalam spreadsheet, auditor dapat

meninjau data yang kompleks dalam format sederhana dan menelusuri di mana

yang diperlukan untuk menemukan asumsi yang digarisbawahi atau informasi.

Ketika mengevaluasi strategi data mining, perusahaan dapat memutuskan

untuk membeli beberapa alat untuk tujuan tertentu, daripada membeli satu alat

yang memenuhi semua kebutuhan. Meskipun memperoleh beberapa alat bukanlah

pendekatan utama, perusahaan dapat memilih untuk melakukannya jika, misalnya,

menginstal dashboard untuk menjaga manajer mendapatkan informasi pada

masalah bisnis, data mining suite penuh untuk mengambil dan membangun data

untuk pemasaran dan penjualan, dan alat interogasi sehingga auditor dapat

mengidentifikasi aktivitas penipuan [7].

Selain alat-alat data mining yang telah disebutkan diatas, Wikipedia

memberikan daftar software dan aplikasi bersifat free dan open source yang dapat

digunakan untuk data mining antara lain sebagai berikut [8] :

a. Carrot2: framework clustering teks dan hasil pencarian.

b. Chemicalize.org: miner struktur kimia dan web search engine.

c. ELKI: project riset universitas dengan analisis cluster canggih dan metode

deteksi outlier yang ditulis dalam bahasa Java.

d. GATE: pemroses bahasa natural dan tool rekayasa bahasa.

Page 26: Pengantar Data Mining FIX.docx

21

e. JHepWork: framework analisis data berbasis Java yang dikembangkan di

Argonne National Laboratory.

f. KNIME: Konstanz Information Miner, framework analisis data

komprehensif yang user-friendly.

g. ML-Flex: paket software yang memungkinkan pengguna untuk

mengintegrasikan dengan paket mesin belajar pihak ketiga yang ditulis

dalam bahasa pemrograman apapun, mengeksekusi klasifikasi analisis

secara paralel sepanjang node komputasi, dan menghasilkan laporan HTML

dari hasil klasifikasi.

h. NLTK (Natural Language Toolkit): Sebuah kumpulan libraries dan

program untuk pengolahan bahasa simbolik dan statistik alami untuk bahasa

Python.

i. Orange: Sebuah komponen berbasis data mining dan suite software mesin

pembelajaran ditulis dalam bahasa Python.

j. R: Sebuah bahasa pemrograman dan lingkungan perangkat lunak untuk

komputasi statistik, data mining, dan grafis. Ini adalah bagian dari proyek

GNU.

k. RapidMiner: Sebuah lingkungan untuk pembelajaran mesin dan eksperimen

data mining.

l. UIMA: framework komponen untuk menganalisis konten tidak terstruktur

seperti teks, audio dan video - awalnya dikembangkan oleh IBM.

m. Weka: suite software aplikasi pembelajaran mesin yang ditulis dalam bahasa

pemrograman Java.

Sedangkan software dan aplikasi yang bersifat komersial antara lain sebagai

berikut [8] :

a. Angoss KnowledgeSTUDIO: tool data mining yang dibuat Angoss.

b. BIRT Analytics: tool visual data mining dan analisis prediktif yang dibuat

Actuate Corporation.

c. Clarabridge: solusi analisis text kelas enterprise.

d. E-NI (e-mining, e-monitor): tool data mining berbasiskan pola sementara.

e. IBM SPSS Modeler: software data mining yang dibuat IBM.

Page 27: Pengantar Data Mining FIX.docx

22

f. KXEN Modeler: tool data mining yang dibuat KXEN.

g. LIONsolver: software aplikasi terintegrasi untuk data mining, intelegen

bisnis, dan pemodelan yang mengimplementasikan pendekatan Learning

and Intelligent OptimizatioN (LION).

h. Microsoft Analysis Services: software data mining yang dibuat Microsoft.

i. Oracle Data Mining: software data mining oleh Oracle.

j. SAS Enterprise Miner: software data mining yang dibuat SAS Institute.

k. STATISTICA Data Miner: software data mining yang dibuat StatSoft.

2. Teknik Data Mining

Selain menggunakan alat data mining tertentu, auditor internal dapat

memilih dari berbagai teknik data mining. Teknik yang paling sering digunakan

termasuk jaringan saraf tiruan, pohon keputusan, dan metode tetangga-terdekat.

Masing-masing teknik melakukan analisis data dengan cara yang berbeda.

a. Jaringan Saraf Tiruan

Model prediksi non-linear yang belajar melalui pelatihan. Meskipun teknik

pemodelan prediktif ini kuat, beberapa kekuatan datang dengan mengorbankan

kemudahan penggunaan. Satu area di mana auditor dapat dengan mudah

menggunakannya adalah ketika meninjau catatan untuk mengidentifikasi penipuan

dan tindakan mendekati penipuan. Karena kompleksitas, teknik ini lebih baik

digunakan dalam situasi di mana teknik ini dapat digunakan dan digunakan

kembali, seperti meninjau transaksi kartu kredit setiap bulan untuk memeriksa

anomali.

b. Pohon Keputusan

Pohon berbentuk struktur yang mewakili set keputusan. Keputusan ini

menghasilkan aturan, yang kemudian digunakan untuk mengklasifikasikan data.

Pohon keputusan adalah teknik favorit untuk membangun model yang mudah

dimengerti. Auditor dapat menggunakannya untuk menilai, misalnya, apakah

organisasi menggunakan strategi pemasaran hemat biaya yang tepat yang

didasarkan pada nilai yang diberikan pelanggan, seperti laba.

Page 28: Pengantar Data Mining FIX.docx

23

c. Metode Tetangga-Terdekat

Mengklasifikasikan record dataset berdasarkan data yang sama dalam

sejarah dataset. Auditor dapat menggunakan pendekatan ini untuk menentukan

dokumen yang menarik untuk mereka dan meminta sistem untuk mencari barang

serupa.

Masing-masing pendekatan membawa berbagai keuntungan dan kerugian

yang perlu dipertimbangkan sebelum penggunaannya. Jaringan saraf tiruan, yang

sulit untuk dilaksanakan, mewajibkan semua input dan output yang dihasilkan

untuk diekspresikan secara numerik, sehingga membutuhkan semacam

interpretasi tergantung pada sifat alami latihan data mining. Teknik pohon

keputusan adalah metodologi yang paling umum digunakan, karena sederhana dan

mudah untuk diimplementasikan. Akhirnya, metode tetangga-terdekat lebih

bergantung pada menghubungkan barang serupa dan, karenanya, bekerja lebih

baik untuk ekstrapolasi daripada pertanyaan prediktif.

Cara yang baik untuk menerapkan teknik-teknik canggih data mining adalah

memiliki alat data mining yang fleksibel dan interaktif yang terintegrasi dengan

database atau data warehouse. Menggunakan alat yang beroperasi di luar

database atau data warehouse tidak efisien. Menggunakan alat tersebut akan

melibatkan langkah-langkah ekstra untuk mengekstrak, impor, dan menganalisis

data. Ketika alat data mining terintegrasi dengan data warehouse,

menyederhanakan penerapan dan pelaksanaan hasil mining. Selain itu selama

gudang tumbuh dengan keputusan dan hasil baru, organisasi dapat menambang

praktik terbaik dan terus menerapkannya menuju keputusan masa depan.

Terlepas dari teknik yang digunakan, nilai sebenarnya di balik data mining

adalah pemodelan, proses membangun model yang didasarkan pada kriteria yang

ditentukan pengguna dari data yang telah ditangkap. Setelah model dibangun, hal

itu dapat digunakan dalam situasi yang sama di mana jawaban tidak diketahui.

Sebagai contoh, sebuah organisasi yang ingin memperoleh pelanggan baru dapat

membuat model pelanggan ideal yang didasarkan pada data yang ada diambil dari

orang-orang yang sebelumnya membeli produk. Model ini kemudian digunakan

untuk query data pada calon pelanggan untuk melihat apakah profil mereka cocok.

Modeling juga dapat digunakan oleh departemen audit untuk memprediksi jumlah

Page 29: Pengantar Data Mining FIX.docx

24

auditor yang diperlukan untuk melakukan rencana audit berdasarkan usaha-usaha

sebelumnya dan pekerjaan serupa [7].

Sedangkan menurut Dr. Rajni Jain dalam papernya yang berjudul

Introduction to Data Mining Techniques, teknik-teknik dalam data mining dapat

dijabarkan sebagai berikut [5] :

a. Statistik permasalahan dalam mengabstraksi pengetahuan dari data telah

ditemukan oleh ahli statistik, jauh sebelum paper pertama tentang

kecerdasan buatan dipublikasikan. Contoh, analisis korelasi

mengaplikasikan alat statistik untuk menganalisis korelasi antara dua atau

lebih variabel. Analisis cluster menawarkan metode untuk menemukan

cluster di set obyek besar yang digambarkan oleh vektor nilai. Analisis

faktor mencoba untuk menunjukkan variabel yang paling penting yang

menggambarkan cluster. Beberapa teknik populer yang digunakan untuk

tugas-tugas klasifikasi tersebut adalah Linear Discriminants, Quadratic

Discriminants, K-Nearest Neighbour, Naïve Bayes, Logistic Regression dan

CART.

b. Machine Learning Metode statistik mengalami kesulitan

menggabungkan informasi subjektif non terukur dalam model mereka.

Mereka juga harus mengasumsikan distribusi berbagai parameter dan

independensi atribut. Berbagai penelitian telah menyimpulkan bahwa

pembelajaran mesin menghasilkan akurasi prediksi yang sebanding (dan

sering lebih baik). Kinerjanya yang baik dibandingkan dengan metode

statistik dapat dikaitkan dengan fakta bahwa bebas dari asumsi parametrik

dan struktural yang mendasari metode statistik. Kelemahan lain dari

pendekatan statistik untuk analisis data adalah masalah menafsirkan hasil.

Beberapa teknik pembelajaran mesin disebutkan di bawah ini.

b.1 Jaringan Saraf Jaringan saraf tiruan adalah model komputasi yang

terdiri dari banyak elemen pemrosesan non linier yang diatur dalam pola

yang mirip dengan jaringan neuron biologis. Jaringan saraf yang khas

memiliki nilai aktivasi yang terkait dengan masing-masing node dan

bobot nilai yang terkait dengan masing-masing koneksi. Sebuah fungsi

Page 30: Pengantar Data Mining FIX.docx

25

aktivasi mengatur penembakan node dan penyebaran data melalui

koneksi jaringan di paralelisme besar. Jaringan juga dapat dilatih dengan

contoh-contoh melalui penyesuaian berat koneksi.

b.2 Algoritma Genetika Algoritma genetik adalah algoritma pencarian

berdasarkan mekanisme seleksi alam dan genetika alami. Mereka

mengkombinasikan “survival of the fittest” antara string struktur dengan

pertukaran informasi terstruktur secara acak untuk membentuk algoritma

pencarian dengan beberapa bakat inovatif pencarian manusia. Dalam

setiap generasi, satu set string baru dibuat dengan menggunakan

potongan-potongan yang terkuat dari yang lama, sebuah bagian baru

sesekali dicoba untuk pengukuran yang baik. Sementara diacak,

algoritma genetik tidak berjalan secara sederhana. Mereka secara efisien

mengeksploitasi informasi bersejarah untuk berspekulasi pada poin

pencarian baru dengan harapan mendapatkan kinerja yang lebih baik.

Sebuah GA sederhana yang menghasilkan hasil yang baik, terdiri dari

tiga operator yaitu reproduksi, crossover dan mutasi. GA berbeda dari

optimasi normal dan prosedur pencarian dalam empat hal:

1. GA bekerja dengan coding dari set parameter, bukan

parameternya.

2. GA melakukan pencarian dari poin populasi, bukan dari point

tunggal.

3. GA menggunakan fungsi informasi objektif, bukan turunan atau

pengetahuan tambahan lainnya.

4. GA menggunakan aturan transisi probabilistik, bukan aturan

deterministik.

b.3 Support Vector Machines SVM adalah mesin pembelajaran yang

dapat melakukan klasifikasi biner dan tugas estimasi regresi. Mereka

menjadi semakin populer sebagai paradigma baru klasifikasi dan

pembelajaran karena dua faktor penting. Pertama, tidak seperti teknik

klasifikasi lainnya, SVM meminimalkan kesalahan yang diharapkan

bukannya meminimalkan kesalahan klasifikasi. Kedua, SVM

Page 31: Pengantar Data Mining FIX.docx

26

menggunakan dualitas teori pemrograman matematika untuk

mendapatkan masalah ganda yang mengakui metode komputasi efisien.

b.4 Induksi Pohon Keputusan DT adalah skema klasifikasi yang

menghasilkan pohon dan seperangkat aturan, mewakili model kelas

yang berbeda, dari dataset yang diberikan. DT adalah diagram alur

seperti struktur pohon, di mana setiap node internal menunjukkan

sebuah tes pada atribut, setiap cabang merupakan hasil dari tes dan node

daun mewakili kelas atau distribusi kelas. Simpul yang paling atas

dalam pohon adalah simpul akar. Berikut adalah sebuah contoh untuk

pohon keputusan dengan menggunakan aturan dan dataset.

Aturan:

1. IF hair = blonde AND lotion = no THEN sunburn = yes.

2. IF hair = blonde AND lotion = yes THEN sunburn = no.

3. IF hair = red THEN sunburn = yes.

4. IF hair = brown THEN sunburn = no.

Dan berikut adalah gambar tabel dataset untuk sunburn.

Gambar 2.1 Dataset sunburn 1 [5]

Page 32: Pengantar Data Mining FIX.docx

27

Gambar 2.2 Dataset sunburn 2 [5]

Gambar 2.3 Pohon keputusan yang didapatkan dari dataset sunburn [5]

c. Fuzzy Logic Fuzzy logic, yang dapat dipandang sebagai perluasan dari

sistem logika klasik, menyediakan kerangka kerja konseptual yang efektif

untuk mengatasi masalah representasi pengetahuan dalam lingkungan

ketidakpastian dan ketidaktepatan. Beberapa karakteristik penting dari

logika fuzzy berhubungan dengan berikut:

c.1 Dalam logika fuzzy, penalaran yang tepat dipandang sebagai kasus

terbatas perkiraan penalaran.

c.2 Dalam logika fuzzy segalanya tentang masalah derajat.

c.3 Semua sistem logika dapat difuzzifikasi.

c.4 Dalam logika fuzzy, pengetahuan diartikan sebagai kumpulan elastisitas

atau ekuivalen, batasan fuzzy terletak pada kumpulan variabel.

Ringkasan konsep dasar dan teknik yang mendasari penerapan logika fuzzy

untuk representasi pengetahuan dan gambaran sejumlah contoh yang

berkaitan dengan penggunaannya sebagai sistem komputasi yang

disediakan. logika fuzzy dalam bentuk murninya bukan teknik untuk

Page 33: Pengantar Data Mining FIX.docx

28

klasifikasi tetapi telah menjadi konsep yang sangat berguna dalam banyak

teknik hibrida untuk klasifikasi.

d. Rough Sets RS teori berkaitan dengan pendekatan set atau konsep

dengan cara biner relasi yang dibangun dari data empiris didasarkan pada

gagasan dari ketidakmampuan untuk membedakan antara objek. Perkiraan

tersebut dapat dikatakan untuk membentuk model konsep target, dan

karenanya dalam penggunaan yang khas, berada di bawah pendekatan

bottom up untuk konstruksi model. Aplikasi Rough Set ke data mining

secara umum dilanjutkan sepanjang arah berikut:

d.1 Aturan keputusan adalah induksi dari atribut nilai tabel.

d.2 Data filtrasi oleh template generasi - ini terutama melibatkan ekstraksi

blok dasar dari data yang didasarkan pada hubungan kesetaraan.

algoritma genetik juga kadang-kadang digunakan dalam tahap ini untuk

pencarian.

Sedangkan menurut Karimella Vikram pada papernya yang berjudul Data

Mining Tools and Techniques: a review, seperti halnya tukang kayu

menggunakan banyak peralatan untuk membangun rumah yang kokoh, seorang

analis yang baik mempekerjakan lebih dari satu teknik untuk mengubah data

menjadi informasi. Sebagian besar data miner melampaui dasar-dasar pelaporan

dan OLAP (On-Line Analytical Processing, juga dikenal sebagai multi-dimensi

pelaporan) untuk mengambil pendekatan multi-metode yang mencakup berbagai

teknik-teknik canggih. Beberapa di antaranya adalah teknik statistik sedangkan

yang lain didasarkan pada kecerdasan buatan (AI) [9].

a. Cluster Analysis Analisis Cluster adalah teknik reduksi data yang

dikelompokkan bersama-sama baik variabel atau kasus berdasarkan

karakteristik data yang sama. Teknik ini berguna untuk menemukan segmen

pelanggan berdasarkan karakteristik seperti informasi demografis dan

keuangan atau perilaku pembelian. Misalnya, bank ingin mencari segmen

pelanggan berdasarkan jenis rekening yang mereka buka. Sebuah analisis

cluster dapat menghasilkan beberapa kelompok pelanggan. Bank kemudian

mungkin mencari perbedaan jenis rekening dibuka dan perilaku, khususnya

Page 34: Pengantar Data Mining FIX.docx

29

gesekan, antara segmen. Mereka kemudian mungkin memperlakukan

segmen secara berbeda berdasarkan pada karakteristik ini.

b. Regresi linier Regresi linier adalah metode yang cocok dengan garis

lurus melalui data. Jika garis miring ke atas, itu berarti bahwa variabel

independen seperti ukuran tenaga penjualan memiliki efek positif pada

variabel dependen seperti pendapatan. Jika garis miring ke bawah, ada efek

negatif. Makin curam kemiringan, variabel independen memiliki efek lebih

pada variabel dependen.

c. Korelasi Korelasi adalah ukuran hubungan antara dua variabel. Sebagai

contoh, korelasi yang tinggi antara pembelian produk tertentu seperti keju

dan rackers menunjukkan bahwa produk ini kemungkinan akan dibeli

bersama-sama. Korelasi dapat berupa positif atau negatif. Korelasi positif

menunjukkan bahwa tingginya tingkat sebuah variabel akan disertai dengan

nilai tinggi dari variabel yang berkorelasi. Sebuah korelasi negatif

menunjukkan bahwa tingkat tinggi dari sebuah variabel akan disertai dengan

nilai yang rendah dari variabel yang berkorelasi. Korelasi positif yang

berguna untuk menemukan produk yang cenderung dibeli bersama-sama.

Korelasi negatif dapat berguna untuk diversifikasi di pasar dalam portofolio

strategis suatu perusahaan. Sebagai contoh, sebuah perusahaan energi

mungkin memiliki minat baik dalam gas alam dan bahan bakar minyak

karena perubahan harga dan tingkat substitutabilitas mungkin berdampak

pada permintaan untuk satu sumber daya di atas yang lain. Analisis korelasi

dapat membantu perusahaan mengembangkan portofolio pasar untuk

menyerap perubahan lingkungan seperti di pasar individu.

d. Analisis faktor Analisis faktor adalah teknik reduksi data. Teknik ini

mendeteksi faktor yang mendasari, juga disebut "variabel laten" dan

menyediakan model untuk faktor-faktor ini didasarkan pada variabel dalam

data. Sebagai contoh, jika tiga atribut seperti dukungan teknis, layanan

pelanggan, dan ketersediaan pelatihan dibebankan semua sangat pada satu

faktor, kita sebut faktor "layanan." Teknik ini dapat sangat membantu dalam

menemukan karakteristik penting yang mendasari mungkin tidak mudah

diamati, tetapi yang mungkin ditemukan sebagai manifestasi dari variabel

Page 35: Pengantar Data Mining FIX.docx

30

yang dapat diamati. Aplikasi lain yang baik dari analisis faktor adalah untuk

mengelompokkan berbagai produk berdasarkan kesamaan pola pembelian.

Analisis faktor dapat membantu bisnis menemukan peluang untuk cross-

selling dan bundling. Sebagai contoh, analisis faktor mungkin menunjukkan

empat kelompok yang berbeda dari produk dalam sebuah perusahaan.

Dengan pengelompokan produk, seorang marketer sekarang dapat

merancang paket produk atau mencoba untuk cross-sell produk ke

pelanggan di masing-masing kelompok yang tidak mungkin saat ini bisa

membeli produk lainnya dalam kelompok produk.

e. Pohon keputusan Pohon keputusan memisahkan data ke dalam

seperangkat aturan yang cenderung memiliki efek yang berbeda pada

variabel sasaran. Sebagai contoh, kita mungkin ingin mencari karakteristik

orang yang cenderung untuk menanggapi secarik surat langsung.

Karakteristik ini dapat diterjemahkan ke dalam seperangkat aturan. Pohon

keputusan juga merupakan alat yang baik untuk menganalisis gesekan,

menemukan peluang cross-selling, melakukan analisis promosi,

menganalisa risiko kredit atau kebangkrutan, dan mendeteksi kecurangan.

Pohon keputusan adalah pohon berbentuk struktur yang mewakili set

keputusan. Keputusan ini menghasilkan aturan, yang kemudian digunakan

untuk mengklasifikasikan data. Pohon keputusan adalah teknik favorit untuk

membangun model yang dapat dipahami.

f. Jaringan saraf Jaringan saraf meniru otak manusia dan dapat belajar

dari contoh-contoh untuk menemukan pola dalam data atau

mengklasifikasikan data. Keuntungannya adalah bahwa hal itu tidak perlu

memiliki model tertentu ketika menjalankan analisis. Juga, jaringan saraf

dapat menemukan efek interaksi (seperti efek dari kombinasi usia dan jenis

kelamin) yang harus secara eksplisit ditentukan dalam regresi. Kerugiannya

adalah bahwa lebih sulit untuk menafsirkan model yang dihasilkan dengan

lapisan bobot dan transformasi yang sulit dimengerti. Jaringan saraf berguna

dalam memprediksi variabel target saat data sangat non-linear dengan

interaksi, tetapi mereka tidak sangat berguna ketika hubungan ini perlu

dijelaskan. Mereka dianggap alat yang baik untuk aplikasi seperti

Page 36: Pengantar Data Mining FIX.docx

31

peramalan, skor kredit, skor respon model, dan analisis risiko. Jaringan saraf

tiruan adalah non-linear, model prediksi yang belajar melalui pelatihan.

Meskipun mereka teknik pemodelan prediktif yang kuat, beberapa kekuatan

datang dengan mengorbankan kemudahan penggunaan dan penyebaran.

Satu area di mana auditor dapat dengan mudah menggunakannya adalah

ketika meninjau catatan untuk mengidentifikasi penipuan tindakan seperti

penipuan. Karena kompleksitas, mereka lebih baik digunakan dalam situasi

di mana mereka dapat digunakan dan digunakan kembali, seperti meninjau

transaksi kartu kredit setiap bulan untuk memeriksa anomali.

g. Model asosiasi Model asosiasi memeriksa sejauh mana nilai-nilai dari

satu field bergantung, atau diperkirakan oleh, nilai-nilai dari field lain.

Asosiasi penemuan menemukan aturan tentang item yang muncul bersama-

sama dalam sebuah peristiwa seperti transaksi pembelian. Aturan memiliki

dukungan yang ditetapkan pengguna, confidence, dan panjang. Aturan

menemukan hal-hal yang "pergi bersama-sama." Model ini sering disebut

sebagai Market Basket Analysis ketika mereka diterapkan untuk industri

retail untuk mempelajari pola beli pelanggan mereka.

h. Nearest-neighbor mengklasifikasikan record dataset berdasarkan data

yang sama dalam sejarah dataset. Auditor dapat menggunakan pendekatan

ini untuk menentukan dokumen yang menarik untuk mereka dan meminta

sistem untuk mencari barang serupa.

i. Analisis link Ini adalah teknik lain untuk mengasosiasikan record. Tidak

digunakan terlalu banyak, tetapi ada beberapa alat yang dibuat hanya untuk

ini. Seperti namanya, teknik ini mencoba untuk menemukan link, baik pada

pelanggan, transaksi, dll. Dan menunjukkan link tersebut.

j. Visualisasi Teknik ini membantu pengguna memahami data mereka.

Visualisasi membuat jembatan dari text based untuk presentasi grafis. Hal-

hal seperti pohon keputusan, aturan, cluster dan pengguna visualisasi pola

membantu melihat hubungan data daripada membaca tentang data tersebut.

Banyak program data mining yang kuat pertambangan telah membuat

kemajuan dalam meningkatkan konten visual mereka selama beberapa tahun

terakhir. Ini benar-benar visi masa depan data mining dan analisis.

Page 37: Pengantar Data Mining FIX.docx

32

3. Summary

Data mining melibatkan ekstraksi aturan yang berguna atau pola yang

menarik dari data historis. Ada banyak tugas data mining yang masing-masing

memiliki lebih lanjut banyak teknik. Sebuah teknik tunggal tidak cocok untuk

semua jenis data untuk semua jenis domain. Kadang-kadang, teknik hybrid telah

diteliti dapat berkinerja lebih baik dibandingkan dengan yang murni.

Page 38: Pengantar Data Mining FIX.docx

33

Bab 3

APLIKASI DAN CONTOH KASUS DATA MINING

Data Mining terlahir lewat pengembangan Statistik dalam memecahkan

permasalahan terkini menggunakan teknologi terbaru. Data Mining memegang

peranan penting dalam berbagai aspek dalam kehidupan di masyarakat saat ini.

Pada bab ini berisi contoh bagaimana data mining digunakan di bidang

perbankan / keuangan, ritel, kesehatan, dan telekomunikasi. Tujuan dari bab ini

adalah untuk memberikan pengguna beberapa ide dari jenis-jenis kegiatan di

mana data mining telah digunakan oleh berbagai bidang usaha.

Berikut beberapa aplikasi dan penjelasannya Data Mining di berbagai bidang,

antara lain [10]:

1. Aplikasi Data-Mining di Bidang Perbankan dan Keuangan

2. Aplikasi Data-Mining di Retail

3. Aplikasi Data-Mining di Kesehatan

4. Aplikasi Data-Mining di Telekomunikasi

1. Aplikasi di Bidang Perbankan dan Keuangan

Data mining telah digunakan secara luas di pasar perbankan dan keuangan.

Dalam perbankan industri, data mining sering digunakan untuk model dan

memprediksi kredit penipuan, untuk mengevaluasi resiko,untuk melakukan

analisis kecenderungan, dan untuk menganalisis profitabilitas, serta untuk

membantu dengan pemasaran langsung kampanye. Di pasar keuangan, jaringan

saraf telah digunakan dalam stok-harga peramalan,dalam perdagangan option, di

peringkat obligasi, dalam manajemen portofolio, dalam prediksi harga komoditas,

dalam merger dan akuisisi, serta dalam meramalkan bencana keuangan. Beberapa

perusahaan keuangan yang menggunakan jaringan saraf dan telah dirujuk di

Internet adalah Daiwa Securities, NEC Corporation, Carl & Associates, LBS

Capital Management, Penasihat Investasi Walkrich, dan Saudara O'Sullivan

Page 39: Pengantar Data Mining FIX.docx

34

Investasi. Jumlah perusahaan investasi yang menggunakan data mining sejauh

lebih luas daripada sebelumnya, namun mereka tidak bersedia dirujuk. Salah satu

buku yang menarik di bidang keuangan Pasar global Neural Networks di ibukota,

diedit oleh Apostolos-Paul Refenes. Buku ini mengeksplorasi aplikasi ekuitas,

aplikasi pertukaran mata uang asing, aplikasi bond, dan kinerja ekonomi makro

dan perusahaan [10].

1.1 Stock Forecasting

Ada banyak aplikasi perangkat lunak di pasar yang menggunakan teknik data-

mining untuk prediksi saham. Salah satu aplikasi tersebut digunakan untuk

prediksi saham ditunjukkan pada Gambar 1.1, dibawah ini :

Gambar 1.1. Stock Forecasting [10]

NETPROPHET oleh Corporation Aplikasi Neural adalah aplikasi prediksi

saham yang menggunakan jaringan saraf. Dua garis yang ditunjukkan dalam

grafik pada Gambar 1.1. mewakili nyata dan nilai saham diprediksi. Dalam

perbankan, penggunaan paling luas dari data mining adalah di bidang deteksi

penipuan. HNC ini produk Falcon khusus membahas daerah ini. komentar HNC

Page 40: Pengantar Data Mining FIX.docx

35

tentang pendeteksian penipuan pada kartu kredit di tempat sekarang untuk

memantau lebih dari 160 juta pembayaran kartu rekening tahun ini. Mereka juga

mengklaim pengembalian atas investasi yang sehat. Sementara penipuan

menurun, rekening untuk aplikasi pembayaran kartu meningkat sebanyak 50% per

tahun. Meluasnya penggunaan data mining di bidang perbankan belum diketahui.

Pada tahun 1996, Bank Sistem & Teknologi berkomentar: "Data mining adalah

aplikasi yang paling penting dalam jasa keuangan pada tahun 1996."

Mencari perusahaan perbankan yang menggunakan data mining adalah tidak

mudah, mengingat kecenderungan mereka untuk tertutup. Berikut adalah daftar

perusahaan keuangan yang menggunakan data mining diperlukan beberapa

menggali ke dalam laporan SEC dari vendor data mining yang dibuat tersedia

untuk umum.

Daftar ini mencakup: Bank of America, USA Pertama Bank, Perusahaan

Headlands Mortgage, FCC National Bank, Federal Home Loan Mortgage

Corporation, Wells Fargo Bank, Bangsa-Banc Jasa, Mellon Bank NA, Advanta

Mortgage Corporation, Kimia Bank, Chevy Chase Bank, US Bancorp, dan USAA

Bank Tabungan Federal. Sekali lagi masuk akal untuk mengasumsikan bahwa

sebagian besar bank besar yang melakukan semacam data mining, meskipun

banyak memiliki kebijakan untuk tidak membahasnya [10].

1.2 Cross-Selling dan Loyalitas Pelanggan di Industri Perbankan

Lembaga keuangan yang paling utama memiliki statistik dan data-mining

kelompok. Bahkan, bank seperti Wells Fargo, Bank of America, Armada Bank,

dan lain-lain telah menjadi subyek dari banyak artikel tentang data mining

canggih mereka, dan pemodelan perilaku pelanggan mereka. Pertanyaan

berikutnya untuk bertanya adalah: seberapa baik lembaga keuangan tahu

pelanggan mereka? Sebuah studi yang diterbitkan dalam Berita DM dan dilakukan

oleh Deluxe Perusahaan menemukan bahwa 43% dari konsumen yang disurvei

mengatakan penyedia layanan keuangan mereka tidak tahu kebutuhan spesifik

mereka baik sekali, 60% mengatakan tawaran yang mereka terima tidak relevan

dengan kebutuhan mereka, dan 39% mengatakan mereka tidak menerima tawaran

sama sekali. Penelitian oleh Deluxe Korporasi menunjukkan masalah yang

Page 41: Pengantar Data Mining FIX.docx

36

signifikan dengan data mining: ketidakmampuan untuk memanfaatkan data-

mining studi menjadi hasil ditindaklanjuti. 

Sebagai contoh, sementara bank mungkin tahu bahwa pelanggan memenuhi

kriteria tertentu cenderung untuk menutup akun mereka, itu adalah masalah lain

untuk mengetahui strategi untuk melakukan sesuatu tentang hal itu. Salah satu

vendor yang telah mengembangkan rangkaian produk yang dirancang untuk

mengintegrasikan teknologi prediktif dengan poin interaksi pelanggan adalah

Right Point software.Vendor lain bekerja pada masalah yang sama, khususnya di

web, di mana memprediksi apa yang pelanggan terbaik akan sangat merespon

penting. Perusahaan perbankan web seperti Jaminan Pertama dan BroadVision,

antara lain, juga berusaha untuk memasukkan satu persatu pemasaran, dengan

menggunakan teknologi prediksi, ke situs perbankan mereka.

Pemasaran The Right Point Real-Time Suite mengambil data-mining model

dan memanfaatkan mereka dalam real-time interaksi dengan pelanggan.

Pemasaran The Right Point Real-Time Suite Tepat dirancang untuk membuat,

mengelola, dan memberikan 1:1 promosi pemasaran untuk industri high touch

(seperti perbankan, telekomunikasi, dan penjualan ritel) yang mengandalkan

interaksi pelanggan langsung untuk melakukan bisnis. Untuk bisnis ini dan yang

sejenis, adalah penting untuk memastikan bahwa setiap interaksi pelanggan

merebut kesempatan untuk meningkatkan kepuasan pelanggan, loyalitas, dan

pendapatan-generasi potensial. Model prediksi yang digunakan untuk

mengevaluasi pesan pemasaran yang tepat untuk disampaikan kepada pelanggan.

Teknologi pembelajaran yang dinamis juga membangun model prediksi dengan

cepat dan menghitung probabilitas penerimaan, yang menunjukkan penawaran

yang diterima oleh yang jenis pelanggan. Model-model prediktif juga dapat

digunakan bersama dengan aturan bisnis untuk memberikan penawaran yang tepat

pada waktu yang tepat.

Salah satu aspek peluang pasar penentuan adalah mengidentifikasi pelanggan

bernilai tinggi. Dalam bukunya, Semua Konsumen Diciptakan Sama, penulis

Garth Hallberg mengutip Mark Media Research, Inc temuan bahwa sekitar

sepertiga dari akun pelanggan untuk 68% dari semua pembelian. Secara

Page 42: Pengantar Data Mining FIX.docx

37

tradisional, pemasar telah difokuskan pada segmentasi dan memikat bernilai

tinggi konsumen. Dimana pemasar mengambil jangka pendek dalam mengambil

keputusan bahwa pemahaman pelanggan bernilai tinggi dan menggunakan

informasi ini, untuk memprediksi kualitas yang akan meningkatkan nilai tingkat

menengah konsumen, membuka kesempatan (dan sebagian besar belum

dimanfaatkan) pasar yang besar.

Real-time marketing berfokus pada mengeksekusi satu persatyu promosi yang

memanfaatkan teknologi prediktif untuk menangkap selera personalisasi. Idenya

adalah bahwa dengan menyesuaikan pilihan pemasaran untuk konsumen,

perusahaan mendapatkan tingkat respons yang lebih baik untuk promosi mereka.

Sama pentingnya, bisnis sekarang memiliki outlet yang efektif untuk

membangun loyalitas dan nilai merek, dengan memasuki permintaan pelanggan

untuk layanan pribadi, dan keinginan mereka untuk menghindari kerumitan

melakukan riset penawaran layanan yang berbeda. Sebagai contoh, seorang

pelanggan hipotek dapat memberitahu bank pinjaman mengenai kredit mobil yang

ada. Seorang agen dari bank dapat menambahkan informasi ini ke profil

pelanggan, dan menyajikan kembali sebelum-disetujui oleh refinance dari kredit

mobil. Ini akan menghemat uang pelanggan dengan konsolidasi hipotek yang ada

dan kredit mobil dengan satu bank. Jika bank dapat menghitung penghematan

dengan cepat, pelanggan dapat melihat manfaat yang jelas [10].

2. Aplikasi Data-Mining di Retail

Margin Slim telah mendorong pengecer dalam merangkul data warehousing

lebih awal dari industri lain. Pengecer telah melihat peningkatan pendukung

keputusan proses mengarah langsung ke peningkatan efisiensi dalam manajemen

persediaan dan peramalan keuangan. Penerapan awal data warehousing oleh

pengecer telah memberi mereka kesempatan yang lebih baik untuk mengambil

keuntungan dari data mining. Rantai ritel besar dan toko kelontong menyimpan

sejumlah besar titik-of-sale data yang merupakan informasi yang kaya. Di garis

depan aplikasi yang telah diadopsi di ritel adalah aplikasi pemasaran langsung.

Pemasar langsung seringkali peduli tentang segmentasi pelanggan, yang

merupakan masalah clustering dalam data mining. Banyak vendor menawarkan

Page 43: Pengantar Data Mining FIX.docx

38

paket segmentasi pelanggan, seperti yang ditunjukkan pada Gambar 2.1.

perangkat lunak segmentasi Pelanggan, Courtesy of Software Pilot, dan Software

pilot juga menggunakan segmentasi pelanggan untuk membantu secara langsung-

mailing promosi, seperti yang ditunjukkan pada Gambar 2.2.

IBM telah menggunakan data mining untuk beberapa pengecer untuk

menganalisis pola belanja dalam toko berdasarkan informasi point of sale (POS).

Sebagai contoh, satu perusahaan ritel dengan $ 2 miliar dalam pendapatan,

300.000 UPC kode, dan 129 toko di 15 negara menemukan beberapa hasil yang

menarik setelah menganalisis informasi penjualan. Sebuah komentar eksekutif

toko: "Kami menemukan bahwa orang-orang yang datang ke toko condong ke sisi

kiri dari toko untuk item menggerakkan pro dan belum tentu berbelanja seluruh

toko." Informasi tersebut digunakan untuk mengubah aktivitas promosi dan

memberikan pemahaman yang lebih baik tentang bagaimana untuk lay out toko

dalam rangka mengoptimalkan penjualan.

Gambar 2.1 Perangkat Lunak Segmentasi Pelanggan Courtesy of Software Pilot [10]

Page 44: Pengantar Data Mining FIX.docx

39

Gambar 2.2 Sebuah aplikasi untuk promosi pemasaran langsungCourtesy of Software Pilot [10]

3. Aplikasi Data-Mining di Kesehatan

Data mining telah digunakan sudah secara luas dalam industri medis.

Misalnya, Sistem Neuro Medical menggunakan jaringan saraf untuk melakukan

pap smear bantuan diagnostik. Vysisuses menggunakan jaringan saraf untuk

melakukan analisis protein untuk pengembangan obat. The University of

Rochester Cancer Center dan Pusat Transplantasi menggunakan Oxford

Knowledge SEEKER, teknologi pohon keputusan, untuk membantu penelitian

mereka. The Southern California Spinal Disorders Hospital menggunakan

penemuan informasi untuk data mining. Penemuan informasi mengutip seorang

dokter yang mengatakan “Saat ini sendirian, saya datang dengan diagnosis untuk

pasien yang bahkan tidak harus melalui pemeriksaan fisik ".

3.1 Penggunaan Visualisasi Data di Industri Medis

Data visualisasi adalah salah satu bidang yang sudah membangun minat di

bidang medis. CrossGraphs produk Belmont Research telah digunakan dalam

berbagai aplikasi.

Page 45: Pengantar Data Mining FIX.docx

40

Ditunjukkan pada Gambar 3.1, adalah array dari grafik yang menunjukkan,

bersisian, cerita tentang aktivitas antibakteri Cefdinir dari waktu ke waktu.

Gambar 3.1 berguna untuk membandingkan tingkat kemanjuran dari patogen

antibakteri yang berbeda dari waktu ke waktu. Dalam kasus ini, zat antimikroba,

Cefdinir, sedang dipelajari terhadap zat lainnya untuk periode delapan jam [10].

Gambar 3.1. Keberhasilan Obat Antibakteri Selama Beberapa Waktu (Belmont

Research, Inc) [10]

Page 46: Pengantar Data Mining FIX.docx

41

4. Aplikasi Data-Mining di Telekomunikasi

Dalam beberapa tahun terakhir, industri telekomunikasi telah mengalami

salah satu makeover paling dramatis dari industri apapun. AS Telekomunikasi Act

of 1996 Perusahaan diperbolehkan Operasi Bell Daerah (RBOCs) untuk

memasuki pasar jarak jauh dan menawarkan "cablelike" layanan. The Liberalisasi

Eropa Jasa Telekomunikasi, efektif 1 Januari 1998, liberalisasi jasa

telekomunikasi di Eropa, dan menawarkan kompetisi penuh di antara negara-

negara Eropa yang berpartisipasi. Enam puluh delapan negara liberalisasi pasar

telekomunikasi mereka pada tanggal 1 Januari 1998 sampai bertepatan dengan

komitmen Eropa berdasarkan Perjanjian Telekomunikasi Organisasi Perdagangan

Dunia.

Tidak hanya telah ada deregulasi yang besar-besaran, namun di Amerika

Serikat, telah terjadi aksi jual oleh FCC dari gelombang radio kepada perusahaan

pelopor dengan cara baru untuk berkomunikasi. Industri seluler dengan cepat

mengambil langkah sendiri.

Data visualisasi daerah lain dengan menggunakan strategi banyak

telekomunikasi. Gambar 4.1 menunjukkan peta, yang diciptakan oleh

Pemberdayaan Geographics ® menggunakan teknologi MapInfo, menunjukkan

area masalah untuk jaringan telekomunikasi nirkabel [10].

Gambar 4.1. Sebuah Peta dari Titik-titik Jaringan Telekomunikasi Nirkabel yang Menjatuhkan Panggilan [10]

Page 47: Pengantar Data Mining FIX.docx

42

4.1 Contoh Kasus Data Mining

Pada bagian ini, sebuah studi kasus singkat dibahas, sebagai contoh konkret

"praktik terbaik" tentang bagaimana metode data mining pendidikan untuk belajar

dekomposisi (sejenis Hubungan pertambangan) digunakan untuk menentukan

efektivitas relatif dari berbagai jenis materi pembelajaran disajikan kepada siswa.

Dalam Beck dan Mostow (2008), data yang diperoleh dari 346 siswa sekolah

Amerika SD membaca 6,9 juta kata, selama setahun, sementara guru

menggunakan perangkat lunak cerdas yang mengajarkan membaca. Kata-kata ini

disajikan dalam bentuk cerita, dan mahasiswa dan perangkat lunak yang

mengambil cerita bergantian memilih (pilihan perangkat lunak cerita didasarkan

pada perkiraan tingkat membaca siswa kelas). Beck dan Mostow tertarik dalam

menentukan apakah membaca ulang cerita (pilihan populer untuk anak-anak)

adalah lebih atau kurang efektif dalam mempromosikan kata belajar daripada

menghadapi kata yang sama dalam cerita yang berbeda. Mereka juga tertarik pada

apakah akan ada perbedaan-perbedaan individual, sehingga beberapa siswa akan

mendapat manfaat dari pola yang berbeda dari praktek daripada yang lain.

Beck dan Mostow memperoleh data untuk kinerja masing-masing siswa

dalam membaca setiap cerita dalam perangkat lunak. Waktu membaca digunakan

sebagai ukuran terus menerus pengetahuan kata, mis-membaca dan bantuan-

permintaan juga diperhitungkan, membaca peluang di mana perilaku terjadi

ditugaskan waktu 3,0 detik (99,9% dari kata membaca lebih cepat dari 3,0 detik) .

Model eksponensial praktek didirikan, terkait waktu respon untuk fungsi:

Time = A * e –b (W*t1+t2);

Dalam parameter ini, persamaan A mewakili prestasi siswa pada kesempatan

pertama untuk membaca kata yang diberikan, parameter b merupakan kecepatan

keseluruhan pembelajaran, e adalah 2,718, dan t1 dan t2 mewakili berapa kali kata

tersebut dibaca, dalam dua jenis yang berbeda praktek. Dalam kasus ini, t1

didefinisikan sebagai jumlah kali kata itu dibaca ketika kembali membaca cerita

dan t2 didefinisikan sebagai jumlah kali kata itu dibaca ketika membaca cerita

untuk pertama kalinya. W adalah mendapatkan kecepatan relatif yang terkait

dengan dua jenis praktek. Jika W sama dengan 1, dua jenis praktek dianggap sama

Page 48: Pengantar Data Mining FIX.docx

43

efektif, jika W di atas 1, peluang t1 jenis yang lebih efektif daripada peluang jenis

t2 (dan sebaliknya berlaku jika W adalah di bawah 1).

Seluruh populasi siswa, nilai rata-rata W untuk membaca kembali diperoleh

oleh Beck dan Mostow adalah 0,49, menunjukkan bahwa re-membaca cerita

mengarah ke sekitar setengah belajar sebanyak membaca cerita baru. 95 dari 346

siswa memiliki parameter W statistik signifikan di bawah 1, sedangkan hanya 7

siswa memiliki nilai parameter W statistik signifikan lebih dari 1, hasil yang

signifikan secara statistik di seluruh kelas.

Beck dan Mostow selanjutnya menggunakan nilai W dari model dalam

analisis regresi logistik berikutnya (contoh pada table 3.1.yaitu penemuan dengan

model). Dalam analisis ini, model dekomposisi pembelajaran digunakan untuk

membagi populasi menjadi siswa yang diuntungkan dari membaca ulang dan

siswa yang tidak mendapat manfaat dari membaca ulang, dan berbagai variabel

penjelas diuji untuk melihat apakah mereka menjelaskan siswa yang diuntungkan

dari membaca kembali. Analisis ini menetapkan bahwa siswa dengan kecepatan

membaca secara keseluruhan yang rendah maka menerima dukungan kebutuhan

belajar khusus, sebenarnya memperoleh manfaat dari membaca ulang [11].

Tabel/ilustrasi :

Tabel 1.1 Kategori-kategori Utama dari Data Mining Pendidikan

Kategori Metode Tujuan Metode Kunci AplikasiRamalan Mengembangkan model

yang dapat menyimpulkan satu aspek data (variabel diprediksi) dari beberapa kombinasi dari aspek-aspek lain dari data (variabel prediktor)

Mendeteksi perilaku mahasiswa (misalnya game sistem, offtask perilaku, tergelincir); Mengembangkan model domain, Memprediksi dan memahami hasil siswa pendidikan

Pengelompokan Temukan titik data yang secara alami kelompok bersama-sama, membelah data set lengkap ke set ke dalam seperangkat kategori

Discovery kategori pola perilaku mahasiswa baru, kesamaan Investigasi dan perbedaan antara sekolah

Hubungan Mining Temukan hubungan antara variabel

Penemuan asosiasi kurikuler di urutan kursus; Menemukan strategi pengajaran yang

Page 49: Pengantar Data Mining FIX.docx

44

menyebabkan lebih efektif / kuat belajar

Penemuan dengan Model

Sebuah model dari fenomena yang dikembangkan dengan ramalan, clustering pengetahuan, atau teknik, digunakan sebagai komponen dalam prediksi lebih lanjut atau Hubungan pertambangan.

Penemuan hubungan antara perilaku siswa, dan karakteristik siswa atau variabel kontekstual, Analisis persoalan tersebut di berbagai konteks

Distilasi Data untuk Manusiakeputusan

Data didestilasi untuk mengaktifkan manusia dengan cepat mengidentifikasi atau mengklasifikasikan fitur dari data.

identifikasi Manusia pola dalam belajar siswa, perilaku, atau kolaborasi; Pelabelan data untuk digunakan dalam perkembangan selanjutnya model ramalan

5. Summary

Pada bab ini meliputi contoh industri data mining di bidang perbankan dan

keuangan, ritel, kesehatan, dan telekomunikasi dan contoh kasus penerapan data

mining pada pendidikan. Meskipun ini tentu bukan merupakan daftar termasuk

semua kegiatan datamining dan tidak memberikan contoh tentang bagaimana data

mining digunakan saat ini. Pada bab 4 akan membahas lebih spesifik tentang trend

data mining saat ini dan masa yang akan datang.

Page 50: Pengantar Data Mining FIX.docx

45

Bab 4

TOPIK LANJUTAN & TREND KE DEPAN

Sebagai bidang riset yang masih sangat muda sejak penemuan nya pada

tahun delapan puluhan, Data Mining telah banyak membantu untuk menggali

informasi yang terdapat pada data mentah yang di hasilkan baik itu dari suatu

sistem informasi maupun yang dari data yang di dapatkan melalui survey kepada

suatu objek tertentu. Dalam bab ini akan dibahas mengenai topik lanjutan dari

Data Mining beserta bagaimana trend Data Mining di masa mendatang.

1. Topik Lanjutan dari Data Mining

Beberapa aplikasi Data Mining yang telah ada telah mampu mencakup

banyak area dalam kehidupan sehari hari seperti area bisnis dan industri, biomedik

dan kesehatan, organisasi, politik, pencitraan dan tentunya dalam bidang science.

1.1 Intrusion Detection

Dalam perkembangan nya data mining telah di gunakan untuk mendeteksi

intrusi/serangan, dengan cara mencari penyusup dan mendeteksi penyalahgunaan,

dimana kesemua proses tersebut di lakukan dari secara internal. Dari pola yang di

hasilkan tools data mining bisa mengindikasikan apabila sistem telah atau akan di

penetrasi oleh seseorang dimana administrator akan melakukan review kembali

terhadap pola serangan tersebut dan menambahkan proteksi tambahan pada

sistem.

1.2 Identify Theft

Pemalsuan identitas untuk melakukan tindak kejahatan telah menjadi

permasalahan pada institusi sosial dan perbankan. Penipuan dengan menggunakan

identitas palsu marak terjadi, hal tersebut terjadi karena banyaknya orang yang

mampu untuk memalsukan identitas sehingga akan tampak bahkan sesuai dengan

aslinya. Dahulu mengidentifikasi pencurian atau penipuan terjadi apabila kejadian

tersebut sudah terjadi, usaha proaktif yang melibatkan pencarian data pribadi dan

Page 51: Pengantar Data Mining FIX.docx

46

rekord kredit secara manual untuk proses penyelidikan adalah sangat menyulitkan

dan tidak efisien karena data yang akan di analisa sangat banyak.

Dengan data mining pencarian tersebut bisa di otomatisasi dan tidak hanya

akan memberikan tanda kepada rekord yang invalid atau mencurigakan, tools data

mining juga bisa menciptakan model pola prilaku pencurian atau penipuan

sehingga pendekatan ini bisa memfasilitasi pengembangan dari strategi proaktif

dalam rangka untuk proses identifikasi pencurian [....]

1.3 Syndrome Surveilance

Sistem pengawasan Syndromic telah di kembangkan untuk mendeteksi

penyebaran penyakit menular dan bioterorisme, dengan mengunakan deteksi

anomali sistem ini mampu mendeteksi cluster gejala yang tidak biasa dan

perubahan tingkat penyakit yang tidak terantisipasi. Dengan mengembangkan

sistem deteksi anomali standar dan menambahkan rule keputusan yang tepat

kemampuan proses penyaringan data ini bisa maksimal dan menghasilkan

informasi yang tepat guna. [..]

1.4 Data Collection, Fusion dan Preposition

Kumpulan data, penggabungan berbagai macam data dan preposisi data

adalah tehnik mining sangat sangat mendukung surveilance atau pengawasan

terhadap suatu bidang tertentu. Banyak nya data yang ada baik itu data yang di

dapat dari pengawasan secara online maupun pengawasan secara offline,

membuat tingkat kesulitan untuk mendapatkan informasi penting yang di

butuhkan semakin tinggi.

Dengan adanya tools data mining, kesemua data yang ada baik yang di dapat

melalui pengawasan online maupun offline (pengawasan langsung) bisa di

gabungkan lalu kemudian di pilah pilah untuk mendapatkan beberapa data yang

bersifat krusial sehingga bisa di analisa secara menyeluruh untuk mendapatkan

knowledge discovery baru yang bisa di gunakan untuk menindaklanjuti

permasalahan yang ada. Dengan data mining suatu model pengawasan baru yang

lebih kompleks bisa di kembangkan yang bisa meliputi pengawasan gegografi

tertentu dan objek yang terisolasi dengan mengunakan gabungan sumberdaya data

dan tools data mining terkait.

Page 52: Pengantar Data Mining FIX.docx

47

Gambar 4.1. Model pengawasan dengan data mining yang menggabungkan

berbagai resource [..]

1.5 Text Mining

Kebutuhan analyst untuk text mining sudah sangat penting sekali, dan itu

telah membuat software developer berusaha untuk mengembangkan kemampuan

dari tools text mining yang sudah ada. Text mining bisa di gunakan untuk

menyeidiki kasus kasus yang mempunyai data berupa informasi tertulis, dari

informasi raw tersebut tools text mining kemudian mengidentifikasi key concept

yang ada lalu kemudian memberikan informasi baru yang berhasil di extraksi dari

informasi yang tidak terstruktur tersebut sekaligus membuatkan model informasi

yang dapat membantu analyst untuk memperkirakan penyebab kasus tersebut.

1.6 Fraud Detection

Bidang pengembangan data mining lain nya adalah untuk mendeteksi

penyimpangan. Dalam bidang ini beragam penyimpangan yang akan dan sedang

terjadi bisa di deteksi dengan model algoritma yang menggunakan tehnik

clustering dan deteksi anomali. Model algoritma tersebut bisa mengidentifikasi

pola atau prilaku yang menyimpang dari pola yang sudah ada, dan informasi baru

yang di hasilkan dari analisa pola tersebut bisa menpjadi bahan pertimbangan

untuk investigasi lebih lanjut.

Bidang perbankan dan keamanan adalah contoh dimana aplikasi data mining

for fraud detection banyak dipergunakan, banyak nya transaksi yang terjadi dalam

Page 53: Pengantar Data Mining FIX.docx

48

sehari pada bidang perbankan telah membuat data transaksi menjadi sulit untuk di

telusuri secara manual. Implementasi model algoritma seperti yang di sebutkan di

atas bisa membantu melakukan pembentukan model pola normal dan

pendeteksian terhadap pola yang menyimpang dari pola normal.

Demikian pula pada bidang keamaanan, dengan menggabungkan semua

informasi kejahatan dan menerapkan tehnik clustering dan deteksi anomali seperti

yang di sebutkan di atas, petugas bisa menentukan apakah kejahatan tersebut di

lakukan oleh orang yang sama, sekaligus memprediksi kapan kejahatan lain akan

terjadi sehingga bisa di lakukan tindakan pencegahan sekaligus menangkap pelaku

kejahatan.

1.7 Bio-Informatics & Medical Research

Saat ini berbagai tehnik dan tools data mining telah banyak di gunakan dalam

riset biologi dan medis, dalam riset tersebut hasil yang di harapkan adalah

informasi baru yang di hasilkan dari data yang ada. Penerapan data mining dalam

bio-informatics dan medical research lebih banyak kepada riset tentang pengaruh

DNA manusia terhadap suatu penyakit yang di derita seperti kanker, HIV dan

berbagai penyakit lain yang mempunya kemungkinan berkorelasi dengan DNA

[3]. Disamping menelusuri pengaruh genetika terhadap suatu penyakit,

penambangan data juga di lakukan pada DNA untuk menemukan pengobatan

terhadap penyakit mematikan seperti HIV dan kanker sekaligus mengalisa

penyebab kelainan fisik bawaan.

1.8 Business Trends

Perkembangan dunia usaha sangat dinamis pada saat ini membuat pelaku

usaha harus bereaksi secara cepat terhadap terhadap perubahan, lebih banyak

memberikan quality service guna mendapatkan profit yang di inginkan. Pada

sektor ini data mining berperan untuk membuat transaksi yang di lakukan oleh

konsumen menjadi semakin cepat dan akurat, penggunaan tehnik data mining

seperti classification, regression dan cluster analysis di gunakan untuk

menentukan keputusan yang tepat di samping menciptakan suatu lingkungan

usaha pintar (Business Inteligence) yang berbasis informasi [3].

Page 54: Pengantar Data Mining FIX.docx

49

2. Trend Ke Depan dari Data Mining

Data mining merupakan salah satu ilmu baru yang area cakupan nya sangat

luas tidak hanya terpaku pada engineering tapi sudah mencakup area seperti riset

biologi dan medis, riset ekosistem, security dan public safety, industri dan bahkan

penggalian informasi tersembunyi yang terdapat pada data tulisan sehingga akan

di dapatkan nya informasi baru.

2.1 Text Mining

Tools data mining seperti text mining merupakan tools yang sangat

menjanjikan untuk di aplikasikan kedalam analisa public safety dan security

mining, kemampuan nya untuk mengolah informasi tertulis dan mendapatkan

informasi baru dari informasi raw yang tidak terstruktur tersebut telah membuat

tools ini menjadi salah satu tools yang sangat banyak di gunakan oleh analyst.

Kedepan nya pengunaan text mining untuk mendapatkan knowledge

discovery akan banyak di gunakan karena kemampuan nya dan proses mining

yang cepat dan terotomasi. Institusi yang bergerak dalam bidang keamanan akan

banyak mempergunakan text mining guna mendukung intelligence analysis yang

perlu di lakukan. Berbagai macam knowledge discovery yang di hasilkan oleh text

mining pada security analisyst dapat pula di pergunakan oleh institusi lain untuk

mendukung pekerjaan mereka dan sebalik nya, sehingga akan tercipta suatu

gudang data / informasi yang merupakan data sentral yang bisa di akses oleh

beragam institusi guna mendapatkan informasi baru yang di butuhkan.

Beragam tools lain seperti seperti voice recognition dan translation software

bisa di integrasikan kedalam text mining sehingga bisa menyediakan layanan

realtime analytical support melalui text mining dalam fusion center kepada

pengguna kapan saja dan dimana saja tanpa menghabiskan banyak waktu untuk

mengumpulkan data dan menginput data [..].

Page 55: Pengantar Data Mining FIX.docx

50

Gambar 4.2. Ilustrasi model konseptual dari pemberian analisa informasi kepada

proses operasional [..]

Dari gambar konseptual di atas berdasarkan data yang di dapat dari hasil

interview lalu di lakukan pencarian dengan menggunakan tools voice recognition

dimana input dari voice recognition akan di proses menggunakan metode text

mining. Knowledge discovery yang di hasilkan lalu di analisa dalam analytical

fusion center dimana informasi external juga bisa di dapatkan dari fusion center

yang lain guna memperkaya dan melengkapi informasi yang di perlukan. Setelah

di analisa dalam fusion center, scoring algorithm bertugas untuk memberikan

ranking kepada informasi baru yang di hasilkan setelah proses perankingan lalu di

tetapkan strategi interview yang sesuai dan kemudian strategi tersebut akan di

bawa pada proses interview kembali.

2.2 Image Data Mining

Semantic dan image mining di perkirakan akan menjadi trend kedepan, dalam

hal ini analyst bisa menemukan informasi tersembunyi dalam data gambar

menggunakan kecerdasan buatan dan structural analysis software, karakteristik

atau pola yang terkandung dalam gambar bisa di identifikasi dan informasi

Page 56: Pengantar Data Mining FIX.docx

51

keluaran nya bisa di pergunakan untuk kemajuan dalam bidang science lain nya

dan tentunya business sectors [2].

2.3 Data Mining dalam Industri Keuangan

Menggali informasi dari data yang ada pada bursa saham dan pasar valas

tentunya akan sangat sulit di kerjakan karena banyak nya data dan faktor faktor

lain yang dapat menciptakan perubahan terhadap data, penggunaan tools dan

tehnik data mining dalam bidang tersebut akan sangat membantu para brooker

untuk mendapatkan informasi penting yang sangat mereka butuhkan [3].

Tujuan penggunaan data mining dalam area ini adalah untuk mendapatkan

lebih banyak profit melalui prediksi yang lebih akurat yang didapat dari analisa

pola dan model sehingga keputusan yang di ambil bisa berdasarkan sumber

informasi yang terpercaya.

2.4 Mendeteksi Gangguan Ekosistem

Ekosistem adalah suatu area study yang luas yang mencakup remote sensing,

earth-science, biosphere, study kelautan, dan prediksi ekosistem, dalam bidang ini

data mining di gunakan untuk mendapatkan pola yang tejadi pada ekosistem,

sehingga bisa di tarik informasi baru atau kesimpulan tentang siklus bumi yang

terjadi [3]. Informasi mengenai perubahan keadaan tanah, pergerakan air laut, dan

informasi tentang ekosistem lain akan menjelaskan tentang kejadian alam luar

biasa seperti gempa bumi, tsunami, badai es, dan pencairan es kutub serta

peninggian level air laut dari tahun ke tahun.

2.5 Fusion Centre

Beragam informasi yang di hasilkan oleh beberapa bidang tertentu,

berkemungkinan akan berguna bagi suatu bidang lain nya. dimana informasi

tersebut bisa berguna apabila di lakukan analisa menyeluruh dengan metode

metode yang terdapat pada data mining.

Karena data dari beberapa bidang saling memiliki korelasi, maka terciptalah

ide untuk menggabungkan semua data tersebut kedalam sentral data (Fusion

Centre) [..]. Fungsi analitis yang yang di hadirkan oleh fusion centre memiliki

keterbatasan hanya pada pencarian repository data dan penciptaan statistik, dari

Page 57: Pengantar Data Mining FIX.docx

52

pusat gabungan data ini bisa di buat suatu tools untuk melakukan analisa prediktif

untuk melakukan analisa terhadap repository yang ada.

Gambar 4.3. Ilustrasi informasi dari tools konseptual yang berisi inti analisa dan

fusion centre [..]

Dari gambar di atas menunjukan susunan node yang saling berhubungan yang

di dukung oleh suatu fusion centre, dimana model di atas sudah menggunakan

analytic filter untuk memproses data menjadi informasi yang dapat mendukung

suatu keputusan. Node di atas melambangkan informasi yang terhubung dengan

fusion center dimana pembaharuan informasi tersebut akan selalu di teruskan ke

fusion center.

2.6 Virtual Warehouse

Pembuatan data warehosue dapat menghabiskan banyak biaya dan juga tidak

mampu memberikan kecepatan proses yang di butuhkan analyst keamanan.

Banyaknya informasi yang ada pada word wide web telah memungkinan

terciptanya virtual warehouse yang mampu memberikan yang tidak bisa di

berikan oleh data warehouse tradisional. Semua informasi dari virtual warehouse

dapat di refresh dan update secara mudah sehingga selalu mampu memberikan

knowledge discovery yang baru kepada pengguna nya.

Page 58: Pengantar Data Mining FIX.docx

53

3. Summary

Perkembangan tehnik data mining dari semenjak di temukan nya telah

berhasil mencakup area study yang sangat luas, dimana pada masing masing area

study tehnik data mining mampu membantu memberikan solusi terbaik yang di

dapat dari pengolahan data dan pengetahuan baru (discovery knowledge).

Page 59: Pengantar Data Mining FIX.docx

54

DAFTAR PUSTAKA

[1] de Ville, Barry. 2001. The Discovery and Delivery of Knowledge for

Effective Enterprise Outcomes: Knowledge Management. Sidney:

DigitalPress.

[2] Hand, David, Heikki Mannila and Padhraic Smith. 2001. Principles of Data

Mining. Massachusets: The MIT Press.

[3] Han, Jiawei and Micheline Kamber. 2006. Data Mining: Concepts and

Techniques. California: Morgan Kauffman Publishers.

[4] McCue, Colleen. 2006. Data Mining and Predictive Analysis: Inteligence

Gathering and Crime Analysis. Oxford: Butterworth-Heinemann.

[5] Dr. Rajni Jain, Introduction to Data Mining Techniques. Tersedia online :

http://www.iasri.res.in/ebook/expertsystem/DataMining.pdf. Diakses tang-

gal : 23 Februari 2013.

[6] http://www.ibm.com/developerworks/opensource/library/ba-data-mining-

techniques/index.html?ca=drs-. Diakses tanggal : 24 Februari 2013.

[7] http://www.theiia.org/intAuditor/itaudit/archives/2006/august/data-mining-

101-tools-and-techniques/. Diakses tanggal : 24 Februari 2013.

[8] http://en.wikipedia.org/wiki/Data_mining. Diakses tanggal : 24 Februari

2013.

[9] Vikram, Karimella, Niraj Upadhayaya, 2011, Data Mining Tools and

Techniques: a review, www.iiste.org. Diakses tanggal : 24 Februari 2013.

[10] Industry Application of Data Mining. Tersedia online : http://www.pearson-

highered.com/samplechapter/0130862711.pdf. Diakses tanggal : 23 Februari

2013.

[11] Baker, Ryan S.J.d. Data Mining for Education. Carnegie Mellon University,

Pittsburgh, Pennsylvania, USA.

[12] Witten, Ian H. Text Mining. Tersedia online : http://www.cs.waikato.ac.nz/~

ihw/papers/04-IHW-Textmining.pdf. Diakses tanggal : 22 Februari 2013.

[13] http://invensis.net/blog/industry-news/data-mining-future-trends-predicted-

2012. Diakses tanggal : 20 Februari 2013.

Page 60: Pengantar Data Mining FIX.docx

55

[14] Kumar, Dharminder and Deepak Bhardwaj. “Rise of Data Mining: Current

and Future Application Area”. International Journal of Computer Science

Issues, vol.8, Issue 5. 2011. Tersedia online : http://www.cs.xu.edu/csci390/

12s/RiseofDataMining.pdf. Diakses tanggal : 20 Februari 2013.