Makalah winda

KONSEP DATA MINING DAN IMPLEMENTASI

(PENERAPAN)

DOSEN : MUHAMMAD IQBAL DZULHAQ

MATAKULIAH : DATA WAREHOUSE DAN MINING

NAMA : WINDA NOVIANA

NPM: 1211010268

SISTEM INFORMASI

STMIK BINA SARANA GLOBAL

KATA PENGANTAR

Puji syukur kehadirat ALLAH SWT yang telah memberi beribu-ribu nikmat kepada

kita semua diantaranya yaitu nikmat sehat. Karena nikmatnya lah, alhamdulillah

saya dapat menyelesaikan tugas makalah ini sampai selesai.

Terima kasih kepada bapak iqbal yang telah memberikan saya kesempatan untuk

embuat makalah ini, terima kasih saya ucapkan kepada kedua orang tua saya yang

senantiasa memberi dukungan moril kepada saya, dan terima kasih juga kepada

teman-teman saya yang telah memberi suport kepada saya dalam menyelesaikan

makalah ini.

Semoga apa yang saya tuliskan dalam makalah ini dapat bermanfaat sebagai

sumber pengetahuan bagi kita semua khususnya disri saya sendiri. Saya mohon

maaf jika terdapat banyak kesalahan dalam penulisan makalah ini, karena saya

juga sedang dalam peroses belajar.

Terima kasih

Tangerang, 20 february 2013

penulis

i

Pendahuluan

Manusia telah "secara manual" mengekstrak pola dari data selama

berabad-abad, tetapi

meningkatnya volume data yang di zaman modern telah menyerukan

pendekatan yang lebih otomatis.

Metode awal untuk mengidentifikasi pola-pola dalam data termasuk Bayes

'teorema (1700) dan Analisis

Regresi (1800). Proliferasi, di mana-mana dan meningkatkan kekuatan

teknologi komputer telah meningkat

pengumpulan data dan penyimpanan. Seperti kumpulan data telah tumbuh

dalam ukuran dan kompleksitas,

tangan langsung-analisis data telah semakin telah ditambah dengan

tidak langsung, pemrosesan data

otomatis. Ini telah dibantu oleh penemuan-penemuan lain dalam ilmu

komputer, seperti jaringan saraf,

Clustering, Genetic algorithms (1950), Keputusan pohon (1960) dan

Dukungan mesin vektor (1980).

diperlukan sebuah metode sebagai penerapan pengumpulan data yang dapat

menampung, menganalisis

secara akurat data yang bagitu besar, metode tersebut hingga saat ini

dikenal sebagai Data Mining.

ii

Daftar isi

1. Kata pengantar……………………………………………… i

2. Pendahuluan ……………………………………………… ii

3. Daftar isi……………………………………………………… iii

4. Pengertiian data mining…………....................................

1

5. Proses data mining…………………………………………. 2

6. Teknik data mining…………………………………………. 4

7. Implementasi data mining………………………. ………… 5

8. Contoh kasus data mining……….………………………. .. 6

9. Kesimpulan………….……………………………………….. 11

10. Daftar pustaka……………………………………. ………… 12

Iii

Pengertian Data MiningApa itu data mining???????

Data Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu

kumpulan data

berupa pengetahuan yang selama ini tidak diketahui secara manual. Patut

diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit

barang berharga dari sejumlah besar material dasar. Karena itu DM sebenarnya

memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan

(artificial intelligent), machine learning, statistik dan database.

Data mining adalah proses menerapkan metode ini untuk data dengan maksud untuk

mengungkap

pola-pola tersembunyi. Dengan arti lain Data mining adalah proses untuk

penggalian pola-pola dari data.

Data mining menjadi alat yang semakin penting untuk mengubah data tersebut

menjadi informasi. Hal ini

sering digunakan dalam berbagai praktek profil, seperti pemasaran, pengawasan,

penipuan deteksi dan

penemuan ilmiah. Telah digunakan selama bertahun-tahun oleh bisnis, ilmuwan

dan pemerintah untuk

menyaring volume data seperti catatan perjalanan penumpang penerbangan, data

sensus dan supermarket scanner data untuk menghasilkan laporan riset pasar.

Alasan utama untuk menggunakan data mining adalah untuk membantu dalam

analisis koleksi

pengamatan perilaku. Data tersebut rentan terhadap collinearity karena

diketahui keterkaitan. Fakta yang tak terelakkan data mining adalah bahwa

subset/set data yang dianalisis mungkin tidak mewakili seluruh

domain, dan karenanya tidak boleh berisi contoh-contoh hubungan kritis

tertentu dan perilaku yang ada di

bagian lain dari domain . Untuk mengatasi masalah semacam ini, analisis dapat

ditambah menggunakan

berbasis percobaan dan pendekatan lain, seperti Choice Modelling untuk data

yang dihasilkan manusia.

Dalam situasi ini, yang melekat dapat berupa korelasi dikontrol untuk, atau

dihapus sama sekali, selama

konstruksi desain eksperimental.

Beberapa teknik yang sering disebut-sebut dalam literatur Data Mining dalam

penerapannya antara

lain: clustering, classification, association rule mining, neural network,

genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap Data Mining

adalah perkembangan teknik-teknik Data Mining untuk aplikasi pada database

skala besar. Sebelum populernya Data Mining, teknik-teknik tersebut hanya

dapat dipakaiuntuk data skala kecil saja.

1

Proses Data Mining

Tahap-Tahap Data Mining. Karena Data Mining adalah suatu rangkaian proses,

Data Mining dapat

dibagi menjadi beberapa tahap:

1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise)

2. Integrasi data (penggabungan data dari beberapa sumber)

3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)

4. Aplikasi teknik Data Mining

5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)

6. Presentasi pengetahuan (dengan teknik visualisasi)

Tahap-tahap tsb. bersifat interaktif di mana pemakai terlibat langsung atau

dengan perantaraan knowledge

base.

3

Teknik Data MiningBerikut beberapa jenis teknik Data Mining yang paling populer dikenal dan

digunakan:

1. Association Rule Mining

Association rule mining adalah teknik mining untuk menemukan aturan assosiatif

antara suatu

kombinasi item. Penting tidaknya suatu aturan assosiatif dapat diketahui

dengan dua parameter, support

yaitu persentase kombinasi item tsb. dalam database dan confidence yaitu

kuatnya hubungan antar item

dalam aturan assosiatif.

Algoritma yang paling populer dikenal sebagai Apriori dengan paradigma

generate and test, yaitu pembuatan kandidat kombinasi item yang mungkin

berdasar aturan tertentu lalu diuji apakah kombinasi item tsb memenuhi syarat

support minimum. Kombinasi item yang memenuhi syarat tsb. disebut frequent

itemset,yang nantinya dipakai untuk membuat aturan-aturan yang memenuhi syarat

confidence minimum. Algoritma baru yang lebih efisien bernama FP-Tree.

2. Classification

Classification adalah proses untuk menemukan model atau fungsi yang

menjelaskan atau membedakan

konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari

suatu objek yang labelnya

tidak diketahui. Model itu sendiri bisa berupa aturan “jika-maka”, berupa

decision tree, formula matematis

atau neural network.

Decision tree adalah salah satu metode classification yang paling populer

karena mudah untuk

diinterpretasi oleh manusia. Disini setiap percabangan menyatakan kondisi yang

harus dipenuhi dan tiap

ujung pohon menyatakan kelas data. Algoritma decision tree yang paling

terkenal adalah C4.5, tetapi akhir- akhir ini telah dikembangkan algoritma

yang mampu menangani data skala besar yang tidak dapat

ditampung di main memory seperti RainForest. Metode-metode classification yang

lain adalah Bayesian,

neural network, genetic algorithm, fuzzy, case-based reasoning, dan k-nearest

neighbor.

Proses classification biasanya dibagi menjadi dua fase : learning dan test.

Pada fase learning, sebagian

data yang telah diketahui kelas datanya diumpankan untuk membentuk model

perkiraan. Kemudian pada

fase test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk

mengetahui akurasi dari

model tsb. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi

kelas data yang belum

diketahui.

3. Clustering

Berbeda dengan association rule mining dan classification dimana kelas data

telah ditentukan

sebelumnya, clustering melakukan penge-lompokan data tanpa berdasarkan kelas

data tertentu. Bahkan

clustering dapat dipakai untuk memberikan label pada kelas data yang belum

diketahui itu. Karena itu

clustering sering digolongkan sebagai metode unsupervised learning.

4

Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu

kelas dan meminimumkan kesamaan antar kelas/cluster. Clustering dapat

dilakukan pada data yan memiliki beberapa atribut yang dipetakan sebagai ruang

multidimensi.

Banyak algoritma clustering memerlukan fungsi jarak untuk mengukur kemiripan

antar data, diperlukan

juga metode untuk normalisasi bermacam atribut yang dimiliki data. Beberapa

kategori algoritma clustering yang banyak dikenal adalah metode partisi dimana

pemakai harus menentukan jumlah k partisi yang diinginkan lalu setiap data

dites untuk dimasukkan pada salah satu partisi, metode lain yang telah lama

dikenal adalah metode hierarki yang terbagi dua lagi : bottom-up yang

menggabungkan cluster kecil menjadi cluster lebih besar dan top-down yang

memecah cluster besar menjadi cluster yang lebih kecil. Kelemahan 3 metode ini

adalah bila bila salah satu penggabungan/pemecahan dilakukan pada tempat yang

salah, tidak dapat didapatkan cluster yang optimal. Pendekatan yang banyak

diambil adalah menggabungkan metode hierarki dengan metode clustering lainnya

seperti yang dilakukan oleh Chameleon.

Akhir-akhir ini dikembangkan juga metode berdasar kepadatan data, yaitu jumlah

data yang ada di

sekitar suatu data yang sudah teridentifikasi dalam suatu cluster. Bila jumlah

data dalam jangkauan tertentu lebih besar dari nilai ambang batas, data-data

tsb dimasukkan dalam cluster. Kelebihan metode ini adalah bentuk cluster yang

lebih fleksibel. Algoritma yang terkenal adalah DBSCAN.

Implementasi (Penerapan)Dalam bidang apasaja data mining dapat diterapkan? Berikut beberapa contoh

bidang penerapan

data mining:

- Analisa pasar dan manajemen.

Solusi yang dapat diselesaikan dengan data mining, diantaranya: Menembak

target pasar, Melihat pola

beli pemakai dari waktu ke waktu, Cross-Market analysis, Profil Customer,

Identifikasi kebutuhan

Customer, Menilai loyalitas Customer, Informasi Summary.

- Analisa Perusahaan dan Manajemen resiko.

Solusi yang dapat diselesaikan dengan data mining, diantaranya: Perencanaan

keuangan dan Evaluasi

aset, Perencanaan sumber daya (Resource Planning), Persaingan (Competition).

- Telekomunikasi.

Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat dari

jutaan transaksi yang

masuk, transaksi mana sajakah yang masih harus ditangani secara manual.

- Keuangan.

Financial Crimes Enforcement Network di Amerika Serikat baru-baru ini

menggunakan data mining

untuk me-nambang trilyunan dari berbagai subyek seperti property, rekening

bank dan transaksi

keuangan lainnya untuk mendeteksi transaksi-transaksi keuangan yang

mencurigakan (seperti money

laundry) .

5

- Asuransi.

Australian Health Insurance Commision menggunakan data mining untuk

mengidentifikasi layanan

kesehatan yang sebenarnya tidak perlu tetapi tetap dilakukan oleh peserta

asuransi .

- Olahraga.

IBM Advanced Scout menggunakan data mining untuk menganalisis statistik

permainan NBA (jumlah

shots blocked, assists dan fouls) dalam rangka mencapai keunggulan bersaing

(competitive advantage)

untuk tim New York Knicks dan Miami Heat.

- Astronomi.

Jet Propulsion Laboratory (JPL) di Pasadena, California dan Palomar

Observatory berhasil menemukan

22 quasar dengan bantuan data mining. Hal ini merupakan salah satu kesuksesan

penerapan data

mining di bidang astronomi dan ilmu ruang angkasa.

- Internet Web surf-aid

IBM Surf-Aid menggunakan algoritma data mining untuk mendata akses halaman Web

khususnya yang

berkaitan dengan pemasaran guna melihat prilaku dan minat customer serta

melihat ke- efektif-an

pemasaran melalui Web.

Contoh kasus:

Implementasi data mining dengan teknik Clustering untuk melakukan

Competitive Intelligence perusahaan.

Pembangunan perangkat lunak data mining dengan metode clustering menggunakan

algoritma hirarki

divisive untuk pengelompokan customer dalam studi kasus ini, fungsi – fungsi

yang dipakai adalah fungsi

untuk menentukan titik-titik pusat yang berguna sebagai pusat-pusat kelompok

customer.

Langkah 1.

6

Fungsi untuk menentukan titik pusat awal dari semua data customer yang ada

berdasarkan

transaksi yang dilakukan menggunakan perhitungan nilai rata-rata (mean) dari

semua data yang ada dalam tabel frekuensi transaksi. Pada langkah ini

digunakan perhitungan nilai rata-rata (mean) karena untuk mengantisipasi

adanya nilai outline (nilai yang letaknya sangat jauh dari data yang ada) dari

data yang ada dalam tabel frekuensi. Contoh perhitungan dari sample data

frekuensi transaksi customer, adalah sebagai berikut:

7

Dari contoh data frekuensi diatas, maka kemudian diurutkan dari frekuensi

paling kecil sampai ke frekuensi terbesarnya, yaitu sebagai berikut:

Data frekuensinya :0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,2,2,2,4,5,5,6,7,11,11,15.

Maka perhitungan pada langkah I ini adalah sebagai berikut:

Perhitungan nilai rata-rata (mean) dari semua nilai yang ada pada

tabel frekuensi.

= 0+0+0+0+0+0+0+0+0+1+1+1+1+1+1+1+2+2+2+4+5+5+6+7+11+11+15/30

= 2.56666666667.

Perhitungan titik pusat 1

→ nilai frekuensi terkecil + nilai mean dari semua data tabel frekuensi/ 2

= 0+2.56666666667/2

= 1.283333333333.


→ menggunakan hasil perhitungan nilai rata-rata (mean) dari semua nilai

yang ada pada tabel

frekuensi.

= 2.56666666667.


→ nilai rata-rata dari semua data tabel frekuensi + nilai frekuensi

terbesar / 2.

= 2.56666666667 + 15 /2

= 8.78333333333.

Maka hasil titik pusat dari langkah I ini adalah :

Titik pusat 1 = 1.283333333335

Titik pusat 2 = 2.56666666667

Titik pusat 3 = 8.78333333333

Setelah pencarian titik pusat klaster pada langkah 1 diketahui hasilnya,

kemudian titik – titik pusat tersebut digunakan untuk menarik anggota dari

semua nilai data yang ada pada tabel frekuensi dengan

menggunakan sistem perhitungan jarak kedekatan setiap data dengan masing-

masing titik pusat tersebut.Perhitungan jarak kedekatan dalam langkah 1 ini

ditentukan dengan perhitungan selisih antar titik pusat dibagi 2, kemudian

hasil selisih titik pusat tersebut ditambahkan pada titik pusat yang lebih

kecil dan dikurangkan dengan titik pusat yg lebih besarnya, sehingga bisa

diambil kesimpulan bahwa data-data yang berada dalam rentang titik pusat

tersebut merupakan anggotanya.

Contoh: Untuk menentukan anggota cluster dari titik pusat 2, meliputi :

Perhitungan rentang terendah :

= 2.576666666667 - 1.283333333335 / 2 = 0.646666666666.

Maka titik terendah dari titik pusat 2 adalah

= 2.56666666667 - 0.646666666666 = 1.920

8

Perhitungan rentang tertinggi:

= 8.78333333333 - 2.56666666667 / 2 = 3.10833333333

Maka titik tertinggi dari titik pusat 2 adalah 6

= 2.56666666667 + 3.10833333333

= 5.675

Sehingga anggota cluster dari titik pusat 2 bisa diambil dari rentang

titik frekuensi data : 1.920 ≤

anggota cluster titik pusat 2 < 5.675

Langkah 2.

Setelah klaster-klaster pada langkah 1 terbentuk, maka pada langkah 2 ini

dilakukan pengecekan

ulang perhitungan titik pusat setiap klaster dengan menggunakan perhitungan

nilai median (perhitungan nilai tengah). Pemakaian perhitungan nilai median

karena semua data yang ada sudah diketahui pada langkah1, sehingga tidak ada

kekhawatiran munculnya data outline. Contoh perhitungan pada langkah 2

berdasarkan semua data yang ada pada halis langkah I adalah sebagai berikut:

Titik pusat 1

Membaca semua data anggota klaster ini pada langkah I, yaitu:

0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,2,2,2

Dari data diatas, untuk menghitung nilai titik pusat 1 pada langkah 2

digunakan perhitungan dengan

langkah sebagai berikut:

a. Jumlahkan semua item data yang ada pada klaster 1 pada langkah I

Num=[0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,2,2,2] = 19 item

b. Kemudian melakukan perhitungan titik pusat menggunakan perhitungan

median (nilai tengah)

untuk mengecek titik pusat pada langkah 1

Jika Nilai sisa bagi = 19mod2 = 1

Karena sisa bagi dari total item 1, maka perhitungan titik pusat

= ((19/2) +((19/2)-1)/2

= 9 nilai tengahnya berada diantara item ke – 9 yang dibaca dari awal

data dan akhir data dari

anggota klaster 1 pada langka I

=[0,0,0,0,0,0,0,0,0|1|1,1,1,1,1,1,2,2,2]

Jadi nilai titik pusat satu pada langkah II adalah 1.

Kemudian titik pusat satu pada langkah II ini dibandingkan dengan titik

pusat satu pada langkah I,

dimana nilai 1 ≠ 1.283333333335 sehingga bisa ditarik kesimpulan bahwa

titik pusat masih berubah.

Titik pusat 2

Anggota klaster ini pada langkah I adalah : 4,5,5

Dari data diatas, titik pusat 2 pada langkah II ini dihitung dengan cara

sebagai berikut:


Num = [4,5,5] = 3 item

9




Jika Nilai sisa bagi = 3 mod 2 = 1


= ((3/2) +((3/2)-1)/2

= 1 → nilai tengahnya berada diantara item ke – 1 yang dibaca dari

awal data dan akhir data dari anggota klaster 2 pada langka I = [5|5|5]

7

Jadi nilai titik pusat dua pada langkah II adalah 5.

Kemudian titik pusat dua pada langkah II ini dibandingkan dengan titik

pusat dua pada langkah I,

dimana nilai 5 ≠ 2.56666666667 sehingga bisa ditarik kesimpulan bahwa titik

pusat masih berubah

Titik pusat 3

Anggota cluster pada langkah I adalah : 6,7,11,11,15

Dari data diatas, titik pusat 3 pada langkah II ini dihitung dengan cara

sebagai berikut:


Num = [6,7,11,11,15] = 5 item




Jika Nilai sisa bagi = 5 mod 2 = 1


= ((5/2) +((5/2)-1)/2

= 2 → nilai tengahnya berada diantara item ke – 2 yang dibaca dari awal

data dan akhir data

dari anggota klaster 3 pada langka I

= [6,7|11|11,15]

Jadi nilai titik pusat satu pada langkah II adalah 11.

Kemudian titik pusat tiga pada langkah II ini dibandingkan dengan titik

pusat tiga pada langkah I,

dimana nilai 11 ≠ 8.78333333333 sehingga bisa ditarik kesimpulan bahwa

titik pusat masih berubah.

Karena hasil titik pusat pada langkah dua ini masih beruba maka dilakukan

perhitungan jarak rentang

anggota masing – masing cluster, sebagai penentu suatu nilai data masuk pada

tiap-tiap klaster yang jarak

titik pusatnya paling dekat dengan data. Contoh perhitungan jarak rentang

antar data adalah, sebagai

berikut:

Titik pusat 1

→ Rentang titik pusat 1 = Titik pusat 2 – titik pusat 1 / 2 = 5-1 / 2 = 2

Maka rentang anggota titik pusat 1 langkah II = 1 +2 = 3

→ anggota klaster 1 pada langkah II < data frekuensi bernilai 3

10

Titik pusat 2

→ Rentang terendah = 5 - 1 / 2 = 2

Maka rentang terendah = 5 – 2 = 3

→ Rentang tertinggi : 11 – 5 / 2 = 3

Maka rentang teringgi = 5 + 3 = 8

Sehingga rentang anggota titik pusat 2 data frekuensi bernilai 3 ≤

anggota klaster 2 pada langkah

II < data frekuensi bernilai 8

Titik pusat 3

→ Rentang titik pusat 3 = titik pusat 3 – titik pusat 2 / 2 = 11 – 5 / 2 =

3

Maka rentang anggota titik pusat 3 = 11 – 3 = 8 → data frekuensi bernilai 8

≤ anggota klaster 3 pada

langkah 2.

Langkah 3.Fungsi yang digunakan pada langkah ini, sama seperti fungsi yang

digunakan pada langkah 2, yaitupenggunaan perhitungan nilai tengan (median).

Fungsi dalam langkah ini digunakan untuk mengecekapakah titik pusat klaster

yang telah terbentuk pada langkah sebelumnya sudah tidak berubah lagi

atautidak, dengan cara membandingkan hasil perhitungan titik pusat langkah ini

dengan langkah sebelumnya.Apabila titik pusat tersebut sudah tidak berubah

maka pembentukan klaster customer sudah selesai. Tetapi apabila titik pusat

masih berubah maka dilakukan perhitungan ulang seperti pada langkah II,

perhitungan ini akan terus berulang sampai titik pusat cluster tidak berubah

lagi.

Kesimpulan

1) Untuk melakukan pembentukan sebuah cluster dibutuhkan sebuah titik pusat yang

bisa dicari dari

seluruh data yang ada dalam tabel frekuensi transaksi dengan melakukan metode

perhitungan nilai rata

rata (mean) ataupun perhitungan nilai tengah (median).

2) Hasil dari aplikasi ini bisa dijadikan sebagai pendukung keputusan oleh

manager terhadap customer –

customer yang dimilikinya. Misalnya pendukung keputusan untuk meningkatkan

promosi kebeberapa

customer yang berada diklaster kurang aktif dan sedang ataupun keputusan untuk

memberikan fasilitas

yang lebih exclusive maupun pemberian bonus atau diskon kepada customer yang

berada di klaster

yang aktif.

11

Daftar pustaka

Sumber:

wikipedia, “Data Mining”, http://en.wikipedia.org/wiki/Data_mining

Iko Pramudiono, “Pengantar data mining: Menambang Permata Pengetahuan di

Gunung Data”,

http://ilmukomputer.com

Yudo Giri Sucahyo, “Penerapan data mining: Permasalahan apa saja yang bisa

diselesaikan?”,

http://ilmukomputer.com

Noor Rindho, Suzuki Syofian, “Implementasi Data Mining dengan Metode

Clustering untuk melakukan

Competitive Intelligence perusahaan”

Makalah winda

Documents

Transcript of Makalah winda