Makalah winda
Transcript of Makalah winda
KONSEP DATA MINING DAN IMPLEMENTASI
(PENERAPAN)
DOSEN : MUHAMMAD IQBAL DZULHAQ
MATAKULIAH : DATA WAREHOUSE DAN MINING
NAMA : WINDA NOVIANA
NPM: 1211010268
SISTEM INFORMASI
STMIK BINA SARANA GLOBAL
KATA PENGANTAR
Puji syukur kehadirat ALLAH SWT yang telah memberi beribu-ribu nikmat kepada
kita semua diantaranya yaitu nikmat sehat. Karena nikmatnya lah, alhamdulillah
saya dapat menyelesaikan tugas makalah ini sampai selesai.
Terima kasih kepada bapak iqbal yang telah memberikan saya kesempatan untuk
embuat makalah ini, terima kasih saya ucapkan kepada kedua orang tua saya yang
senantiasa memberi dukungan moril kepada saya, dan terima kasih juga kepada
teman-teman saya yang telah memberi suport kepada saya dalam menyelesaikan
makalah ini.
Semoga apa yang saya tuliskan dalam makalah ini dapat bermanfaat sebagai
sumber pengetahuan bagi kita semua khususnya disri saya sendiri. Saya mohon
maaf jika terdapat banyak kesalahan dalam penulisan makalah ini, karena saya
juga sedang dalam peroses belajar.
Terima kasih
Tangerang, 20 february 2013
penulis
i
Pendahuluan
Manusia telah "secara manual" mengekstrak pola dari data selama
berabad-abad, tetapi
meningkatnya volume data yang di zaman modern telah menyerukan
pendekatan yang lebih otomatis.
Metode awal untuk mengidentifikasi pola-pola dalam data termasuk Bayes
'teorema (1700) dan Analisis
Regresi (1800). Proliferasi, di mana-mana dan meningkatkan kekuatan
teknologi komputer telah meningkat
pengumpulan data dan penyimpanan. Seperti kumpulan data telah tumbuh
dalam ukuran dan kompleksitas,
tangan langsung-analisis data telah semakin telah ditambah dengan
tidak langsung, pemrosesan data
otomatis. Ini telah dibantu oleh penemuan-penemuan lain dalam ilmu
komputer, seperti jaringan saraf,
Clustering, Genetic algorithms (1950), Keputusan pohon (1960) dan
Dukungan mesin vektor (1980).
diperlukan sebuah metode sebagai penerapan pengumpulan data yang dapat
menampung, menganalisis
secara akurat data yang bagitu besar, metode tersebut hingga saat ini
dikenal sebagai Data Mining.
ii
Daftar isi
1. Kata pengantar……………………………………………… i
2. Pendahuluan ……………………………………………… ii
3. Daftar isi……………………………………………………… iii
4. Pengertiian data mining…………....................................
1
5. Proses data mining…………………………………………. 2
6. Teknik data mining…………………………………………. 4
7. Implementasi data mining………………………. ………… 5
8. Contoh kasus data mining……….………………………. .. 6
9. Kesimpulan………….……………………………………….. 11
10. Daftar pustaka……………………………………. ………… 12
Iii
Pengertian Data MiningApa itu data mining???????
Data Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu
kumpulan data
berupa pengetahuan yang selama ini tidak diketahui secara manual. Patut
diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit
barang berharga dari sejumlah besar material dasar. Karena itu DM sebenarnya
memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan
(artificial intelligent), machine learning, statistik dan database.
Data mining adalah proses menerapkan metode ini untuk data dengan maksud untuk
mengungkap
pola-pola tersembunyi. Dengan arti lain Data mining adalah proses untuk
penggalian pola-pola dari data.
Data mining menjadi alat yang semakin penting untuk mengubah data tersebut
menjadi informasi. Hal ini
sering digunakan dalam berbagai praktek profil, seperti pemasaran, pengawasan,
penipuan deteksi dan
penemuan ilmiah. Telah digunakan selama bertahun-tahun oleh bisnis, ilmuwan
dan pemerintah untuk
menyaring volume data seperti catatan perjalanan penumpang penerbangan, data
sensus dan supermarket scanner data untuk menghasilkan laporan riset pasar.
Alasan utama untuk menggunakan data mining adalah untuk membantu dalam
analisis koleksi
pengamatan perilaku. Data tersebut rentan terhadap collinearity karena
diketahui keterkaitan. Fakta yang tak terelakkan data mining adalah bahwa
subset/set data yang dianalisis mungkin tidak mewakili seluruh
domain, dan karenanya tidak boleh berisi contoh-contoh hubungan kritis
tertentu dan perilaku yang ada di
bagian lain dari domain . Untuk mengatasi masalah semacam ini, analisis dapat
ditambah menggunakan
berbasis percobaan dan pendekatan lain, seperti Choice Modelling untuk data
yang dihasilkan manusia.
Dalam situasi ini, yang melekat dapat berupa korelasi dikontrol untuk, atau
dihapus sama sekali, selama
konstruksi desain eksperimental.
Beberapa teknik yang sering disebut-sebut dalam literatur Data Mining dalam
penerapannya antara
lain: clustering, classification, association rule mining, neural network,
genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap Data Mining
adalah perkembangan teknik-teknik Data Mining untuk aplikasi pada database
skala besar. Sebelum populernya Data Mining, teknik-teknik tersebut hanya
dapat dipakaiuntuk data skala kecil saja.
1
Proses Data Mining
Tahap-Tahap Data Mining. Karena Data Mining adalah suatu rangkaian proses,
Data Mining dapat
dibagi menjadi beberapa tahap:
1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise)
2. Integrasi data (penggabungan data dari beberapa sumber)
3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)
4. Aplikasi teknik Data Mining
5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)
6. Presentasi pengetahuan (dengan teknik visualisasi)
Tahap-tahap tsb. bersifat interaktif di mana pemakai terlibat langsung atau
dengan perantaraan knowledge
base.
3
Teknik Data MiningBerikut beberapa jenis teknik Data Mining yang paling populer dikenal dan
digunakan:
1. Association Rule Mining
Association rule mining adalah teknik mining untuk menemukan aturan assosiatif
antara suatu
kombinasi item. Penting tidaknya suatu aturan assosiatif dapat diketahui
dengan dua parameter, support
yaitu persentase kombinasi item tsb. dalam database dan confidence yaitu
kuatnya hubungan antar item
dalam aturan assosiatif.
Algoritma yang paling populer dikenal sebagai Apriori dengan paradigma
generate and test, yaitu pembuatan kandidat kombinasi item yang mungkin
berdasar aturan tertentu lalu diuji apakah kombinasi item tsb memenuhi syarat
support minimum. Kombinasi item yang memenuhi syarat tsb. disebut frequent
itemset,yang nantinya dipakai untuk membuat aturan-aturan yang memenuhi syarat
confidence minimum. Algoritma baru yang lebih efisien bernama FP-Tree.
2. Classification
Classification adalah proses untuk menemukan model atau fungsi yang
menjelaskan atau membedakan
konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari
suatu objek yang labelnya
tidak diketahui. Model itu sendiri bisa berupa aturan “jika-maka”, berupa
decision tree, formula matematis
atau neural network.
Decision tree adalah salah satu metode classification yang paling populer
karena mudah untuk
diinterpretasi oleh manusia. Disini setiap percabangan menyatakan kondisi yang
harus dipenuhi dan tiap
ujung pohon menyatakan kelas data. Algoritma decision tree yang paling
terkenal adalah C4.5, tetapi akhir- akhir ini telah dikembangkan algoritma
yang mampu menangani data skala besar yang tidak dapat
ditampung di main memory seperti RainForest. Metode-metode classification yang
lain adalah Bayesian,
neural network, genetic algorithm, fuzzy, case-based reasoning, dan k-nearest
neighbor.
Proses classification biasanya dibagi menjadi dua fase : learning dan test.
Pada fase learning, sebagian
data yang telah diketahui kelas datanya diumpankan untuk membentuk model
perkiraan. Kemudian pada
fase test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk
mengetahui akurasi dari
model tsb. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi
kelas data yang belum
diketahui.
3. Clustering
Berbeda dengan association rule mining dan classification dimana kelas data
telah ditentukan
sebelumnya, clustering melakukan penge-lompokan data tanpa berdasarkan kelas
data tertentu. Bahkan
clustering dapat dipakai untuk memberikan label pada kelas data yang belum
diketahui itu. Karena itu
clustering sering digolongkan sebagai metode unsupervised learning.
4
Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu
kelas dan meminimumkan kesamaan antar kelas/cluster. Clustering dapat
dilakukan pada data yan memiliki beberapa atribut yang dipetakan sebagai ruang
multidimensi.
Banyak algoritma clustering memerlukan fungsi jarak untuk mengukur kemiripan
antar data, diperlukan
juga metode untuk normalisasi bermacam atribut yang dimiliki data. Beberapa
kategori algoritma clustering yang banyak dikenal adalah metode partisi dimana
pemakai harus menentukan jumlah k partisi yang diinginkan lalu setiap data
dites untuk dimasukkan pada salah satu partisi, metode lain yang telah lama
dikenal adalah metode hierarki yang terbagi dua lagi : bottom-up yang
menggabungkan cluster kecil menjadi cluster lebih besar dan top-down yang
memecah cluster besar menjadi cluster yang lebih kecil. Kelemahan 3 metode ini
adalah bila bila salah satu penggabungan/pemecahan dilakukan pada tempat yang
salah, tidak dapat didapatkan cluster yang optimal. Pendekatan yang banyak
diambil adalah menggabungkan metode hierarki dengan metode clustering lainnya
seperti yang dilakukan oleh Chameleon.
Akhir-akhir ini dikembangkan juga metode berdasar kepadatan data, yaitu jumlah
data yang ada di
sekitar suatu data yang sudah teridentifikasi dalam suatu cluster. Bila jumlah
data dalam jangkauan tertentu lebih besar dari nilai ambang batas, data-data
tsb dimasukkan dalam cluster. Kelebihan metode ini adalah bentuk cluster yang
lebih fleksibel. Algoritma yang terkenal adalah DBSCAN.
Implementasi (Penerapan)Dalam bidang apasaja data mining dapat diterapkan? Berikut beberapa contoh
bidang penerapan
data mining:
- Analisa pasar dan manajemen.
Solusi yang dapat diselesaikan dengan data mining, diantaranya: Menembak
target pasar, Melihat pola
beli pemakai dari waktu ke waktu, Cross-Market analysis, Profil Customer,
Identifikasi kebutuhan
Customer, Menilai loyalitas Customer, Informasi Summary.
- Analisa Perusahaan dan Manajemen resiko.
Solusi yang dapat diselesaikan dengan data mining, diantaranya: Perencanaan
keuangan dan Evaluasi
aset, Perencanaan sumber daya (Resource Planning), Persaingan (Competition).
- Telekomunikasi.
Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat dari
jutaan transaksi yang
masuk, transaksi mana sajakah yang masih harus ditangani secara manual.
- Keuangan.
Financial Crimes Enforcement Network di Amerika Serikat baru-baru ini
menggunakan data mining
untuk me-nambang trilyunan dari berbagai subyek seperti property, rekening
bank dan transaksi
keuangan lainnya untuk mendeteksi transaksi-transaksi keuangan yang
mencurigakan (seperti money
laundry) .
5
- Asuransi.
Australian Health Insurance Commision menggunakan data mining untuk
mengidentifikasi layanan
kesehatan yang sebenarnya tidak perlu tetapi tetap dilakukan oleh peserta
asuransi .
- Olahraga.
IBM Advanced Scout menggunakan data mining untuk menganalisis statistik
permainan NBA (jumlah
shots blocked, assists dan fouls) dalam rangka mencapai keunggulan bersaing
(competitive advantage)
untuk tim New York Knicks dan Miami Heat.
- Astronomi.
Jet Propulsion Laboratory (JPL) di Pasadena, California dan Palomar
Observatory berhasil menemukan
22 quasar dengan bantuan data mining. Hal ini merupakan salah satu kesuksesan
penerapan data
mining di bidang astronomi dan ilmu ruang angkasa.
- Internet Web surf-aid
IBM Surf-Aid menggunakan algoritma data mining untuk mendata akses halaman Web
khususnya yang
berkaitan dengan pemasaran guna melihat prilaku dan minat customer serta
melihat ke- efektif-an
pemasaran melalui Web.
Contoh kasus:
Implementasi data mining dengan teknik Clustering untuk melakukan
Competitive Intelligence perusahaan.
Pembangunan perangkat lunak data mining dengan metode clustering menggunakan
algoritma hirarki
divisive untuk pengelompokan customer dalam studi kasus ini, fungsi – fungsi
yang dipakai adalah fungsi
untuk menentukan titik-titik pusat yang berguna sebagai pusat-pusat kelompok
customer.
Langkah 1.
6
Fungsi untuk menentukan titik pusat awal dari semua data customer yang ada
berdasarkan
transaksi yang dilakukan menggunakan perhitungan nilai rata-rata (mean) dari
semua data yang ada dalam tabel frekuensi transaksi. Pada langkah ini
digunakan perhitungan nilai rata-rata (mean) karena untuk mengantisipasi
adanya nilai outline (nilai yang letaknya sangat jauh dari data yang ada) dari
data yang ada dalam tabel frekuensi. Contoh perhitungan dari sample data
frekuensi transaksi customer, adalah sebagai berikut:
7
Dari contoh data frekuensi diatas, maka kemudian diurutkan dari frekuensi
paling kecil sampai ke frekuensi terbesarnya, yaitu sebagai berikut:
Data frekuensinya :0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,2,2,2,4,5,5,6,7,11,11,15.
Maka perhitungan pada langkah I ini adalah sebagai berikut:
Perhitungan nilai rata-rata (mean) dari semua nilai yang ada pada
tabel frekuensi.
= 0+0+0+0+0+0+0+0+0+1+1+1+1+1+1+1+2+2+2+4+5+5+6+7+11+11+15/30
= 2.56666666667.
Perhitungan titik pusat 1
→ nilai frekuensi terkecil + nilai mean dari semua data tabel frekuensi/ 2
= 0+2.56666666667/2
= 1.283333333333.
Perhitungan titik pusat 2
→ menggunakan hasil perhitungan nilai rata-rata (mean) dari semua nilai
yang ada pada tabel
frekuensi.
= 2.56666666667.
Perhitungan titik pusat 3
→ nilai rata-rata dari semua data tabel frekuensi + nilai frekuensi
terbesar / 2.
= 2.56666666667 + 15 /2
= 8.78333333333.
Maka hasil titik pusat dari langkah I ini adalah :
Titik pusat 1 = 1.283333333335
Titik pusat 2 = 2.56666666667
Titik pusat 3 = 8.78333333333
Setelah pencarian titik pusat klaster pada langkah 1 diketahui hasilnya,
kemudian titik – titik pusat tersebut digunakan untuk menarik anggota dari
semua nilai data yang ada pada tabel frekuensi dengan
menggunakan sistem perhitungan jarak kedekatan setiap data dengan masing-
masing titik pusat tersebut.Perhitungan jarak kedekatan dalam langkah 1 ini
ditentukan dengan perhitungan selisih antar titik pusat dibagi 2, kemudian
hasil selisih titik pusat tersebut ditambahkan pada titik pusat yang lebih
kecil dan dikurangkan dengan titik pusat yg lebih besarnya, sehingga bisa
diambil kesimpulan bahwa data-data yang berada dalam rentang titik pusat
tersebut merupakan anggotanya.
Contoh: Untuk menentukan anggota cluster dari titik pusat 2, meliputi :
Perhitungan rentang terendah :
= 2.576666666667 - 1.283333333335 / 2 = 0.646666666666.
Maka titik terendah dari titik pusat 2 adalah
= 2.56666666667 - 0.646666666666 = 1.920
8
Perhitungan rentang tertinggi:
= 8.78333333333 - 2.56666666667 / 2 = 3.10833333333
Maka titik tertinggi dari titik pusat 2 adalah 6
= 2.56666666667 + 3.10833333333
= 5.675
Sehingga anggota cluster dari titik pusat 2 bisa diambil dari rentang
titik frekuensi data : 1.920 ≤
anggota cluster titik pusat 2 < 5.675
Langkah 2.
Setelah klaster-klaster pada langkah 1 terbentuk, maka pada langkah 2 ini
dilakukan pengecekan
ulang perhitungan titik pusat setiap klaster dengan menggunakan perhitungan
nilai median (perhitungan nilai tengah). Pemakaian perhitungan nilai median
karena semua data yang ada sudah diketahui pada langkah1, sehingga tidak ada
kekhawatiran munculnya data outline. Contoh perhitungan pada langkah 2
berdasarkan semua data yang ada pada halis langkah I adalah sebagai berikut:
Titik pusat 1
Membaca semua data anggota klaster ini pada langkah I, yaitu:
0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,2,2,2
Dari data diatas, untuk menghitung nilai titik pusat 1 pada langkah 2
digunakan perhitungan dengan
langkah sebagai berikut:
a. Jumlahkan semua item data yang ada pada klaster 1 pada langkah I
Num=[0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,2,2,2] = 19 item
b. Kemudian melakukan perhitungan titik pusat menggunakan perhitungan
median (nilai tengah)
untuk mengecek titik pusat pada langkah 1
Jika Nilai sisa bagi = 19mod2 = 1
Karena sisa bagi dari total item 1, maka perhitungan titik pusat
= ((19/2) +((19/2)-1)/2
= 9 nilai tengahnya berada diantara item ke – 9 yang dibaca dari awal
data dan akhir data dari
anggota klaster 1 pada langka I
=[0,0,0,0,0,0,0,0,0|1|1,1,1,1,1,1,2,2,2]
Jadi nilai titik pusat satu pada langkah II adalah 1.
Kemudian titik pusat satu pada langkah II ini dibandingkan dengan titik
pusat satu pada langkah I,
dimana nilai 1 ≠ 1.283333333335 sehingga bisa ditarik kesimpulan bahwa
titik pusat masih berubah.
Titik pusat 2
Anggota klaster ini pada langkah I adalah : 4,5,5
Dari data diatas, titik pusat 2 pada langkah II ini dihitung dengan cara
sebagai berikut:
a. Jumlahkan semua item data yang ada pada klaster 1 pada langkah I
Num = [4,5,5] = 3 item
9
b. Kemudian melakukan perhitungan titik pusat menggunakan perhitungan
median (nilai tengah)
untuk mengecek titik pusat pada langkah 1
Jika Nilai sisa bagi = 3 mod 2 = 1
Karena sisa bagi dari total item 1, maka perhitungan titik pusat
= ((3/2) +((3/2)-1)/2
= 1 → nilai tengahnya berada diantara item ke – 1 yang dibaca dari
awal data dan akhir data dari anggota klaster 2 pada langka I = [5|5|5]
7
Jadi nilai titik pusat dua pada langkah II adalah 5.
Kemudian titik pusat dua pada langkah II ini dibandingkan dengan titik
pusat dua pada langkah I,
dimana nilai 5 ≠ 2.56666666667 sehingga bisa ditarik kesimpulan bahwa titik
pusat masih berubah
Titik pusat 3
Anggota cluster pada langkah I adalah : 6,7,11,11,15
Dari data diatas, titik pusat 3 pada langkah II ini dihitung dengan cara
sebagai berikut:
a. Jumlahkan semua item data yang ada pada klaster 1 pada langkah I
Num = [6,7,11,11,15] = 5 item
b. Kemudian melakukan perhitungan titik pusat menggunakan perhitungan
median (nilai tengah)
untuk mengecek titik pusat pada langkah 1
Jika Nilai sisa bagi = 5 mod 2 = 1
Karena sisa bagi dari total item 1, maka perhitungan titik pusat
= ((5/2) +((5/2)-1)/2
= 2 → nilai tengahnya berada diantara item ke – 2 yang dibaca dari awal
data dan akhir data
dari anggota klaster 3 pada langka I
= [6,7|11|11,15]
Jadi nilai titik pusat satu pada langkah II adalah 11.
Kemudian titik pusat tiga pada langkah II ini dibandingkan dengan titik
pusat tiga pada langkah I,
dimana nilai 11 ≠ 8.78333333333 sehingga bisa ditarik kesimpulan bahwa
titik pusat masih berubah.
Karena hasil titik pusat pada langkah dua ini masih beruba maka dilakukan
perhitungan jarak rentang
anggota masing – masing cluster, sebagai penentu suatu nilai data masuk pada
tiap-tiap klaster yang jarak
titik pusatnya paling dekat dengan data. Contoh perhitungan jarak rentang
antar data adalah, sebagai
berikut:
Titik pusat 1
→ Rentang titik pusat 1 = Titik pusat 2 – titik pusat 1 / 2 = 5-1 / 2 = 2
Maka rentang anggota titik pusat 1 langkah II = 1 +2 = 3
→ anggota klaster 1 pada langkah II < data frekuensi bernilai 3
10
Titik pusat 2
→ Rentang terendah = 5 - 1 / 2 = 2
Maka rentang terendah = 5 – 2 = 3
→ Rentang tertinggi : 11 – 5 / 2 = 3
Maka rentang teringgi = 5 + 3 = 8
Sehingga rentang anggota titik pusat 2 data frekuensi bernilai 3 ≤
anggota klaster 2 pada langkah
II < data frekuensi bernilai 8
Titik pusat 3
→ Rentang titik pusat 3 = titik pusat 3 – titik pusat 2 / 2 = 11 – 5 / 2 =
3
Maka rentang anggota titik pusat 3 = 11 – 3 = 8 → data frekuensi bernilai 8
≤ anggota klaster 3 pada
langkah 2.
Langkah 3.Fungsi yang digunakan pada langkah ini, sama seperti fungsi yang
digunakan pada langkah 2, yaitupenggunaan perhitungan nilai tengan (median).
Fungsi dalam langkah ini digunakan untuk mengecekapakah titik pusat klaster
yang telah terbentuk pada langkah sebelumnya sudah tidak berubah lagi
atautidak, dengan cara membandingkan hasil perhitungan titik pusat langkah ini
dengan langkah sebelumnya.Apabila titik pusat tersebut sudah tidak berubah
maka pembentukan klaster customer sudah selesai. Tetapi apabila titik pusat
masih berubah maka dilakukan perhitungan ulang seperti pada langkah II,
perhitungan ini akan terus berulang sampai titik pusat cluster tidak berubah
lagi.
Kesimpulan
1) Untuk melakukan pembentukan sebuah cluster dibutuhkan sebuah titik pusat yang
bisa dicari dari
seluruh data yang ada dalam tabel frekuensi transaksi dengan melakukan metode
perhitungan nilai rata
rata (mean) ataupun perhitungan nilai tengah (median).
2) Hasil dari aplikasi ini bisa dijadikan sebagai pendukung keputusan oleh
manager terhadap customer –
customer yang dimilikinya. Misalnya pendukung keputusan untuk meningkatkan
promosi kebeberapa
customer yang berada diklaster kurang aktif dan sedang ataupun keputusan untuk
memberikan fasilitas
yang lebih exclusive maupun pemberian bonus atau diskon kepada customer yang
berada di klaster
yang aktif.
11
Daftar pustaka
Sumber:
wikipedia, “Data Mining”, http://en.wikipedia.org/wiki/Data_mining
Iko Pramudiono, “Pengantar data mining: Menambang Permata Pengetahuan di
Gunung Data”,
http://ilmukomputer.com
Yudo Giri Sucahyo, “Penerapan data mining: Permasalahan apa saja yang bisa
diselesaikan?”,
http://ilmukomputer.com
Noor Rindho, Suzuki Syofian, “Implementasi Data Mining dengan Metode
Clustering untuk melakukan
Competitive Intelligence perusahaan”