makalah Data Mining_ryan Apriyansyah

MAKALAH DATA MINING

SISTEM BASIS DATA 2

Disusun oleh :

Ryan Apriyansyah 58413145

Kelas :

3IA13

PROGRAM STUDI TEKNIK INFORMATIKA

UNIVERSITAS GUNADARMA

DEPOK

2016

KATA PENGANTAR

Puji syukur kehadirat Tuhan Yang Maha Esa yang telah memberikan taufik dan

hidayahnya, sehingga kami mampu menyelesaikan makalah ini dengan judul “ Data Mining“.

Namun penyusun menyadari bahwa dalam penyusunan makalah ini masih jauh dari

kesempurnaa. Maka dari itu penyusun mengharapkan saran dan kritik yang sifatnya membangun

kesempurnaan makalah ini.

Dalam penyusunan makalah ini tidak lepas dari berbagai pihak. Dari itu penyusun

menyampaikan rasa terimakasih kepada semua pihak yang telah membantu sehinnga makalah ini

dapat diselesaikan tepat pada waktunya.

Semoga makalah ini bermanfaat bagi penulis pada khususnya dan bagi pembaca pada

umumnya.

DAFTAR ISI

HALAMAN JUDUL

KATA PENGANTAR

DAFTA R ISI

BAB I PENDAHULUAN

A. Latar Belakang

B. Tujuan

C. Rumusan Masalah

BAB II PEMBAHASAN

A. Pengertian Data Mining

B. Fungsi dan Tujuan Data Mining

1. Fungsi Data Mining

2. Tujuan Data Mining

C. Penerapan Data Mining

D. Metodologi Data Mining

E. Proses Data Mining

F. Teknik Data Mining

G. Contoh Kasus

BAB III PENUTUP

A. Kesimpulan

B. Saran

DAFTAR PUSTAKA

BAB 1

PENDAHULUAN

A. Latar Belakang

Penyimpanan dokumen secara digital berkembang dengan pesat seiring meningkatnya

penggunaan komputer. Kondisi tersebut memunculkan masalah untuk mengakses informasi yang

diinginkan secara akurat dan cepat. Oleh karena itu, walaupun sebagian besar dokumen digital

tersimpan dalam bentuk teks dan berbagai algoritma yang efisien untuk pencarian teks telah

dikembangkan, teknik pencarian terhadap seluruh isi dokumen yang tersimpan bukanlah solusi

yang tepat mengingat pertumbuhan ukuran data yang tersimpan umumnya. Pencarian informasi

(Information Retrieval) adalah salah satu cabang ilmu yang menangani masalah ini yang

bertujuan untuk membantu pengguna dalam menemukan informasi yang relevan dengan

kebutuhan mereka dalam waktu singkat. Aplikasi pencarian informasi yang telah ada salah

satunya adalah web mining untuk pencarian berdasarkan kata kunci dengan teknik clustering.

Selain itu, pada dokumen dilakukan juga text mining dan perhitungan jumlah kata, dari jumlah

kata tersebut dilakukan pengklusteran dengan metode CLHM (Centroid Linkage Hierarchical

Method). Untuk jumlah klusternya, pemakai tidak mengetahui berapa jumlah yang tepat untuk

mengklusterkan dokumen-dokumen tersebut. Untuk itu, dipakailah metode Hill Climbing yang

bertugas untuk melakukan identifikasi terhadap pergerakan varian dari tiap tahap pembentukan

kluster dan menganalisa polanya sehingga jumlah kluster akan terbentuk secara otomatis.

Penggunaan text mining, pengklusteran dengan CLHM dan proses Hill Climbing Automatic

Clustering sangat memudahkan pemakai karena menghasilkan kluster secara otomatis dan tepat

dengan waktu yang cepat.

B. Tujuan

1. Untuk memenuhi tugas mata kuliah Sistem Basis Data 2.

2. Untuk mengetahui lebih luas tentang Data Mining.

3. Untuk menambah nilai mata kuliah Sistem Basis Data 2.

C. Rumusan Masalah

1. Apa yang dimaksud dengan Data Mining ?

2. Apa fungsi dan tujuan dari Data Mining ?

3. Bagaimana penerapan Data Mining dalam kehidupan?

BAB II

PEMBAHASAN

A. Pengertian Data MiningBanyak sekali definisi mengenai apa itu data mining. Data mining merupan suatu alat

yang memungkinkan para pengguna untuk mengakses secara cepat data dengan jumlah yang

besar. Pengertian yang lebih khusus dari data mining, yaitu suatu alat dan aplikasi menggunakan

analisis statistik pada data. Data mining adalah suatu proses ekstraksi atau penggalian data dan

informasi yang besar, yang belum diketahui sebelumnya, namun dapat dipahamidan berguna dari

database yang besar serta digunakan untuk membuat suatu keputusanbisnis yang sangat penting.

Data mining menggambarkan sebuah pengumpulan teknik-teknik dengan tujuan untuk

menemukan pola-pola yang tidak diketahui pada data yang telah dikumpulkan. Data mining

memungkinkan pemakai menemukan pengetahuan dalam data database yang tidak mungkin

diketahui keberadaanya oleh pemakai.

Data mining merupakan proses semi otomatik yang menggunakan teknik statistik,

matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi

informasi pengetahuan potensial dan berguna yang tersimpan di dalam database besar. (Turban

et al, 2005 ). Data mining adalah bagian dari proses KDD ( Knowledge Discovery in Databases)

yang terdiri dari beberapa tahapan seperti pemilihan data, pra pengolahan, transformasi, data

mining, dan evaluasi hasil (Maimon dan Last, 2000). KDD secara umum juga dikenal sebagai

pangkalan data.

Dalam proses menerapkan metode ini untuk data dengan maksud untuk mengungkap

pola-pola tersembunyi. Dengan arti lain Data mining adalah proses untuk penggalian pola-pola

dari data. Data mining menjadi alat yang semakin penting untuk mengubah data tersebut menjadi

informasi. Hal ini sering digunakan dalam berbagai praktek profil, seperti pemasaran,

pengawasan, penipuan deteksi dan penemuan ilmiah. Telah digunakan selama bertahun-tahun

oleh bisnis, ilmuwan dan pemerintah untuk menyaring volume data seperti catatan perjalanan

penumpang penerbangan, data sensus dan supermarket scanner data untuk menghasilkan laporan

riset pasar. Alasan utama untuk menggunakan data mining adalah untuk membantu dalam

analisis koleksi pengamatan perilaku. Data tersebut rentan terhadap collinearity karena diketahui

keterkaitan. Fakta yang tak terelakkan data mining adalah bahwa subset/set data yang dianalisis

mungkin tidak mewakili seluruh domain, dan karenanya tidak boleh berisi contoh-contoh

hubungan kritis tertentu dan perilaku yang ada di bagian lain dari domain . Untuk mengatasi

masalah semacam ini, analisis dapat ditambah menggunakan berbasis percobaan dan pendekatan

lain, seperti Choice Modelling untuk data yang dihasilkan manusia. Dalam situasi ini, yang

melekat dapat berupa korelasi dikontrol untuk, atau dihapus sama sekali, selama konstruksi

desain eksperimental. Beberapa teknik yang sering disebut-sebut dalam literatur Data Mining

dalam penerapannya antara lain: clustering, classification, association rule mining, neural

network, genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap Data Mining

adalah perkembangan teknik-teknik Data Mining untuk aplikasi pada database skala besar.

Sebelum populernya Data Mining, teknik-teknik tersebut hanya dapat dipakaiuntuk data skala

kecil saja.

B. Fungsi dan Tujuan Data Mining1. Fungsi Data mining

Data Mining mengidentifikasi fakta- fakta atau kesimpulan-kesimpulan yang di

sarankan berdasarkan penyaringan melalui data untuk menjelajahi pola-pola atau anomali-

anomali data. Data Mining mempunyai 5 fungsi:

a. Classification

Classification, yaitu menyimpulkan definisi-definisi karakteristik sebuah grup. Contoh:

pelanggan-pelanggan perusahaan yang telah berpindah kesaingan perusahaan yang lain.

b. Clustering

Clustering, yaitu mengindentifikasikan kelompok-kelompok dari barang-barang atau produk-

produk yang mempunyai karakteristik khusus(clustering berbeda dengan classification,

dimana pada clustering tidak terdapat definisi-definisi karakteristik awak yang di berikan

pada waktu classification.)

c. Association

Association, yaitu mengidentifikasikan hubungan antara kejadian-kejadian yang terjadi pada

suatu waktu, seperti isi-isi dari keranjang belanja.

d. Sequencing

Hampir sama dengan association, sequencing mengidentifikasikan hubungan-hubungan yang

berbeda pada suatu periode waktu tertentu, seperti pelanggan-pelanggan yang mengunjungi

supermarket secara berulang-ulang.

e. Forecasting

Forecasting memperkirakan nilai pada masa yang akan datang berdasarkan pola-pola dengan

sekumpulan data yang besar, seperti peramalan permintaan pasar.

2. Tujuan Data Mining

Tujuan data mining antara lain:

a. Explanatory

Untuk menjelaskan beberapa kondisi penelitian, seperti mengapa penjualan truk pick up

meningkat di colorado.

b. Confirmatory

Untuk mempertegas hipotesis, seperti halnya 2 kali pendapatan keluarga lebih suka di pakai

untuk membeli peralatan keluarga, di bandingkan dengan satu kali pendapatan keluarga.

c. Exploratory

Menganalisis data untuk hubungan yang baru yang tidak di harapkan, seperti halnya pola apa

yang cocok untuk kasus penggelapan kartu kredit.

C. Penerapan Data MiningBerikut beberapa contoh bidang penerapan data mining:

a. Analisa pasar dan manajemen

Solusi yang dapat di selesaikan dengan Data Mining, diantaranya: Menembak target

pasar, Melihat pola beli pemakai dari waktu ke waktu, Cross-Market analysis, Profil

Customer, Identifikasi kebutuhan Customer, Menilai loyalitas Customer, Informasi

Summary.

b. Analisa Perusahaan dan Manajemen resiko

Solusi yang dapat diselesaikan dengan data mining diantaranya: Perencanaan keuangan

dan evaluasi aset, perencanaan sumber daya (resource planning), persaingan

(competition).

c. Telekomunikasi

Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat dari jutaan

transaksi yang masuk, transaksi mana sajakah yang masih harus ditangani secara manual

d. Keuangan

Financial Crimes Enforcement Network di Amerika Serikat baru-baru ini menggunakan

data mining untuk menambang triliyunan dari berbagai subyek seperti property, rekening

bank dan transaksi keuangan lainnya untuk mendeteksi transaksi-transaksi keuangan

yang mencurigakan (Seperti money laundry)

e. Asuransi

Australian Health Insurance Commision menggunakan data mining untuk

mengidentifikasi layanan lesehatan yang sebenarnya tidak perlu tetapi tetap dilakukan

oleh peserta asuransi.

f. Olahraga

IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan

NBA ( jumlah shots blocked, assists dan fouls ) dalam rangka mencapai keunggulan

bersaing ( competitive advantage ) untuk tim New York Knicks dan Miami Heat.

D. Metodologi Data Miningsebagai salah satu bagian dari sistem informasi, data mining menyediakan perencanaan

dari ide hingga implementasi akhir. Komponen-komponen dari rencana data mining adalah

sebagai berikkut.

1. Analisa Masalah (Analyzing the Problem)

Data asal atau data sumber harus bisa ditaksir untuk dilihat apakah data tersebut memenuhi

kriteria data mining.

Kualitas kelimpahan data adalah faktor utama untuk memutuskan apakah data tersebut cocok

dan tersedia sebagau tambahan. Hasil yang diharapkan dari dampak data mining harus dengan

hati-hati dimengerti dan dipastikan bahwa data yang diperlukan membawa informasi yang bisa

diekstrak.

2. Mengekstrak dan Membersihkan Data (Extracting dan Cleansing The Data)

Data pertama kli diekstrak dari data aslinya, seperti dari OLTP basis data, text file, Microsoft

Acces Database, dan bahkan dari spreadsheet, lalu data tersebut diletakan dalam data warehouse

yang mempunyai sruktur yang sesuai dengan data model secara khas.

Data Transformation Service (DTS) dipakai untuk mengekstrak dan membersihkan data

dari tidak konsistennya dan tidak kompatibelnya dengan format yang sesuai.

3. Validitas Data (Validating the Data)

Sekali data telah diekstrak dan dibersihkan, ini adalh latihan yang bagus untuk

menelusuri model yang telah kita ciptakan untuk memastikan bahwa semua data yang ada adalah

data sekarang dan tetap.

4. Membuat dan Melatih Model (Creatig and Training the Model)

Ketika algoritma diterapkan pada model, struktur telah dibangun. Hal ini sangatlah

penting pada saat ini untuk melihat data yang telah dibangun untuk memastikan bahwa data

tersebut menyerupai fakta di dalam data sumber.

5. Query Data dari Model Data Mining (Querying the Model Data)

Ketika model yang telah cocok diciptakan dan dibangun, data yang telah dibuat tersedia

untuk mendukung keputusan. Hal ini biasanya melibatkan penulisan front end query aplikasi

dengan program aplikasi/suatu program basis data.

6. Evaluasi Validitaas dari Mining Model (Maintaining the Validity of the Data Mining Model)

Setelah moddel data mining terkumpul, lewat bebrapa waktu, karakteristik data awal

seperti granularitas dan validitas mungkin berubah. Karena model data mining dapat terus

berubah seiring perkembangan waktu.

E. Proses Data MiningFase-fase dimulai dari data mentah dan berakhir dengan pengetahuan atau informasi yang telah

diolah, yang didapatkan sebagai hasil dari tahapan-tahapan berikut:

a. Data Cleansing, juga dikenal sebagai data cleansing, ini adalah sebuah fase dimana data-

data tidak lengkap, mengndung error dan tidk konsisten dibuang dari koleksi data,

sehingga data yang telah bersih relevan dapat digunakan untuk diproses ulang untuk

penggalian pengetahuan(discovery knowledge)

b. Data Integration, pada tahap ini terjadi integrasi data,dimana sumber-sumber data yang

berulang(multiple data), file-file yang berulang(multiple file), dapat dikombinasikan dan

digabungkan kedalam suatu sumber.

c. Selection, pada langkah ini, data yang relevan terhadap analisis dapat dipilih dan

diterima dari koleksi data yang ada.

d. Data Transformation, juga dikenal sebagai data consolidation. Pada tahap ini, dimana

data-data yang telah terpilih, ditransformasikan kedalam bentuk-bentuk yang cocok untuk

prosedur penggalian (meaning proedure) dengan cara melakukan normalisasi dan

agregasi data.

e. Data Mining, tahap ini adalah tahap yang paling penting, dengan menggunakan teknik-

teknik yang diaplikasikan untuk mengekstrak pola-pola potensial yang berguna.

f. Pattern Evaluation, pada tahap ini, pola-pola menarik dengan jelas mempresentasikan

pengetahuan telah diidentifikasi berdasarkan measure yang telah diberikan.

g. Knowledge Representation, ini merupakan tahap terakhir dimana pengetahuan yang telah

ditemukan secara visual ditampilkan kepada user.Tahap penting ini menggunakan teknik

visualisasi untuk membantu user dalam mengerti dan menginterpresentasikan hasil dari

data mining.

Tahap-tahap tsb. bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan

knowledge base.

F. Teknik Data Mining

Sebelum mengetahui teknik-teknik yang dapat digunakan dalam data mining terdapat empat

operasi yang dapat dihubungkan dengan data mining sebagai berikut.

a. Predictive modeling, ada dua teknik yang dapat dilakukan dalam predictive modeling, yaitu:

Classification

Digunakan untuk membuat dugaan awal tentang class yang spesifik untuk setiap record

dalam database dari satu setnilai class yang mungkin

Value Prediction

Digunakan untuk memperkirakan nilai numeric yang kontinu yang trasosiasi dengan

record database. Teknik ini menggunakan teknik statistic klasik dari linier regression dan

nonlinier regression.

b. Database segmentation

Tujuan dabase segmentation adalah untuk mempartisi database menjadi sejumlah segmen,

cluster, atau record yang sama, dimana record tersebut diharapkan homogen.

c. Link analysis

Tujuan link analysis adalah untuk membuat hubungan antara record yang individual atau

sekumpulan record dalam database. Aplikasi pada link analysis meliputi product affinity

analysis, direct marketing, dan stock price movement.

d. Deviation detection

Teknik ini sering kali merupakan sumber dari penemuan yang benar karena teknik ini

mengidentifikasi outlier yang mengekspresikan deviasi dari ekspektasi yang telah diketahui

sebelumnya. Operasi ini dapat ditampilkan menggunakan teknik statistik dan visualisasi.

Aplikasi deviation detection misalnya pada deteksi penipuan dalam penggunaan kartu kredit

dan klaim asuransi, quality control, dan defect tracing.

Dalam data mining terdapat dua tipe teknik yaitu:

1. Teknik Klasik (Classical Technique) yang terdiri atas:

a. Statistic

Statistik adalah cabang ilmu matematika yang mempelajari tentang sekumpulan dan

deskripsi data yang akan digunakan dalam membuat laporan tentang informasi yang

penting agar seseorang dapat membuat keputusan yang berguna. Salah satu

keuntungan statistik adalah menampilkan database dalam tampilan ber-level tinggi

yang menyediakan informasi-informasi yang berguna tanpa perlu mengerti setiap

record secara detail.

b. Nearest Neighbour

Teknik prediksi pengelompokan dan nearest neighbour merupakan teknik yang tertua

yang digunakan dalam data mining. Nearest neighbour merupakan teknik prediksi

yang hampir sama dengan pengelompokan, untuk memperkirakan apakah nilai

prediksi ada dalam satu record, mencari kesamaan nilai prediktor didalam basis data

historis dan menggunakan nilai prediksi dari record yang “Terdekat” untuk tidak

membagi-bagikan record.

c. Pengelompokan (Clustering)

Pengelompokan merupakan metode yang mengklasifikasikan data kedalam

kelompok-kelompok berdasarkan kriteria masing-masing data. Biasanya,teknik ini

dipakai untuk memberikan pengguna akhir sebuah gambaran level atas dari apa yang

telah terjadi didalam basis data. Pengelompokan terkadang digunakan untuk

segmentasi.

2. Teknik generasi selanjutnya (The Next Generation Technique)

Decision Tree (Pohon Keputusan)

Pohon keputusan merupakan model prediktif yang dapat digambarkan seperti pohon,

dimana setiap node didalam struktur pohon tersebut mewakili sebuah pertanyaan

yang digunakan untuk menggolongkan data. Struktur ini dapat digunakan untuk

membantu memperkirakan kemungkinan nilai setiap atribut data.

Beberapa hal menarik tentang tree:

a. Tree ini membagi data pada setiap cabangnya tanpa kehilangan data sedikit pun.

Jumlah total record pada node parent sama dengan jumlah total record yang ada

node children.

b. Sangat mudah dimengerti bagaimana sebuah model dibangun, kebalikan dengan

model dari neural network atau dari statistik standar.

c. Mudah untuk menggunakan model ini jika kita mempunyai target pelanggan

yang sepertinya tertarik dengan penawaran marketing.

Dari perspektif bisnis, decision tree dapat dilihat sebagai pembuatan segmentasi dari

data set yang orisinil. Segmentasi ini dilakukan untuk beberapa alasan tertentu,

misalnya untuk prediksi dari beberapa potong informasi penting. Meskipun decision

tree sendiri dan algoritma yang membuat decision tree itu mungkin saja sangat

kompleks, namun hasil yang ditampilkan dengan cara yang mudah dimengerti sangat

membantu untuk pengguna bisnis. Decision tree sering kali dikembangkan untuk

statistican dalam mengotomatisasi proses menentukan field mana dari database

mereka yang benar-benar berguna untuk terkorelasi dengan masalh tertentu yang

sedang mereka usahakan untuk mengerti. Karena itu, algoritma decision tree

cenderung mengotomatisasi seluruh proses pembuatan hipotesis dan kemudian

melakukan validasi yang lebih komplit dalam cara yang lebih terintegrasi dibanding

dengan teknik data mining lainnya.

Decision tree biasanya digunakan untuk berbagai kebutuhan:

a. Eksplorasi

Teknologi decision tree dapat digunakan untuk eksplorasi data set dan masalah

bisnis. Hal ini biasanya dilakukan dengan mencari predictor dan nilai yang dipilih

untuk setiap bagian/cabang dari tree tersebut.

b. Preprocessing data

Teknologi ini juga dapat digunakan untuk mengolah daan memproses data yang

dapat digunakan pada algoritma lain, misalnya neural network, nearest neighbour,

dan lain-lain. Hal itu karena algoritma lain memerlukan waktu yang relatif lama

untuk dijalankan jika terdapat jumlah predictor dalam jumlah besar untuk

digunakan sebagai model sehingga teknik decision tree biasanya digunakan pada

tahap pertama data mining untuk menciptakan subset yang berguna dari predictor

baru kemudian hasil tersebut akan dapat dimasukkan pada teknik data miing yang

lain.

c. Prediksi

Para analis menggunakan teknik ini untuk membangun sebuah model prediktif

yang efektif.

Decision tree mempunyai beberapa keuntungan sebagai berikut :

a. Decision tree mudah dimengerti dan diinterprestasikan.

b. Penyiapan data untuk decision tree adalahutama dan tidak dibutuhkan.

c. Decision tree dapat mengatasi, baik data nominal maupun kategorial.

d. Decision tree merupakan model white box.

e. Decision tree dapat melakukan validasi terhadap model dengan tes statistik.

Hal itu akan memungkinan untuk menghitung reliabilitad model.

Decision tree merupakan teknik yang kuat, dapat bekerja baik dengan data yang

besar dalam waktu yang singkat.

G. Contoh KasusImplementasi data mining dengan teknik Clustering untuk melakukan Competitive Intelligence

perusahaan.

Pembangunan perangkat lunak data mining dengan metode clustering menggunakan algoritma hirarki

divisive untuk pengelompokan customer dalam studi kasus ini, fungsi – fungsi yang dipakai adalah fungsi

untuk menentukan titik-titik pusat yang berguna sebagai pusat-pusat kelompok customer.

Langkah 1.

Fungsi untuk menentukan titik pusat awal dari semua data customer yang ada berdasarkan transaksi

yang dilakukan menggunakan perhitungan nilai rata-rata (mean) dari semua data yang ada dalam tabel

frekuensi transaksi. Pada langkah ini digunakan perhitungan nilai rata-rata (mean) karena untuk

mengantisipasi adanya nilai outline (nilai yang letaknya sangat jauh dari data yang ada) dari data yang

ada dalam tabel frekuensi. Contoh perhitungan dari sample data frekuensi transaksi customer, adalah

sebagai berikut:

Dari contoh data frekuensi diatas, maka kemudian diurutkan dari frekuensi paling kecil sampai ke

frekuensi terbesarnya, yaitu sebagai berikut:

Data frekuensinya :0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,2,2,2,4,5,5,6,7,11,11,15. Maka perhitungan pada

langkah I ini adalah sebagai berikut:

Perhitungan nilai rata-rata (mean) dari semua nilai yang ada pada tabel frekuensi.

= 0+0+0+0+0+0+0+0+0+1+1+1+1+1+1+1+2+2+2+4+5+5+6+7+11+11+15/30

= 2.56666666667.

Perhitungan titik pusat 1

Nilai frekuensi terkecil + nilai mean dari semua data tabel frekuensi/ 2

= 0+2.56666666667/2

= 1.283333333333.


menggunakan hasil perhitungan nilai rata-rata (mean) dari semua nilai yang ada pada tabel

frekuensi.

= 2.56666666667.


nilai rata-rata dari semua data tabel frekuensi + nilai frekuensi terbesar / 2.

= 2.56666666667 + 15 /2

= 8.78333333333.

Maka hasil titik pusat dari langkah I ini adalah :

Titik pusat 1 = 1.283333333335

Titik pusat 2 = 2.56666666667

Titik pusat 3 = 8.78333333333

Setelah pencarian titik pusat klaster pada langkah 1 diketahui hasilnya, kemudian titik – titik pusat

tersebut digunakan untuk menarik anggota dari semua nilai data yang ada pada tabel frekuensi dengan

menggunakan sistem perhitungan jarak kedekatan setiap data dengan masing-masing titik pusat

tersebut.Perhitungan jarak kedekatan dalam langkah 1 ini ditentukan dengan perhitungan selisih antar

titik pusat dibagi 2, kemudian hasil selisih titik pusat tersebut ditambahkan pada titik pusat yang lebih kecil

dan dikurangkan dengan titik pusat yg lebih besarnya, sehingga bisa diambil kesimpulan bahwa data-

data yang berada dalam rentang titik pusat tersebut merupakan anggotanya.

Contoh: Untuk menentukan anggota cluster dari titik pusat 2, meliputi :

Perhitungan rentang terendah :

= 2.576666666667 - 1.283333333335 / 2 = 0.646666666666.

Maka titik terendah dari titik pusat 2 adalah

= 2.56666666667 - 0.646666666666 = 1.920

Perhitungan rentang tertinggi:

= 8.78333333333 - 2.56666666667 / 2 = 3.10833333333

Maka titik tertinggi dari titik pusat 2 adalah 6

= 2.56666666667 + 3.10833333333

= 5.675

Sehingga anggota cluster dari titik pusat 2 bisa diambil dari rentang titik frekuensi data : 1.920 ≤

anggota cluster titik pusat 2 < 5.675

Langkah 2.

Setelah klaster-klaster pada langkah 1 terbentuk, maka pada langkah 2 ini dilakukan pengecekan

ulang perhitungan titik pusat setiap klaster dengan menggunakan perhitungan nilai median (perhitungan

nilai tengah). Pemakaian perhitungan nilai median karena semua data yang ada sudah diketahui pada

langkah1, sehingga tidak ada kekhawatiran munculnya data outline. Contoh perhitungan pada langkah 2

berdasarkan semua data yang ada pada halis langkah I adalah sebagai berikut:

Titik pusat 1

Membaca semua data anggota klaster ini pada langkah I, yaitu: 0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,2,2,2

Dari data diatas, untuk menghitung nilai titik pusat 1 pada langkah 2 digunakan perhitungan dengan

langkah sebagai berikut:

a. Jumlahkan semua item data yang ada pada klaster 1 pada langkah I

Num=[0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,2,2,2] = 19 item

b. Kemudian melakukan perhitungan titik pusat menggunakan perhitungan median (nilai tengah)

untuk mengecek titik pusat pada langkah 1

Jika Nilai sisa bagi = 19mod2 = 1

Karena sisa bagi dari total item 1, maka perhitungan titik pusat

= ((19/2) +((19/2)-1)/2

= 9 nilai tengahnya berada diantara item ke – 9 yang dibaca dari awal data dan akhir data dari

anggota klaster 1 pada langka I

=[0,0,0,0,0,0,0,0,0|1|1,1,1,1,1,1,2,2,2]

Jadi nilai titik pusat satu pada langkah II adalah 1.

Kemudian titik pusat satu pada langkah II ini dibandingkan dengan titik pusat satu pada langkah I,

dimana nilai 1 ≠ 1.283333333335 sehingga bisa ditarik kesimpulan bahwa titik pusat masih berubah.

Titik pusat 2

Anggota klaster ini pada langkah I adalah : 4,5,5

Dari data diatas, titik pusat 2 pada langkah II ini dihitung dengan cara sebagai berikut:


Num = [4,5,5] = 3 item



Jika Nilai sisa bagi = 3 mod 2 = 1


= ((3/2) +((3/2)-1)/2

= 1 → nilai tengahnya berada diantara item ke – 1 yang dibaca dari

awal data dan akhir data dari anggota klaster 2 pada langka I = [5|5|5]

7

Jadi nilai titik pusat dua pada langkah II adalah 5.

Kemudian titik pusat dua pada langkah II ini dibandingkan dengan titik pusat dua pada langkah I,

dimana nilai 5 ≠ 2.56666666667 sehingga bisa ditarik kesimpulan bahwa titik pusat masih berubah

Titik pusat 3

Anggota cluster pada langkah I adalah : 6,7,11,11,15

Dari data diatas, titik pusat 3 pada langkah II ini dihitung dengan cara sebagai berikut:


Num = [6,7,11,11,15] = 5 item



Jika Nilai sisa bagi = 5 mod 2 = 1


= ((5/2) +((5/2)-1)/2

= 2 → nilai tengahnya berada diantara item ke – 2 yang dibaca dari awal data dan akhir data

dari anggota klaster 3 pada langka I

= [6,7|11|11,15]

Jadi nilai titik pusat satu pada langkah II adalah 11.

Kemudian titik pusat tiga pada langkah II ini dibandingkan dengan titik pusat tiga pada langkah I,

dimana nilai 11 ≠ 8.78333333333 sehingga bisa ditarik kesimpulan bahwa titik pusat masih berubah.

Karena hasil titik pusat pada langkah dua ini masih beruba maka dilakukan perhitungan jarak rentang

anggota masing – masing cluster, sebagai penentu suatu nilai data masuk pada tiap-tiap klaster yang

jarak

titik pusatnya paling dekat dengan data. Contoh perhitungan jarak rentang antar data adalah, sebagai

berikut:

Titik pusat 1

Rentang titik pusat 1 = Titik pusat 2 – titik pusat 1 / 2 = 5-1 / 2 = 2

Maka rentang anggota titik pusat 1 langkah II = 1 +2 = 3

anggota klaster 1 pada langkah II < data frekuensi bernilai 3

Titik pusat 2

Rentang terendah = 5 - 1 / 2 = 2

Maka rentang terendah = 5 – 2 = 3

Rentang tertinggi : 11 – 5 / 2 = 3

Maka rentang teringgi = 5 + 3 = 8

Sehingga rentang anggota titik pusat 2 data frekuensi bernilai 3 ≤ anggota klaster 2 pada langkah

II < data frekuensi bernilai 8

Titik pusat 3

Rentang titik pusat 3 = titik pusat 3 – titik pusat 2 / 2 = 11 – 5 / 2 = 3

Maka rentang anggota titik pusat 3 = 11 – 3 = 8 → data frekuensi bernilai 8 ≤ anggota klaster 3 pada

langkah 2.

Langkah 3.Fungsi yang digunakan pada langkah ini, sama seperti fungsi yang digunakan pada langkah 2,

yaitupenggunaan perhitungan nilai tengan (median). Fungsi dalam langkah ini digunakan untuk

mengecekapakah titik pusat klaster yang telah terbentuk pada langkah sebelumnya sudah tidak berubah

lagi atautidak, dengan cara membandingkan hasil perhitungan titik pusat langkah ini dengan langkah

sebelumnya.Apabila titik pusat tersebut sudah tidak berubah maka pembentukan klaster customer sudah

selesai. Tetapi apabila titik pusat masih berubah maka dilakukan perhitungan ulang seperti pada langkah

II, perhitungan ini akan terus berulang sampai titik pusat cluster tidak berubah lagi.

PENUTUPA. Kesimpulan

Pada proses Data Mining hal yang paling penting adalah pada tahap “Data Mining”

dengan menggunakan teknik-teknik yang diaplikasikan untuk mengekstrak pola-pola potensial

yang berguna.1) Untuk melakukan pembentukan sebuah cluster dibutuhkan sebuah titik pusat yang bisa dicari dari

seluruh data yang ada dalam tabel frekuensi transaksi dengan melakukan metode perhitungan nilai rata

rata (mean) ataupun perhitungan nilai tengah (median).

2) Hasil dari aplikasi ini bisa dijadikan sebagai pendukung keputusan oleh manager terhadap customer –

customer yang dimilikinya. Misalnya pendukung keputusan untuk meningkatkan promosi kebeberapa

customer yang berada diklaster kurang aktif dan sedang ataupun keputusan untuk memberikan fasilitas

yang lebih exclusive maupun pemberian bonus atau diskon kepada customer yang berada di klaster

yang aktif.

B. Saran

Berikut adalah saran yang mungkin perlu dilakukan dalam pengembangan selanjutnya dimasa

yang akan datang terhadap aplikasi data mining dengan metode clustering:

Dimasa yang akan datang dalam pengembangan selanjutnya, guna lebih memaksimalkan

pendukung keputusan yang akan diambil, misalkan untuk kepentingan memudahkan kegiatan

promosi bisa ditambahkan sebuah fasilitas berupa fasilitah pengiriman email kepada customer

Dalam studi kasus ini, item yang digunakan sebagai data proses dalam pembentuk sebuah

cluster hanya didasarkan pada satu item saja yaitu pembacaan frekuensi id customer yang ada

ditabel transaksi berdasarkan id customer yang ada ditabel customer. Pada pengembangan

selanjutnya disarankan untuk pengambilan data proses tidak hanya berdasarkan satu item saja,

mungkin juga bisa dilakukan dengan pembacaan lebih dari satu item. Misalnya id barang

ataupun total harga yang dibayarkan untuk transaksinya, sehingga bisa diketahui barang apa

saja yang biasa dibeli customer pada sebuah klaster maupun besarnya jumlah total harga yang

dibayarkan oleh customer terhadap transaksi yang dilakukannya. Dengan demikian klaster yang

dibentuk tidak hanya tiga klaster tapi mungkin lebih dari pada itu dan informasi yang

didapatkanpun menjadi lebih banyak.

DAFTAR PUSTAKA

Indrajani,S.Kom.,MM.(2011).Pengantar dan Sistem Basis Data.PT Elex Media

Komputindo,Jakarta.wikipedia, “Data Mining”, http://en.wikipedia.org/wiki/Data_mining

Iko Pramudiono, “Pengantar data mining: Menambang Permata Pengetahuan di Gunung Data”,

http://ilmukomputer.com

Yudo Giri Sucahyo, “Penerapan data mining: Permasalahan apa saja yang bisa diselesaikan?”,

http://ilmukomputer.com

Noor Rindho, Suzuki Syofian, “Implementasi Data Mining dengan Metode Clustering untuk melakukan

Competitive Intelligence perusahaan”

makalah Data Mining_ryan Apriyansyah

Documents

Transcript of makalah Data Mining_ryan Apriyansyah