DISUSUN OLEH :Dedy feriyanto (210.511.138) Nazib fahmizar (210.511.145) Kurniady febry saputra (210.511.157) Prasetyama hidayat (210.511.161) PRODI :TEKNIK INFORMATIKA LOKAL :4B
2
KATA PENGANTAR
Puji syukur kami panjatkan kehadirat Allah SWT yang telah memberikan rahmat serta karunia-Nya
kepada kami sehingga kami berhasil menyelesaikan Makalah ini yang alhamdulillah tepat pada
waktunya yang berjudul tentang penelitian atau penerapan Data Mining (DM).
Makalah ini berisikan tentang teknik, trend, tools, ataupun implementasi DM atau yang lebih
khususnya membahas Membahas pengertian data mining serta contoh dalam implementasi data
mining secara metode dan observasi yang telah kita lakukan dalam aspek bidang usaha dalam
perusahaan nasional.Diharapkan Makalah ini dapat memberikan informasi kepada kita semua
tentang perkembangan data mining
Kami menyadari bahwa makalah ini masih jauh dari sempurna, oleh karena itu kami harapkan untuk
dapat memakluminya
Akhir kata, kami sampaikan terima kasih kepada semua pihak yang telah berperan serta dalam
penyusunan makalah ini dari awal sampai akhir. Semoga Allah SWT senantiasa meridhai segala
usaha kita. Amin.
Jakarta 08 Juni, 2012
Penyusun
3
DAFTAR ISI
HALAMAN JUDUL. 1
KATA PENGANTAR.. 2
DAFTAR ISI. 3
BAB I PENDAHULUAN 4
1.1 maksud dan tujuan penelitian.4
1.2 batasan masalah4
BAB II LANDASAN TEORI DAN PEMBAHASAN.. 5
2.1 pengertian data mining.5
2.2 teknik data mining,..6
2.3 implementasi (penerapan) data mining..8
2.4 contoh kasus penerapan.9
2.5 implementasi dan analisa hasil...............12
BAB III PENUTUP..19
3.1 kesimpulan.19
3.2 saran..20
DAFTAR PUSTAKA. 21
4
BAB 1 PENDAHULUAN
1.1 Maksud dan Tujuan Penelitian
Menerapkan proses data mining untuk pengolahan basis data customer dengan metode
clustering menggunakan algoritma hirarkis divisive k-means untuk mengelompokan
customer.
Penggunaan metode clustering dan algoritma hirarki divisive k-means untuk mengetahui
kemiripan karakteristik antar data dalam basis data customer berdasarkan transaksi yang
dilakukan, guna membentuk kelompok kelompok customer.
Membangun sebuah aplikasi data mining yang dapat membantu mentranformasikan basis
data customer berdasarkan transaksi yang dilakukan menjadi informasi yang berguna.
Memanfaatkan aplikasi data mining untuk melakukan competitive intelligence perusahaan
guna pengelompokan customer.
1.2 Batasan Masalah
Batasan perumusan masalah dalam penulisan studi kasus pada tugas ini, meliputi:
Competitive intelligence dalam studi kasus ini hanya sebatas untuk melakukan
pengelompokan customer berdasarkan data transaksi yang dilakukan saja tanpa melakukan
proses competitive intelligence lainnya.
Basis data yang akan digunakan dalam studi kasus ini adalah basis data customer dan
transaksi yang dilakukan saja tanpa melibatkan basis data lainnya, yang kemudian akan
diolah berdasarkan proses-proses yang ada dalam data mining.
Kemiripan antar data dalam studi kasus ini diterjemahkan sebagai jarak kedekatan antar
data dengan titik pusat, sehingga menghasilkan klaster-klaster customer yang sesuai dengan
tujuan dari studi kasus ini.
Penggunaan metode clustering untuk mengelompokan customer dengan menggunakan
algoritma hirarki divisive k-means.
Sebagai prototype sistem, studi kasus dilakukan ditoko perhiasan Benteng Jewellery yang
beralamat di Mall Pondok Indah 1 lt. 1 blok K no. 29-A Jl. Metro Pondok Indah Blok 3B
Pondok Pinang, Jakarta Selatan 12310.
Bahasa pemprograman yang digunakan pada studi kasus ini adalah PHP dan XAMPP sebagai
aplikasi basis data.
5
BAB II LANDASAN TEORI DAN PEMBAHASAN
IMPLEMENTASI DATA MINING DENGAN METODE CLUSTERING UNTUK MELAKUKAN COMPETITIVE INTELLIGENCE PERUSAHAAN
2.1 PENGERTIAN DATA MINING
Data Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan
data berupa pengetahuan yang selama ini tidak diketahui secara manual. Patut diingat bahwa kata
mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar
material dasar. Karena itu DM sebenarnya memiliki akar yang panjang dari bidang ilmu seperti
kecerdasan buatan (artificial intelligent), machine learning, statistik dan database. Data mining
adalah proses menerapkan metode ini untuk data dengan maksud untuk mengungkap pola-pola
tersembunyi. Dengan arti lain Data mining adalah proses untuk penggalian pola-pola dari data. Data
mining menjadi alat yang semakin penting untuk mengubah data tersebut menjadi informasi. Hal ini
sering digunakan dalam berbagai praktek profil, seperti pemasaran, pengawasan, penipuan deteksi
dan penemuan ilmiah. Telah digunakan selama bertahun-tahun oleh bisnis, ilmuwan dan pemerintah
untuk menyaring volume data seperti catatan perjalanan penumpang penerbangan, data sensus dan
supermarket scanner data untuk menghasilkan laporan riset pasar.
Alasan utama untuk menggunakan data mining adalah untuk membantu dalam analisis
koleksi pengamatan perilaku. Data tersebut rentan terhadap collinearity karena diketahui
keterkaitan. Fakta yang tak terelakkan data mining adalah bahwa subset/set data yang dianalisis
mungkin tidak mewakili seluruh domain, dan karenanya tidak boleh berisi contoh-contoh hubungan
kritis tertentu dan perilaku yang ada di bagian lain dari domain . Untuk mengatasi masalah semacam
ini, analisis dapat ditambah menggunakan berbasis percobaan dan pendekatan lain, seperti Choice
Modelling untuk data yang dihasilkan manusia.
Dalam situasi ini, yang melekat dapat berupa korelasi dikontrol untuk, atau dihapus sama
sekali, selama konstruksi desain eksperimental. Beberapa teknik yang sering disebut-sebut dalam
literatur Data Mining dalam penerapannya antara lain: clustering, classification, association rule
mining, neural network, genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap Data
Mining adalah perkembangan teknik-teknik Data Mining untuk aplikasi 1 pada database skala besar.
Sebelum populernya Data Mining, teknik-teknik tersebut hanya dapat dipakaiuntuk data skala kecil
saja.
6
PROSES DATA MINING
Tahap-Tahap Data Mining. Karena Data Mining adalah suatu rangkaian proses, Data Mining dapat
dibagi menjadi beberapa tahap:
1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise)
2. Integrasi data (penggabungan data dari beberapa sumber)
3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)
4. Aplikasi teknik Data Mining
5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)
6. Presentasi pengetahuan (dengan teknik visualisasi)
Tahap-tahap tsb. bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan
knowledge base.
2.2 TEKNIK DATA MINING
Berikut beberapa jenis teknik Data Mining yang paling populer dikenal dan digunakan:
1. Association Rule Mining
Association rule mining adalah teknik mining untuk menemukan aturan assosiatif antara
suatu kombinasi item. Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua
parameter, support yaitu persentase kombinasi item tsb. dalam database dan confidence yaitu
kuatnya hubungan antar item dalam aturan assosiatif. Algoritma yang paling populer dikenal sebagai
Apriori dengan paradigma generate and test, yaitu pembuatan kandidat kombinasi item yang
mungkin berdasar aturan tertentu lalu diuji apakah kombinasi item tsb memenuhi syarat support
minimum. Kombinasi item yang memenuhi syarat tsb. disebut frequent itemset, yang nantinya
dipakai untuk membuat aturan-aturan yang memenuhi syarat confidence minimum. Algoritma baru
yang lebih efisien bernama FP-Tree.
2. Classification Classification
Classification Classification adalah proses untuk menemukan model atau fungsi yang
menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan
kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan jika-
maka, berupa decision tree, formula matematis atau neural network. Decision tree adalah salah
satu metode classification yang paling populer karena mudah untuk diinterpretasi oleh manusia.
Disini setiap percabangan menyatakan kondisi yang harus dipenuhi dan tiap ujung pohon
menyatakan kelas data.
7
Algoritma decision tree yang paling terkenal adalah C4.5, tetapi akhir- akhir ini telah
dikembangkan algoritma yang mampu menangani data skala besar yang tidak dapat ditampung di
main memory seperti RainForest. Metode-metode classification yang lain adalah Bayesian, neural
network, genetic algorithm, fuzzy, case-based reasoning, dan k-nearest neighbor. Proses
classification biasanya dibagi menjadi dua fase : learning dan test. Pada fase learning, sebagian data
yang telah diketahui kelas datanya diumpankan untuk membentuk model perkiraan. Kemudian pada
fase test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi
dari model tsb. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data yang
belum diketahui.
3. Clustering
Berbeda dengan association rule mining dan classification dimana kelas data telah
ditentukan sebelumnya, clustering melakukan penge-lompokan data tanpa berdasarkan kelas data
tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang belum
diketahui itu. Karena itu clustering sering digolongkan sebagai metode unsupervised learning. Prinsip
dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan
kesamaan antar kelas/cluster. Clustering dapat dilakukan pada data yan memiliki beberapa atribut
yang dipetakan sebagai ruang multidimensi. Banyak algoritma clustering memerlukan fungsi jarak
untuk mengukur kemiripan antar data, diperlukan juga metode untuk normalisasi bermacam atribut
yang dimiliki data.
Beberapa kategori algoritma clustering yang banyak dikenal adalah metode partisi dimana
pemakai harus menentukan jumlah ke partisi yang diinginkan lalu setiap data dites untuk
dimasukkan pada salah satu partisi, metode lain yang telah lama dikenal adalah metode hierarki
yang terbagi dua lagi : bottom-up yang menggabungkan cluster kecil menjadi cluster lebih besar dan
top-down yang memecah cluster besar menjadi cluster yang lebih kecil.
Kelemahan 3 metode ini adalah bila bila salah satu penggabungan/pemecahan dilakukan
pada tempat yang salah, tidak dapat didapatkan cluster yang optimal. Pendekatan yang banyak
diambil adalah menggabungkan metode hierarki dengan metode clustering lainnya seperti yang
dilakukan oleh Chameleon. Akhir-akhir ini dikembangkan juga metode berdasar kepadatan data,
yaitu jumlah data yang ada di sekitar suatu data yang sudah teridentifikasi dalam suatu cluster. Bila
jumlah data dalam jangkauan tertentu lebih besar dari nilai ambang batas, data-data tsb dimasukkan
dalam cluster. Kelebihan metode ini adalah bentuk cluster yang lebih fleksibel. Algoritma yang
terkenal adalah DBSCAN.
8
4. Algoritma Hirarki Divinsive
Langkah awal yang dilakukan dalam algoritma hirarki divisive adalah membentuk satu
cluster besar yang dapat ditempati oleh semua obyek data. Pada langkah berikutnya, satu cluster
besar tersebut dipisah pisahkan menjadi beberapa cluster yang lebih kecil dengan karakteristik
data yang mempunyai lebih besar kesamaan satu dengan yang lainnya, sehingga data yang tidak
memiliki kemiripan yang cukup besar berada pada cluster yang terpisah.
2.3 IMPLEMENTASI (PENERAPAN) DATA MINING
Dalam bidang apasaja data mining dapat diterapkan? Berikut beberapa contoh bidang penerapan
data mining:
- Analisa pasar dan manajemen.
Solusi yang dapat diselesaikan dengan data mining, diantaranya: Menembak target pasar, Melihat
pola beli pemakai dari waktu ke waktu, Cross-Market analysis, Profil Customer, Identifikasi
kebutuhan Customer, Menilai loyalitas Customer, Informasi Summary.
Analisa Perusahaan dan Manajemen resiko.
Solusi yang dapat diselesaikan dengan data mining, diantaranya: Perencanaan keuangan dan
Evaluasi aset, Perencanaan sumber daya (Resource Planning), Persaingan (Competition).
Telekomunikasi.
Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat dari jutaan
transaksi yang masuk, transaksi mana sajakah yang masih harus ditangani secara manual.
Keuangan.
Financial Crimes Enforcement Network di Amerika Serikat baru-baru ini menggunakan data
mining untuk me-nambang trilyunan dari berbagai subyek seperti property, rekening bank
dan transaksi keuangan lainnya untuk mendeteksi transaksi-transaksi keuangan yang
mencurigakan (seperti money laundry) .
Asuransi.
Australian Health Insurance Commision menggunakan data mining untuk mengidentifikasi
layanan kesehatan yang sebenarnya tidak perlu tetapi tetap dilakukan oleh peserta asuransi.
Olahraga.
IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan NBA
(jumlah shots blocked, assists dan fouls) dalam rangka mencapai keunggulan bersaing
(competitive advantage) untuk tim New York Knicks dan Miami Heat.
9
2.4 CONTOH KASUS PENERAPAN :
Implementasi data mining dengan teknik Clustering untuk melakukan Competitive Intelligence
perusahaanPembangunan perangkat lunak data mining dengan metode clustering menggunakan
algoritma hirarki divisive untuk pengelompokan customer dalam studi kasus ini, fungsi fungsi yang
dipakai adalah fungsi untuk menentukan titik-titik pusat yang berguna sebagai pusat-pusat
kelompok customer.
A)Perumusan Masalah
Perumusan masalah merupakan langkah untuk memahami permasalahan terhadap sistem secara
lebih dalam. Langkah ini diambil untuk mendefinisikan semua kebutuhan sistem yang akan
dibangun secara terperinci.
1) Analisa Permasalahan
Dalam kegiatan bisnis untuk mempertahankan area pemasaranya, toko Benteng jewellry
mengalami beberapa permasalahan-permasalahan yang menyangkut kebutuhan data dan
informasi tentang customer, sehingga untuk melakukan kegiatan-kegiatan promosi demi
mempertahankan pangsa pasar agar tetap bisa bertahan ditengah krisis ekonomi mengalami
beberapa masalahan. Permasalahan-permasalahan itu antara lain, yaitu:
a. Sulitnya melakukan analisa pemasaran yang efektif karena tidak adanya sistem yang
dapat menyajikan data historis sehingga dapat memberikan output tentang berapa
banyak jumlah customer yang dimiliki dan kelompok-kelompok customer yang aktif
maupun tidak menurut frekuensi transaksinya, karena data yang ada masih
berbentuk data manual dan belum dimanfaatkan secara maksimal.
b. Tidak diketahui dengan pasti jumlah customer yang aktif dan yang kurang aktif
dalam melakukan transaksi, sehingga sangat sulit untuk melakukan tindakan-
tindakan promosi maupun pemberian bonus atau diskon kepada setiap customer
yang dimiliki dengan tepat.
c. Terlalu banyaknya competitor usaha, sehingga diperlukan sebuah sistem yang bisa
mendeteksi berapa jumlah customer yang aktif dan yang kurang aktif dalam
bertransaksi sebagai sistem pendukung keputusan, sehingga bisa digunakan untuk
merancang sebuah strategi bisnis yang efektif guna mempertahankan pangsa pasar
dalam persaingan dengan competitor ditengan krisis ekonomi global seperti
sekarang ini.
Untuk gambaran sistem pencarian data yang dilakukan selama ini dilakukan pada toko ini (gambar
3.1) adalah sebagai berikut:
Gambar.1 Gambaran proses pencarian data customer selama ini pada benteng jewellry.
2) Pemecahaan Masalah
Berdasarkan latar belakang masalah diatas, maka dibutuhkan sebuah sistem yang mampu
mengelola data customer yang dapat memberikan output berupa jumlah customer secara
keseluruhan dan kelompok-kelompok customer yang menyatakan keaktifan melakukan
transaksi sehingga bisa digunakan untuk melakukan customer relationship guna kelancaran
kegiatan promosi untuk mempertahankan pangsa pasar sehingga toko ini bisa bertahan
ditengah krisis ekonomi global. Atas dasar analis diatas, maka penulis tertarik untuk meneliti
bidang ini dengan mengambil judul Implementasi Data mining dengan Metode Clustering
Untuk Melakukan Competitive Intelligence Perusahaan guna pengelompokan customer.
a. Analisa Kebutuhan Sistem
Analisa kebutuhan sistem berfungsi untuk mendefinisikan kebutuhan-kebutuhan
sistem yang akan dibangun. Analisa ini bertujuan untuk menghasilkan data yang bisa
diintegrasikan dengan analisa data mining yang dikehendaki.
b. Analisa Kebutuhan Data
Analisa data akan mengidentifikasikan kebutuhan data yang sesuai dengan
ketentuan yang diperlukan sistem dari data yang tidak lengkap dan inkonsisten yang
biasanya terjadi pada basis data yang ada. Analisa ini meliputi:
Analisa target data.
Proses data cleaning (pembersihan data).
Proses data integration (integrasi data).
Proses data selection (pemilihan data).
Proses data transformasi (pembentukan data prosesing).
11
Analisa kebutuhan data input, proses dan output.
c. Analisa Kebutuhan Perangkat Keras dan Perangkat Lunak
Analisa ini mendeskripsikan perangkat yang dibutuhkan dalam pembangunan sistem
yang terdiri dari komponen perangkat keras dan perangkat lunak. Komponen perangkat
keras yang dibutuhkan oleh sistem adalah sebuah pc atau workstation dengan spesifikasi
minimal, sebagai berikut:
Hardware :
Processor intel Pentium IV atau lebih, RAM 512 atau lebih, HDD 80GB, VGA 12 MB
shared, CD-RW/ DVD-RW.
Software :
11111111111111Operating system : windows 98/2000/XP
XAMPP-win32-1.6.7
web browser : Ms. Internet Explrer , Mozilla Firefox 3.0
3) Perancangan Sistem
Dalam perancangan sistem ini, metode yang digunakan adalah metode perancangan sistem
berorientasi objek dengan (Object Oriented Analysis) dengan menggunakan Unified
Modelling Language (UML). Sebagai gambaran sistem yang akan dibangun, adalah sebagia
berikut :
Gambar.2 Usecase diagram sistem yang akan dibangun
12
2.5 IMPLEMENTASI DAN ANALISA HASIL
Dalam bab implementasi dan analisa hasil, akan dijelaskan tentang pembangunan perangkat
lunak yang telah dirancang sebelumnya pada bab sebelumnya yaitu bab tentang analisa dan
peancangan. Implementasi dari perancangan pembangunan perangkat lunak dalam studi kasus ini,
meliputi:
A. Implementasi Basis Data
Dalam studi kasus ini, sistem basis data yang digunakan adalah ApacheFriends XAMPP versi
1.6.7. Karena basis data awal dalam studi kasus ini yang dimiliki berupa basis data dalam bentuk
manual, maka pembentukan basis data dalam studi kasus ini dibuat melalui pembangunan basis
data baru dengan melakukan pembentukan tiap tabel yang diperlukan dan pengisian data dengan
cara input data satu persatu kedalam sistem basis data yang ada diaplikasi ApacheFriends XAMPP
bukan melalui proses export dan import data.
Adapun proses pembangunan basis data yang sesuai dengan perangkat lunak yang akan
dibangun adalah sebagai berikut:
Melakukan pembentukan basis data baru, yaitu basis data clustering.
Pembentukan tabel tabel yang dibutuhkan dalam basis data dan menetukan struktur
tabelnya.
Melakukan penginputan data kedalam setiap tabel yang ada dalam basis data clustering ini
kecuali tabel frekuensi yang merupakan tabel proses dalam studi ini.
Melakukan pengisian tabel frekuensi yang merupakan data proses dalam studi kasus ini,
dengan melakukan pembacaan id_customer yang ada dalam tabel transaksi berdasarkan
id_customer yang ada ditabel customer yang dilakukan oleh sistem secara langsung.
B. Implementasi Fungsi
Pembangunan perangkat lunak data mining dengan metode clustering menggunakan
algoritma hirarki divisive untuk pengelompokan customer dalam studi kasus ini, fungsi fungsi
yang dipakai adalah fungsi untuk menentukan titik-titik pusat yang berguna sebagai pusat-pusat
kelompok customer. Fungsi - fungsi tersebut adalah sebagai berikut (santosa, 2007):
1.Langkah I
Fungsi untuk menentukan titik pusat awal dari semua data customer yang ada
berdasarkan transaksi yang dilakukan menggunakan perhitungan nilai rata-rata (mean) dari
semua data yang ada dalam tabel frekuensi transaksi. Pada langkah ini digunakan
perhitungan nilai rata-rata (mean) karena untuk mengantisipasi adanya nilai outline (nilai
yang letaknya sangat jauh dari data yang ada) dari data yang ada dalam tabel frekuensi.
Contoh perhitungan langkah I dari sample data frekuensi transaksi customer (tabel 1), adalah
sebagai berikut:
Tabel.1 Tabel data frekuensi
Dari contoh data frekuensi diatas, maka kemudian diurutkan dari frekuensi paling kecil
sampai ke frekuensi terbesarnya, yaitu sebagai berikut:
Data frekuensinya :0,0,0,0,0,0,0,0,0,1,1,1,1,
1,1,1,2,2,2,4,5,5,6,7,11,11,15. Maka perhitungan pada langkan I ini adalah sebagai berikut:
Perhitungan nilai rata-rata (mean) dari semua nilai yang ada pada tabel frekuensi.
0+0+0+0+0+0+0+0+0+1+1+1+1+1+
1+1+2+2+2+4+5+5+6+7+11+11+15/30
2.56666666667.
Perhitungan titik pusat 1
nilai frekuensi terkecil + nilai mean dari semua data tabel frekuensi/ 2
0+2.56666666667/2
1.283333333333.
Perhitungan titik pusat 2
14
menggunakan hasil perhitungan nilai rata-rata (mean) dari semua nilai yang ada pada
tabel frekuensi.
2.56666666667.
Perhitungan titik pusat 3
nilai rata-rata dari semua data tabel frekuensi + nilai frekuensi terbesar / 2.
2.56666666667 + 15 /2
8.78333333333.
Maka hasil titik pusat dari langkah I ini adalah :
Titik pusat 1 = 1.283333333335
Titik pusat 2 = 2.56666666667
Titik pusat 3 = 8.78333333333
Setelah pencarian titik pusat klaster pada langkah 1 diketahui hasilnya, kemudian
titik titik pusat tersebut digunakan untuk menarik anggota dari semua nilai data yang ada
pada tabel frekuensi dengan menggunakan sistem perhitungan jarak kedekatan setiap data
dengan masing-masing titik pusat tersebut. Perhitungan jarak kedekatan dalam langkah 1
ini ditentukan dengan perhitungan selisih antar titik pusat dibagi 2, kemudian hasil selisih
titik pusat tersebut ditambahkan pada titik pusat yang lebih kecil dan dikurangkan dengan
titik pusat yg lebih besarnya, sehingga bisa diambil kesimpulan bahwa data-data yang
berada dalam rentang titik pusat tersebut merupakan anggotanya.
Contoh: Untuk menentukan anggota cluster dari titik pusat 2, meliputi :
Perhitungan rentang terendah :
2.576666666667 - 1.283333333335 / 2 = 0.646666666666.
Maka titik terendah dari titik pusat 2 adalah
2.56666666667 - 0.646666666666 = 1.920
Perhitungan rentang tertinggi:
8.78333333333 - 2.56666666667 / 2 = 3.10833333333
Maka titik tertinggi dari titik pusat 2 adalah
2.56666666667 + 3.10833333333
= 5.675
Sehingga anggota cluster dari titik pusat 2 bisa diambil dari rentang titik frekuensi data :
1.920 anggota cluster titik pusat 2 < 5.675
15
2.Langkah II
Setelah klaster-klaster pada langkah 1 terbentuk, maka pada langkah 2 ini dilakukan
pengecekan ulang perhitungan titik pusat setiap klaster dengan menggunakan perhitungan
nilai median (perhitungan nilai tengah). Pemakaian perhitungan nilai median karena semua
data yang ada sudah diketahui pada langkah 1, sehingga tidak ada kekhawatiran munculnya
data outline. Contoh perhitungan pada langkah 2 berdasarkan semua data yang ada pada
halis langkah I adalah sebagai berikut:
Titik pusat 1
Membaca semua data anggota klaster ini pada langkah I, yaitu:
0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,2,2,2
Dari data diatas, untuk menghitung nilai titik pusat 1 pada langkah 2
digunakan perhitungan dengan langkah sebagai berikut:
a. Jumlahkan semua item data yang ada pada klaster 1 pada langkah I
Num=[0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,2,2,2] = 19 item
b. Kemudian melakukan perhitungan titik pusat menggunakan perhitungan median (nilai
tengah) untuk mengecek titik pusat pada langkah 1
Jika Nilai sisa bagi = 19mod2 = 1
Karena sisa bagi dari total item 1, maka perhitungan titik pusat
= ((19/2) +((19/2)-1)/2
= 9 nilai tengahnya berada diantara item ke 9 yang dibaca dari awal data dan akhir
data dari anggota klaster 1 pada langka I
=[0,0,0,0,0,0,0,0,0|1|1,1,1,1,1,1,2,2,2]
Jadi nilai titik pusat satu pada langkah II adalah 1.
Kemudian titik pusat satu pada langkah II ini dibandingkan dengan titik pusat satu pada
langkah I, dimana nilai 1 1.283333333335 sehingga bisa ditarik kesimpulan bahwa titik
pusat masih berubah.
Titik pusat 2
Anggota klaster ini pada langkah I adalah : 4,5,5
Dari data diatas, titik pusat 2 pada langkah II ini dihitung dengan cara sebagai berikut:
a. Jumlahkan semua item data yang ada pada klaster 1 pada langkah I
16
Num = [4,5,5] = 3 item
b. Kemudian melakukan perhitungan titik pusat menggunakan perhitungan median (nilai
tengah) untuk mengecek titik pusat pada langkah 1 Jika Nilai sisa bagi = 3 mod 2 = 1
Karena sisa bagi dari total item 1, maka perhitungan titik pusat = ((3/2) +((3/2)-1)/2 = 1
nilai tengahnya berada diantara item ke 1 yang dibaca dari awal data dan akhir data
dari anggota klaster 2 pada langka I = [5|5|5]. Jadi nilai titik pusat dua pada langkah II
adalah 5. Kemudian titik pusat dua pada langkah II ini dibandingkan dengan titik pusat
dua pada langkah I, dimana nilai 5 2.56666666667 sehingga bisa ditarik kesimpulan
bahwa titik pusat masih berubah.
Titik pusat 3
Anggota cluster pada langkah I adalah : 6,7,11,11,15
Dari data diatas, titik pusat 3 pada langkah II ini dihitung dengan cara sebagai berikut:
a. Jumlahkan semua item data yang ada pada klaster 1 pada langkah I
Num = [6,7,11,11,15] = 5 item
b. Kemudian melakukan perhitungan titik pusat menggunakan perhitungan median (nilai
tengah) untuk mengecek titik pusat pada langkah 1
Jika Nilai sisa bagi = 5 mod 2 = 1
Karena sisa bagi dari total item 1, maka perhitungan titik pusat
= ((5/2) +((5/2)-1)/2
= 2 nilai tengahnya berada diantara item ke 2 yang dibaca dari awal data dan akhir
data dari anggota klaster 3 pada langka I
= [6,7|11|11,15]
Jadi nilai titik pusat satu pada langkah II adalah 11. Kemudian titik pusat tiga pada
langkah II ini dibandingkan dengan titik pusat tiga pada langkah I, dimana nilai 11
8.78333333333 sehingga bisa ditarik kesimpulan bahwa titik pusat masih berubah.
Karena hasil titik pusat pada langkah dua ini masih beruba maka dilakukan
perhitungan jarak rentang anggota masing masing cluster, sebagai penentu suatu nilai
data masuk pada tiap-tiap klaster yang jarak titik pusatnya paling dekat dengan data.
Contoh perhitungan jarak rentang antar data adalah, sebagai berikut:
Titik pusat 1
Rentang titik pusat 1 = Titik pusat 2 titik pusat 1 / 2 = 5-1 / 2 = 2 Maka rentang
anggota titik pusat 1 langkah II = 1 +2 = 3
17
anggota klaster 1 pada langkah II < data frekuensi bernilai 3
Titik pusat 2
Rentang terendah = 5 - 1 / 2 = 2 Maka rentang terendah = 5 2 = 3
Rentang tertinggi : 11 5 / 2 = 3 Maka rentang teringgi = 5 + 3 = 8 Sehingga rentang
anggota titik pusat 2
data frekuensi bernilai 3 anggota klaster 2 pada langkah II < data frekuensi bernilai
8
Titik pusat 3
Rentang titik pusat 3 = titik pusat 3 titik pusat 2 / 2 = 11 5 / 2 = 3 Maka rentang
anggota titik pusat 3 = 11 3 = 8 data frekuensi bernilai 8 anggota klaster 3 pada
langkah II
3.Langkah III
Fungsi yang digunakan pada langkah ini, sama seperti fungsi yang digunakan pada
langkah II, yaitu penggunaan perhitungan nilai tengan (median). Fungsi dalam langkah ini
digunakan untuk mengecek apakah titik pusat klaster yang telah terbentuk pada langkah
sebelumnya sudah tidak berubah lagi atau tidak, dengan cara membandingkan hasil
perhitungan titik pusat langkah ini dengan langkah sebelumnya. Apabila titik pusat tersebut
sudah tidak berubah maka pembentukan klaster customer sudah selesai. Tetapi apabila titik
pusat masih berubah maka dilakukan perhitungan ulang seperti pada langkah II, perhitungan
ini akan terus berulang sampai titik pusat cluster tidak berubah lagi
18
A.Implementasi Sistem
Dalam studi kasus ini, sistem yang dibangun merupakan sebuah perangkat lunak data
mining dengan metode clustering menggunakan algoritma hirarki devisive. Perangkat lunak
ini berisi form-form tampilan basis data yang telah dinormalisasi, form tampilan untuk data
frekuensi transaksi dan form tampilan dari hasil pengelompokan data customer menjadi
beberapa klaster. Perangkat lunak ini berfungsi untuk mencari pola-pola yang menarik dari
basis data yang berupa nilai frekuensi transaksi untuk mengelompokan customer.
Software yang digunakan untuk membangun perangkat lunak ini adalah kode
program PHP dengan server basis data XAMMP. Untuk menjalankannya, cukup dengan
menggunakan aplikasi web browser seperti windows internet explorer, firefox, flock web
browser, atau aplikasi web broser sejenisnya tetapi harus dengan aplikasi server basis data
yaitu XAMMP sudah terinstal pada PC tempat membuka aplikasi ini, hal ini disebabkan
karena perangkat lunak ini membutuhkan asupan basis data dalam bentuk tabel untuk bisa
melakukan proses clustering. Hasil akhir dari perangkat lunak yang dibangun dalam studi
kasus ini berupa tabel pengelompokan customer dan chart-chart presentase dari tabel
pengelompokan tersebut, sehingga dari hasil ini nantinya bisa digunakan oleh user dalam hal
ini adalah manager pemasaran dan customer service sebagai pendukung keputusan seperti
peningkatan promosi kepada customer-customer yang kurang aktif, ataupun strategi-strategi
bisnis lainya.
Adapun formform atau halamanhalaman utama yang menjadi isi dari perangkat
lunak atau aplikasi ini, adalah sebagai berikut:
Halaman longin.
Halaman menu utama dan view data normal.
Halaman view data frekuensi.
Halaman klaster
B.Pengujian Sistem
Pengujian sistem digunakan untuk mengecek performan sistem ketika seorang user
dalam hal ini manager menjalankan sistem Pengujian ini, meliputi:
Pengujian hak akses atau longin.
Pengujian pembentukan klaster berdasarkan data.
19
BAB III PENUTUP
3.1 Kesimpulan
Berdasarkan studi kasus yang telah dilakukan, mulai dari tahap studi pustaka, studi observasi,
perancancangan dan implementasi sistem, maka dari hasil yang didapatkan bisa ditarik
kesimpulan sebagai berikut:
1) Metode clustering dengan algoritma hirarki divisive bisa digunakan untuk melakukan
pengelompokan customer guna competitive intelegent bisnis perusahaan.
2) Informasi dari frekuensi transaksi seorang customer bisa digunakan untuk membangun
sebuah sistem yang dapat mentranformasikan data customer menjadi informasi yang
berguna untuk melakukan proses competitive intelegent bisnis perusahaan.
3) Program hanya dirancang untuk satu user saja yaitu manager pemasaran dan customer
service, sehingga user lain yang tidak sah tidak akan bisa melakukan akses keprogram ini
karena username dan password sebagai hak akses sah program hanya dirancang untuk satu
user saja dan tidak disediakan fasilitas untuk penambahan hak akses.
4) Program akan melakukan proses peng-update-an secara otomatis apabila ada perubahan
pada basis data terutama pada tabel transaksi dan tabel customer terhadap nilai-nilai data
yang ada ditabel frekuensi transaksi dan juga tabel tabel hasil proses cluster serta grafik
grafik persentasenya.
5) Untuk melakukan pembentukan sebuah cluster dibutuhkan sebuah titik pusat yang bisa
dicari dari seluruh data yang ada dalam tabel frekuensi transaksi dengan melakukan metode
perhitungan nilai rata rata (mean) ataupun perhitungan nilai tengah (median).
6) Aplikasi tetap bisa berjalan baik ketika dijalankan pada tiga web browser yang berbeda,
yaitu internet explorer, mozilla firefox dan flock web browser.
7) Hasil dari aplikasi ini bisa dijadikan sebagai pendukung keputusan oleh manager terhadap
customer customer yang dimilikinya. Misalnya pendukung keputusan untuk meningkatkan
promosi kebeberapa customer yang berada diklaster kurang aktif dan sedang ataupun
keputusan untuk memberikan fasilitas yang lebih exclusive maupun pemberian bonus atau
diskon kepada customer yang berada di klaster yang aktif.
20
3.2 Saran
Berikut adalah saran yang mungkin perlu dilakukan dalam pengembangan selanjutnya dimasa
yang akan datang terhadap aplikasi data mining dengan metode clustering menggunakan
algoritma hirarki divisive k-means ini nantinya.
1) Dimasa yang akan datang dalam pengembangan selanjutnya, guna lebih memaksimalkan
pendukung keputusan yang akan diambil, misalkan untuk kepentingan memudahkan
kegiatan promosi bisa ditambahkan sebuah fasilitas berupa fasilitah pengiriman email
kepada customer.
2) Dalam studi kasus ini, item yang digunakan sebagai data proses dalam pembentuk sebuah
cluster hanya didasarkan pada satu item saja yaitu pembacaan frekuensi id customer yang
ada ditabel transaksi berdasarkan id customer yang ada ditabel customer. Pada
pengembangan selanjutnya disarankan untuk pengambilan data proses tidak hanya
berdasarkan satu item saja, mungkin juga bisa dilakukan dengan pembacaan lebih dari satu
item. Misalnya id barang ataupun total harga yang dibayarkan untuk transaksinya, sehingga
bisa diketahui barang apa saja yang biasa dibeli customer pada sebuah klaster maupun
besarnya jumlah total harga yang dibayarkan oleh customer terhadap transaksi yang
dilakukannya. Dengan demikian klaster yang dibentuk tidak hanya tiga klaster tapi mungkin
lebih dari pada itu dan informasi yang didapatkanpun menjadi lebih banyak.
3) Dalam studi kasus ini, algoritma yang digunakan adalah algoritma hirarki divisive yang
berfungsi untuk membagi sebuah cluster besar menjadi beberapa cluster kecil, dalam
pengembangan selanjutnya dimungkinkan menggunakan metode yang lain, separti :
Metode market baskel analisis sehingga bisa diketahui pola-pola lain seperti barang apa
saja yang menjadi favorit customer dalam sebuah cluster.
Penggunaan algoritma apriori untuk menganalisa kecendrungan seorang customer
dalam melakukan transaksi, misalnya untuk meneliti tanggal berapakah biasanya
seorang customer melakukan transaksi pembelian dan barang apa saja yang biasa
mereka beli sehingga manager bisa menyusun strategi lain dalam pemasaranya.
21
DAFTAR PUSTAKA
[1] Budi Santosa, Data Mining: Teknik Pemanfaatan Data Untuk Keperluan Bisnis, Graha Ilmu,
Yogyakarta, 2007.
[2] David Hand, Heikki Mannila dan Padhraic Smyth, Principles of data mining, A Bradford
book The MIT Press, Cambridge, Massachusetts London England, 2001.
[3] Howard podeswa, UML for the IT Business Analyst: A Practical Guide to Object-Oriented
Requirements Gathering, Thomson Course Technology PTR, 2005.
[4] Ian H.Witten dan Eibe Frank, Data mining : practical machine learning tools and
techniques, Morgan Kaufmann publishers, San Francisco, 2005.
[5] Munawar, Pemodelan Visual dengan UML, Graha Ilmu, Yogyakarta, 2005.
[6] Roger S. Pressman, software engineering 5th edition, McGraw-Hill Companies Inc, 2001.
[7] Thomas Connolly dan Carolyn Begg, Database Systems: A Practical to Desing,
Implementation and Management, 2005.
-oo0oo-
[8] Hima Valli Kona, Association rule mining over multiple database: Partioned and incremental
approaches, 2003.
[9] Iko pramudiono, proses data mining,http://datamining.japati.net/, posted on 17/08/2006
07.57pm.
[10] Jerry Peter XAMPP: Paket Apache,
PHP dan MySQL Instant, ilmu
komputer.com, 2007.
[11] Laboratoriun Data Mining, Modul 11
Clustering, Fakultas Teknik Industri, UII,
komunikasi pribadi.
[12] Triswansyah Yuliano pengenalan
PHP, ilmu computer.com, 2007.
-oo0oo-
Top Related