Makalah Data Mining Smt4

DISUSUN OLEH :Dedy feriyanto (210.511.138) Nazib fahmizar (210.511.145) Kurniady febry saputra (210.511.157) Prasetyama hidayat (210.511.161) PRODI :TEKNIK INFORMATIKA LOKAL :4B

2

KATA PENGANTAR

Puji syukur kami panjatkan kehadirat Allah SWT yang telah memberikan rahmat serta karunia-Nya

kepada kami sehingga kami berhasil menyelesaikan Makalah ini yang alhamdulillah tepat pada

waktunya yang berjudul tentang penelitian atau penerapan Data Mining (DM).

Makalah ini berisikan tentang teknik, trend, tools, ataupun implementasi DM atau yang lebih

khususnya membahas Membahas pengertian data mining serta contoh dalam implementasi data

mining secara metode dan observasi yang telah kita lakukan dalam aspek bidang usaha dalam

perusahaan nasional.Diharapkan Makalah ini dapat memberikan informasi kepada kita semua

tentang perkembangan data mining

Kami menyadari bahwa makalah ini masih jauh dari sempurna, oleh karena itu kami harapkan untuk

dapat memakluminya

Akhir kata, kami sampaikan terima kasih kepada semua pihak yang telah berperan serta dalam

penyusunan makalah ini dari awal sampai akhir. Semoga Allah SWT senantiasa meridhai segala

usaha kita. Amin.

Jakarta 08 Juni, 2012

Penyusun

3

DAFTAR ISI

HALAMAN JUDUL. 1

KATA PENGANTAR.. 2

DAFTAR ISI. 3

BAB I PENDAHULUAN 4

1.1 maksud dan tujuan penelitian.4

1.2 batasan masalah4

BAB II LANDASAN TEORI DAN PEMBAHASAN.. 5

2.1 pengertian data mining.5

2.2 teknik data mining,..6

2.3 implementasi (penerapan) data mining..8

2.4 contoh kasus penerapan.9

2.5 implementasi dan analisa hasil...............12

BAB III PENUTUP..19

3.1 kesimpulan.19

3.2 saran..20

DAFTAR PUSTAKA. 21

4

BAB 1 PENDAHULUAN

1.1 Maksud dan Tujuan Penelitian

Menerapkan proses data mining untuk pengolahan basis data customer dengan metode

clustering menggunakan algoritma hirarkis divisive k-means untuk mengelompokan

customer.

Penggunaan metode clustering dan algoritma hirarki divisive k-means untuk mengetahui

kemiripan karakteristik antar data dalam basis data customer berdasarkan transaksi yang

dilakukan, guna membentuk kelompok kelompok customer.

Membangun sebuah aplikasi data mining yang dapat membantu mentranformasikan basis

data customer berdasarkan transaksi yang dilakukan menjadi informasi yang berguna.

Memanfaatkan aplikasi data mining untuk melakukan competitive intelligence perusahaan

guna pengelompokan customer.

1.2 Batasan Masalah

Batasan perumusan masalah dalam penulisan studi kasus pada tugas ini, meliputi:

Competitive intelligence dalam studi kasus ini hanya sebatas untuk melakukan

pengelompokan customer berdasarkan data transaksi yang dilakukan saja tanpa melakukan

proses competitive intelligence lainnya.

Basis data yang akan digunakan dalam studi kasus ini adalah basis data customer dan

transaksi yang dilakukan saja tanpa melibatkan basis data lainnya, yang kemudian akan

diolah berdasarkan proses-proses yang ada dalam data mining.

Kemiripan antar data dalam studi kasus ini diterjemahkan sebagai jarak kedekatan antar

data dengan titik pusat, sehingga menghasilkan klaster-klaster customer yang sesuai dengan

tujuan dari studi kasus ini.

Penggunaan metode clustering untuk mengelompokan customer dengan menggunakan

algoritma hirarki divisive k-means.

Sebagai prototype sistem, studi kasus dilakukan ditoko perhiasan Benteng Jewellery yang

beralamat di Mall Pondok Indah 1 lt. 1 blok K no. 29-A Jl. Metro Pondok Indah Blok 3B

Pondok Pinang, Jakarta Selatan 12310.

Bahasa pemprograman yang digunakan pada studi kasus ini adalah PHP dan XAMPP sebagai

aplikasi basis data.

5

BAB II LANDASAN TEORI DAN PEMBAHASAN

IMPLEMENTASI DATA MINING DENGAN METODE CLUSTERING UNTUK MELAKUKAN COMPETITIVE INTELLIGENCE PERUSAHAAN

2.1 PENGERTIAN DATA MINING

Data Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan

data berupa pengetahuan yang selama ini tidak diketahui secara manual. Patut diingat bahwa kata

mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar

material dasar. Karena itu DM sebenarnya memiliki akar yang panjang dari bidang ilmu seperti

kecerdasan buatan (artificial intelligent), machine learning, statistik dan database. Data mining

adalah proses menerapkan metode ini untuk data dengan maksud untuk mengungkap pola-pola

tersembunyi. Dengan arti lain Data mining adalah proses untuk penggalian pola-pola dari data. Data

mining menjadi alat yang semakin penting untuk mengubah data tersebut menjadi informasi. Hal ini

sering digunakan dalam berbagai praktek profil, seperti pemasaran, pengawasan, penipuan deteksi

dan penemuan ilmiah. Telah digunakan selama bertahun-tahun oleh bisnis, ilmuwan dan pemerintah

untuk menyaring volume data seperti catatan perjalanan penumpang penerbangan, data sensus dan

supermarket scanner data untuk menghasilkan laporan riset pasar.

Alasan utama untuk menggunakan data mining adalah untuk membantu dalam analisis

koleksi pengamatan perilaku. Data tersebut rentan terhadap collinearity karena diketahui

keterkaitan. Fakta yang tak terelakkan data mining adalah bahwa subset/set data yang dianalisis

mungkin tidak mewakili seluruh domain, dan karenanya tidak boleh berisi contoh-contoh hubungan

kritis tertentu dan perilaku yang ada di bagian lain dari domain . Untuk mengatasi masalah semacam

ini, analisis dapat ditambah menggunakan berbasis percobaan dan pendekatan lain, seperti Choice

Modelling untuk data yang dihasilkan manusia.

Dalam situasi ini, yang melekat dapat berupa korelasi dikontrol untuk, atau dihapus sama

sekali, selama konstruksi desain eksperimental. Beberapa teknik yang sering disebut-sebut dalam

literatur Data Mining dalam penerapannya antara lain: clustering, classification, association rule

mining, neural network, genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap Data

Mining adalah perkembangan teknik-teknik Data Mining untuk aplikasi 1 pada database skala besar.

Sebelum populernya Data Mining, teknik-teknik tersebut hanya dapat dipakaiuntuk data skala kecil

saja.

6

PROSES DATA MINING

Tahap-Tahap Data Mining. Karena Data Mining adalah suatu rangkaian proses, Data Mining dapat

dibagi menjadi beberapa tahap:

1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise)

2. Integrasi data (penggabungan data dari beberapa sumber)

3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)

4. Aplikasi teknik Data Mining

5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)

6. Presentasi pengetahuan (dengan teknik visualisasi)

Tahap-tahap tsb. bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan

knowledge base.

2.2 TEKNIK DATA MINING

Berikut beberapa jenis teknik Data Mining yang paling populer dikenal dan digunakan:

1. Association Rule Mining

Association rule mining adalah teknik mining untuk menemukan aturan assosiatif antara

suatu kombinasi item. Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua

parameter, support yaitu persentase kombinasi item tsb. dalam database dan confidence yaitu

kuatnya hubungan antar item dalam aturan assosiatif. Algoritma yang paling populer dikenal sebagai

Apriori dengan paradigma generate and test, yaitu pembuatan kandidat kombinasi item yang

mungkin berdasar aturan tertentu lalu diuji apakah kombinasi item tsb memenuhi syarat support

minimum. Kombinasi item yang memenuhi syarat tsb. disebut frequent itemset, yang nantinya

dipakai untuk membuat aturan-aturan yang memenuhi syarat confidence minimum. Algoritma baru

yang lebih efisien bernama FP-Tree.

2. Classification Classification

Classification Classification adalah proses untuk menemukan model atau fungsi yang

menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan

kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan jika-

maka, berupa decision tree, formula matematis atau neural network. Decision tree adalah salah

satu metode classification yang paling populer karena mudah untuk diinterpretasi oleh manusia.

Disini setiap percabangan menyatakan kondisi yang harus dipenuhi dan tiap ujung pohon

menyatakan kelas data.

7

Algoritma decision tree yang paling terkenal adalah C4.5, tetapi akhir- akhir ini telah

dikembangkan algoritma yang mampu menangani data skala besar yang tidak dapat ditampung di

main memory seperti RainForest. Metode-metode classification yang lain adalah Bayesian, neural

network, genetic algorithm, fuzzy, case-based reasoning, dan k-nearest neighbor. Proses

classification biasanya dibagi menjadi dua fase : learning dan test. Pada fase learning, sebagian data

yang telah diketahui kelas datanya diumpankan untuk membentuk model perkiraan. Kemudian pada

fase test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi

dari model tsb. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data yang

belum diketahui.

3. Clustering

Berbeda dengan association rule mining dan classification dimana kelas data telah

ditentukan sebelumnya, clustering melakukan penge-lompokan data tanpa berdasarkan kelas data

tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang belum

diketahui itu. Karena itu clustering sering digolongkan sebagai metode unsupervised learning. Prinsip

dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan

kesamaan antar kelas/cluster. Clustering dapat dilakukan pada data yan memiliki beberapa atribut

yang dipetakan sebagai ruang multidimensi. Banyak algoritma clustering memerlukan fungsi jarak

untuk mengukur kemiripan antar data, diperlukan juga metode untuk normalisasi bermacam atribut

yang dimiliki data.

Beberapa kategori algoritma clustering yang banyak dikenal adalah metode partisi dimana

pemakai harus menentukan jumlah ke partisi yang diinginkan lalu setiap data dites untuk

dimasukkan pada salah satu partisi, metode lain yang telah lama dikenal adalah metode hierarki

yang terbagi dua lagi : bottom-up yang menggabungkan cluster kecil menjadi cluster lebih besar dan

top-down yang memecah cluster besar menjadi cluster yang lebih kecil.

Kelemahan 3 metode ini adalah bila bila salah satu penggabungan/pemecahan dilakukan

pada tempat yang salah, tidak dapat didapatkan cluster yang optimal. Pendekatan yang banyak

diambil adalah menggabungkan metode hierarki dengan metode clustering lainnya seperti yang

dilakukan oleh Chameleon. Akhir-akhir ini dikembangkan juga metode berdasar kepadatan data,

yaitu jumlah data yang ada di sekitar suatu data yang sudah teridentifikasi dalam suatu cluster. Bila

jumlah data dalam jangkauan tertentu lebih besar dari nilai ambang batas, data-data tsb dimasukkan

dalam cluster. Kelebihan metode ini adalah bentuk cluster yang lebih fleksibel. Algoritma yang

terkenal adalah DBSCAN.

8

4. Algoritma Hirarki Divinsive

Langkah awal yang dilakukan dalam algoritma hirarki divisive adalah membentuk satu

cluster besar yang dapat ditempati oleh semua obyek data. Pada langkah berikutnya, satu cluster

besar tersebut dipisah pisahkan menjadi beberapa cluster yang lebih kecil dengan karakteristik

data yang mempunyai lebih besar kesamaan satu dengan yang lainnya, sehingga data yang tidak

memiliki kemiripan yang cukup besar berada pada cluster yang terpisah.

2.3 IMPLEMENTASI (PENERAPAN) DATA MINING

Dalam bidang apasaja data mining dapat diterapkan? Berikut beberapa contoh bidang penerapan

data mining:

- Analisa pasar dan manajemen.

Solusi yang dapat diselesaikan dengan data mining, diantaranya: Menembak target pasar, Melihat

pola beli pemakai dari waktu ke waktu, Cross-Market analysis, Profil Customer, Identifikasi

kebutuhan Customer, Menilai loyalitas Customer, Informasi Summary.

Analisa Perusahaan dan Manajemen resiko.

Solusi yang dapat diselesaikan dengan data mining, diantaranya: Perencanaan keuangan dan

Evaluasi aset, Perencanaan sumber daya (Resource Planning), Persaingan (Competition).

Telekomunikasi.

Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat dari jutaan

transaksi yang masuk, transaksi mana sajakah yang masih harus ditangani secara manual.

Keuangan.

Financial Crimes Enforcement Network di Amerika Serikat baru-baru ini menggunakan data

mining untuk me-nambang trilyunan dari berbagai subyek seperti property, rekening bank

dan transaksi keuangan lainnya untuk mendeteksi transaksi-transaksi keuangan yang

mencurigakan (seperti money laundry) .

Asuransi.

Australian Health Insurance Commision menggunakan data mining untuk mengidentifikasi

layanan kesehatan yang sebenarnya tidak perlu tetapi tetap dilakukan oleh peserta asuransi.

Olahraga.

IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan NBA

(jumlah shots blocked, assists dan fouls) dalam rangka mencapai keunggulan bersaing

(competitive advantage) untuk tim New York Knicks dan Miami Heat.

9

2.4 CONTOH KASUS PENERAPAN :

Implementasi data mining dengan teknik Clustering untuk melakukan Competitive Intelligence

perusahaanPembangunan perangkat lunak data mining dengan metode clustering menggunakan

algoritma hirarki divisive untuk pengelompokan customer dalam studi kasus ini, fungsi fungsi yang

dipakai adalah fungsi untuk menentukan titik-titik pusat yang berguna sebagai pusat-pusat

kelompok customer.

A)Perumusan Masalah

Perumusan masalah merupakan langkah untuk memahami permasalahan terhadap sistem secara

lebih dalam. Langkah ini diambil untuk mendefinisikan semua kebutuhan sistem yang akan

dibangun secara terperinci.

1) Analisa Permasalahan

Dalam kegiatan bisnis untuk mempertahankan area pemasaranya, toko Benteng jewellry

mengalami beberapa permasalahan-permasalahan yang menyangkut kebutuhan data dan

informasi tentang customer, sehingga untuk melakukan kegiatan-kegiatan promosi demi

mempertahankan pangsa pasar agar tetap bisa bertahan ditengah krisis ekonomi mengalami

beberapa masalahan. Permasalahan-permasalahan itu antara lain, yaitu:

a. Sulitnya melakukan analisa pemasaran yang efektif karena tidak adanya sistem yang

dapat menyajikan data historis sehingga dapat memberikan output tentang berapa

banyak jumlah customer yang dimiliki dan kelompok-kelompok customer yang aktif

maupun tidak menurut frekuensi transaksinya, karena data yang ada masih

berbentuk data manual dan belum dimanfaatkan secara maksimal.

b. Tidak diketahui dengan pasti jumlah customer yang aktif dan yang kurang aktif

dalam melakukan transaksi, sehingga sangat sulit untuk melakukan tindakan-

tindakan promosi maupun pemberian bonus atau diskon kepada setiap customer

yang dimiliki dengan tepat.

c. Terlalu banyaknya competitor usaha, sehingga diperlukan sebuah sistem yang bisa

mendeteksi berapa jumlah customer yang aktif dan yang kurang aktif dalam

bertransaksi sebagai sistem pendukung keputusan, sehingga bisa digunakan untuk

merancang sebuah strategi bisnis yang efektif guna mempertahankan pangsa pasar

dalam persaingan dengan competitor ditengan krisis ekonomi global seperti

sekarang ini.

Untuk gambaran sistem pencarian data yang dilakukan selama ini dilakukan pada toko ini (gambar

3.1) adalah sebagai berikut:

Gambar.1 Gambaran proses pencarian data customer selama ini pada benteng jewellry.

2) Pemecahaan Masalah

Berdasarkan latar belakang masalah diatas, maka dibutuhkan sebuah sistem yang mampu

mengelola data customer yang dapat memberikan output berupa jumlah customer secara

keseluruhan dan kelompok-kelompok customer yang menyatakan keaktifan melakukan

transaksi sehingga bisa digunakan untuk melakukan customer relationship guna kelancaran

kegiatan promosi untuk mempertahankan pangsa pasar sehingga toko ini bisa bertahan

ditengah krisis ekonomi global. Atas dasar analis diatas, maka penulis tertarik untuk meneliti

bidang ini dengan mengambil judul Implementasi Data mining dengan Metode Clustering

Untuk Melakukan Competitive Intelligence Perusahaan guna pengelompokan customer.

a. Analisa Kebutuhan Sistem

Analisa kebutuhan sistem berfungsi untuk mendefinisikan kebutuhan-kebutuhan

sistem yang akan dibangun. Analisa ini bertujuan untuk menghasilkan data yang bisa

diintegrasikan dengan analisa data mining yang dikehendaki.

b. Analisa Kebutuhan Data

Analisa data akan mengidentifikasikan kebutuhan data yang sesuai dengan

ketentuan yang diperlukan sistem dari data yang tidak lengkap dan inkonsisten yang

biasanya terjadi pada basis data yang ada. Analisa ini meliputi:

Analisa target data.

Proses data cleaning (pembersihan data).

Proses data integration (integrasi data).

Proses data selection (pemilihan data).

Proses data transformasi (pembentukan data prosesing).

11

Analisa kebutuhan data input, proses dan output.

c. Analisa Kebutuhan Perangkat Keras dan Perangkat Lunak

Analisa ini mendeskripsikan perangkat yang dibutuhkan dalam pembangunan sistem

yang terdiri dari komponen perangkat keras dan perangkat lunak. Komponen perangkat

keras yang dibutuhkan oleh sistem adalah sebuah pc atau workstation dengan spesifikasi

minimal, sebagai berikut:

Hardware :

Processor intel Pentium IV atau lebih, RAM 512 atau lebih, HDD 80GB, VGA 12 MB

shared, CD-RW/ DVD-RW.

Software :

11111111111111Operating system : windows 98/2000/XP

XAMPP-win32-1.6.7

web browser : Ms. Internet Explrer , Mozilla Firefox 3.0

3) Perancangan Sistem

Dalam perancangan sistem ini, metode yang digunakan adalah metode perancangan sistem

berorientasi objek dengan (Object Oriented Analysis) dengan menggunakan Unified

Modelling Language (UML). Sebagai gambaran sistem yang akan dibangun, adalah sebagia

berikut :

Gambar.2 Usecase diagram sistem yang akan dibangun

12

2.5 IMPLEMENTASI DAN ANALISA HASIL

Dalam bab implementasi dan analisa hasil, akan dijelaskan tentang pembangunan perangkat

lunak yang telah dirancang sebelumnya pada bab sebelumnya yaitu bab tentang analisa dan

peancangan. Implementasi dari perancangan pembangunan perangkat lunak dalam studi kasus ini,

meliputi:

A. Implementasi Basis Data

Dalam studi kasus ini, sistem basis data yang digunakan adalah ApacheFriends XAMPP versi

1.6.7. Karena basis data awal dalam studi kasus ini yang dimiliki berupa basis data dalam bentuk

manual, maka pembentukan basis data dalam studi kasus ini dibuat melalui pembangunan basis

data baru dengan melakukan pembentukan tiap tabel yang diperlukan dan pengisian data dengan

cara input data satu persatu kedalam sistem basis data yang ada diaplikasi ApacheFriends XAMPP

bukan melalui proses export dan import data.

Adapun proses pembangunan basis data yang sesuai dengan perangkat lunak yang akan

dibangun adalah sebagai berikut:

Melakukan pembentukan basis data baru, yaitu basis data clustering.

Pembentukan tabel tabel yang dibutuhkan dalam basis data dan menetukan struktur

tabelnya.

Melakukan penginputan data kedalam setiap tabel yang ada dalam basis data clustering ini

kecuali tabel frekuensi yang merupakan tabel proses dalam studi ini.

Melakukan pengisian tabel frekuensi yang merupakan data proses dalam studi kasus ini,

dengan melakukan pembacaan id_customer yang ada dalam tabel transaksi berdasarkan

id_customer yang ada ditabel customer yang dilakukan oleh sistem secara langsung.

B. Implementasi Fungsi

Pembangunan perangkat lunak data mining dengan metode clustering menggunakan

algoritma hirarki divisive untuk pengelompokan customer dalam studi kasus ini, fungsi fungsi

yang dipakai adalah fungsi untuk menentukan titik-titik pusat yang berguna sebagai pusat-pusat

kelompok customer. Fungsi - fungsi tersebut adalah sebagai berikut (santosa, 2007):

1.Langkah I

Fungsi untuk menentukan titik pusat awal dari semua data customer yang ada

berdasarkan transaksi yang dilakukan menggunakan perhitungan nilai rata-rata (mean) dari

semua data yang ada dalam tabel frekuensi transaksi. Pada langkah ini digunakan

perhitungan nilai rata-rata (mean) karena untuk mengantisipasi adanya nilai outline (nilai

yang letaknya sangat jauh dari data yang ada) dari data yang ada dalam tabel frekuensi.

Contoh perhitungan langkah I dari sample data frekuensi transaksi customer (tabel 1), adalah

sebagai berikut:

Tabel.1 Tabel data frekuensi

Dari contoh data frekuensi diatas, maka kemudian diurutkan dari frekuensi paling kecil

sampai ke frekuensi terbesarnya, yaitu sebagai berikut:

Data frekuensinya :0,0,0,0,0,0,0,0,0,1,1,1,1,

1,1,1,2,2,2,4,5,5,6,7,11,11,15. Maka perhitungan pada langkan I ini adalah sebagai berikut:

Perhitungan nilai rata-rata (mean) dari semua nilai yang ada pada tabel frekuensi.

0+0+0+0+0+0+0+0+0+1+1+1+1+1+

1+1+2+2+2+4+5+5+6+7+11+11+15/30

2.56666666667.

Perhitungan titik pusat 1

nilai frekuensi terkecil + nilai mean dari semua data tabel frekuensi/ 2

0+2.56666666667/2

1.283333333333.


14

menggunakan hasil perhitungan nilai rata-rata (mean) dari semua nilai yang ada pada

tabel frekuensi.

2.56666666667.


nilai rata-rata dari semua data tabel frekuensi + nilai frekuensi terbesar / 2.

2.56666666667 + 15 /2

8.78333333333.

Maka hasil titik pusat dari langkah I ini adalah :

Titik pusat 1 = 1.283333333335

Titik pusat 2 = 2.56666666667

Titik pusat 3 = 8.78333333333

Setelah pencarian titik pusat klaster pada langkah 1 diketahui hasilnya, kemudian

titik titik pusat tersebut digunakan untuk menarik anggota dari semua nilai data yang ada

pada tabel frekuensi dengan menggunakan sistem perhitungan jarak kedekatan setiap data

dengan masing-masing titik pusat tersebut. Perhitungan jarak kedekatan dalam langkah 1

ini ditentukan dengan perhitungan selisih antar titik pusat dibagi 2, kemudian hasil selisih

titik pusat tersebut ditambahkan pada titik pusat yang lebih kecil dan dikurangkan dengan

titik pusat yg lebih besarnya, sehingga bisa diambil kesimpulan bahwa data-data yang

berada dalam rentang titik pusat tersebut merupakan anggotanya.

Contoh: Untuk menentukan anggota cluster dari titik pusat 2, meliputi :

Perhitungan rentang terendah :

2.576666666667 - 1.283333333335 / 2 = 0.646666666666.

Maka titik terendah dari titik pusat 2 adalah

2.56666666667 - 0.646666666666 = 1.920

Perhitungan rentang tertinggi:

8.78333333333 - 2.56666666667 / 2 = 3.10833333333

Maka titik tertinggi dari titik pusat 2 adalah

2.56666666667 + 3.10833333333

= 5.675

Sehingga anggota cluster dari titik pusat 2 bisa diambil dari rentang titik frekuensi data :

1.920 anggota cluster titik pusat 2 < 5.675

15

2.Langkah II

Setelah klaster-klaster pada langkah 1 terbentuk, maka pada langkah 2 ini dilakukan

pengecekan ulang perhitungan titik pusat setiap klaster dengan menggunakan perhitungan

nilai median (perhitungan nilai tengah). Pemakaian perhitungan nilai median karena semua

data yang ada sudah diketahui pada langkah 1, sehingga tidak ada kekhawatiran munculnya

data outline. Contoh perhitungan pada langkah 2 berdasarkan semua data yang ada pada

halis langkah I adalah sebagai berikut:

Titik pusat 1

Membaca semua data anggota klaster ini pada langkah I, yaitu:

0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,2,2,2

Dari data diatas, untuk menghitung nilai titik pusat 1 pada langkah 2

digunakan perhitungan dengan langkah sebagai berikut:

a. Jumlahkan semua item data yang ada pada klaster 1 pada langkah I

Num=[0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,2,2,2] = 19 item

b. Kemudian melakukan perhitungan titik pusat menggunakan perhitungan median (nilai

tengah) untuk mengecek titik pusat pada langkah 1

Jika Nilai sisa bagi = 19mod2 = 1

Karena sisa bagi dari total item 1, maka perhitungan titik pusat

= ((19/2) +((19/2)-1)/2

= 9 nilai tengahnya berada diantara item ke 9 yang dibaca dari awal data dan akhir

data dari anggota klaster 1 pada langka I

=[0,0,0,0,0,0,0,0,0|1|1,1,1,1,1,1,2,2,2]

Jadi nilai titik pusat satu pada langkah II adalah 1.

Kemudian titik pusat satu pada langkah II ini dibandingkan dengan titik pusat satu pada

langkah I, dimana nilai 1 1.283333333335 sehingga bisa ditarik kesimpulan bahwa titik

pusat masih berubah.

Titik pusat 2

Anggota klaster ini pada langkah I adalah : 4,5,5

Dari data diatas, titik pusat 2 pada langkah II ini dihitung dengan cara sebagai berikut:


16

Num = [4,5,5] = 3 item


tengah) untuk mengecek titik pusat pada langkah 1 Jika Nilai sisa bagi = 3 mod 2 = 1

Karena sisa bagi dari total item 1, maka perhitungan titik pusat = ((3/2) +((3/2)-1)/2 = 1

nilai tengahnya berada diantara item ke 1 yang dibaca dari awal data dan akhir data

dari anggota klaster 2 pada langka I = [5|5|5]. Jadi nilai titik pusat dua pada langkah II

adalah 5. Kemudian titik pusat dua pada langkah II ini dibandingkan dengan titik pusat

dua pada langkah I, dimana nilai 5 2.56666666667 sehingga bisa ditarik kesimpulan

bahwa titik pusat masih berubah.

Titik pusat 3

Anggota cluster pada langkah I adalah : 6,7,11,11,15

Dari data diatas, titik pusat 3 pada langkah II ini dihitung dengan cara sebagai berikut:


Num = [6,7,11,11,15] = 5 item


tengah) untuk mengecek titik pusat pada langkah 1

Jika Nilai sisa bagi = 5 mod 2 = 1

Karena sisa bagi dari total item 1, maka perhitungan titik pusat

= ((5/2) +((5/2)-1)/2

= 2 nilai tengahnya berada diantara item ke 2 yang dibaca dari awal data dan akhir

data dari anggota klaster 3 pada langka I

= [6,7|11|11,15]

Jadi nilai titik pusat satu pada langkah II adalah 11. Kemudian titik pusat tiga pada

langkah II ini dibandingkan dengan titik pusat tiga pada langkah I, dimana nilai 11

8.78333333333 sehingga bisa ditarik kesimpulan bahwa titik pusat masih berubah.

Karena hasil titik pusat pada langkah dua ini masih beruba maka dilakukan

perhitungan jarak rentang anggota masing masing cluster, sebagai penentu suatu nilai

data masuk pada tiap-tiap klaster yang jarak titik pusatnya paling dekat dengan data.

Contoh perhitungan jarak rentang antar data adalah, sebagai berikut:

Titik pusat 1

Rentang titik pusat 1 = Titik pusat 2 titik pusat 1 / 2 = 5-1 / 2 = 2 Maka rentang

anggota titik pusat 1 langkah II = 1 +2 = 3

17

anggota klaster 1 pada langkah II < data frekuensi bernilai 3

Titik pusat 2

Rentang terendah = 5 - 1 / 2 = 2 Maka rentang terendah = 5 2 = 3

Rentang tertinggi : 11 5 / 2 = 3 Maka rentang teringgi = 5 + 3 = 8 Sehingga rentang

anggota titik pusat 2

data frekuensi bernilai 3 anggota klaster 2 pada langkah II < data frekuensi bernilai

8

Titik pusat 3

Rentang titik pusat 3 = titik pusat 3 titik pusat 2 / 2 = 11 5 / 2 = 3 Maka rentang

anggota titik pusat 3 = 11 3 = 8 data frekuensi bernilai 8 anggota klaster 3 pada

langkah II

3.Langkah III

Fungsi yang digunakan pada langkah ini, sama seperti fungsi yang digunakan pada

langkah II, yaitu penggunaan perhitungan nilai tengan (median). Fungsi dalam langkah ini

digunakan untuk mengecek apakah titik pusat klaster yang telah terbentuk pada langkah

sebelumnya sudah tidak berubah lagi atau tidak, dengan cara membandingkan hasil

perhitungan titik pusat langkah ini dengan langkah sebelumnya. Apabila titik pusat tersebut

sudah tidak berubah maka pembentukan klaster customer sudah selesai. Tetapi apabila titik

pusat masih berubah maka dilakukan perhitungan ulang seperti pada langkah II, perhitungan

ini akan terus berulang sampai titik pusat cluster tidak berubah lagi

18

A.Implementasi Sistem

Dalam studi kasus ini, sistem yang dibangun merupakan sebuah perangkat lunak data

mining dengan metode clustering menggunakan algoritma hirarki devisive. Perangkat lunak

ini berisi form-form tampilan basis data yang telah dinormalisasi, form tampilan untuk data

frekuensi transaksi dan form tampilan dari hasil pengelompokan data customer menjadi

beberapa klaster. Perangkat lunak ini berfungsi untuk mencari pola-pola yang menarik dari

basis data yang berupa nilai frekuensi transaksi untuk mengelompokan customer.

Software yang digunakan untuk membangun perangkat lunak ini adalah kode

program PHP dengan server basis data XAMMP. Untuk menjalankannya, cukup dengan

menggunakan aplikasi web browser seperti windows internet explorer, firefox, flock web

browser, atau aplikasi web broser sejenisnya tetapi harus dengan aplikasi server basis data

yaitu XAMMP sudah terinstal pada PC tempat membuka aplikasi ini, hal ini disebabkan

karena perangkat lunak ini membutuhkan asupan basis data dalam bentuk tabel untuk bisa

melakukan proses clustering. Hasil akhir dari perangkat lunak yang dibangun dalam studi

kasus ini berupa tabel pengelompokan customer dan chart-chart presentase dari tabel

pengelompokan tersebut, sehingga dari hasil ini nantinya bisa digunakan oleh user dalam hal

ini adalah manager pemasaran dan customer service sebagai pendukung keputusan seperti

peningkatan promosi kepada customer-customer yang kurang aktif, ataupun strategi-strategi

bisnis lainya.

Adapun formform atau halamanhalaman utama yang menjadi isi dari perangkat

lunak atau aplikasi ini, adalah sebagai berikut:

Halaman longin.

Halaman menu utama dan view data normal.

Halaman view data frekuensi.

Halaman klaster

B.Pengujian Sistem

Pengujian sistem digunakan untuk mengecek performan sistem ketika seorang user

dalam hal ini manager menjalankan sistem Pengujian ini, meliputi:

Pengujian hak akses atau longin.

Pengujian pembentukan klaster berdasarkan data.

19

BAB III PENUTUP

3.1 Kesimpulan

Berdasarkan studi kasus yang telah dilakukan, mulai dari tahap studi pustaka, studi observasi,

perancancangan dan implementasi sistem, maka dari hasil yang didapatkan bisa ditarik

kesimpulan sebagai berikut:

1) Metode clustering dengan algoritma hirarki divisive bisa digunakan untuk melakukan

pengelompokan customer guna competitive intelegent bisnis perusahaan.

2) Informasi dari frekuensi transaksi seorang customer bisa digunakan untuk membangun

sebuah sistem yang dapat mentranformasikan data customer menjadi informasi yang

berguna untuk melakukan proses competitive intelegent bisnis perusahaan.

3) Program hanya dirancang untuk satu user saja yaitu manager pemasaran dan customer

service, sehingga user lain yang tidak sah tidak akan bisa melakukan akses keprogram ini

karena username dan password sebagai hak akses sah program hanya dirancang untuk satu

user saja dan tidak disediakan fasilitas untuk penambahan hak akses.

4) Program akan melakukan proses peng-update-an secara otomatis apabila ada perubahan

pada basis data terutama pada tabel transaksi dan tabel customer terhadap nilai-nilai data

yang ada ditabel frekuensi transaksi dan juga tabel tabel hasil proses cluster serta grafik

grafik persentasenya.

5) Untuk melakukan pembentukan sebuah cluster dibutuhkan sebuah titik pusat yang bisa

dicari dari seluruh data yang ada dalam tabel frekuensi transaksi dengan melakukan metode

perhitungan nilai rata rata (mean) ataupun perhitungan nilai tengah (median).

6) Aplikasi tetap bisa berjalan baik ketika dijalankan pada tiga web browser yang berbeda,

yaitu internet explorer, mozilla firefox dan flock web browser.

7) Hasil dari aplikasi ini bisa dijadikan sebagai pendukung keputusan oleh manager terhadap

customer customer yang dimilikinya. Misalnya pendukung keputusan untuk meningkatkan

promosi kebeberapa customer yang berada diklaster kurang aktif dan sedang ataupun

keputusan untuk memberikan fasilitas yang lebih exclusive maupun pemberian bonus atau

diskon kepada customer yang berada di klaster yang aktif.

20

3.2 Saran

Berikut adalah saran yang mungkin perlu dilakukan dalam pengembangan selanjutnya dimasa

yang akan datang terhadap aplikasi data mining dengan metode clustering menggunakan

algoritma hirarki divisive k-means ini nantinya.

1) Dimasa yang akan datang dalam pengembangan selanjutnya, guna lebih memaksimalkan

pendukung keputusan yang akan diambil, misalkan untuk kepentingan memudahkan

kegiatan promosi bisa ditambahkan sebuah fasilitas berupa fasilitah pengiriman email

kepada customer.

2) Dalam studi kasus ini, item yang digunakan sebagai data proses dalam pembentuk sebuah

cluster hanya didasarkan pada satu item saja yaitu pembacaan frekuensi id customer yang

ada ditabel transaksi berdasarkan id customer yang ada ditabel customer. Pada

pengembangan selanjutnya disarankan untuk pengambilan data proses tidak hanya

berdasarkan satu item saja, mungkin juga bisa dilakukan dengan pembacaan lebih dari satu

item. Misalnya id barang ataupun total harga yang dibayarkan untuk transaksinya, sehingga

bisa diketahui barang apa saja yang biasa dibeli customer pada sebuah klaster maupun

besarnya jumlah total harga yang dibayarkan oleh customer terhadap transaksi yang

dilakukannya. Dengan demikian klaster yang dibentuk tidak hanya tiga klaster tapi mungkin

lebih dari pada itu dan informasi yang didapatkanpun menjadi lebih banyak.

3) Dalam studi kasus ini, algoritma yang digunakan adalah algoritma hirarki divisive yang

berfungsi untuk membagi sebuah cluster besar menjadi beberapa cluster kecil, dalam

pengembangan selanjutnya dimungkinkan menggunakan metode yang lain, separti :

Metode market baskel analisis sehingga bisa diketahui pola-pola lain seperti barang apa

saja yang menjadi favorit customer dalam sebuah cluster.

Penggunaan algoritma apriori untuk menganalisa kecendrungan seorang customer

dalam melakukan transaksi, misalnya untuk meneliti tanggal berapakah biasanya

seorang customer melakukan transaksi pembelian dan barang apa saja yang biasa

mereka beli sehingga manager bisa menyusun strategi lain dalam pemasaranya.

21

DAFTAR PUSTAKA

[1] Budi Santosa, Data Mining: Teknik Pemanfaatan Data Untuk Keperluan Bisnis, Graha Ilmu,

Yogyakarta, 2007.

[2] David Hand, Heikki Mannila dan Padhraic Smyth, Principles of data mining, A Bradford

book The MIT Press, Cambridge, Massachusetts London England, 2001.

[3] Howard podeswa, UML for the IT Business Analyst: A Practical Guide to Object-Oriented

Requirements Gathering, Thomson Course Technology PTR, 2005.

[4] Ian H.Witten dan Eibe Frank, Data mining : practical machine learning tools and

techniques, Morgan Kaufmann publishers, San Francisco, 2005.

[5] Munawar, Pemodelan Visual dengan UML, Graha Ilmu, Yogyakarta, 2005.

[6] Roger S. Pressman, software engineering 5th edition, McGraw-Hill Companies Inc, 2001.

[7] Thomas Connolly dan Carolyn Begg, Database Systems: A Practical to Desing,

Implementation and Management, 2005.

-oo0oo-

[8] Hima Valli Kona, Association rule mining over multiple database: Partioned and incremental

approaches, 2003.

[9] Iko pramudiono, proses data mining,http://datamining.japati.net/, posted on 17/08/2006

07.57pm.

[10] Jerry Peter XAMPP: Paket Apache,

PHP dan MySQL Instant, ilmu

komputer.com, 2007.

[11] Laboratoriun Data Mining, Modul 11

Clustering, Fakultas Teknik Industri, UII,

komunikasi pribadi.

[12] Triswansyah Yuliano pengenalan

PHP, ilmu computer.com, 2007.

-oo0oo-

Makalah Data Mining Smt4

Documents

Transcript of Makalah Data Mining Smt4