Makalah Data Mining Smt4

21
 DISUSUN OLEH :Dedy feriyanto (210.511.138)  Nazib fahmizar (210.511.145) Kurniady febry saputra (210.511.157) Prasetyama hidayat (210.511.161) PRODI :TEKNIK INFORMATIKA LOKAL :4B

description

a

Transcript of Makalah Data Mining Smt4

  • DISUSUN OLEH :Dedy feriyanto (210.511.138) Nazib fahmizar (210.511.145) Kurniady febry saputra (210.511.157) Prasetyama hidayat (210.511.161) PRODI :TEKNIK INFORMATIKA LOKAL :4B

  • 2

    KATA PENGANTAR

    Puji syukur kami panjatkan kehadirat Allah SWT yang telah memberikan rahmat serta karunia-Nya

    kepada kami sehingga kami berhasil menyelesaikan Makalah ini yang alhamdulillah tepat pada

    waktunya yang berjudul tentang penelitian atau penerapan Data Mining (DM).

    Makalah ini berisikan tentang teknik, trend, tools, ataupun implementasi DM atau yang lebih

    khususnya membahas Membahas pengertian data mining serta contoh dalam implementasi data

    mining secara metode dan observasi yang telah kita lakukan dalam aspek bidang usaha dalam

    perusahaan nasional.Diharapkan Makalah ini dapat memberikan informasi kepada kita semua

    tentang perkembangan data mining

    Kami menyadari bahwa makalah ini masih jauh dari sempurna, oleh karena itu kami harapkan untuk

    dapat memakluminya

    Akhir kata, kami sampaikan terima kasih kepada semua pihak yang telah berperan serta dalam

    penyusunan makalah ini dari awal sampai akhir. Semoga Allah SWT senantiasa meridhai segala

    usaha kita. Amin.

    Jakarta 08 Juni, 2012

    Penyusun

  • 3

    DAFTAR ISI

    HALAMAN JUDUL. 1

    KATA PENGANTAR.. 2

    DAFTAR ISI. 3

    BAB I PENDAHULUAN 4

    1.1 maksud dan tujuan penelitian.4

    1.2 batasan masalah4

    BAB II LANDASAN TEORI DAN PEMBAHASAN.. 5

    2.1 pengertian data mining.5

    2.2 teknik data mining,..6

    2.3 implementasi (penerapan) data mining..8

    2.4 contoh kasus penerapan.9

    2.5 implementasi dan analisa hasil...............12

    BAB III PENUTUP..19

    3.1 kesimpulan.19

    3.2 saran..20

    DAFTAR PUSTAKA. 21

  • 4

    BAB 1 PENDAHULUAN

    1.1 Maksud dan Tujuan Penelitian

    Menerapkan proses data mining untuk pengolahan basis data customer dengan metode

    clustering menggunakan algoritma hirarkis divisive k-means untuk mengelompokan

    customer.

    Penggunaan metode clustering dan algoritma hirarki divisive k-means untuk mengetahui

    kemiripan karakteristik antar data dalam basis data customer berdasarkan transaksi yang

    dilakukan, guna membentuk kelompok kelompok customer.

    Membangun sebuah aplikasi data mining yang dapat membantu mentranformasikan basis

    data customer berdasarkan transaksi yang dilakukan menjadi informasi yang berguna.

    Memanfaatkan aplikasi data mining untuk melakukan competitive intelligence perusahaan

    guna pengelompokan customer.

    1.2 Batasan Masalah

    Batasan perumusan masalah dalam penulisan studi kasus pada tugas ini, meliputi:

    Competitive intelligence dalam studi kasus ini hanya sebatas untuk melakukan

    pengelompokan customer berdasarkan data transaksi yang dilakukan saja tanpa melakukan

    proses competitive intelligence lainnya.

    Basis data yang akan digunakan dalam studi kasus ini adalah basis data customer dan

    transaksi yang dilakukan saja tanpa melibatkan basis data lainnya, yang kemudian akan

    diolah berdasarkan proses-proses yang ada dalam data mining.

    Kemiripan antar data dalam studi kasus ini diterjemahkan sebagai jarak kedekatan antar

    data dengan titik pusat, sehingga menghasilkan klaster-klaster customer yang sesuai dengan

    tujuan dari studi kasus ini.

    Penggunaan metode clustering untuk mengelompokan customer dengan menggunakan

    algoritma hirarki divisive k-means.

    Sebagai prototype sistem, studi kasus dilakukan ditoko perhiasan Benteng Jewellery yang

    beralamat di Mall Pondok Indah 1 lt. 1 blok K no. 29-A Jl. Metro Pondok Indah Blok 3B

    Pondok Pinang, Jakarta Selatan 12310.

    Bahasa pemprograman yang digunakan pada studi kasus ini adalah PHP dan XAMPP sebagai

    aplikasi basis data.

  • 5

    BAB II LANDASAN TEORI DAN PEMBAHASAN

    IMPLEMENTASI DATA MINING DENGAN METODE CLUSTERING UNTUK MELAKUKAN COMPETITIVE INTELLIGENCE PERUSAHAAN

    2.1 PENGERTIAN DATA MINING

    Data Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan

    data berupa pengetahuan yang selama ini tidak diketahui secara manual. Patut diingat bahwa kata

    mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar

    material dasar. Karena itu DM sebenarnya memiliki akar yang panjang dari bidang ilmu seperti

    kecerdasan buatan (artificial intelligent), machine learning, statistik dan database. Data mining

    adalah proses menerapkan metode ini untuk data dengan maksud untuk mengungkap pola-pola

    tersembunyi. Dengan arti lain Data mining adalah proses untuk penggalian pola-pola dari data. Data

    mining menjadi alat yang semakin penting untuk mengubah data tersebut menjadi informasi. Hal ini

    sering digunakan dalam berbagai praktek profil, seperti pemasaran, pengawasan, penipuan deteksi

    dan penemuan ilmiah. Telah digunakan selama bertahun-tahun oleh bisnis, ilmuwan dan pemerintah

    untuk menyaring volume data seperti catatan perjalanan penumpang penerbangan, data sensus dan

    supermarket scanner data untuk menghasilkan laporan riset pasar.

    Alasan utama untuk menggunakan data mining adalah untuk membantu dalam analisis

    koleksi pengamatan perilaku. Data tersebut rentan terhadap collinearity karena diketahui

    keterkaitan. Fakta yang tak terelakkan data mining adalah bahwa subset/set data yang dianalisis

    mungkin tidak mewakili seluruh domain, dan karenanya tidak boleh berisi contoh-contoh hubungan

    kritis tertentu dan perilaku yang ada di bagian lain dari domain . Untuk mengatasi masalah semacam

    ini, analisis dapat ditambah menggunakan berbasis percobaan dan pendekatan lain, seperti Choice

    Modelling untuk data yang dihasilkan manusia.

    Dalam situasi ini, yang melekat dapat berupa korelasi dikontrol untuk, atau dihapus sama

    sekali, selama konstruksi desain eksperimental. Beberapa teknik yang sering disebut-sebut dalam

    literatur Data Mining dalam penerapannya antara lain: clustering, classification, association rule

    mining, neural network, genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap Data

    Mining adalah perkembangan teknik-teknik Data Mining untuk aplikasi 1 pada database skala besar.

    Sebelum populernya Data Mining, teknik-teknik tersebut hanya dapat dipakaiuntuk data skala kecil

    saja.

  • 6

    PROSES DATA MINING

    Tahap-Tahap Data Mining. Karena Data Mining adalah suatu rangkaian proses, Data Mining dapat

    dibagi menjadi beberapa tahap:

    1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise)

    2. Integrasi data (penggabungan data dari beberapa sumber)

    3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)

    4. Aplikasi teknik Data Mining

    5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)

    6. Presentasi pengetahuan (dengan teknik visualisasi)

    Tahap-tahap tsb. bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan

    knowledge base.

    2.2 TEKNIK DATA MINING

    Berikut beberapa jenis teknik Data Mining yang paling populer dikenal dan digunakan:

    1. Association Rule Mining

    Association rule mining adalah teknik mining untuk menemukan aturan assosiatif antara

    suatu kombinasi item. Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua

    parameter, support yaitu persentase kombinasi item tsb. dalam database dan confidence yaitu

    kuatnya hubungan antar item dalam aturan assosiatif. Algoritma yang paling populer dikenal sebagai

    Apriori dengan paradigma generate and test, yaitu pembuatan kandidat kombinasi item yang

    mungkin berdasar aturan tertentu lalu diuji apakah kombinasi item tsb memenuhi syarat support

    minimum. Kombinasi item yang memenuhi syarat tsb. disebut frequent itemset, yang nantinya

    dipakai untuk membuat aturan-aturan yang memenuhi syarat confidence minimum. Algoritma baru

    yang lebih efisien bernama FP-Tree.

    2. Classification Classification

    Classification Classification adalah proses untuk menemukan model atau fungsi yang

    menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan

    kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan jika-

    maka, berupa decision tree, formula matematis atau neural network. Decision tree adalah salah

    satu metode classification yang paling populer karena mudah untuk diinterpretasi oleh manusia.

    Disini setiap percabangan menyatakan kondisi yang harus dipenuhi dan tiap ujung pohon

    menyatakan kelas data.

  • 7

    Algoritma decision tree yang paling terkenal adalah C4.5, tetapi akhir- akhir ini telah

    dikembangkan algoritma yang mampu menangani data skala besar yang tidak dapat ditampung di

    main memory seperti RainForest. Metode-metode classification yang lain adalah Bayesian, neural

    network, genetic algorithm, fuzzy, case-based reasoning, dan k-nearest neighbor. Proses

    classification biasanya dibagi menjadi dua fase : learning dan test. Pada fase learning, sebagian data

    yang telah diketahui kelas datanya diumpankan untuk membentuk model perkiraan. Kemudian pada

    fase test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi

    dari model tsb. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data yang

    belum diketahui.

    3. Clustering

    Berbeda dengan association rule mining dan classification dimana kelas data telah

    ditentukan sebelumnya, clustering melakukan penge-lompokan data tanpa berdasarkan kelas data

    tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang belum

    diketahui itu. Karena itu clustering sering digolongkan sebagai metode unsupervised learning. Prinsip

    dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan

    kesamaan antar kelas/cluster. Clustering dapat dilakukan pada data yan memiliki beberapa atribut

    yang dipetakan sebagai ruang multidimensi. Banyak algoritma clustering memerlukan fungsi jarak

    untuk mengukur kemiripan antar data, diperlukan juga metode untuk normalisasi bermacam atribut

    yang dimiliki data.

    Beberapa kategori algoritma clustering yang banyak dikenal adalah metode partisi dimana

    pemakai harus menentukan jumlah ke partisi yang diinginkan lalu setiap data dites untuk

    dimasukkan pada salah satu partisi, metode lain yang telah lama dikenal adalah metode hierarki

    yang terbagi dua lagi : bottom-up yang menggabungkan cluster kecil menjadi cluster lebih besar dan

    top-down yang memecah cluster besar menjadi cluster yang lebih kecil.

    Kelemahan 3 metode ini adalah bila bila salah satu penggabungan/pemecahan dilakukan

    pada tempat yang salah, tidak dapat didapatkan cluster yang optimal. Pendekatan yang banyak

    diambil adalah menggabungkan metode hierarki dengan metode clustering lainnya seperti yang

    dilakukan oleh Chameleon. Akhir-akhir ini dikembangkan juga metode berdasar kepadatan data,

    yaitu jumlah data yang ada di sekitar suatu data yang sudah teridentifikasi dalam suatu cluster. Bila

    jumlah data dalam jangkauan tertentu lebih besar dari nilai ambang batas, data-data tsb dimasukkan

    dalam cluster. Kelebihan metode ini adalah bentuk cluster yang lebih fleksibel. Algoritma yang

    terkenal adalah DBSCAN.

  • 8

    4. Algoritma Hirarki Divinsive

    Langkah awal yang dilakukan dalam algoritma hirarki divisive adalah membentuk satu

    cluster besar yang dapat ditempati oleh semua obyek data. Pada langkah berikutnya, satu cluster

    besar tersebut dipisah pisahkan menjadi beberapa cluster yang lebih kecil dengan karakteristik

    data yang mempunyai lebih besar kesamaan satu dengan yang lainnya, sehingga data yang tidak

    memiliki kemiripan yang cukup besar berada pada cluster yang terpisah.

    2.3 IMPLEMENTASI (PENERAPAN) DATA MINING

    Dalam bidang apasaja data mining dapat diterapkan? Berikut beberapa contoh bidang penerapan

    data mining:

    - Analisa pasar dan manajemen.

    Solusi yang dapat diselesaikan dengan data mining, diantaranya: Menembak target pasar, Melihat

    pola beli pemakai dari waktu ke waktu, Cross-Market analysis, Profil Customer, Identifikasi

    kebutuhan Customer, Menilai loyalitas Customer, Informasi Summary.

    Analisa Perusahaan dan Manajemen resiko.

    Solusi yang dapat diselesaikan dengan data mining, diantaranya: Perencanaan keuangan dan

    Evaluasi aset, Perencanaan sumber daya (Resource Planning), Persaingan (Competition).

    Telekomunikasi.

    Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat dari jutaan

    transaksi yang masuk, transaksi mana sajakah yang masih harus ditangani secara manual.

    Keuangan.

    Financial Crimes Enforcement Network di Amerika Serikat baru-baru ini menggunakan data

    mining untuk me-nambang trilyunan dari berbagai subyek seperti property, rekening bank

    dan transaksi keuangan lainnya untuk mendeteksi transaksi-transaksi keuangan yang

    mencurigakan (seperti money laundry) .

    Asuransi.

    Australian Health Insurance Commision menggunakan data mining untuk mengidentifikasi

    layanan kesehatan yang sebenarnya tidak perlu tetapi tetap dilakukan oleh peserta asuransi.

    Olahraga.

    IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan NBA

    (jumlah shots blocked, assists dan fouls) dalam rangka mencapai keunggulan bersaing

    (competitive advantage) untuk tim New York Knicks dan Miami Heat.

  • 9

    2.4 CONTOH KASUS PENERAPAN :

    Implementasi data mining dengan teknik Clustering untuk melakukan Competitive Intelligence

    perusahaanPembangunan perangkat lunak data mining dengan metode clustering menggunakan

    algoritma hirarki divisive untuk pengelompokan customer dalam studi kasus ini, fungsi fungsi yang

    dipakai adalah fungsi untuk menentukan titik-titik pusat yang berguna sebagai pusat-pusat

    kelompok customer.

    A)Perumusan Masalah

    Perumusan masalah merupakan langkah untuk memahami permasalahan terhadap sistem secara

    lebih dalam. Langkah ini diambil untuk mendefinisikan semua kebutuhan sistem yang akan

    dibangun secara terperinci.

    1) Analisa Permasalahan

    Dalam kegiatan bisnis untuk mempertahankan area pemasaranya, toko Benteng jewellry

    mengalami beberapa permasalahan-permasalahan yang menyangkut kebutuhan data dan

    informasi tentang customer, sehingga untuk melakukan kegiatan-kegiatan promosi demi

    mempertahankan pangsa pasar agar tetap bisa bertahan ditengah krisis ekonomi mengalami

    beberapa masalahan. Permasalahan-permasalahan itu antara lain, yaitu:

    a. Sulitnya melakukan analisa pemasaran yang efektif karena tidak adanya sistem yang

    dapat menyajikan data historis sehingga dapat memberikan output tentang berapa

    banyak jumlah customer yang dimiliki dan kelompok-kelompok customer yang aktif

    maupun tidak menurut frekuensi transaksinya, karena data yang ada masih

    berbentuk data manual dan belum dimanfaatkan secara maksimal.

    b. Tidak diketahui dengan pasti jumlah customer yang aktif dan yang kurang aktif

    dalam melakukan transaksi, sehingga sangat sulit untuk melakukan tindakan-

    tindakan promosi maupun pemberian bonus atau diskon kepada setiap customer

    yang dimiliki dengan tepat.

    c. Terlalu banyaknya competitor usaha, sehingga diperlukan sebuah sistem yang bisa

    mendeteksi berapa jumlah customer yang aktif dan yang kurang aktif dalam

    bertransaksi sebagai sistem pendukung keputusan, sehingga bisa digunakan untuk

    merancang sebuah strategi bisnis yang efektif guna mempertahankan pangsa pasar

    dalam persaingan dengan competitor ditengan krisis ekonomi global seperti

    sekarang ini.

  • Untuk gambaran sistem pencarian data yang dilakukan selama ini dilakukan pada toko ini (gambar

    3.1) adalah sebagai berikut:

    Gambar.1 Gambaran proses pencarian data customer selama ini pada benteng jewellry.

    2) Pemecahaan Masalah

    Berdasarkan latar belakang masalah diatas, maka dibutuhkan sebuah sistem yang mampu

    mengelola data customer yang dapat memberikan output berupa jumlah customer secara

    keseluruhan dan kelompok-kelompok customer yang menyatakan keaktifan melakukan

    transaksi sehingga bisa digunakan untuk melakukan customer relationship guna kelancaran

    kegiatan promosi untuk mempertahankan pangsa pasar sehingga toko ini bisa bertahan

    ditengah krisis ekonomi global. Atas dasar analis diatas, maka penulis tertarik untuk meneliti

    bidang ini dengan mengambil judul Implementasi Data mining dengan Metode Clustering

    Untuk Melakukan Competitive Intelligence Perusahaan guna pengelompokan customer.

    a. Analisa Kebutuhan Sistem

    Analisa kebutuhan sistem berfungsi untuk mendefinisikan kebutuhan-kebutuhan

    sistem yang akan dibangun. Analisa ini bertujuan untuk menghasilkan data yang bisa

    diintegrasikan dengan analisa data mining yang dikehendaki.

    b. Analisa Kebutuhan Data

    Analisa data akan mengidentifikasikan kebutuhan data yang sesuai dengan

    ketentuan yang diperlukan sistem dari data yang tidak lengkap dan inkonsisten yang

    biasanya terjadi pada basis data yang ada. Analisa ini meliputi:

    Analisa target data.

    Proses data cleaning (pembersihan data).

    Proses data integration (integrasi data).

    Proses data selection (pemilihan data).

    Proses data transformasi (pembentukan data prosesing).

  • 11

    Analisa kebutuhan data input, proses dan output.

    c. Analisa Kebutuhan Perangkat Keras dan Perangkat Lunak

    Analisa ini mendeskripsikan perangkat yang dibutuhkan dalam pembangunan sistem

    yang terdiri dari komponen perangkat keras dan perangkat lunak. Komponen perangkat

    keras yang dibutuhkan oleh sistem adalah sebuah pc atau workstation dengan spesifikasi

    minimal, sebagai berikut:

    Hardware :

    Processor intel Pentium IV atau lebih, RAM 512 atau lebih, HDD 80GB, VGA 12 MB

    shared, CD-RW/ DVD-RW.

    Software :

    11111111111111Operating system : windows 98/2000/XP

    XAMPP-win32-1.6.7

    web browser : Ms. Internet Explrer , Mozilla Firefox 3.0

    3) Perancangan Sistem

    Dalam perancangan sistem ini, metode yang digunakan adalah metode perancangan sistem

    berorientasi objek dengan (Object Oriented Analysis) dengan menggunakan Unified

    Modelling Language (UML). Sebagai gambaran sistem yang akan dibangun, adalah sebagia

    berikut :

    Gambar.2 Usecase diagram sistem yang akan dibangun

  • 12

    2.5 IMPLEMENTASI DAN ANALISA HASIL

    Dalam bab implementasi dan analisa hasil, akan dijelaskan tentang pembangunan perangkat

    lunak yang telah dirancang sebelumnya pada bab sebelumnya yaitu bab tentang analisa dan

    peancangan. Implementasi dari perancangan pembangunan perangkat lunak dalam studi kasus ini,

    meliputi:

    A. Implementasi Basis Data

    Dalam studi kasus ini, sistem basis data yang digunakan adalah ApacheFriends XAMPP versi

    1.6.7. Karena basis data awal dalam studi kasus ini yang dimiliki berupa basis data dalam bentuk

    manual, maka pembentukan basis data dalam studi kasus ini dibuat melalui pembangunan basis

    data baru dengan melakukan pembentukan tiap tabel yang diperlukan dan pengisian data dengan

    cara input data satu persatu kedalam sistem basis data yang ada diaplikasi ApacheFriends XAMPP

    bukan melalui proses export dan import data.

    Adapun proses pembangunan basis data yang sesuai dengan perangkat lunak yang akan

    dibangun adalah sebagai berikut:

    Melakukan pembentukan basis data baru, yaitu basis data clustering.

    Pembentukan tabel tabel yang dibutuhkan dalam basis data dan menetukan struktur

    tabelnya.

    Melakukan penginputan data kedalam setiap tabel yang ada dalam basis data clustering ini

    kecuali tabel frekuensi yang merupakan tabel proses dalam studi ini.

    Melakukan pengisian tabel frekuensi yang merupakan data proses dalam studi kasus ini,

    dengan melakukan pembacaan id_customer yang ada dalam tabel transaksi berdasarkan

    id_customer yang ada ditabel customer yang dilakukan oleh sistem secara langsung.

    B. Implementasi Fungsi

    Pembangunan perangkat lunak data mining dengan metode clustering menggunakan

    algoritma hirarki divisive untuk pengelompokan customer dalam studi kasus ini, fungsi fungsi

    yang dipakai adalah fungsi untuk menentukan titik-titik pusat yang berguna sebagai pusat-pusat

    kelompok customer. Fungsi - fungsi tersebut adalah sebagai berikut (santosa, 2007):

    1.Langkah I

    Fungsi untuk menentukan titik pusat awal dari semua data customer yang ada

    berdasarkan transaksi yang dilakukan menggunakan perhitungan nilai rata-rata (mean) dari

    semua data yang ada dalam tabel frekuensi transaksi. Pada langkah ini digunakan

    perhitungan nilai rata-rata (mean) karena untuk mengantisipasi adanya nilai outline (nilai

  • yang letaknya sangat jauh dari data yang ada) dari data yang ada dalam tabel frekuensi.

    Contoh perhitungan langkah I dari sample data frekuensi transaksi customer (tabel 1), adalah

    sebagai berikut:

    Tabel.1 Tabel data frekuensi

    Dari contoh data frekuensi diatas, maka kemudian diurutkan dari frekuensi paling kecil

    sampai ke frekuensi terbesarnya, yaitu sebagai berikut:

    Data frekuensinya :0,0,0,0,0,0,0,0,0,1,1,1,1,

    1,1,1,2,2,2,4,5,5,6,7,11,11,15. Maka perhitungan pada langkan I ini adalah sebagai berikut:

    Perhitungan nilai rata-rata (mean) dari semua nilai yang ada pada tabel frekuensi.

    0+0+0+0+0+0+0+0+0+1+1+1+1+1+

    1+1+2+2+2+4+5+5+6+7+11+11+15/30

    2.56666666667.

    Perhitungan titik pusat 1

    nilai frekuensi terkecil + nilai mean dari semua data tabel frekuensi/ 2

    0+2.56666666667/2

    1.283333333333.

    Perhitungan titik pusat 2

  • 14

    menggunakan hasil perhitungan nilai rata-rata (mean) dari semua nilai yang ada pada

    tabel frekuensi.

    2.56666666667.

    Perhitungan titik pusat 3

    nilai rata-rata dari semua data tabel frekuensi + nilai frekuensi terbesar / 2.

    2.56666666667 + 15 /2

    8.78333333333.

    Maka hasil titik pusat dari langkah I ini adalah :

    Titik pusat 1 = 1.283333333335

    Titik pusat 2 = 2.56666666667

    Titik pusat 3 = 8.78333333333

    Setelah pencarian titik pusat klaster pada langkah 1 diketahui hasilnya, kemudian

    titik titik pusat tersebut digunakan untuk menarik anggota dari semua nilai data yang ada

    pada tabel frekuensi dengan menggunakan sistem perhitungan jarak kedekatan setiap data

    dengan masing-masing titik pusat tersebut. Perhitungan jarak kedekatan dalam langkah 1

    ini ditentukan dengan perhitungan selisih antar titik pusat dibagi 2, kemudian hasil selisih

    titik pusat tersebut ditambahkan pada titik pusat yang lebih kecil dan dikurangkan dengan

    titik pusat yg lebih besarnya, sehingga bisa diambil kesimpulan bahwa data-data yang

    berada dalam rentang titik pusat tersebut merupakan anggotanya.

    Contoh: Untuk menentukan anggota cluster dari titik pusat 2, meliputi :

    Perhitungan rentang terendah :

    2.576666666667 - 1.283333333335 / 2 = 0.646666666666.

    Maka titik terendah dari titik pusat 2 adalah

    2.56666666667 - 0.646666666666 = 1.920

    Perhitungan rentang tertinggi:

    8.78333333333 - 2.56666666667 / 2 = 3.10833333333

    Maka titik tertinggi dari titik pusat 2 adalah

    2.56666666667 + 3.10833333333

    = 5.675

    Sehingga anggota cluster dari titik pusat 2 bisa diambil dari rentang titik frekuensi data :

    1.920 anggota cluster titik pusat 2 < 5.675

  • 15

    2.Langkah II

    Setelah klaster-klaster pada langkah 1 terbentuk, maka pada langkah 2 ini dilakukan

    pengecekan ulang perhitungan titik pusat setiap klaster dengan menggunakan perhitungan

    nilai median (perhitungan nilai tengah). Pemakaian perhitungan nilai median karena semua

    data yang ada sudah diketahui pada langkah 1, sehingga tidak ada kekhawatiran munculnya

    data outline. Contoh perhitungan pada langkah 2 berdasarkan semua data yang ada pada

    halis langkah I adalah sebagai berikut:

    Titik pusat 1

    Membaca semua data anggota klaster ini pada langkah I, yaitu:

    0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,2,2,2

    Dari data diatas, untuk menghitung nilai titik pusat 1 pada langkah 2

    digunakan perhitungan dengan langkah sebagai berikut:

    a. Jumlahkan semua item data yang ada pada klaster 1 pada langkah I

    Num=[0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,2,2,2] = 19 item

    b. Kemudian melakukan perhitungan titik pusat menggunakan perhitungan median (nilai

    tengah) untuk mengecek titik pusat pada langkah 1

    Jika Nilai sisa bagi = 19mod2 = 1

    Karena sisa bagi dari total item 1, maka perhitungan titik pusat

    = ((19/2) +((19/2)-1)/2

    = 9 nilai tengahnya berada diantara item ke 9 yang dibaca dari awal data dan akhir

    data dari anggota klaster 1 pada langka I

    =[0,0,0,0,0,0,0,0,0|1|1,1,1,1,1,1,2,2,2]

    Jadi nilai titik pusat satu pada langkah II adalah 1.

    Kemudian titik pusat satu pada langkah II ini dibandingkan dengan titik pusat satu pada

    langkah I, dimana nilai 1 1.283333333335 sehingga bisa ditarik kesimpulan bahwa titik

    pusat masih berubah.

    Titik pusat 2

    Anggota klaster ini pada langkah I adalah : 4,5,5

    Dari data diatas, titik pusat 2 pada langkah II ini dihitung dengan cara sebagai berikut:

    a. Jumlahkan semua item data yang ada pada klaster 1 pada langkah I

  • 16

    Num = [4,5,5] = 3 item

    b. Kemudian melakukan perhitungan titik pusat menggunakan perhitungan median (nilai

    tengah) untuk mengecek titik pusat pada langkah 1 Jika Nilai sisa bagi = 3 mod 2 = 1

    Karena sisa bagi dari total item 1, maka perhitungan titik pusat = ((3/2) +((3/2)-1)/2 = 1

    nilai tengahnya berada diantara item ke 1 yang dibaca dari awal data dan akhir data

    dari anggota klaster 2 pada langka I = [5|5|5]. Jadi nilai titik pusat dua pada langkah II

    adalah 5. Kemudian titik pusat dua pada langkah II ini dibandingkan dengan titik pusat

    dua pada langkah I, dimana nilai 5 2.56666666667 sehingga bisa ditarik kesimpulan

    bahwa titik pusat masih berubah.

    Titik pusat 3

    Anggota cluster pada langkah I adalah : 6,7,11,11,15

    Dari data diatas, titik pusat 3 pada langkah II ini dihitung dengan cara sebagai berikut:

    a. Jumlahkan semua item data yang ada pada klaster 1 pada langkah I

    Num = [6,7,11,11,15] = 5 item

    b. Kemudian melakukan perhitungan titik pusat menggunakan perhitungan median (nilai

    tengah) untuk mengecek titik pusat pada langkah 1

    Jika Nilai sisa bagi = 5 mod 2 = 1

    Karena sisa bagi dari total item 1, maka perhitungan titik pusat

    = ((5/2) +((5/2)-1)/2

    = 2 nilai tengahnya berada diantara item ke 2 yang dibaca dari awal data dan akhir

    data dari anggota klaster 3 pada langka I

    = [6,7|11|11,15]

    Jadi nilai titik pusat satu pada langkah II adalah 11. Kemudian titik pusat tiga pada

    langkah II ini dibandingkan dengan titik pusat tiga pada langkah I, dimana nilai 11

    8.78333333333 sehingga bisa ditarik kesimpulan bahwa titik pusat masih berubah.

    Karena hasil titik pusat pada langkah dua ini masih beruba maka dilakukan

    perhitungan jarak rentang anggota masing masing cluster, sebagai penentu suatu nilai

    data masuk pada tiap-tiap klaster yang jarak titik pusatnya paling dekat dengan data.

    Contoh perhitungan jarak rentang antar data adalah, sebagai berikut:

    Titik pusat 1

    Rentang titik pusat 1 = Titik pusat 2 titik pusat 1 / 2 = 5-1 / 2 = 2 Maka rentang

    anggota titik pusat 1 langkah II = 1 +2 = 3

  • 17

    anggota klaster 1 pada langkah II < data frekuensi bernilai 3

    Titik pusat 2

    Rentang terendah = 5 - 1 / 2 = 2 Maka rentang terendah = 5 2 = 3

    Rentang tertinggi : 11 5 / 2 = 3 Maka rentang teringgi = 5 + 3 = 8 Sehingga rentang

    anggota titik pusat 2

    data frekuensi bernilai 3 anggota klaster 2 pada langkah II < data frekuensi bernilai

    8

    Titik pusat 3

    Rentang titik pusat 3 = titik pusat 3 titik pusat 2 / 2 = 11 5 / 2 = 3 Maka rentang

    anggota titik pusat 3 = 11 3 = 8 data frekuensi bernilai 8 anggota klaster 3 pada

    langkah II

    3.Langkah III

    Fungsi yang digunakan pada langkah ini, sama seperti fungsi yang digunakan pada

    langkah II, yaitu penggunaan perhitungan nilai tengan (median). Fungsi dalam langkah ini

    digunakan untuk mengecek apakah titik pusat klaster yang telah terbentuk pada langkah

    sebelumnya sudah tidak berubah lagi atau tidak, dengan cara membandingkan hasil

    perhitungan titik pusat langkah ini dengan langkah sebelumnya. Apabila titik pusat tersebut

    sudah tidak berubah maka pembentukan klaster customer sudah selesai. Tetapi apabila titik

    pusat masih berubah maka dilakukan perhitungan ulang seperti pada langkah II, perhitungan

    ini akan terus berulang sampai titik pusat cluster tidak berubah lagi

  • 18

    A.Implementasi Sistem

    Dalam studi kasus ini, sistem yang dibangun merupakan sebuah perangkat lunak data

    mining dengan metode clustering menggunakan algoritma hirarki devisive. Perangkat lunak

    ini berisi form-form tampilan basis data yang telah dinormalisasi, form tampilan untuk data

    frekuensi transaksi dan form tampilan dari hasil pengelompokan data customer menjadi

    beberapa klaster. Perangkat lunak ini berfungsi untuk mencari pola-pola yang menarik dari

    basis data yang berupa nilai frekuensi transaksi untuk mengelompokan customer.

    Software yang digunakan untuk membangun perangkat lunak ini adalah kode

    program PHP dengan server basis data XAMMP. Untuk menjalankannya, cukup dengan

    menggunakan aplikasi web browser seperti windows internet explorer, firefox, flock web

    browser, atau aplikasi web broser sejenisnya tetapi harus dengan aplikasi server basis data

    yaitu XAMMP sudah terinstal pada PC tempat membuka aplikasi ini, hal ini disebabkan

    karena perangkat lunak ini membutuhkan asupan basis data dalam bentuk tabel untuk bisa

    melakukan proses clustering. Hasil akhir dari perangkat lunak yang dibangun dalam studi

    kasus ini berupa tabel pengelompokan customer dan chart-chart presentase dari tabel

    pengelompokan tersebut, sehingga dari hasil ini nantinya bisa digunakan oleh user dalam hal

    ini adalah manager pemasaran dan customer service sebagai pendukung keputusan seperti

    peningkatan promosi kepada customer-customer yang kurang aktif, ataupun strategi-strategi

    bisnis lainya.

    Adapun formform atau halamanhalaman utama yang menjadi isi dari perangkat

    lunak atau aplikasi ini, adalah sebagai berikut:

    Halaman longin.

    Halaman menu utama dan view data normal.

    Halaman view data frekuensi.

    Halaman klaster

    B.Pengujian Sistem

    Pengujian sistem digunakan untuk mengecek performan sistem ketika seorang user

    dalam hal ini manager menjalankan sistem Pengujian ini, meliputi:

    Pengujian hak akses atau longin.

    Pengujian pembentukan klaster berdasarkan data.

  • 19

    BAB III PENUTUP

    3.1 Kesimpulan

    Berdasarkan studi kasus yang telah dilakukan, mulai dari tahap studi pustaka, studi observasi,

    perancancangan dan implementasi sistem, maka dari hasil yang didapatkan bisa ditarik

    kesimpulan sebagai berikut:

    1) Metode clustering dengan algoritma hirarki divisive bisa digunakan untuk melakukan

    pengelompokan customer guna competitive intelegent bisnis perusahaan.

    2) Informasi dari frekuensi transaksi seorang customer bisa digunakan untuk membangun

    sebuah sistem yang dapat mentranformasikan data customer menjadi informasi yang

    berguna untuk melakukan proses competitive intelegent bisnis perusahaan.

    3) Program hanya dirancang untuk satu user saja yaitu manager pemasaran dan customer

    service, sehingga user lain yang tidak sah tidak akan bisa melakukan akses keprogram ini

    karena username dan password sebagai hak akses sah program hanya dirancang untuk satu

    user saja dan tidak disediakan fasilitas untuk penambahan hak akses.

    4) Program akan melakukan proses peng-update-an secara otomatis apabila ada perubahan

    pada basis data terutama pada tabel transaksi dan tabel customer terhadap nilai-nilai data

    yang ada ditabel frekuensi transaksi dan juga tabel tabel hasil proses cluster serta grafik

    grafik persentasenya.

    5) Untuk melakukan pembentukan sebuah cluster dibutuhkan sebuah titik pusat yang bisa

    dicari dari seluruh data yang ada dalam tabel frekuensi transaksi dengan melakukan metode

    perhitungan nilai rata rata (mean) ataupun perhitungan nilai tengah (median).

    6) Aplikasi tetap bisa berjalan baik ketika dijalankan pada tiga web browser yang berbeda,

    yaitu internet explorer, mozilla firefox dan flock web browser.

    7) Hasil dari aplikasi ini bisa dijadikan sebagai pendukung keputusan oleh manager terhadap

    customer customer yang dimilikinya. Misalnya pendukung keputusan untuk meningkatkan

    promosi kebeberapa customer yang berada diklaster kurang aktif dan sedang ataupun

    keputusan untuk memberikan fasilitas yang lebih exclusive maupun pemberian bonus atau

    diskon kepada customer yang berada di klaster yang aktif.

  • 20

    3.2 Saran

    Berikut adalah saran yang mungkin perlu dilakukan dalam pengembangan selanjutnya dimasa

    yang akan datang terhadap aplikasi data mining dengan metode clustering menggunakan

    algoritma hirarki divisive k-means ini nantinya.

    1) Dimasa yang akan datang dalam pengembangan selanjutnya, guna lebih memaksimalkan

    pendukung keputusan yang akan diambil, misalkan untuk kepentingan memudahkan

    kegiatan promosi bisa ditambahkan sebuah fasilitas berupa fasilitah pengiriman email

    kepada customer.

    2) Dalam studi kasus ini, item yang digunakan sebagai data proses dalam pembentuk sebuah

    cluster hanya didasarkan pada satu item saja yaitu pembacaan frekuensi id customer yang

    ada ditabel transaksi berdasarkan id customer yang ada ditabel customer. Pada

    pengembangan selanjutnya disarankan untuk pengambilan data proses tidak hanya

    berdasarkan satu item saja, mungkin juga bisa dilakukan dengan pembacaan lebih dari satu

    item. Misalnya id barang ataupun total harga yang dibayarkan untuk transaksinya, sehingga

    bisa diketahui barang apa saja yang biasa dibeli customer pada sebuah klaster maupun

    besarnya jumlah total harga yang dibayarkan oleh customer terhadap transaksi yang

    dilakukannya. Dengan demikian klaster yang dibentuk tidak hanya tiga klaster tapi mungkin

    lebih dari pada itu dan informasi yang didapatkanpun menjadi lebih banyak.

    3) Dalam studi kasus ini, algoritma yang digunakan adalah algoritma hirarki divisive yang

    berfungsi untuk membagi sebuah cluster besar menjadi beberapa cluster kecil, dalam

    pengembangan selanjutnya dimungkinkan menggunakan metode yang lain, separti :

    Metode market baskel analisis sehingga bisa diketahui pola-pola lain seperti barang apa

    saja yang menjadi favorit customer dalam sebuah cluster.

    Penggunaan algoritma apriori untuk menganalisa kecendrungan seorang customer

    dalam melakukan transaksi, misalnya untuk meneliti tanggal berapakah biasanya

    seorang customer melakukan transaksi pembelian dan barang apa saja yang biasa

    mereka beli sehingga manager bisa menyusun strategi lain dalam pemasaranya.

  • 21

    DAFTAR PUSTAKA

    [1] Budi Santosa, Data Mining: Teknik Pemanfaatan Data Untuk Keperluan Bisnis, Graha Ilmu,

    Yogyakarta, 2007.

    [2] David Hand, Heikki Mannila dan Padhraic Smyth, Principles of data mining, A Bradford

    book The MIT Press, Cambridge, Massachusetts London England, 2001.

    [3] Howard podeswa, UML for the IT Business Analyst: A Practical Guide to Object-Oriented

    Requirements Gathering, Thomson Course Technology PTR, 2005.

    [4] Ian H.Witten dan Eibe Frank, Data mining : practical machine learning tools and

    techniques, Morgan Kaufmann publishers, San Francisco, 2005.

    [5] Munawar, Pemodelan Visual dengan UML, Graha Ilmu, Yogyakarta, 2005.

    [6] Roger S. Pressman, software engineering 5th edition, McGraw-Hill Companies Inc, 2001.

    [7] Thomas Connolly dan Carolyn Begg, Database Systems: A Practical to Desing,

    Implementation and Management, 2005.

    -oo0oo-

    [8] Hima Valli Kona, Association rule mining over multiple database: Partioned and incremental

    approaches, 2003.

    [9] Iko pramudiono, proses data mining,http://datamining.japati.net/, posted on 17/08/2006

    07.57pm.

    [10] Jerry Peter XAMPP: Paket Apache,

    PHP dan MySQL Instant, ilmu

    komputer.com, 2007.

    [11] Laboratoriun Data Mining, Modul 11

    Clustering, Fakultas Teknik Industri, UII,

    komunikasi pribadi.

    [12] Triswansyah Yuliano pengenalan

    PHP, ilmu computer.com, 2007.

    -oo0oo-