Implementasi Algoritma K-means Dalam Menentukan Barang Yang Laris-libre

67
IMPLEMENTASI ALGORITMA K-MEANS DALAM PENCATATAN BARANG YANG LAKU TERJUAL PADA CV.RUMAH DECOR LAPORAN PRAKTEK KERJA LAPANGAN TEKNIK INFORMATIKA STRATA 1 OLEH : DEVID SUDIRMAN 11101152630262 DIKRI HIDAYATULLAH 11101152630263 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER UNIVERSITAS PUTRA INDONESIA “YPTK” PADANG 2014

description

Pengpol

Transcript of Implementasi Algoritma K-means Dalam Menentukan Barang Yang Laris-libre

  • IMPLEMENTASI ALGORITMA K-MEANS DALAM PENCATATAN BARANG YANG LAKU TERJUAL PADA CV.RUMAH DECOR

    LAPORAN PRAKTEK KERJA LAPANGAN

    TEKNIK INFORMATIKA STRATA 1

    OLEH :

    DEVID SUDIRMAN 11101152630262

    DIKRI HIDAYATULLAH 11101152630263

    PROGRAM STUDI TEKNIK INFORMATIKA

    FAKULTAS ILMU KOMPUTER

    UNIVERSITAS PUTRA INDONESIA YPTK

    PADANG

    2014

  • 21

    LEMBAR PENGESAHAN PENGUJI

    Devid Sudirman 1110115260262

    Dikri Hidayatullah 1110115260263

    PROGRAM STUDI TEKNIK INFORMATIKA

    Praktek Kerja Lapangan ini telah dinyatakan LULUS oleh

    Penguji Materi Program Studi Strata 1 Ilmu Komputer

    Program Studi Teknik Informatika

    Universitas Putra Indonesia YPTK Padang

    Padang, Mei 2014

    Mengetahui, Disetujui Oleh

    Ketua Program Studi, Penguji Materi,

    (Rini Sovia,S.kom,M.kom) (Eka Praja Wiyata Mandala,S.kom,M.kom)

    NIDN : NIDN :

  • 22

    ABSTRACT

    This report describe about Tanagra software application on data

    mining.Tanagra is data mining software wivhcan be use to access some existing data

    mining method.Data is built using excel with text type.This application use the

    dataset of input.

    In implementing this program algorithm test data used is the data item in the

    RUMAH DEKOR.In this application,use in the application of clustering using K-

    means algorithm.

    Keyword : K-means,Clustering,Data Mining.

  • 23

    ABSTRAK

    Laporan menjelaskan tentang aplikasi perangkat lunak tanagra pada data

    mining. Tanagra adalah software data mining yang dapat digunakan untuk

    mengakses beberapa metode data mining yang ada. Data dibangun menggunakan

    excel deengan jenis teks data. Aplikasi ini menggunakan dataset input dataset input.

    Dalam melaksanakan pengujian algoritma ini data yang dipakai adalah data

    barang di CV.RUMAH DEKOR. Dalam penerapan ini, digunakan penerapan

    clustering dengan menggunakan algoritma K-means.

    Kata kunci : K-means, Clustering, Data Mining.

  • 24

    KATA PENGANTAR

    Segala puji hanya milik Allah SWT. Shalawat dan salam selalu

    tercurahkan kepada Rasulullah SAW. Berkat limpahan dan rahmat-Nya penulis

    telah mampu menyelesaikan laporan praktek kerja lapangan.

    Dalam penyusunan laporan ini, tidak sedikit hambatan yang kami hadapi.

    Namun kami menyadari bahwa kelancaran dalam penyusunan materi ini tidak lain

    berkat bantuan, dorongan dari berbagai pihak dan kami ucapkan terima kasih kepada

    kepada berbagai pihak yang telah membantu kelancaran dalam penyelesaian laporan

    praktek kerja lapangan ini, diantaranya:

    1. Bapak H. Herman Nawas selaku ketua Yayasan Perguruan Tinggi

    Komputer Padang.

    2. Bapak Dr. Sarjon Defit,S.kom,M.sc selaku rektor Universitas Putra

    Indonesia YPTK Padang.

    3. Bapak Julius Santony,S.kom,M.kom selaku Dekan Fakultas Ilmu

    Komputer.

    4. Ibu Rini Sovia,S.kom,M.kom selaku Ketua Program Studi Teknik

    Informatika.

    5. Bapak Eka Praja Wiyata Mandala,S.kom,M.kom selaku Sekretaris

    Program Studi Teknik Informatika dan pembimbing penulis dalam

    menyelesaikan laporan praktek kerja lapangan (PKL) ini.

  • 25

    6. Orang Tua penulis yang selalu memberikan semangat dan dukungan

    kepada penulis dalam penyelesaian laporan praktek kerja lapangan

    (PKL) ini.

    7. Teman-teman Teknik Informatika yang sama-sama memberikan

    bantuan, masukan, dan sarannya demi penyelesaian laporan praktek

    kerja laporan (PKL) ini.

    Dan masih banyak lagi pihak-pihak lain yang tidak mungkin penulis

    sebutkan satu persatu atas semua bantuan yang telah diberikan kepada penulis.

    Penulis mengharapkan semoga laporan kerja lapangan (PKL) ini dapat

    memberikan manfaat bagi penulis sendiri dan par pembaca. Semoga Allah SWT

    selalu mencurahkan rahmat dan karunia-Nya kepada kita semua.

    Padang ,Mei 2014

    Penulis

  • 26

    DAFTAR ISI

    HALAMAN JUDUL i

    HALAMAN PENGESAHAN PENGUJI ii

    ABSTRACT iii

    ABSTRAK iv

    KATA PENGANTAR v

    DAFTAR ISI vii

    DAFTAR GAMBAR x

    DAFTAR TABEL xii

    DAFTAR LAMPIRAN

    BAB I PENDAHULUAN 1

    1.1 Latar Belakang Masalah 1

    1.2 Perumusan Masalah 1

    1.3 Hipotesa 2

    1.4 Batasan Masalah 2

    1.5 Tujuan Penelitian 2

    1.6 Manfaat Penelitian 2

    1.7 Gambaran Umum Perusahaan 3

    1.7.1 Latar Belakang CV.Rumah Decor 3

    1.7.2 Visi dan Misi Toko Rumah Decor 3

    1.7.3 Struktur Organisasi CV.Rumah Decor 5

    BAB II LANDASAN TEORI 7

    2.1 Konsep Dasar Data Mining 7

  • 27

    2.1.1 Defenisi Data Mining 7

    2.1.2 Kategori Data Mining 7

    2.1.3 Proses Data Mining 7

    2.2 Clustering 9

    2.2.1 Proses Clustering 9

    2.2.2 Karakteristik Clustering 11

    2.2.3 Metode Pengelompokan 13

    2.2.4 Analisa Cluster 13

    2.3 Algoritma K-Means 14

    2.3.1 Defenisi K-Means 14

    2.3.2 Proses K-Means 15

    BAB III METODOLOGI PENELITIAN 17

    3.1 Kerangka Penelitian 17

    3.2 Tahapan Penelitian 18

    3.2.1 Penelitian Pendahuluan 18

    3.2.2 Pengumpulan Data 18

    3.2.3 Analisa 18

    3.2.4 Perancangan 19

    3.2.5 Implementasi 19

    3.2.6 Pengujian 19

    BAB IV ANALISA DAN PERANCANGAN 20

    4.1 Analisa Penjualan pada CV.Rumah Decor 20

    4.2 Analisis Clustering dengan Algoritma K-Means 20

    4.3 Perancangan dan Proses Clustering 22

  • 28

    BAB V IMPLEMENTASI DAN PENGUJIAN 29

    5.1 Analisis Software Data mining Tanagra 1.4.50 29

    5.1.1 Pengenalan Tampilan Dari Tanagra 29

    5.1.2 Pengujian Sistem dan Penjelasan Bentuk data yang di olah 32

    5.2 Panduan Penggunaan (User Guide) 32

    5.3 Spesifikasi Minimum Software Data Mining Tanagra 1.4.50 33

    5.4 Tahap Instalasi Software Tanagra 1.4.50 33

    5.5 Pengujian Sistem dan Penjelasan 37

    5.5.1 Input Dataset 37

    5.5.2 Descriptive statistics 38

    5.5.3 The Active Variables 40

    5.5.4 K-Means 41

    5.5.5 Interpretation Of Groups 43

    5.5.6 Export Dataset 49

    BAB VI PENUTUP 52

    6.1 Kesimpulan 52

    6.2 Keterbatasan Sistem 52

    6.3 Saran 53

    DAFTAR PUSTAKA 54

  • 29

    DAFTAR GAMBAR

    Gambar 1.1 Struktur Organisasi CV.Rumah Decor 5

    Gambar 2.1 Proses Data Mining 8

    Gambar 2.2 Data Sebelum di Klasterisasi 10

    Gambar 2.3 Klasterisasi Berdasarkan Kesamaan Warna 10

    Gambar 2.4 Klasterisasi Berdasarkan Kesamaan Bentuk 10

    Gambar 2.5 Klasterisasi Berdasarkan Kesamaan Jarak 11

    Gambar 2.6 Karakteristik Klasterisasi 12

    Gambar 3.1 Kerangka Penelitian 17

    Gambar 4.1 Flowchart Proses K-Means 23

    Gambar 5.1 Bentuk GUI 30

    Gambar 5.2 Input Data 30

    Gambar 5.3 Komponen Tanagra 31

    Gambar 5.4 Diagram Tanagra 31

    Gambar 5.5 Output Tanagra 31

    Gambar 5.6 Tanagra 1.4.50 Setup 34

    Gambar 5.7 License Agreemant 34

    Gambar 5.8 Choose Install Location 35

    Gambar 5.9 Ready to Install 35

    Gambar 5.10 Installing Progres 36

    Gambar 5.11 Tanagra 1.4.50 Finishing 36

    Gambar 5.12 Input Dataset 37

    Gambar 5.13 Data Description 38

    Gambar 5.14 Define Status Define 1 Target 39

  • 30

    Gambar 5.15 Define Status 1 Input 39

    Gambar 5.16 Tampilan UNIVARIATE CONT STAT 40

    Gambar 5.17 Tampilan Standardize 41

    Gambar 5.18 Define Status 2 Input 41

    Gambar 5.19 Parameter K-Means 42

    Gambar 5.20 View K-Means 42

    Gambar 5.21 View Dataset 43

    Gambar 5.22 Define Status 3 Target 44

    Gambar 5.23 Define Status 3 input 44

    Gambar 5.24 View Group Characterization 45

    Gambar 5.25 Define Status 4 Target 45

    Gambar 5.26 Define Status 4 Input 46

    Gambar 5.27 View Contingensy Chi Square 1 47

    Gambar 5.28 View Scatterplot 1 47

    Gambar 5.29 Principal Component Analysis 48

    Gambar 5.30 View Scatterplot 2 49

    Gambar 5.31 Define Status 5 Input 50

    Gambar 5.32 Parameters Export Dataset 1 50

    Gambar 5.33 View Output 51

    Gambar 5.34 Tampilan Output 51

  • 31

    DAFTAR TABEL

    Tabel 2.1 Perbedaan Klasifikasi dan Klasterisasi 11

    Tabel 4.1 Data penjualan yang akan di hitung 24

  • 32

    BAB I

    PENDAHULUAN

    1.1 Latar Belakang Masalah

    Dengan kemajuan perekonomian yang sangat pesat pada saat sekarang ini

    membuat orang-orang berlomba-belomba untuk meningkatkan fasilitas dalam

    rumahnya. Banyak sekali toko-toko atau pun perusahaan-perusahaan yang menjual

    berbagai macam fasilitas tersebut, salah satunya CV.Rumah Decor.

    Dalam hal ini rumah decor menyediakan berbagai macam furnitur untuk

    memperindah rumah seperti gorden, karpet, kursi, wallpaper dan lain sebagainya.

    Semakin banyak nya konsumen yang selalu memesan barang-barang yang

    disediakan membuat para karyawannya tidak sempat melakukan pencatatan terhadap

    persediaan barang.

    Sehingga menyebabkan para karyawan kebingungan dalam hal menyiapkan

    laporan yang akan disampaikan kepada atasan nya terhadap penjualan yang terus

    terjadi, dan tidak sedikit para karyawan yang mendapatkan teguran dari atasannya.

    Maka dari itu kami menangkat judul diatas agar kami bisa membantu

    menyelesaikan masalah yang di hadapi oleh toko Rumah Decor terkait dengan

    pencatatan barang-barang yang laku terjual maupun barang-barang yang tidak laku

    terjual agar atasannya bisa menerima data yang akurat.

    1.2 Perumusan Masalah

    Masalah yang akan diteliti berkaitan dengan proses pengolahan data

    penjualan tentang bagaimana menghasilkan informasi serta pengetahuan yang

    bermanfaat melalui software data mining menggunakan metode clustering dengan

    algoritma K-means pada data penjualan dari CV.RUMAH DECOR.

  • 33

    1.3 Hipotesa

    Pengolahan data penjualan berdasarkan jenis barang dengan menggunakan

    Algoritma K-means ini diharapkan dapat membantu pihak CV.RUMAH DECOR

    dalam proses pengolahan data.

    1.4 Batasan Masalah

    Batasan masalah yang digunakan dalam penelitian ini adalah:

    1. Data penjualan yang akan diteliti tercatat pada tahun 2013.

    2. Data yang diolah hanya sebagai sampel dengan software data mining yaitu

    dengan data penjualan selama 1 tahun dengan atribut tertentu.

    3. Metode Algoritma K-means dilakukan berdasarkan jenis barang yang

    dipasarkan

    4. Data yang diolah hanya data pembeliandalam bentuk cash atau tunai.

    1.5 Tujuan Penelitian

    Pelaksanaan praktek kerja lapangan ini bertujuan untuk :

    1. Memberikan informasi kepada pihak CV.RUMAH DECOR di Padang

    mengenai pengelompokan data penjualan berdasarkan jenis barang.

    2. Mengetahui jenis barang yang dipasarkan dari waktu ke waktu.

    3. Sebagai sarana belajar untuk mengetahui cara pengolahan data penjualan

    pada sebuah software data mining.

    1.6 Manfaat Penelitian

    Manfaat dari penelitian dari praktek kerja lapangan ini adalah :

    1. Dapat menjadi informasi dan pengetahuan baru bagi pihak CV.RUMAH

    DECOR.

    2. Sebagai sistem pendukung keputusan daalam menentukan karakteristik dari

    jenis barang.

  • 34

    3. Dapat memberikan informasi bagi pihak CV.RUMAH DECOR tentang

    penjualan yang dapat dalam pertahunnya.

    1.7 Gambaran Umum Perusahaan

    1.7.1 Latar Belakang CV.Rumah Decor

    Di era pembangunan saat ini sangat dibutuhkan hadirnya tempat

    tinggal yang berorientasi kepada kenyamanan serta keserasian antara

    lingkungan dan rumah tinggal dalam hal konteks tersebut sangat dituntut

    hadirnya tenaga profesinal untuk menangani penataan decorasi baik interior

    maupun exterior. Kenyamanan lingkungan serta tempat tinggal yang tertata

    dengan baik tidak terlepas dari keahlian yang profesional dalam penanganannya.

    Penataan tempat tinggal yang rapi, dapat menimbulkan efek terhadap pikiran

    serta kenyamanan bagi si penghuni. Adapun aspek lainnya menimbulkan

    keindahan dilingkungan tempat tinggal tersebut.

    Rumah Decor hadir di Padang untuk menjawab dari kebutuhan akan

    penataan ruangan ( Interior ) yang didukung oleh tenaga tenaga professional

    dibidangnya hingga menghadirkan apa yang menjadi idaman para penghuni

    tempat tinggal. Dengan motto yang kami miliki Unggul Dalam Design dan

    Mutu adalah motivator yang besar dalam memenuhi kepuasan pelanggan

    1.7.2 Visi dan Misi Toko Rumah Decor

    Visi :

    1. Menjadikan perusahaan handal dan selalu menggali kemampuan

    Sumber Daya Manusia

    2. Selalu menjaga komitmen yang sudah digariskan perusahaan yaitu

    Unggul Dalam Design dan Mutu.

  • 35

    3. Selalu menjaga Kualitas dan Disiplin Waktu

    Misi :

    1. Menciptakan Sumber Daya Manusia yang beriman dan bertaqwa

    kepada Tuhan Yang Maha Esa dan Responsibility

    2. Menjadikan karya yang dihasilkan selalu maksimal dan dapat

    dinikmati pelanggan

    3. Menggali kemampuan serta kineja yang terukur dan terarah sesuai

    prosedur yang digariskan perusahaan

    4. Meningkatkan pendapatan perusahaan serta Sumber Daya Manusia

    yang mendukung setiap kegiatan perusahaan

  • 36

    1.7.3 Struktur Organisasi CV.Rumah Decor

    Gambar 1.1 Struktur Organisasi CV.Rumah Decor

    D i r e k t u r

    David

    General Manager

    Ratulani Juwita, S.Pd

    Mgr. Marketing

    Susi Rahmatul F.

    Mgr. Operasional

    Dayat

    Mgr. Keuangan Normalisa

    Mgr. Produksi

    Boy Alexa

    Ass. Marketing 1 Titiek

    Aan Fajar Bento Zul

    Ismet Aini Riri Doni

    Ass. Keu

    Hayati

    Raka Lina Listra Yusprina

  • 37

    BAB II

    LANDASAN TEORI

    2.1 Konsep Dasar Data Mining

    2.1.1 Defenisi Data Mining

    Data Mining merupakan proses pencarian pola dan relasi-relasi yang

    tersembungi dalam sejumlah data yang besar dengan tujuan untuk melakukan

    klasifikasi, estimasi, prediksi, association rule, clustering dan visualisasi.

    2.1.2 Kategori Data Mining

    Secara garis besar data mining dapat dikelompokan menjadi 2

    kategori utama, yaitu :

    1. Deskripsi Mining, yaitu proses untuk menemukan karakteristik

    penting dari datta dalam suatu basis data. Teknik data mning yang

    termasuk deskripsi mining adalah clustering, association, dan squental

    mining.

    2. Prediksi Mining, yaitu proses untuk menemukan pola dari data

    dengan menggunakan variabel lain dimasa depan. Salah satu teknik

    yang terdapat dalam prediksi mining adalah klasifikasi.

    2.1.3 Proses Data Mining

    Secara sederhana data mining biasa dikatakan sebagai proses

    menyaring atau menambang pengetahuan dari sejumlah data yang sangat

    besar. Istilah lain untuk data mining adalah Knowledge Discovery In

    Database atau KDD. Walaupun sebenarnya data mining sendiri adalah bagian

    dari tahapan proses dalam KDD seperti yang terlihat pada gambar :

  • 38

    Sumber : Jiawei Han dan Micheline kamber, Data mining: Concept and

    Techniques,(San Fransisco: Morgan Kaufmann,2001).

    Gambar 2.1. Proses Data Mining

    Keterangan :

    1. Database merupakan koleksi data yang saling berhubungan dipergunakan

    secara bersama, dirancang untuk memenuhi kebutuhan informasi organisasi.

    2. Pembersihan Data (Data Cleaning), pada tahap ini dilakukan pembersihan

    data, meliputi data yang mengandung missing value dan data yang tidak

    konsisten (inconsisten data) pada database. Keluaran tahapan ini adalah data

    yang telah bersih dan siap digunakan pada proses selanjutnya, karena pada

    daata mining hanya akan dapat menghasilkan nilai yang valid jika data telah

    bersih. Jika ditemukan data yang mengandung missing value dan data yang

    tidak konsisten lebih besar jumlahnya.

    3. Integrasi Data (integration data), proses integrasi data dilakukan untuk

    menggabungkan data yang sudah bersih dari missing value dan inconsistent

    data dari berbagai sumber menjadi bentuk sebuah bentuk penyimpanan data

    yang konheren, seperti data warehouse.

    4. Task Relevan Data, tahap ini melakukan seleksi relevansi atribut dari data.

  • 39

    Setelah seleksi data, tahap selanjutnya adalah transformasi.

    5. Data Mining, merupakan proses mengeksplorasi dan menganalisa daata

    dalam jumlah yang besar yang bertujuan untuk menemukan suatu pola yang

    menarik dari data yang tersimpan dalam jumlah besar dan aturan yang

    berarti. Tahap ini merupakan inti dari tahapan KDD yang dilakukan untuk

    menganalisis data yang telah dibersihkan.

    6. Evalusi merupakan tahapan yang dikerjakan dalam penelitian dengan tujuan

    untuk memperoleh informasi yang terdapat pada hasil data yang di proses

    dari Algoritma K-means.

    7. Knowledge, tahapan ini adalah penggunaan visualisasi untuk menunjukan

    hasil dari pengolahan data kepada pengguna yang berupa model atau

    karakteristik data sehingga mudah dipahami oleh pengguna.

    2.2 Clustering

    Clustering merupakan salah satu bagian dari teknik data mining yaitu

    sekumpulan objek yang mempunyai kesamaan diantara anggotanya dan memiliki

    ketidaksamaan dengan objek lain pada cluster lainnya, dengan kata lain sebuah

    cluster adalah sekumpulan objek yang digabung bersama karena persamaan atau

    kedekatannya.

    2.2.1 Proses Clustering

    Clustering adalah proses membuat pengelompokkan sehingga semua

    anggota dari setiap partisi mempunyai persamaan berdasarkan matrik

    tertentu.

    Berikut menunjukkan contoh data yang akan dilakukan klasterisasi :

  • 40

    Gambar 2.2 Data Sebelum di Klasterisasi

    Jika data dilakukan clustering (pengelompokkan) berdasarkan warna,

    maka pengelompokkannya seperti yang terlihat pada gambar

    Gambar 2.3 Klasterisasi Berdasarkan Kesamaan Warna

    Jika data dilakukan clustering (pengelompokkan) berdasarkan bentuk,

    maka pengelompokannya dapat dilihat seperti gambar

    Gambar 2.4 Klasterisasi Berdasarkan Kesamaan Bentuk

    Selain dengan menggunakan similaritas (kesamaan) berdasarkan

    bentuk dan warna, clustering juga bisa dilakukan dengan menggunakan

    similaritas berdasarkan jarak, artinya data yang memiliki jarak berdekatan

    akan membentuk satu cluster, contohnya seperti dapat dilihat pada gambar

  • 41

    Gambar 2.5 Klasterisasi Berdasarkan Kesamaan Jarak

    Ada beberapa perbedaan antara metode klasifikasi dan metode

    clustering, dimana pada dasarnya terdapat tiga poin perbedaan yaitu :

    data,label dan analisa hasil.

    Perbedaan tersebut dapat ditabelkan seperti table berikut:

    Tabel 2.1 Perbedaan Klasifikasi dan Klasterisasi

    Data supervised pada klasifikasi artinya data melalui pembelajaran

    terbimbing, sedangkan data unsupervised pada klasterisasi artinya data tidak

    melalui pembelajaran terbimbing. Analisa hasil pada klasterisasi dinyatakan

    dengan variance yang menunjukkan variansi data dalam satu cluster,

    sedangkan klasifikasi analisa hasil diukur menggunakan rasio kesalahan

    (error ratio). Pada dataset yang digunakan oleh klasifikasi terdapat satu

    attribut (label) yang berfungsi sebagai attribut target, sedangkan dataset pada

    klasterisasi tidak terdapat attribut (label) sebagai attribut target.

    2.2.2 Karakteristik Clustering

    Ada beberapa karakteristik dari clustering, masing-masing akan

    dijelaskan berikut ini

  • 42

    1. Partitioning Clustering.

    a. Disebut juga exclusive clustering

    b. Setiap data harus termasuk dalam cluster tertentu

    c. Memungkinkan bagi setiap data yang termasuk cluster tertentu pada

    suatu tahapan proses, pada tahapan berikutnya berpindah ke cluster

    yang lain. Contoh :K-Means, residual analysis.

    2. Hierarchical Clustering.

    a. Setiap data harus masuk ke dalam cluster tertentu

    b. Suatu data yang masuk kedalam cluster tertentu pada suatu tahapan

    proses, tidak dapat berpindah ke cluster lain. Contoh: Single Linkage,

    Centroid Linkage, Complete Linkage

    3. Overlapping Clustering.

    a. Setiap data memungkinkan termasuk ke beberapa cluster

    b. Data mempunyai nilai keanggotaan (membership) pada beberapa

    cluster. Contoh : Fuzzy C-means, Gaussian Mixture

    4. Hybrid merupakan kombinasi dari karakteristik partitioning, overlapping

    dan hierarchical.

    Sumber : Jiawei Han dan Micheline kamber, Data mining: Concept and

    Techniques,(San Fransisco: Morgan Kaufmann,2001).

  • 43

    Gambar 2.6 Karakteristik Klasterisasi

    2.2.3 Metode Pengelompokan

    Metode pengelompokan pada dasarnya ada dua, yaitu metode

    pengelompokan Hirarki (Hirarchical Clustering Method) dan metode non

    Hirarki (Non Hirarchical Clustering Method). Metode pengelompokan hirarki

    digunakan apabila belum ada informasi jumlah kelompok yang akan dipilih.

    Sedangkan metode pengelompokan Non Hirarki bertujuan untuk

    mengelompokkan n objek kedalam k kelompok (k

  • 44

    3. Berapa banyak cluster yang akan kita bentuk ?

    Pengambilan keputusan dengan analisis cluster memiliki 6 tahapan,

    yaitu : menentukan tujuan analisis cluster, menentukan desain penelitian

    analisis cluster, menentukan asumsi analisis cluster, menurunkan cluster-

    cluster dan memperkirakan overall fit, menginterpretasi hasil analisis cluster,

    mengukur tingkat validasi hasil analisis cluster.

    2.3 Algoritma K-Means

    2.3.1 Defenisi K-Means

    Algorima K-Means adalah metode clustering non hierarchical

    berbasis jarak yang membagi data kedalam cluster dan algoritma ini bekerja

    pada atribut numerik. Algoritma K-Means termasuk dalaam partitioning

    clustering yang memisahkan data ke daerah bagian yang terpisah. Algoritma

    K-Means sangat terkenal karena kemudahannya dan kemampuannya untuk

    mengklaster data besar dan outlier dengan sangat cepat.

    K-Means merupakan metode klasterisasi yang sangat terkenal dan

    banyak digunakan di berbagai bidang karena sederhana, mudah

    diimplementasikan, memiliki kemampuan untuk mengkluster data yang

    besar, mampu menangani data outlier dan kompleksitas waktunya linear

    O(nKT) dengan n adaalah jumlah dokumen, K adaalah jumlah kluster, dan T

    adalah jumlah iterasi. Dalam Algoritma K-Means, setiap data harus termasuk

    dapat berpindah ke cluster yang lain. Pada dasaarnya penggunaan Algoritma

    K-Means dalam melakukan proses clustering tergantung dari data yang ada

    dan konklusi yang ingin dicapai. Untuk itu digunakan Algoritma K-Means

    yang di dalamnya memuat aturan sebagai berikut :

  • 45

    1. Jumlah cluster yang perlu diinputkan

    2. Hanya memiliki atribut bertipe numerik

    Algoritma K-Means pada awalnya mengambil sebagian dari

    banyaknya komponen dari populasi untuk dijadikan pusat cluster awal. Pada

    step ini pusat cluster dipilih secara acak dari sekumpulan populasi data.

    Berikutnya K-Means menguji masing-masing komponen didalam populasi

    data dan menandai komponen tersebut ke salah satu pusat cluster yang telah

    didefenisikan tergantung dari jarak minimum antar komponen dengan tiap-

    tiap pusat cluster. Posisi pusat cluster akan dihitung kembali sampai semua

    komponen data digolongkan kedalam tiap-tiap cluster dan terakhir akan

    terbentuk posisi cluster baru.

    2.3.2 Proses K-Means

    Algoritma K-Means pada dasarnya melakukan 2 proses yakni proses

    pendeteksian lokasi pusat cluster dan proses pencarian anggota dari tiap-tiap

    cluster dan proses pencarian anggota dari tiap-tiap cluster. Proses Algoritma

    K-Means sebagai berikut :

    1. Tentukan K sebagai jumlah cluster yang ingin dibentuk.

    2. Bangkitkan K centroids (titik pusat cluster) awal secara random.

    3. Hitung jarak setiap data ke masing-masing centroids.

    4. Setiap data memilih centroids yang terdekat.

    5. Tentukan posisi centroids baru dengan cara menghitung nilai rata-rata

    dari data-data yang terletak pada centroids yang sama.

    6. Kembali ke langkah 3 jika posisi centroids baru dengan centroids

    lama tidak sama.

  • 46

    Berdasarkan cara kerjanya Algoritma K-Means memiliki karakteristik

    sebagai berikut :

    1. K-Means sangat cepat dalam proses clustering.

    2. K-Means sangat sensitif dalam pada proses pembangkitan centroids

    awal secara random.

    3. Memungkinkan suatu cluster tidak mempunyai anggota.

    4. Hasil clustering dengan K-Means bersifat tidak unik (selalu berubah-

    ubah) terkadang baik, terkadang jelek.

    Adapun tujuan daari daata clustering ini adalah untuk meminimalisasikan

    objective function yang diset daalam proses clustering, yang padaa umumnya

    berusaha meminimalisasikan variasi didalam suatu cluster dan memaksimalkan

    variasi antar cluster. Ada dua cara pengalokasian data kembali ke dalam masing-

    masing cluster padaa saat proses iterasi clustering. K-Means dalam

    pengalokasian data ke dalam masing-masing cluster dapat dilakukan dengan 2

    cara yaitu Hard K-Means dan Fuzzy K-Means. Perbedaan dari kedua metode

    tersebut terletak pada asumsi yang dipakai sebagai dasar dari pengalokasian data.

    Hard disini dalam artian suatu data secara tegas atau pasti dinyatakan sebagai

    anggota satu cluster tertentu daan tidak menjadi anggota cluster yang lain.

    Sedangkan fuzzy diartikan masing-masing data mempunyai nilai kemungkinan

    untuk dapat bergabung ke setiap cluster yang ada.

  • 47

    BAB IV

    ANALISA DAN PERANCANGAN

    4.1 Analisa Data Penjualan pada CV.Rumah Decor

    CV.Rumah Decor memiliki data-data yang berkaitan dengan aktifitas di

    perusahaan tersebut. Salah satuya adalah data yang digunakan untuk mencatat

    transaksi yang terjadi di perusahaan tersebut. Terdiri dari beberapa atribut misal

    nama-nama barang, jumlah barang, harga barang, total penjualan selama bulan juli

    desember 2013

    4.2 Analisis Clustering dengan Algoritma K-Means

    K-Means termasuk dalam metode data mining partitioning clustering yaitu

    setiap data harus masuk dalam cluster tertentu dan memungkinkan bagi setiap data

    yang masuk dalam cluster tertentu pada suatu tahapan proses, pada tahapan

    berikutnya berpindah ke cluster yang lain. K-means memisahkan data ke K daerah

    bagian terpisah, dimana K adalah bilangan integer positif. Algoritma K-means sangat

    terkenal karena kemudahan dan kemampuanna untuk mengkasifikasi data besar dan

    outlier dengan sangat cepat.

    Berikut ini adalah langkah-langkah algoritma K-means :

    1. Penentuan Cluster Awal

    Dalam menentukan n buah pusat cluster awal dilakukan

    pembangkitan bilangan random yang merepresentasikan urutan data

    input. Pusat awal cluster didapatkan dari data sendiri bukan dengan

    menentukan titik baru, yaitu dengan random pusat awal dari data.

  • 48

    2. Perhitungan Jarak dengan Pusat Cluster

    Untuk mengukur jarak antar data dengan pussat cluster digunakan

    Euclidian distance, algoritma perhitungan jarak data dengan pusat

    cluster:

    1. Ambil nilai data dan nilai pusat cluster

    2. Hitung Euclidian distance data dengan tiap pusat cluster.

    3. Pengelompokan Data

    Jarak hasil perhitungan akan dilakukan perbandingan dan dipilih jarak

    terdekat antara data dengan pusat cluster, jarak ini menunjukkan

    bahwa data tersebut berada dalam satu kelompok dengan pusat cluster

    terdekat.

    Algoritma pengelompokkan data :

    a. Ambil nilai jarak tiap pusat cluster dengan data

    b. Cari nilai jarak terkecil

    c. Kelompokkan data dengan pusat cluster yang memiliki jarak

    terkecil.

    4. Penentuan Pusat Cluster Baru

    Untuk mendapatkan pusat cluster baru bisa dihitung dari rata-rata

    nilai anggota cluster dan pusat cluster. Pusat cluster yang baru

    digunakan untuk melakukan iterasi selanjutnya, jika hasil yang

    didapatkan belum konvergen. Proses iterasi akan berhenti jika telah

  • 49

    memenuhi maksimum iterasi yang dimasukkan oleh user atau hasil

    yang dicapai sudah konvergen (pusat cluster baru sama dengan pusat

    cluster lama).

    Algoritma penentuan pusat cluster :

    a. Cari jumlah anggota tiap cluster

    b. Hitung pusat baru dengan rumus

    Dimana :

    X1, X2, X3,.... Xn = anggota cluster

    Xp = pusat lama

    4.3 Perancangan dan Proses Clustering

    Pada tahap ini akan dilakukan proses utama yaitu segmentasi atau

    pengelompokkan data Penjualan barang yang diakses dari database, yaitu sebuah

    metode clustering algoritma K-Means. Berikut ini merupakan diagram flowchart dari

    algoritma K-Means dengan asumsi bahwa parameter input adalah jumlah data set

    sebanyak n data dan jumlah inisialisasi centroid K=3 sesuai dengan penelitian.

    Dari banyak data penjualan yang diperoleh, diambil 14 jenis barang untuk dijadikan

    sampel untuk penerapan algoritma k-means dalam penjurusan mahasiswa. Percobaan

    dilakukan dengan menggunakan parameter-parameter berikut :

  • 50

    Jumlah cluster : 2

    Jumlah data :14

    Jumlah atribut :2

    Gambar 4.1 Flowchart Proses K-Means

    Pada table dibawah ini merupakan sampel data yang digunakan untuk melakukan

    percobaan perhitungan manual.

    Start

    Input m record, k (jumlahcluster)

    Tentukan k record sbgcentroid

    Hitungsimilaritas

    Hitungnilai rata-rata masing2 cluster

    Nilai rata2

    Centroid

    Set of k clusters

    End

  • 51

    Tabel 4.1 Data penjualan yang akan di hitung

    Nama Barang Harga

    Barang(*Rp1000) Total

    Gordyn Black Out 130 600

    Gordyn Standard 60 700 Gordyn Beludru 120 570

    Gordyb Silk 110 590 Vitrase Tile 85 300

    Vitrase Organdi 115 650 Vitrase Turkie 120 550 Blind Roller 130 585

    Blind Vertical 140 70 Blind Slim 125 90

    Carpet Crown 400 79 Carpet Sandrio 160 120 Carpet Treasure 950 105 Carper Spontini 1750 30

    Iterasi ke-1

    1. Penentuan pusat awal cluster

    Pusatawal cluster atau centroid didapatkansecara random,

    untukpenentuanawal cluster di asumsikan :

    Pusat Cluster 1: (52. 28)

    Pusat Cluster 2: (50. 30)

    2. Perhitungan jarak pusat cluster

    Untuk mengukur jarak antara data dengan pusat cluster digunakan

    Euclidian distance, kemudian akan didapatkan matrik jarak sebagai berikut :

    Rumus euclidian distance : ni ii yxyxd 1 2|| X = Pusat cluster

  • 52

    Y = data

    Dari 5 data yang dijadikan sampel telah dipilih pusa tawal cluster

    yaituC1(52 , 28), dan C2 (50 , 30). Lalu dilakukan penghitungan jarak dari

    sisa sampel data dengan pusat cluster yang dimisalkan dengan M(a,b),

    dimana a merupakan total penjualan,dan b harga barang yang diperkecil

    menjadi angka puluhan juta agar cara penghitungan lebih mudah.

    M1= (130,600)

    M2= (60,700)

    M3= (120,570)

    M4= (110,590)

    M5= (85,300)

    M6= (115,650)

    M7=(120,550)

    M8= (130,585)

    M9= (140,70)

    M10= (125,90)

    M11= (400, 79)

    M12= (160,120)

    M13= (950,105)

    M14= (1750,30)

  • 53

    Hitung Euclidean distance dari semua data ketiap titik pusat pertama :

    1698,002830521750114

    901,292810552950113

    141,872812052160112

    351,71287952400111

    95,77289052125110

    97,5028705214019

    562,43285855213018

    526,41285505212017

    625,18286505211516

    273,9928300528515

    620,71285905211014

    601,85285705212013

    672,0428700526012

    577,29286005213011

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

  • 54

    Dengan cara yang sama hitung jarak tiap titik ketitik pusat ke-2 dan kita akan

    mendapatkan :

    17003030501750214

    903,123010550950213

    142,123012050160212

    353,41307950400211

    96,04309050125210

    98,4830705014029

    560,73305855013028

    524,69305505012027

    623,39306505011526

    272,2530300508525

    563,20305905011024

    544,51305705012023

    670,07530700506022

    575,58306005013021

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

  • 18

    Dari hasil penghitungan Euclidean distance, kita dapat membandingkan :

    Tabel 4.2 Hasil Iterasi 1

    {M9,M10,M11,M12,M13,M14} :anggota C1

    {M1,M2,M3,M4,M5,M6,M7,M8} :anggota C2

    Iterasi ke-2

    1. Hitung titik pusat baru

    Tentukan posisi centroid baru (Ck ) dengan cara menghitung nilai

    rata-rata dari data-data yang ada pada centroid yang sama.

    11 dnC kk

    C1 C2

    M1 577,29369 575,587

    M2 672,04762 670,075

    M3 601,8538 544,518

    M4 620,71572 563,205

    M5 273,99453 272,259

    M6 625,18237 623,398

    M7 526,41049 524,69

    M8 562,43489 560,736

    M9 97,508974 98,4886

    M10 95,77578 96,0469

    M11 351,71722 353,413

    M12 141,87318 142,127

    M13 901,29518 903,12

    M14 1698,0012 1700

  • 19

    Dimana nk adalah jumlah dokumen dalam cluster k dan di adalah

    dokumen dalam cluster k.

    Sehingga didapatkan titik pusat atau centroid yang baru yaitu :

    C1= (587,5 , 82,3) C2= (108,75 , 568,1)

    2. Perhitungan jarak pusat cluster

    Hitung Euclidean distance dari semua data ketitik pusat yang baru

    (C1, C2) seperti yang telah dilakukan pada tahap 1 Setelah hasil perhitungan

    kita dapatkan, kemudian bandingkan hasil tersebut. Jika hasil posisi cluster

    pada iterasi ke 2 sama dengan posisi iterasi pertama, maka proses dihentikan,

    namun jika tidak proses dilanjutkan ke iterasi ke 3.

  • 20

    1163,673,82305,5871750114

    363,213,821055,587950113

    429,153,821205,587160112

    187,523,82795,587400111

    468,273,82905,587125110

    447,843,82705,58714019

    679,713,825855,58713018

    661,283,825505,58712017

    738,603,826505,58711516

    618,573,823005,5878515

    849,253,825905,58711014

    675,573,825705,58712013

    812,283,827005,5876012

    690,883,826005,58713011

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    Dengan cara yang sama hitung jarak tiap titik ketitik pusat baru ke-2 dan kita

    akan mendapatkan :

  • 21

    1727,221,5683075,1081750214

    960,301,56810575,108950213

    451,041,56812075,108160212

    569,271,5687975,108400211

    559,361,5689075,108125210

    469,161,5687075,10814029

    27,131,56858575,10813028

    21,331,56855075,10812027

    82,111,56865075,10811526

    286,261,56830075,1088525

    51,891,56859075,10811024

    11,401,56857075,10812023

    307,711,56870075,1086022

    38,3091,56860075,10813021

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    22211

    211

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    yyxx

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

    CMCMD

  • 22

    Karena pada Iterasi ke-2 posisi cluster tidak berubah/sama dengan

    posisi cluster pada iterasi pertama maka proses iterasi dihentikan.

    Tabel 4.3 Hasil Iterasi 2

    {M9,M10,M11,M12,M13,M14} :anggota C1

    {M1,M2,M3,M4,M5,M6,M7,M8} :anggota C2

    C1 C2

    M1 690,88316 38,309

    M2 812,28661 307,716

    M3 675,57941 11,4052

    M4 849,25352 51,8901

    M5 618,5744 286,254

    M6 738,60649 82,1132

    M7 661,28628 21,3326

    M8 679,71578 27,1354

    M9 447,84991 469,167

    M10 468,27251 559,361

    M11 187,52904 569,271

    M12 429,15911 451,046

    M13 363,21005 960,305

    M14 1163,6759 1727,22

  • 23

    Gambar 4.2 Hasil Pengelompokan data

    Kesimpulan

    Barang dengan jenis Blind Roller, Blind Vertical, Blind Slim, Carpet Crown,

    Carpet Sandrio, Carpet Treasure, Carpet Spontini merupakan anggota C1 dan

    termasuk barang yang tidak laris.

    Barang dengan jenis Gordyn Black Out, Gordyn Standard, Gordyn

    Beludru.Gordyn Silk, Vitrase Tile, Vitrase Organdi, Vitrase Turkie

    merupakan anggota C2 dan termasuk barang yang laris.

  • 24

    BAB V

    IMPLEMENTASI DAN PENGUJIAN

    5.1 Analisis Software Data mining Tanagra 1.4.50

    Tanagra 1.4.50 adalah software data mining yang diperlukan untuk keperluan

    akademik dan riset. Di dalamnya disediakan beberapa metoda data mining mulai dari

    mengekplorasi dan mengelompokkan analisis data, pembelajaran statistik,

    pembelajaran mesin, dan database.

    Software ini merupakan suksesor dari sebuah software lain yang bernama

    SPINA yang mengimplementasikan bermacam algoritma pembelajaran terkontrol,

    khususnya konstruksi pohon keputusan visual yang interaktif. Unjuk kerja Tanagra

    1.4.50 lebih baik, di mana selain memiliki beberapa pembelajaran terkontrol juga

    paradigma lain seperti clustering, analisis faktorial, statistik parametrik dan non

    parametrik, aturan asosiasi, feature selection, dan construction algorithms. Tanagra

    1.4.50 merupakan suatu proyek open source di mana semua peneliti dapat

    mengakses source codenya, dan menambahkan algoritma mereka sendiri,sejauh dia

    setuju dan menyesuaikan dengan lisensi pendistribusian softwarenya.

    5.1.1 Pengenalan Tampilan Dari Tanagra

    Bentuk GUI dari Tanagra 1.4.50

  • 25

    Gambar 5.1 Bentuk GUI

    Input Data

    Gambar 5.2 Input Data

    Komponen / Operator Tanagra 1.4.50

  • 26

    Gambar 5.3 Komponen Tanagra

    Diagram Data Mining

    Gambar 5.4 Diagram Tanagra

    Output / Hasil

    Gambar 5.5 Output Tanagra

  • 27

    5.1.2. Pengujian Sistem dan Penjelasan Bentuk data yang di olah

    Format data yang di import untuk di jadikan sumber oleh Tanagra

    1.4.50 ada 3 jenis :

    1. Microssoft Excel (*xls)

    2. Text (*txt)

    3. Arff

    Kebanyakan data yang diolah oleh Tanagra bersumber dari data yang

    di tulis dari Microssoft Excel.

    Data yang di import menggunakan format TXT berupa data yang

    dibuat dengan menggunakan Microssoft Excel kemudian di ekspor ke

    dalam notepad (txt).Data yang formatnya Arff (Attribute-Relation File

    Format) ini merupakan format yang digunakan oleh Weka dan Tanagra

    juga bisa digunakan langsung.

    5.2 Panduan Penggunaan (User Guide)

    Berikut ini adalah cara penggunaan program data mining Tanagra 1.4.50

    menggunakan metode clustering dengan Algoritma K-means.

    1. Buka Tanagra 1.4.50, lalu pilih File kemudian New.

    2. Inputkan data set yang ingin diolah. Data yang bisa di inputkan berformat

    *xls(Microsoft Excel), *txt (Text) dan *aff.

    3. Kemudian data set akan muncul pada kolom diagram analysis.

    4. Klik Define status untuk memilih atribut diinput atau dijadikan target dan

    ilustratif.

    5. Kemudian pilih komponen tanagra sesuai metode yang diinginkan.

  • 28

    5.3 Spesifikasi Minimum Software Data Mining Tanagra 1.4.50

    Spesifikasi perangkat keras (hardware) yang dibutuhkan dalam menginstal

    sofware Tanagra 1.4.50 dengan minimum spesifikasi :

    1. Processor Pentium dengan kecepatan 2 Ghz

    2. Monitor 14

    3. Harddisk Drive 80 Gb

    4. RAM 512MB

    5. CD ROM drive

    6. Keyboard

    7. Mouse

    8. Printer

    Perangkat lunak yang dibutuhkan untuk menginstal Tanagra 1.4.50 adalah :

    1. Sistem operasi menggunakan Windows XP / 7.

    2. Software data mining Tanagra 1.4.50.

    3. Pengolahan data siswa menggunakan Microsoft Excel.

    5.4 Tahap Instalasi Software Tanagra 1.4.50

    1. Setelah klik master tanagra 1.4.50 akan keluar tampilan sebagai berikut:

    Gambar 5.6. tanagra 1.4.50 Setup

  • 29

    2. Anda telah memasuki halaman awaldari tanagra 1.4.50, lalu Klik tombol

    Next!

    3. Setelah itu akan keluar halaman License Agreement dari tanagra 1.4.50.

    Gambar 5.7. License Agreemant

    4. Pilih bottom I accept the agreement dan klik tombol Next setelah itu akan

    keluar tampilan sebagai berikut:

    Gambar 5.8. Choose Install Location

    5. Aturlah Destination Folder sesuai keinginan anda,dan klik tombol Next

  • 30

    Gambar 5.9. Ready to Install

    6. Proses instalasi sedang berlangsung seperti tampilan di bawah ini.

    Gambar 5.10. Installing Progres

    7. Setelah proses instalasi selesai, maka muncul tampilan seperti di bawah

    ini.

  • 31

    Gambar 5.11. tanagra 1.4.50 Finishing

    5.5 Pengujian Sistem dan Penjelasan

    Berikut langkah-langkah pemakaian software data mining Tanagra 1.4.50

    dalam pengolahan data penjualan berdasarkan jenis barang menggunakan clustering

    dengan algoritma K-means berikut :

    5.5.1 Input Dataset

    Penulis menggunakan data penjualan furnitur pada CV.Rumah Decor

    sebagai dataset, file data menggambarkan karektaristik dari data CV.Rumah

    Decor. Variabel aktif yang ikut penciptaaan cluster adalah nama barang, jenis

    barang, harga barang,dan penjualan barang selama enam bulan. Yang

    digunakan untuk memperkuat interpretasi dari cluster adalah jumlah

    penjualan perbulan selama enam bulan. Data yang di inputkan hanya berupa

    sampel pada tahun 2013.

    Setelah Tanagra 1.4.50 dijalankan, masukkan data dengan cara klik

    File => New, maka akan menampilkan data acces atau dataset.

  • 32

    Gambar 5.12. Input Dataset

    Kemudian klik kanan pada dataset dan klik execute, sehingga keluar tampilan

    berikut

    Gambar 5.13. Data Description

    5.5.2 Descriptive statistics

    Descriptive statistics adalah gambaran dari karakteristik utama dari

    data set. Dalam mengolah data tersebut penulis menambahkan Define Status

    kedalam diagram dari komponen Tanagra, dengan cara drag ke arah data set.

    Kemudian klik kanan Define Status pilih parameter, lalu inputkan atribut yang

    berkategori Continue (C) dan target yang berkategori (D).

  • 33

    Gambar 5.14 Define Status Define 1 Target

    Gambar 5.15 Define Status 1 Input

    Tambahkan komponen More Univariate Cont Stat (tab Statistis). Tarik More

    Univariate Cont Stat dan letakkan di Difine Status 1 kemudian klik kanan view.

  • 34

    Gambar 5.16 Tampilan Univariate

    5.5.3The Active Variables

    Kita standarisasikan variabel sebelum menampilkan pendekatan K-

    means. Tujuannya adalah untuk mengeliminasi ketidaksesuaian antara

    variabel. Tambahkan komponen Standarizedi Feature Construction tab ke

    diagram. Lalu klik kanan padaStandarize pilih menu view.

    Gambar 5.17 Tampilan Standardize

    5.5.4 K-Means

    Kita ingin mentransformasikan variabel untuk menganalisis. Masukkan

    komponen Difine Status baru ke diagram, atur input.

  • 35

    Gambar 5.18 Define Status 2 Input

    Insert komponen K-means di Clustering tab. Klik kanan pilih

    Parameters.

    Gambar 5.19 Parameter K-Means

    Atur nilai cluster menjadi 2 grup.Pada DistanceNormalization, pilih

    none, lalu ok. Klik kanan pada K-means, pilih view.

  • 36

    Gambar 5.20 View K-Means

    5.5.5 Interpretation Of Groups

    Pada tahap ini merupakan langkah awal pada proses clustering. Yang mana

    kita akan menginterpretasikan kelompok dan menentukan karakteristik setiap

    cluster dan membedakan satu sama lain.

    Tambahkan View Dataset (tab Data Visualization) Tarik ke K-means 1 Klik kanan view

    Gambar 5.21 View Dataset

  • 37

    Masukkan komponen Difine Status baru ke dalam diagram, sehingga

    terbentuk Difine Status 3, klik kanan Parameters. Data awal sebagai input

    dan Cluster K-Means 1 menjadi target.

    Gambar 5.22 Define Status 3 Target

    Gambar 5.23 Define Status 3 input

  • 38

    Tambahkan Komponen GroupCharacterization pada tab Statistic.

    Gambar 5.24 View Group Characterization

    Tambahkan lagi komponen Difine Status baru ke dalam diagram,

    sehingga terbentuk Difine Status 4. Data nama dijadikan target dan Cluster

    K-Means 1 dijadikan input.

    Gambar 5.25 Define Status 4 Target

  • 39

    Gambar 5.26 Define Status 4 Input

    Tambahkan komponen Contigency Chi-Square pada Non parametic

    Statisticstab ke diagram. Klik kanan lalu pilih menu view.

    Hasilnya tentu saja konsisten dengan komponen GROUP

    CHARACTERIZATION. Disini terdapat informasi yang berkaitan tentang

    asosiasi. Kita dapat memeriksa jika asosiasinya signifikan dengan statistik

    dan juga bisa menampilkan hasil dari presentasi baris dan kolom.

    Gambar 5.27 View Contingensy Chi Square 1

  • 40

    Scatter plot berguna untuk mendapatkan posisi kelompok sesuai dua

    variabel secara bersamaan. Cara lain menyorot kesimpulan adalah dengan

    representasi grafik. Scatter plot perangkat yang sangat mudah digunakan di

    konteks ini. Kita dapat memposisikan cluster menurut suatu variabel. Kita

    dapat memeriksa interaksi antara variabel.

    Tambahkan komponen Scatterplot pada data visualitation tab.Klik

    kanan view.

    Gambar 5.28 View Scatterplot 1

    Untuk mengambil pertimbangan interaksi antara dua variabel, kita

    gunakan principal component analysis (PCA) dan atur representasi grafik di

    dua faktor. Tambahkan komponen Principal Componen Analysis (tab

    Factorial Analysis).

  • 41

    Gambar 5.29 Principal Component Analysis 1

    Setelah itu tambahkan lagi komponen scatterplot 2

    Gambar 5.30 View Scatterplot 2

    5.5.6 Export Dataset

    Langkah terakhir dari analisis ini, kita ingin mengekspor dataset

    dengan penambahan kolom yang mengindikasikan setiap anggota cluster.

    Tanagra dapat membuat file data dalam format Text File dengan tab separator.

    Tapi sebelumnya tambahkan komponen Define Status atur input dan

    outputnya.

  • 42

    Gambar 5.31 Define Status 5 Input

    Tambahkan komponen Export dataset pada Data Visualization tab ke

    diagram. Klik kanan setting parameter pastikan atribut input yang harus di

    eksport, kita juga bisa mengganti nama file lalu validasikan dan klik kanan

    view.

    Gambar 5.32 Parameters Export Dataset 1

    Hasil data berupa text field yang dapat kita tentukan tempat

    penyimpanan dan formatnya.

  • 43

    Gambar 5.33 View Output

    File data baru output.txt

    Gambar 5.34 Tampilan Output

  • 44

  • 45

    BAB VI

    PENUTUP

    6.1 Kesimpulan

    Dari hasil penelitian, dapat disimpulkan bahwa pengolahan data

    penjualan pada CV.Rumah Decor menggunakan metode Clustering dengan

    algoritma K-means dapat digunakan untuk mengelompokkan data penjualan

    berdasarkan jenis barang.

    Dari data yang diolah berdasarkan jenis barang, diinputkan sampel data

    sebanyak 14 data dengan. Jumlah penjualan selama enam bulan(x) dan harga barang

    yang ada untuk dipasarkan kepada konsumen (y) diperoleh 2 (dua) kelompok data

    telah tercluster, sebagai berikut:

    1. Cluster 1 (C1) terdiri dari enam data

    Barang dengan jenis Blind Roller, Blind Vertical, Blind Slim, Carpet

    Crown, Carpet Sandrio, Carpet Treasure, Carpet Spontini

    yang kurang laku terjual, karna angka penjualan dalam perhitungan

    selama enam bulan dengan total 1.079 meter (juli-desember 2013)

    2. Cluster 2 (C2) terdiri dari delapan data

    Barang dengan jenis Gordyn Black Out, Gordyn Standard, Gordyn

    Beludru.Gordyn Silk, Vitrase Tile, Vitrase Organdi, Vitrase Turkie

    yang laku terjual, karna angka penjualan dalam enam bulan mencapai

    total 3960 meter (juli-desember 2013).

    6.2 Keterbatasan Sistem

    Berdasarkan penelitian yang telah dilakukan penggunaan software data

    mining Tanagra 1.4.38 kurang efektif dilakukan, karena data yang dapat diolah

  • 46

    berdasarkan algoritma K-means atribut data yang dijadikan sebagai input harus

    mempunyai kategori sama. Sehingga apabila data yang diinputkan mempunyai

    kategori diskrete dancontinue pengolahan data tidak dapat dilakukan.

    6.3 Saran

    Dari hasil penelitian dan pengolahan data yang telah di lakukan maka

    kami menyarankan kepada pihak CV.Rumah Decor , agar bisa mengelompokkan

    barang-barang yang ada berdasarkan jenis dan mencatat setiap penjualan yang terjadi

    pada setiap jenis barang tersebut, sehingga dapat memudahkan nantinya dalam

    melakukan laporan kepada atasannya terhadap barang mana yang laku terjual dan

    barang yang tidak laku terjual.

  • 47

    DAFTAR PUSTAKA

    http://www.metris-community.com/pengertian-data-mining-konsep-pdf/

    http://prayudho.wordpress.com/2008/12/30/analisis-cluster/

    (http://sartika1603.wordpress.com/)

    http://ammarawirausaha.blogspot.com/2009/10/pengertian-pelanggan.html

    http://www.metris-community.com/pengertian-data-mining-konsep-pdf/http://prayudho.wordpress.com/2008/12/30/analisis-cluster/http://sartika1603.wordpress.com/http://ammarawirausaha.blogspot.com/2009/10/pengertian-pelanggan.html

  • 48

    LAMPIRAN

  • 49