Bab 2 Tinjauan Pustaka · 2016. 11. 2. · 5 Bab 2 . Tinjauan Pustaka . 2.1 Penelitian Terdahulu ....

8
5 Bab 2 Tinjauan Pustaka 2.1 Penelitian Terdahulu Adapun penelitian terdahulu yang berkaitan dalam penelitian ini berjudul “Penentuan Wilayah Usaha Pertambangan Menggunakan Metode Fuzzy K-Mean Clustering Berbasis Sistem Informasi Geografi”. Pada penelitian ini, metode Fuzzy K-Mean Clustering diterapkan pada penentuan wilayah usaha pertambangan di Kabuapten Trenggalek, Jawa Timur. Hasil dari penerapan metode tersebut adalah segmentasi wilayah usaha pertambangan yang dapat menggambarkan karakteristik bahan galian pada setiap kelompoknya, sehingga selain dapat mempermudah penetapan rencana umum tata ruang daerah dalam pengalokasian wilayah usaha pertambangan bahan galian, hasil segmentasi ini juga dapat mempermudah peminat dan pelaku usaha tambang dalam memilih wilayah kegiatan usaha tambang yang prospek di Kabupaten Trenggalek, Jawa Timur (Suryana, 2010). Penelitian yang berjudul “Sistem Market Basket Untuk Menentukan Tata Letak Produk Pada Suatu Swalayan Menggunakan Algoritma K-Means Clustering” juga merupakan salah satu penilitian yang berkaitan dengan penilitian ini. Market basket analysis adalah salah satu teknik data mining yang dapat menemukan pola yang berupa produk-produk yang sering dibeli bersamaan dalam sebuah transaksi. Dalam penelitian tersebut,

Transcript of Bab 2 Tinjauan Pustaka · 2016. 11. 2. · 5 Bab 2 . Tinjauan Pustaka . 2.1 Penelitian Terdahulu ....

  • 5

    Bab 2

    Tinjauan Pustaka

    2.1 Penelitian Terdahulu

    Adapun penelitian terdahulu yang berkaitan dalam

    penelitian ini berjudul “Penentuan Wilayah Usaha Pertambangan

    Menggunakan Metode Fuzzy K-Mean Clustering Berbasis Sistem

    Informasi Geografi”. Pada penelitian ini, metode Fuzzy K-Mean

    Clustering diterapkan pada penentuan wilayah usaha

    pertambangan di Kabuapten Trenggalek, Jawa Timur. Hasil dari

    penerapan metode tersebut adalah segmentasi wilayah usaha

    pertambangan yang dapat menggambarkan karakteristik bahan

    galian pada setiap kelompoknya, sehingga selain dapat

    mempermudah penetapan rencana umum tata ruang daerah dalam

    pengalokasian wilayah usaha pertambangan bahan galian, hasil

    segmentasi ini juga dapat mempermudah peminat dan pelaku

    usaha tambang dalam memilih wilayah kegiatan usaha tambang

    yang prospek di Kabupaten Trenggalek, Jawa Timur (Suryana,

    2010).

    Penelitian yang berjudul “Sistem Market Basket Untuk

    Menentukan Tata Letak Produk Pada Suatu Swalayan

    Menggunakan Algoritma K-Means Clustering” juga merupakan

    salah satu penilitian yang berkaitan dengan penilitian ini. Market

    basket analysis adalah salah satu teknik data mining yang dapat

    menemukan pola yang berupa produk-produk yang sering dibeli

    bersamaan dalam sebuah transaksi. Dalam penelitian tersebut,

  • 6

    dijelaskan bagaimana market basket analysis dengan

    menggunakan Algoritma K-Means clustering berdasarkan

    kebiasaan konsumen berbelanja untuk menghasilkan suatu model

    tata letak produk. Algoritma K-Means clustering digunakan

    untuk membagi data ke dalam cluster sehingga data yang

    memiliki karakteristik yang sama dikelompokkan ke dalam satu

    cluster yang sama dan data yang mempunyai karakteristik

    berberda dikelompokkan ke dalam cluster lain. Hasil dari

    penelitian tersebut adalah sebuah model tata letak produk yang

    dapat digunakan oleh pihak manajemen swalayan (Sebayang,

    2012).

    Penelitian lain yang berkaitan dalam penelitian ini

    berjudul “Implementasi Metode Heatmap 2-D Untuk Visualisasi

    Data Terdistribusi”. Penelitian ini membuat aplikasi sebagai alat

    bantu untuk menampilkan data terdistribusi dalam bentuk visual

    sehingga lebih menarik dan mudah dibaca. Adapun aplikasi ini

    dibuat dengan tujuan mempermudah pengguna dalam mencari

    data dalam basis data XML serta mudah dalam mengambil

    kesimpulan dan atau keputusan manajerial (Lisana dan Praman,

    2013).

    Mengacu pada penelitian terdahulu, maka akan dilakukan

    penelitian yang berjudul Perancangan dan Implementasi

    Clustering Data Menggunakan Algoritma K-Means Berbasis

    Heatmap. Dalam penelitian ini, data yang akan dikelompokkan

  • 7

    adalah potensi bahan tambang di Provinsi Papua Barat kemudian

    disajikan dalam sebuah aplikasi web menggunakan Heat Map.

    2.2 Clustering

    Clustering merupakan salah satu teknik dalam data

    mining. Clustering membagi objek ke dalam kelompok atau

    cluster tertentu, sehingga objek dalam suatu cluster memiliki

    kemiripan dengan objek lain dalam cluster yang sama dan

    berbeda dengan objek pada cluster yang lain. Kemiripan objek

    umumnya didefinisikan berdasarkan jarak kedekatan antar objek

    yang ditentukan melalui fungsi jarak (Han dkk, 2011).

    Gambar 2.1 Clustering Dalam Ruang Dua Dimensi.

    (a) Inisialisasi Data;(b) Data dalam tiga cluster;

    (c) Data dalam empat cluster (Kantardzic, 2011)

    Pada Gambar 2.1 terdapat sembilan objek yang akan

    dikelompokkan. Gambar 2.1(b) menggambarkan kesembilan

    objek tersebut dikelompokkan menjadi tiga cluster, objek yang

    saling berdekatan dikelompokkan dalam satu cluster yang sama.

  • 8

    Sedangkan pada Gambar 2.1(c), terlihat kesembilan objek yang

    ada dikelompokkan menjadi empat cluster.

    Clustering telah diterapkan pada beberapa bidang seperti

    berikut ini (Zaiane, 2007):

    1. Bidang Pemasaran

    Dalam bidang pemasaran, algoritma clustering digunakan

    untuk membantu menemukan perbedaan kelompok pelanggan

    dan kemudian mengembangkan program pemasaran yang

    ditargetkan.

    2. Bidang Biologi

    Algoritma clustering ini digunakan dalam bidang biologi

    untuk menemukan gen-gen yang memiliki fungsi yang serupa

    untuk digolongkan menjadi suatu cluster tertentu.

    3. Bidang Land Use

    Algoritma clustering ini digunakan dalam bidang land use

    untuk mengidentifikasi bidang tanah yang sama yang digunakan

    dalam pengamatan bumi.

    4. Bidang Asuransi

    Algoritma clustering ini digunakan dalam bidang asuransi

    untuk mengidentifikasi kelompok pemegang polis asuransi motor

    dengan rata-rata klaim biaya yang tinggi.

    5. Bidang Perencanaan Tata Kota

    Algoritma clustering ini digunakan dalam bidang

    perencanaan tata kota untuk mengidentifikasi kelompok dari

    rumah ke rumah sesuai jenis, nilai dan geografis lokasi.

  • 9

    Secara umum metode clustering dapat dibagi menjadi

    beberapa kategori, antara lain metode parsial dan metode hirarki

    (Han dkk, 2011).

    1. Metode Parsial

    Metode parsial adalah metode clustering yang sederhana

    dan merupakan konsep dasar dari analisis cluster. Metode parsial

    mengorganisir sejumlah data tertentu ke dalam kelompok yang

    lebih spesifik atau cluster. Jumlah cluster yang diberikan

    merupakan parameter dalam untuk memulai metode parsial.

    Secara formal, pemberian sejumlah data (D) dari n objek

    dan jumlah cluster (K) untuk melakukan proses clustering.

    Sebuah algortima partisi mengorganisir objek ke dalam partisi K

    dengan K ≤ n, sehingga setiap partisi mewakili sebuah cluster.

    Cluster dibentuk untuk mengoptimalkan sebuah tujuan

    pembagian kriteria, seperti fungsi perbedaan berdasarkan jarak,

    sehingga objek dalam satu cluster mirip dengan objek lain dalam

    cluster tersebut, dan berbeda dengan objek di cluster lain.

    Algoritma yang sering digunakan dalam metode parsial ini adalah

    algoritma K-Medoids dan K-Means.

    2. Metode Hirarki

    Metode hirarki dalam clustering mengelompokkan objek

    data ke dalam sebuah hirarki atau pohon cluster. Menampilkan

    objek data dalam bentuk sebuah hirarki berguna untuk

    penyimpulan atau peringkasan serta penyajian data. Sebagai

    contoh, seorang manajer sumber daya manusia di perusahaan X

  • 10

    dapat mengatur karyawannya ke dalam kelompok besar seperti

    eksekutif, manajer dan staf. Selain itu, pengelompokkan tersebut

    dapat dilanjutkan menjadi sub kelompok yang lebih kecil.

    Misalnya untuk kelompok umum untuk semua staf dapat dibagi

    menjadi sub kelompok pegawai senior, pegawai dan pegawai

    yang masih dalam masa percobaan. Setelah melakukan

    pengelompokkan, maka sebuah hirarki dapat terbentuk.

    Berdasarkan hirarki tersebut, proses penarikan kesimpulan atau

    klasifikasi data dapat dilakukan dengan mudah.

    2.3 Euclidean Distance

    Euclidean distance adalah metrika yang sering digunakan

    untuk menghitung kesamaan dua vektor. Euclidean distance

    menghitung akar dari kuadrat perbedaan dua vektor. Rumus

    Euclidean distance adalah sebagai berikut (Putra, 2010) :

    √∑( )

    Gambar 2.2 Rumus Euclidean Distance (Putra, 2010)

    dengan :

    = distance

    = 1, 2, 3, ……, p

    = 1, 2, 3, ……, p

    = merepresentasikan nilai atribut

    = dimensi data

    = objek data

  • 11

    Berikut ini adalah contoh penggunaan rumus Euclidean

    distance :

    Terdapat dua vektor A dan B, vektor A = [0, 3, 4, 5] dan

    vector B = [7, 6, 3, -1]. Euclidean distance dari vector A dan B

    adalah :

    √( ) ( ) ( ) ( )

    √( ) ( ) ( ) ( ( ))

    √( ) ( ) ( ) ( )

    Semakin besar jarak antara dua vektor, maka tingkat

    kesamaan atau kemiripannya kecil. Sebaliknya, semakin kecil

    jarak antara dua vektor, maka tingkat kesamaan atau

    kemiripannya besar.

    2.4 Algoritma K-Means

    Algoritma K-Means merupakan salah satu teknik

    pengelompokan data yang sering digunakan. K-Means

    mengelompokkan objek yang mirip dalam cluster yang sama.

    Gambaran umum dari algoritma tersebut adalah sebagai berikut

    (Aggarwal & Reddy, 2013) :

    1. Menentukan nilai K atau jumlah cluster yang diinginkan

    serta menentukan centroid atau pusat cluster. Centroid

  • 12

    ditentukan secara acak dari objek data yang ada sesuai

    dengan nilai K, jika nilai K adalah dua maka centroid

    yang ditentukan juga dua.

    2. Membagi setiap objek ke dalam cluster yang paling mirip.

    Cluster yang paling mirip adalah cluster dengan centroid

    terdekat. Perhitungan kedekatan antara objek dengan

    centroid dapat dilakukan menggunakan fungsi jarak,

    seperti Euclidean Distance.

    3. Menghitung ulang K cluster dengan rata-rata dari semua

    objek yang diberikan untuk tiap cluster.

    4. Ulangi langkah kedua dan ketiga sampai tidak ada lagi

    objek yang berpindah cluster.

    2.5 Heatmap

    Heatmap digunakan untuk menggambarkan distribusi dan

    kepadatan titik pada peta. Heatmap memudahkan viewer untuk

    memahami distribusi dan intensitas relatif titik data pada peta.

    Distribusi data pada Heatmap diwakilkan menggunakan warna

    (Google, 2014).