Bab 2 Tinjauan Pustaka · 2016. 11. 2. · 5 Bab 2 . Tinjauan Pustaka . 2.1 Penelitian Terdahulu ....

5

Bab 2

Tinjauan Pustaka

2.1 Penelitian Terdahulu

Adapun penelitian terdahulu yang berkaitan dalam

penelitian ini berjudul “Penentuan Wilayah Usaha Pertambangan

Menggunakan Metode Fuzzy K-Mean Clustering Berbasis Sistem

Informasi Geografi”. Pada penelitian ini, metode Fuzzy K-Mean

Clustering diterapkan pada penentuan wilayah usaha

pertambangan di Kabuapten Trenggalek, Jawa Timur. Hasil dari

penerapan metode tersebut adalah segmentasi wilayah usaha

pertambangan yang dapat menggambarkan karakteristik bahan

galian pada setiap kelompoknya, sehingga selain dapat

mempermudah penetapan rencana umum tata ruang daerah dalam

pengalokasian wilayah usaha pertambangan bahan galian, hasil

segmentasi ini juga dapat mempermudah peminat dan pelaku

usaha tambang dalam memilih wilayah kegiatan usaha tambang

yang prospek di Kabupaten Trenggalek, Jawa Timur (Suryana,

2010).

Penelitian yang berjudul “Sistem Market Basket Untuk

Menentukan Tata Letak Produk Pada Suatu Swalayan

Menggunakan Algoritma K-Means Clustering” juga merupakan

salah satu penilitian yang berkaitan dengan penilitian ini. Market

basket analysis adalah salah satu teknik data mining yang dapat

menemukan pola yang berupa produk-produk yang sering dibeli

bersamaan dalam sebuah transaksi. Dalam penelitian tersebut,

6

dijelaskan bagaimana market basket analysis dengan

menggunakan Algoritma K-Means clustering berdasarkan

kebiasaan konsumen berbelanja untuk menghasilkan suatu model

tata letak produk. Algoritma K-Means clustering digunakan

untuk membagi data ke dalam cluster sehingga data yang

memiliki karakteristik yang sama dikelompokkan ke dalam satu

cluster yang sama dan data yang mempunyai karakteristik

berberda dikelompokkan ke dalam cluster lain. Hasil dari

penelitian tersebut adalah sebuah model tata letak produk yang

dapat digunakan oleh pihak manajemen swalayan (Sebayang,

2012).

Penelitian lain yang berkaitan dalam penelitian ini

berjudul “Implementasi Metode Heatmap 2-D Untuk Visualisasi

Data Terdistribusi”. Penelitian ini membuat aplikasi sebagai alat

bantu untuk menampilkan data terdistribusi dalam bentuk visual

sehingga lebih menarik dan mudah dibaca. Adapun aplikasi ini

dibuat dengan tujuan mempermudah pengguna dalam mencari

data dalam basis data XML serta mudah dalam mengambil

kesimpulan dan atau keputusan manajerial (Lisana dan Praman,

2013).

Mengacu pada penelitian terdahulu, maka akan dilakukan

penelitian yang berjudul Perancangan dan Implementasi

Clustering Data Menggunakan Algoritma K-Means Berbasis

Heatmap. Dalam penelitian ini, data yang akan dikelompokkan

7

adalah potensi bahan tambang di Provinsi Papua Barat kemudian

disajikan dalam sebuah aplikasi web menggunakan Heat Map.

2.2 Clustering

Clustering merupakan salah satu teknik dalam data

mining. Clustering membagi objek ke dalam kelompok atau

cluster tertentu, sehingga objek dalam suatu cluster memiliki

kemiripan dengan objek lain dalam cluster yang sama dan

berbeda dengan objek pada cluster yang lain. Kemiripan objek

umumnya didefinisikan berdasarkan jarak kedekatan antar objek

yang ditentukan melalui fungsi jarak (Han dkk, 2011).

Gambar 2.1 Clustering Dalam Ruang Dua Dimensi.

(a) Inisialisasi Data;(b) Data dalam tiga cluster;

(c) Data dalam empat cluster (Kantardzic, 2011)

Pada Gambar 2.1 terdapat sembilan objek yang akan

dikelompokkan. Gambar 2.1(b) menggambarkan kesembilan

objek tersebut dikelompokkan menjadi tiga cluster, objek yang

saling berdekatan dikelompokkan dalam satu cluster yang sama.

8

Sedangkan pada Gambar 2.1(c), terlihat kesembilan objek yang

ada dikelompokkan menjadi empat cluster.

Clustering telah diterapkan pada beberapa bidang seperti

berikut ini (Zaiane, 2007):

1. Bidang Pemasaran

Dalam bidang pemasaran, algoritma clustering digunakan

untuk membantu menemukan perbedaan kelompok pelanggan

dan kemudian mengembangkan program pemasaran yang

ditargetkan.

2. Bidang Biologi

Algoritma clustering ini digunakan dalam bidang biologi

untuk menemukan gen-gen yang memiliki fungsi yang serupa

untuk digolongkan menjadi suatu cluster tertentu.

3. Bidang Land Use

Algoritma clustering ini digunakan dalam bidang land use

untuk mengidentifikasi bidang tanah yang sama yang digunakan

dalam pengamatan bumi.

4. Bidang Asuransi

Algoritma clustering ini digunakan dalam bidang asuransi

untuk mengidentifikasi kelompok pemegang polis asuransi motor

dengan rata-rata klaim biaya yang tinggi.

5. Bidang Perencanaan Tata Kota

Algoritma clustering ini digunakan dalam bidang

perencanaan tata kota untuk mengidentifikasi kelompok dari

rumah ke rumah sesuai jenis, nilai dan geografis lokasi.

9

Secara umum metode clustering dapat dibagi menjadi

beberapa kategori, antara lain metode parsial dan metode hirarki

(Han dkk, 2011).

1. Metode Parsial

Metode parsial adalah metode clustering yang sederhana

dan merupakan konsep dasar dari analisis cluster. Metode parsial

mengorganisir sejumlah data tertentu ke dalam kelompok yang

lebih spesifik atau cluster. Jumlah cluster yang diberikan

merupakan parameter dalam untuk memulai metode parsial.

Secara formal, pemberian sejumlah data (D) dari n objek

dan jumlah cluster (K) untuk melakukan proses clustering.

Sebuah algortima partisi mengorganisir objek ke dalam partisi K

dengan K ≤ n, sehingga setiap partisi mewakili sebuah cluster.

Cluster dibentuk untuk mengoptimalkan sebuah tujuan

pembagian kriteria, seperti fungsi perbedaan berdasarkan jarak,

sehingga objek dalam satu cluster mirip dengan objek lain dalam

cluster tersebut, dan berbeda dengan objek di cluster lain.

Algoritma yang sering digunakan dalam metode parsial ini adalah

algoritma K-Medoids dan K-Means.

2. Metode Hirarki

Metode hirarki dalam clustering mengelompokkan objek

data ke dalam sebuah hirarki atau pohon cluster. Menampilkan

objek data dalam bentuk sebuah hirarki berguna untuk

penyimpulan atau peringkasan serta penyajian data. Sebagai

contoh, seorang manajer sumber daya manusia di perusahaan X

10

dapat mengatur karyawannya ke dalam kelompok besar seperti

eksekutif, manajer dan staf. Selain itu, pengelompokkan tersebut

dapat dilanjutkan menjadi sub kelompok yang lebih kecil.

Misalnya untuk kelompok umum untuk semua staf dapat dibagi

menjadi sub kelompok pegawai senior, pegawai dan pegawai

yang masih dalam masa percobaan. Setelah melakukan

pengelompokkan, maka sebuah hirarki dapat terbentuk.

Berdasarkan hirarki tersebut, proses penarikan kesimpulan atau

klasifikasi data dapat dilakukan dengan mudah.

2.3 Euclidean Distance

Euclidean distance adalah metrika yang sering digunakan

untuk menghitung kesamaan dua vektor. Euclidean distance

menghitung akar dari kuadrat perbedaan dua vektor. Rumus

Euclidean distance adalah sebagai berikut (Putra, 2010) :

√∑( )

Gambar 2.2 Rumus Euclidean Distance (Putra, 2010)

dengan :

= distance

= 1, 2, 3, ……, p

= 1, 2, 3, ……, p

= merepresentasikan nilai atribut

= dimensi data

= objek data

11

Berikut ini adalah contoh penggunaan rumus Euclidean

distance :

Terdapat dua vektor A dan B, vektor A = [0, 3, 4, 5] dan

vector B = [7, 6, 3, -1]. Euclidean distance dari vector A dan B

adalah :

√( ) ( ) ( ) ( )

√( ) ( ) ( ) ( ( ))

√( ) ( ) ( ) ( )

√

√

Semakin besar jarak antara dua vektor, maka tingkat

kesamaan atau kemiripannya kecil. Sebaliknya, semakin kecil

jarak antara dua vektor, maka tingkat kesamaan atau

kemiripannya besar.

2.4 Algoritma K-Means

Algoritma K-Means merupakan salah satu teknik

pengelompokan data yang sering digunakan. K-Means

mengelompokkan objek yang mirip dalam cluster yang sama.

Gambaran umum dari algoritma tersebut adalah sebagai berikut

(Aggarwal & Reddy, 2013) :

1. Menentukan nilai K atau jumlah cluster yang diinginkan

serta menentukan centroid atau pusat cluster. Centroid

12

ditentukan secara acak dari objek data yang ada sesuai

dengan nilai K, jika nilai K adalah dua maka centroid

yang ditentukan juga dua.

2. Membagi setiap objek ke dalam cluster yang paling mirip.

Cluster yang paling mirip adalah cluster dengan centroid

terdekat. Perhitungan kedekatan antara objek dengan

centroid dapat dilakukan menggunakan fungsi jarak,

seperti Euclidean Distance.

3. Menghitung ulang K cluster dengan rata-rata dari semua

objek yang diberikan untuk tiap cluster.

4. Ulangi langkah kedua dan ketiga sampai tidak ada lagi

objek yang berpindah cluster.

2.5 Heatmap

Heatmap digunakan untuk menggambarkan distribusi dan

kepadatan titik pada peta. Heatmap memudahkan viewer untuk

memahami distribusi dan intensitas relatif titik data pada peta.

Distribusi data pada Heatmap diwakilkan menggunakan warna

(Google, 2014).

Bab 2 Tinjauan Pustaka · 2016. 11. 2. · 5 Bab 2 . Tinjauan Pustaka . 2.1 Penelitian Terdahulu ....

Documents

Transcript of Bab 2 Tinjauan Pustaka · 2016. 11. 2. · 5 Bab 2 . Tinjauan Pustaka . 2.1 Penelitian Terdahulu ....