ASOSIASI DATA MINING PENJUALAN DENGAN MENGGUNAKAN ALGORITMA FP-GROWTH ( STUDI KASUS : MARKET BASKET...

13
ASOSIASI DATA MINING PENJUALAN DENGAN MENGGUNAKAN ALGORITMA FP-GROWTH ( STUDI KASUS : MARKET BASKET ANALYSIS (MBA) ) Final Project Data Mining Oleh Rizal M Noor 117006214 JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS SILIWANGI TASIKMALAYA 2013/2014

Transcript of ASOSIASI DATA MINING PENJUALAN DENGAN MENGGUNAKAN ALGORITMA FP-GROWTH ( STUDI KASUS : MARKET BASKET...

ASOSIASI DATA MINING PENJUALAN DENGAN MENGGUNAKAN

ALGORITMA FP-GROWTH

( STUDI KASUS : MARKET BASKET ANALYSIS (MBA) )

Final Project Data Mining

Oleh

Rizal M Noor

117006214

JURUSAN TEKNIK INFORMATIKA

FAKULTAS TEKNIK UNIVERSITAS SILIWANGI TASIKMALAYA

2013/2014

1. PENDAHULUAN

Bidang ilmu pengetahuan, bisnis dan pemerintahan telah melahirkan

tumpukan data yang sangat melimpah. Tumpukan data ini yang akhirnya

dikumpulkan dan diolah oleh kemampuan teknologi informasi menjadi beberapa

“pengetahuan” baru yang dapat dimanfaatkan. Namun metoda analisis dan

pengolahan data yang ada, masih kesulitan dalam menangani data dalam jumlah

besar. Sementara, kebutuhan akan informasi dari gudang data ini memaksa untuk

lahirnya sebuah teknologi baru yang dapat mengolah data dalam jumlah besar.

Maka lahirlah data mining, sebuah teknologi baru yang menjawab kebutuhan ini.

Sebuah perusahaan pemasaran dapat mengumpulkan data transaksi

dengan cepat sehingga menghasilkan data yang sangat besar. Pertumbuhan data

yang pesat itukadang dibiarkanbegitu saja dan tidak digunakan. Dengan data

mining atau lebih tepatnya Market Basket Analysis (MBA), data yang banyak itu

dapat diolah sehingga didapatkan informasi tersembunyi yang akan menghasilkan

knowledge yang berguna untuk pengambilan keputusan para decision maker

perusahaan pemasaran tersebut.

MBA merupakan salah satu contoh dari data mining yang digunakan

untuk menganalisa kebiasaan konsumen dalam berbelanja. MBA bisa menjadi

tidak berguna ketika dihadapkan pada data yang kecil, namun akan menghasilkan

informasi yang berharga ketika diperlakukan pada data yang besar seperti misalnya

data transaksi sebuah supermarket besar.

Salah satu teknik dalam data mining yang terkenal dan cocok untuk

MBA adalah association rule mining. Association rule mining memiliki beberapa

algoritma yang sudah sering digunakan diantaranya algoritma Apriori, FP-Growth,

dan CT-PRO yang dimana ketiga algoritma tersebut memiliki kelebihan dan

kekurangan masing-masing. Dalam dokumen penelitian ini penulis akan

menggunakan algoritma FP-Growth.

2. LANDASAN TEORI

2.1 Data

Data merupakan sekumpulan fakta yang nantinya akan menjadi

sebuah informasi penting apabila diperlakukan dengan proses tertentu.

Informasi yang didapatkan harus sesuai dengan kebutuhan dan harus

dipastikan bahwa informasi tersebut memiliki kualitas yang baik. Ada

beberapa faktor yang mempengaruhi kualitas dari sebuah informasi, yaitu

keakuratan, kerelevanan, tepat waktu dan penyajiannya. Informasi yang nanti

didapatkan atau sering disebut dengan knowledge, harus memiliki nilai yang

baik. Informasi ini akan digunakan untuk penentuan keputusan dan kebijakan

serta langkah apa yang akan sebaiknya dilakukan selanjutnya, jadi proses

dalam mendapatkan informasi ini haruslah menggunakan proses dan teknologi

yang dapat dipercaya kebenarannya.

2.2 Data Mining

Data Mining adalah sebuah teknologi baru yang memiliki potensi

sangat besar dalam penggalian informasi yang tersembunyi. Data mining juga

sering didefinisikan sebagai proses ekstraksi informasi prediktif tersembunyi

dari database yang sangat besar. Teknologi ini memungkinkan sebuah

perusahaan untuk lebih proaktif dalam penyusunan strategi yang efektif dan

juga dalam pengambilan keputusan berdasarkan perilaku dan tren masa depan

yang dapat diprediksi oleh proses data mining.

Secara umum, data mining memiliki istilah populer yaitu

Knowledge Discovery from Databases atau disingkat KDD.

2.3 Jenis-jenis Data Mining Menurut Fungsinya

Data mining dibagi menjadi beberapa jenis menurut dari

fungsinya (Atje Setiawan, 2009), yaitu:

a. Konsep atau kelas description

b. Association Analysis

c. Klasifikasi dan Prediksi

d. Cluster Analysis

e. Outlier Analysis

f. Evaluation Analysis

2.4 Association Rule

Assosiation Rule merupakan suatu proses untuk menemukan

semua aturan assosiatif yang memenuhi syarat minimum untuk support

(minsup) dan syarat minimum untuk confidence (minconf) pada sebuah

database.

Dalam menentukan suatu Association Rule umumnya terdapat

dua ukuran kepercayaan (interestingness measure), yaitu support dan

confidence. Kedua ukuran ini akan digunakan untuk interesting association

rules dengan dibandingkan dengan batasan yang telah ditentukan. Batasan

inilah yang terdiri dari minsup dan minconf.

Assosiation Rule Mining adalah suatu prosedur untuk mencari

hubungan antar item dalam suatu dataset. Dimulai dengan mencari frequent

itemset, yaitu kombinasi yang paling sering terjadi dalam suatu itemset dan

harus memenuhi minimum support.

Dalam tahap ini akan dicari kombinasi item yang memnuhi

syarat minimum dari nilai support dalam database. Untuk mendapatkan nilai

support untuk sebuah item A dapat diperoleh dari rumus berikut :

Support (A) = (2.1)

Sementara itu, untuk mencari nilai support dari 2-item dapat diperoleh dari

rumus berikut :

Support (A,B) = P (A∩ B) =

(2.2)

Setelah semua frequent item dan Large itemset ditemukan, dapat dicari semua

Association Rules yang memenuhi syarat minimum untuk confidence

(minconf) dengan menggunakan rumus berikut ini :

Confidence (AB) = P (B|A) =

(2.3)

2.5 Market Basket Analysis

Market Basket Analysis adalah salah satu teknik pemodelan

dalam data mining berdasarkan teori yang mana jika anda membeli suatu grup

Jumlah transaksi yang mengandung item A

Total transaksi

Jumlah transaksi yang mengandung A dan B

Total transaksi

Jumlah transaksi yang mengandung A dan B

Total transaksi

item, anda akan memiliki kemungkinan membeli itemset yang lain (data

mining concept and technique, Jiawei Han).

Market Basket berdasarkan kumpulan item yang dibeli oleh

konsumen dalam sebuah transaksi. Dalam hal ini, kuantitas dari sebuah item

yang dibeli konsumen tidak mempengaruhi proses analisis ini. Market Basket

Analysis hanya berdasarkan tipe-tipe item yang berbeda, tidak peduli seberapa

banyak kuantitasnya. Dalam Market Basket Analysis akan dianalisis

akumulasi kumpulan transaksi dari sejumlah besar konsumen dalam periode

waktu yang telah berlangsung.

Proses ini menganalisis buying habits dari para konsumen

dengan menemukan hubungan assosiasi antar item-item yang berbeda yang

seringkali dibeli oleh konsumen. Hasil dari proses analisis ini nantinya akan

sangat berguna bagi perusahaan retail khususnya seperti toko swalayan dan

supermarket untuk mengembangkan strategi pemasaran dan proses

pengambilan keputusan dengan melihat item-item berbeda yang sering dibeli

secara bersamaan oleh konsumen dalam satu waktu.

Beberapa kombinasi item yang sering dibeli konsumen memang

terkadang sangat mudah untuk ditebak, contohnya seringkali konsumen

membeli susu bayi dan popok secara bersamaan. Pola ini sangat biasa terjadi

dan mudah ditebak karena susu bayi dan popok memiliki hubungan yang

sangat dekat. Namun terkadang pola seperti deterjen dan telur jarang

terfikirkan karena deterjen dan telur tidak mempunyai hubungan sama sekali.

Melalui Market Basket Analysis, pola- pola yang terkadang tidak terfikirkan

ini dapat ditemukan dengan mudah sehingga akan membantu pengambilan

keputusan dan proses pengembangan strategi bagi perusahaan retail. Masalah-

masalah seperti kehabisan stok akan diminimalisir dengan diketahuinya pola

pembelian konsumen melalui Market Basket Analysis sehingga dapat

meningkatkan penjualan perusahaan tersebut.

2.6 Algoritma FP-Growth

Algoritma FP-Growth merupakan salah satu alternatif algoritma

yang cukup efektif untuk mencari himpunan data yang paling sering muncul

(frequent itemset) dalam sebuah kumpulan data yang besar. Algoritma FP-

Growth merupakan algoritma Association Rules yang cukup sering dipakai.

Algoritma FP-Growth ini dikembangkan dari algoritma apriori. Algoritma

apriori menghasilkan kombinasi yang sangat banyak sehingga sangat tidak

efisien. Algoritma FP-Growth ini merupakan salah satu solusi dari algoritma

apriori yang memakan waktu yang sangat lama karena harus melakukan

pattern matching yang secara berulang-ulang. Sedangkan dalam proses

Algoritma FP-Growth terdapat banyak kelebihan yang terbukti sangat efisien

karena hanya dilakukan pemetaan data atau scan database sebanyak 2 kali

untuk membangun struktur ”tree”. Maka dari itu, Algoritma FP-Growth

dikenal juga dengan sebutan algoritma FP-Tree. Dengan menggunakan

struktur FP-Tree, algoritma FP-Growth dapat langsung mengekstrak frequent

itemset dari susunan FP-Tree yang telah terbentuk.

3. METODE PENELITIAN

3.1 Data

Dalam penelitian ini akan digunakan data mentah yaitu sebuah

data transaksi penjualan sebuah supermarket dalam suatu periode waktu. Data

sekunder ini terdiri dari 4627 jumlah transaksi penjualan dengan 216 jenis

item.

Tabel 1 Sampel Data

Bread Spices Biscuits Deodorant Canned fruit Cheese Break

fast

food

coffee . . . Beef

True ? ? ? ? true ? True ?

? ? ? True True ? ? ? ?

True ? ? True ? ? ? ? True

True ? ? ? ? True True ? True

True ? ? ? ? ? ? True True

True True True ? True ? True ? ?

True ? ? True True True True ? ?

True ? ? ? ? ? ? True ?

? ? ? ? ? ? ? ? ?

True ? ? ? True ? ? ? True

True ? ? ? True True True True True

True ? ? True True True ? ? True

True ? ? ? ? ? True True ?

? ? ? ? ? ? ? ? ?

True ? ? ? ? True True ? ?

True ? ? ? True ? True ? ?

? ? ? ? True True ? ? True

True ? ? ? ? ? ? ? ?

? ? ? ? ? ? True True ?

? ? ? ? ? ? ? ? ?

True ? ? ? ? True ? ? True

True ? ? True ? True True ? True

? ? ? ? ? True ? ? ?

:

:

? ? ? ? ? ? ? ? ? ?

Dalam tabel di atas, baris paling atas menunjukkan item-item

yang dijual, sementara baris- baris selanjutnya menunjukkan transaksi

pembelian konsumen, setiap baris mewakili satu kali transaksi. Sementara

dalam kolom transaksi, kode (true) memiliki arti konsumen membeli item

tersebut, sementara kode (?) berarti konsumen tidak membeli item tersebut.

3.2 Metodologi Penelitian

Penelitian ini akan dilakukan dengan tahap-tahap yang mengikuti

proses Knowledge Discovery from Databases (KDD) sebagai berikut:

1. Data Cleaning

2. Data Integration

3. Data Selection

4. Data Transformation

5. Data Mining

6. Pattern Evaluation

7. Knowledge Presentation

3.3 Pencarian Aturan Asosiasi Menggunakan Algoritma FP-Growth

Proses pencarian frequent itemset dengan menggunakan

algoritma FP-Growth akan dilakukan dengan cara membangkitkan struktur

data tree atau disebut dengan FP-Tree. Metode FP-Growth untuk

menghasilkan frequent item melalui pembangunan struktur pohon keputusan

dibagi menjadi tiga tahapan utama, yaitu :

1. Tahap pembangkitan conditional pattern base

2. Tahap pembangkitan conditional FP-Tree

3. Tahap pencarian frequent itemset.

4. HASIL DAN PEMBAHASAN

4.1 Implementasi Software

Data transaksi penjualan ini diolah menggunakan software

WEKA versi 3.6.4. Untuk bisa menggunakan software ini, data yang

digunakan sebagai masukan harus dalam format *.arff atau *.csv. Untuk

mengganti format data dapat digunakan pengolah data Microsoft Excel untuk

mengganti menjadi format *.csv dan dengan menggunakan software WEKA

itu sendiri untuk mengganti menjadi format *.arff.

Gambar 1. Tampilan Utama WEKA 3.6.4

4.2 Preprocessing

Sebelum melakukan proses mining terlebih dahulu dilakukan

tahap preprocessing, yaitu merubah format data agar dapat digunakan dalam

software.

Berikut tampilan langkah-langkah dan hasil yang diperoleh:

Gambar 2. Data dengan format *.csv

Gambar 3. Data dengan format *.arff

Gambar 4. Preprocessing

4.3 Hasil Algoritma FP-Growth

Gambar 5. Hasil

Dari hasil yang didapat menggunakan software WEKA 3.6.4

dihasilkan 16 rules dan ditampilkan 10 rules yang paling strong. Berikut rules

yang ditemukan :

1. [fruit, frozen foods, biscuits]: 788 ==> [bread and cake]: 723

<conf:(0.92)> lift:(1.27) lev:(0.03) conv:(3.35)

2. [fruit, baking needs, biscuits]: 760 ==> [bread and cake]: 696

<conf:(0.92)> lift:(1.27) lev:(0.03) conv:(3.28)

3. [fruit, baking needs, frozen foods]: 770 ==> [bread and

cake]: 705 <conf:(0.92)> lift:(1.27) lev:(0.03) conv:(3.27)

4. [fruit, vegetables, biscuits]: 815 ==> [bread and cake]: 746

<conf:(0.92)> lift:(1.27) lev:(0.03) conv:(3.26)

5. [fruit, party snack foods]: 854 ==> [bread and cake]: 779

<conf:(0.91)> lift:(1.27) lev:(0.04) conv:(3.15)

6. [vegetables, frozen foods, biscuits]: 797 ==> [bread and

cake]: 725 <conf:(0.91)> lift:(1.26) lev:(0.03) conv:(3.06)

7. [vegetables, baking needs, biscuits]: 772 ==> [bread and

cake]: 701 <conf:(0.91)> lift:(1.26) lev:(0.03) conv:(3.01)

8. [fruit, biscuits]: 954 ==> [bread and cake]: 866

<conf:(0.91)> lift:(1.26) lev:(0.04) conv:(3)

9. [fruit, vegetables, frozen foods]: 834 ==> [bread and cake]:

757 <conf:(0.91)> lift:(1.26) lev:(0.03) conv:(3)

10. [fruit, frozen foods]: 969 ==> [bread and cake]: 877

<conf:(0.91)> lift:(1.26) lev:(0.04) conv:(2.92)

4.4 Kegunaan Hasil

Dari rules yang didapatkan, maka strategi yang dapat digunakan oleh

perusahaan pemasaran (swalayan) yaitu :

1. Mengatur penempatan posisi item-item yang saling frequent dengan jarak

berdekatan sehingga konsumen dapat lebih mudah berbelanja.

2. Atau dapat pula dengan mengatur penempatan posisi item-item yang

saling frequent dengan jarak yang berjauhan dan menempatkan frequent

itemset lain diantaranya, sehingga peluang konsumen membeli item lain

yang posisinya terletak antara item yang frequent menjadi lebih besar.

5. KESIMPULAN DAN SARAN

Berdasarkan penelitian yang telah dilakukan sebelumnya, maka dapat

ditarik beberapa kesimpulan sebagai berikut:

1. Dengan menggunakan algoritma FP-Growth dengan bantuan

software WEKA 3.6.4 didapatkan hasil berupa aturan (rules) yang

merupakan kumpulan frequent itemset dengan nilai confidence

yang tinggi.

2. Dengan didapatkannya rules ini maka perusahaan pemasaran dapat

menggunakan rules tersebut dalam membuat strategi-strategi untuk

meningkatkan penjualan.

3. Hasil implementasi telah dilakukan dengan menghasilkan nilai

strong confidence paling tinggi 92 %

Saran dari hasil penelitian ini adalah :

1. Penelitian selanjutnya dapat menggunakan data yang lebih

besar lagi sehingga rules yang dihasilkan lebih beragam dan

lebih berguna untuk pengambilan keputusan. Semakin besar

data semakin berguna informasi yang dihasilkan.

2. Penelitian selanjutnya juga bisa mencoba menggunakan

algoritma data mining lain sehingga dapat dicari algoritma

yang paling efisien dan efektif.

DAFTAR PUSTAKA

Borgelt, Christian. 2005. An Implementation of the FP-Growth Algorithm,

(Online), http://fuzzy.cs.uni-magdeburg.de/~borgelt/ (diakses 28 Juni 2011).

Bouckaert, Remco., dkk. 2010. WEKA Manual for Version 3-6-2, (Online),

http://kent.dl.sourceforge.net/project/weka/dokumentation/3.6.x/(diakses 5

Agustus 2011).

Coenen, F. 2003. The LUCS-KDD FP-Growth Association Rule Mining

Algorithm, (Online), http://www.cxc.liv.ac.uk/~frans/ (diakses 28 Juni 2011).

Erwin. 2009. Analisis Market Basket Dengan Algoritma Apriori dan FP-Growth,

(Online), http://uppm.ilkom.unsri.ac.id/ (diakses 5 Juli 2011).