Diktat Datamining
-
Upload
irma-mochtar -
Category
Documents
-
view
283 -
download
20
Transcript of Diktat Datamining
- 0 -
Diktat Matakuliah Datamining
DATA MINING
Kode Matakuliah : SCAA 3806 Semester, SKS : V, 2
Oleh : Drs. Ignatius Suraya, M.Cs
JURUSAN MATEMATIKA
FAKULTAS SAINS TERAPAN INSTITUT SAINS & TEKNOLOGI AKPRIND
YOGYAKARTA 2011
- 1 -
Diktat Matakuliah Datamining
I. PENGANTAR 1.1. Pengertian Data Mining
Data Mining sering juga disebut knowledge discovery in database (KDD),sebagai
salah satu cabang ilmu computer yang relative baru mempunyai potensi pengembangan yang
sangat besar. Karena data menyangkut langsung pada sebuah system aplikasi. Data Mining
sendiri merupakan sebuah proses ekstraksi informasi atau pola yang penting atau menarik dari
data yang ada di database yang besar.
Istilah data mining memiliki padanan, seperti knowledge discovery ataupun pattern
recognition.
Kedua istilah tersebut sebenarnya memiliki ketepatannya masing-masing, istilah knowledge
discovery atau penemuan pengetahuan tepat digunakan karena tujuan utama dari data mining
memang untuk mendapatkan pengetahuan yang masih tersembunyi di dalam bongkahan data.
Istlah pattern recognition atau pengenalan pola pun tepat untuk digunakan karena
pengetahuan yang hendak digali memang berbentuk pola-pola yang mungkin juga masih perlu
digali dari dalam bongkahan data yang tengah dihadapi. Jadi apakah sebenarnya data mining
itu ?. Banyak definisi untuk istilah ini dan belum ada yang dibakukan atau disepakati semua
pihak. Namun istilah ini mempunyai hakikat (notion) sebagai disiplin ilmu yang tujuan
utamanya adalah untuk menemukan, menggali, atau menambang pengetahuan dari data atau
informasi yang kita miliki. Kegiatan inilah yang menjadi garapan atau perhatian utama dari
disiplin ilmu data mining.
1.2. Fungsi-fungsi Dalam Data Mining
Fungsi dan subkegiatan yang ada di dalam Bab ini
Fungsi :
- 2 -
Diktat Matakuliah Datamining
Menurut Larose (2005) terdapat enam fungsi dalam data mining yaitu
1. Fungsi deskripsi (description)
2. Fungsi estimasi (estimation)
3. Fungsi prediksi (prediction)
4. Fungsi klasifikasi (classification)
5. Fungsi pengelompokan
6. Fungsi asosiasi (association)
Menurut Berry dan Browne (2006)
1. Fungsi minor (Fungsi deskripsi, Fungsi estimasi dan Fungsi prediksi)
2. Fungsi mayor (Fungsi klasifikasi, Fungsi pengelompokan dan Fungsi asosiasi)
- 3 -
Diktat Matakuliah Datamining
II. FUNGSI MINOR UNTUK FUNGSI DESKRIPSI Sebagai gambaran kasus akan diberikan data berat badan para siswa di daerah
pedesaan yang orang tuanya kurang memperhatikan gizi anak diambil 10 anak secara acak
dan berat badan para siswa di daerah perkotaan yang orang tuanya sangat memperhatikan
memperhatikan gizi anak diambil 10 anak secara acak
Tabel 2.1. Data berat badan 10 siswa di pedesaan dan di perkotaan
Nomor Siswa
Berat badan (di pedesaan)
Berat badan (di perkotaan)
1 32,2 kg 38,8 kg 2 35,0 kg 39,5kg 3 30,8 kg 41,1 kg 4 31,4 kg 34,8 kg 5 30,8 kg 44,2 kg 6 31,5 kg 41,1 kg 7 31,5 kg 43,7 kg 8 33,7 kg 41,3 kg 9 33,0 kg 35,0 kg 10 32,7 kg 44,9 kg
Ketika diberi sekumpulan data terkadang agak sukar bagi kita untuk menangkap arti kum-
pulan data tersebut. Sekumpulan angka-angka tersebut perlu dirangkum sedemikian rupa
agar dapat "berbicara" sehingga kita memiliki gambaran mengenai kumpulan data tersebut.
Lebih jauh bayangkan seandainya peneliti memutuskan untuk melibatkan 10.000 siswa.
Peneliti tersebut melibatkan begitu banyak orang agar hasil penelitiannya lebih dapat
dipercaya. Akibatnya kita justru akan dihadapkan pada 10.000 angka! Menelusuri deretan
angka sebanyak itu dengan mata manusia tentu tidak akan membawa manfaat apa pun.
Oleh karena itu kita memerlukan suatu cara untuk menggambarkan sekumpulan data
secara ringkas. Cara tersebut dinamakan deskripsi yang merupakan fungsi minor pertama
dari data mining dan akan dibahas pada bab ini.
Subbab selanjutnya akan membahas berbagai cara untuk mendeskripsikan data. Di dalam
pembahasan tersebut juga akan diberikan penjelasan mengenai istilah-istilah yang digu-
nakan dalam fungsi deskripsi serta input dan output fungsi ini. Selanjutnya
pengetahuan yang dihasilkan oleh fungsi deskripsi ini akan diinterpretasikan maknanya.
Berbagai Cara Deskripsi Dan Pengetahuan Yang Dihasilkan
Banyak cara dapat digunakan untuk memberikan gambaran secara ringkas
bagi sekumpulan data yang besar jumlahnya dan banyak macamnya. Artinya terdapat
- 4 -
Diktat Matakuliah Datamining
banyak cara untuk memberikan deskripsi terhadap sekumpulan data. Subbab ini akan
membahas tiga cara yaitu deskripsi grafis, deskripsi lokasi, dan deskripsi keragaman.
2.1. Deskripsi Grafis
Bagai petikan lirik sebuah lagu "A Picture Paints a Thousand Words", pada
dasarnya sebuah gambar memang lebih mudah dicerna oleh mata kita dari pada deretan
kata atau deretan angka. Cara deskripsi grafis merupakan cara untuk mendeskripsikan
data dalam bentuk gambar yang sesungguhnya. Dua gambar yang umum digunakan
dalam deskripsi grafis adalah diagram titik (dot diagram) dan histogram.
A. Diagram Titik
Pada diagram jenis ini, setiap data digambarkan sebagai sebuah titik (dot).
Mengambil data Tabel 2.1, setiap data berat badan Kelas di Pedesaan digambarkan sebagai
titik penuh sementara Kelas di Perkotaan berupa titik berongga.
Pengetahuan apakah yang diperoleh? Kita dapat melihat data Kelas di Pedesaan
(titik penuh) banyak berkumpul di sekitar 30 -35 kg. Sementara Kelas di Perkotaan
(titik berongga) cenderung berkumpul di atas 35 kg namun nilainya lebih beragam
dengan sebaran yang lebih luas.
B. Histogram
Unt uk me ma ha mi d e nga n mu da h c a ra de s k r i p s i g r a f i s mengguna-
kan histogram perhatikan ilustrasi berikut. Misalnya kita diberi data berat badan
dari Kelas di pedesaan yang telah disajikan pada Tabel 2.1. namun kali ini data
tersebut diperluas hingga ada 30 siswa seperti yang tampak pada Tabel 2.2.
Nomor Siswa
Berat badan (di pedesaan)
NomorSiswa
Berat badan (di pedesaan)
NomorSiswa
Berat badan (di pedesaan)
1 32,2 kg 11 32,7 kg 21 33,7 kg 2 35,0 kg 12 35,2 kg 22 35,7 kg 3 30,8 kg 13 30,5 kg 23 30,0 kg 4 31,4 kg 14 31,8 kg 24 32,2 kg 5 30,8 kg 15 30,8 kg 25 34,2 kg 6 31,5 kg 16 31,5 kg 26 33,1 kg 7 31,5 kg 17 31,7 kg 27 31,5 kg
Gambar 2.1 Diagram titik untuk berat badan 10 siswa kelas enam di pedesaan dan di perkotaan
- 5 -
Diktat Matakuliah Datamining
8 33,7 kg 18 33,2 kg 28 33,5 kg 9 33,0 kg 19 33,0 kg 29 33,7 kg 10 32,7 kg 20 32,5 kg 30 32,9 kg
Langkah pertama untuk membuat histogram adalah dengan membuat beberapa interval yang lebarnya sama. Misalnya, berdasarkan data pada Tabel 2.2, lima interval masing-masing dengan rentang 1 kg akan dibuat seperti dalam Tabel 2.3 berikut.
Interval
30,00 – 31,00
31,01 – 32,00
32,01 – 33,00
33,01 – 34,00
34,01 – 35,00
35,01 – 36,00
Tabel 2.3. Interval berat badan siswa di Pesedaan
Langkah kedua hitung seberapa banyak data yang menjadi a ng g o t a
t i a p i n t e r v a l . P e l a k s a n a a n l a n g k a h k e d u a i n i memberikan hasil seperti yang
terlihat pada Tabel 2.4..
Interval Frekuensi
30,00 – 31,00 5
31,01 – 32,00 7
32,01 – 33,00 6
33,01 – 34,00 8
34,01 – 35,00 2
35,01 – 36,00 2
Tabel 2.4. Interval dan frekuensi berat badan siswa di Pesedaan
- 6 -
Diktat Matakuliah Datamining
Langkah ke t iga adalah pembuatan h i s togram i tu sendi r i berdasarkan data
yang ada pada Tabel 2.4, hasilnya adalah Gambar 2.2.
30,00 – 31,00 31,01 – 32,00 32,01 – 33,00 33,01 – 34,00 34,01 – 35,00 35,01 – 36,00
Gambar 2.2. Histogram untuk berat badan 30 siswa di Pesedaan
Pengetahuan apakah yang diperoleh? Dengan melihat batang-batang tersebut kita
dapat melihat lokasi kecenderungan mengumpulnya data dari batang tertinggi.
Histogram seperti ini menunjukkan keberagaman data yang relatif rendah sebalik-
nya histogram yang pendek-melebar menunjukkan data yang beragam dan menyebar
luas.
2.2. Deskripsi Lokasi
Meskipun deskripsi grafts sudah menggambarkan karakteristik data,
sifatnya masih terlalu kasar dan kurang praktis untuk dilakukan. Oleh karena itu
kita memerlukan sebuah angka yang cukup dapat mewakili data yang ada serta
dapat diperoleh dengan cara yang lebih praktis dari pada menggambar.
Wakil tersebut dinamakan lokasi karena dapat memberikan informasi tentang data
dari posisi tempat tertentu. Ada beberapa ukuran yang umum digunakan untuk
menyatakan lokasi tersebut, yang akan dibahas pada subbab ini.
A. Rata-rata (Mean)
Sesuai dengan namanya rata-rata berarti membuat menjadi rata-rata dan
nilai perataan tersebut dianggap sebagai lokasi pusat titik berat atau titik kesetimbangan
data. Dapat dibayangkan satu orang memiliki gelas berisi air 10 liter dan orang lainnya
memiliki gelas kosong (berisi 0 liter air). Agar menjadi rata orang pertama menuang 5
liter air ke gelas orang kedua sehingga keduanya kini memiliki air 5 liter. Secara
matematis bila kita memiliki nilai observasi x1, x2, ..., xn , maka rata-ratanya adalah
- 7 -
Diktat Matakuliah Datamining
∑=
=+++=n
i
in
nX
nxxxX
1
21 ).....( ………………………2.1
Secara sederhana persamaan tersebut berarti menjumlahkan semua data dan dibagi
dengan banyaknya data. Mari kita terapkan ukuran tersebut pada data dari Tabel 2.1.
Apabila kita menjumlahkan seluruh data Kelas di Pedesaan hasil yang diperoleh : 322,6 kg
sehingga rata-rata adalah 322,6/10= 32,26 kg. Sedangkan apabila kita
menjumlahkan seluruh data Kelas di Perkotaan hasil yang diperoleh adalah
404,4 sehingga rata-rata adalah 404,4/10 = 40,44 kg. Pengetahuan apakah yang
diperoleh? Menggunakan bahasa sehari-hari, hasil di atas menyatakan bahwa
pada umumnya siswa Kelas di pesedaan memiliki berat badan 32,26 kg. Siswa kelas
tersebut lebih pendek daripada siswa Kelas di Perkotaan yang pada umumnya memiliki berat badan 40,44 kg
B. Median (Nilai Tengah)
Dengan ukuran ini, kita mencari nilai observasi yang secara harafiah bertempat di
tengah-tengah. Langkah pertama yang tidak boleh dilupakan adalah mengurutkan semua
data dari yang terkecil hingga yang terbesar. Sekali lagi, mari kita terapkan ukuran ini pada
data Tabel 2.1 untuk siswa Kelas di pedesaan.
Data asli : 32,2; 35,0; 30,8; 31,4; 30,8; 31,5; 31,5; 33,7; 33,0; 32,7
Data terurut : 30,8; 30,8; 32,2; 31,4; 31,5; 31,5; 32,7; 33,0; 33,7; 35,0;
Karena kita memiliki 10 buah data (genap) maka lokasi tengah terletak di antara data ke-5 dan
data ke-6. Bayangkan lima jari tangan kiri Anda sebagai lima data pertama dan lima jari
tangan kanan Anda sebagai lima data selanjutnya posisi tengahnya tentu ada di ruang
kosong di antara kedua jempol Anda. Akan tetapi apabila Anda hanya memiliki 5 buah data
(ganjil) dan diibaratkan sebagai 5 jari di tangan kiri Anda maka posisi tengahnya tepat berada
di jari ke-3 yaitu jari tengah Anda.
Secara matematis, apabila Anda memiliki n buah data, maka mediannya terletak
pada data ke: [(n+l)/2] apabila n adalah bilangan ganjil. Sebaliknya, apabila n adalah
bilangan genap maka mediannya dihitung dengan cara menjumlahkan data ke: [n/2] dengan
data ke: [(n/2)+1], kemudian membagi hasil jumlah tersebut dengan angka 2. jika
diterapkan, data terurut di atas akan memberikan hasil berikut:
Median = [(Data ke-5 + Data ke-6)/2] = [(31,5+ 31,5)/2] = 31,5 kg
Pengetahuan apakah yang diperoleh?
Apabila kita mengurutkan data berat badan siswa di Kelas di Pedesaan dari yang teringan
- 8 -
Diktat Matakuliah Datamining
sampai yang terberat, kemudian urutan tersebut kita bagi dua tepat di tengah-tengah, kita akan
memperoleh angka (30,8 + 35,0) / 2 = 32,9 kg
Adapun keuntungan penggunaan median dibandingkan dengan rata-rata adalah median tidak
terlalu terpengaruh oleh adanya nilai ekstrem. Sebaliknya, rata-rata dapat terpengaruh oleh
nilai ekstrem. Sebagai contoh, mari kita bandingkan data asli yang kita gunakan untuk
mencari median dengan data yang dimodifikasi:
Data terurut : 30,8; 30,8; 32,2; 31,4; 31,5; 31,5; 32,7; 33,0; 33,7; 35,0; (Rata-rata =
32,26 Median = 31,5)
C. Modus
Dengan ukuran ini kita dapat mencari nilai observasi yang paling sering muncul.
Apabila terdapat dua atau lebih nilai yang kekerapan munculnya sama semua nilai-nilai
tersebut juga disebut modus Sebagai contoh,
Data terurut: 30,8; 30,8; 32,2; 31,4; 31,5; 31,5; 32,7; 33,0; 33,7; 35,0;
Modus data tersebut adalah 30,8 dan 31,5 karena paling sering muncul yaitu masing-
masing sebanyak 2 kali. Pengetahuan apakah yang diperoleh?
Kelas di Pedesaan mempunyai banyak siswa yang memiliki berat badan 30,8 & 31,5 kg.
Apa kegunaan penggunaan modus? Adakalanya modus lebih mencerminkan lokasi kecen-
derungan berkumpulnya sebagian besar data dibandingkan ukuran-ukuran lainnya.
Contohnya:
Sebuah perusahaan menyatakan bahwa rata-rata gaji karyawannya adalah Rp 10 juta.
Kenyataannya 90 orang digaji sekitar Rp l juta saja dan hanya ada 10 orang yang
digaji Rp100 juta. Dibandingkan rata-rata informasi yang lebih berguna dan tidak
menyesatkan kita adalah bahwa sebagian besar (modus) karyawan digaji sekitar Rp l juta.
D. Kuartil
Apabila pada median kita mencari nilai yang terletak tepat di tengah-tengah data
maka pada kuartil kita membagi seluruh data menjadi empat bagian dan mencari nilai di
tiap seperempat bagian (kuartil) tersebut. Secara sederhana coba bayangkan semua jari
tangan Anda sebagai 10 buah data. Kuartil pertama adalah jari tengah tangan kiri Anda
kuartil kedua adalah ruang kosong di antara kedua jempol Anda dan kuartil ketiga ada-
lah jari tengah tangan kanan Anda. Ketiga kuartil dapat dinotasikan sebagai q1, q2, dan q3.
Jelas bahwa kuartil kedua q2 juga disebut median sebagai contoh mari kita lihat Tabel 2.1.
- 9 -
Diktat Matakuliah Datamining
Data terurut : 30,8; 30,8; 32,2; 31,4; 31,5; 31,5; 32,7; 33,0; 33,7; 35,0;
q1 q2 q3
Kuartil pertama = 32,2 kg
Kuartil kedua = [(31,5+ 31,5)/2] = 31,5 kg (sama dengan median)
Kuartil ketiga = 33,0 kg
Pengetahuan apakah yang diperoleh? Apabila kita mengurutkan data berat badan siswa
di Pedesaan biasa dari yang terpendek sampai yang tertinggi kemudian urutan ter-
sebut kita bagi menjadi empat bagian sama besar maka akan diperoleh angka 32,2 kg,
31,5 kg dan 33,0 kg.
E. Persentil
Lebih jauh lagi apabila semua data kita bagi menjadi 100 bagian maka kita akan
memperoleh ukuran persenti l . Median merupakan kasus khusus persentil yaitu
p0.50. Kuartil juga merupakan kasus khusus persentil, ql adalah p0.25, q2 adalah p0.50, dan
q3 adalah p0.75. Mari kita coba mencari persentil: 10, 46, dan 83 dari data Tabel 2.1.
Data terurut : 30,8; 30,8; 32,2; 31,4; 31,5; 31,5; 32,7; 33,0; 33,7; 35,0;
q0 , 1 0 q0,46 q0,83
Persentil - 10 = [(30,8 + 30,8)/2] = 30,8 (di antara data ke-1 dan data ke-2)
Persentil - 46 = 31,5
Persentil - 83 = 33,7
Pengetahuan apakah yang bisa diperoleh? Apabila kita mengurutkan data dari yang
terpendek sampai yang tertinggi, kemudian urutan tersebut kita "belah seratus bagian" sama
besar, maka akan diperoleh angka-angka pada belahan tersebut.
2.3. Deskripsi Keberagaman
Meski deskripsi lokasi sudah memberikan gambaran tentang lokasi pusat data
(rata-rata, median, modus), kita masih belum memiliki gambaran atas keberagaman data.
Perhatikan dua kelompok data pada contoh sederhana berikut.
Contoh Dua kelompok data
Kelompok I : 6, 6, 7, 7, 7, 8, 8 (rata-rata = 7, median = 7, modus = 7)
Kelompok II : 0, 1, 3, 7, 7, 12, 19 (rata-rata = 7, median = 7, modus = 7)
Meskipun ketiga ukuran lokasi untuk kedua kelompok tepat sama, apakah kedua
- 10 -
Diktat Matakuliah Datamining
kelompok data tersebut dapat dikatakan serupa? Sama sekali tidak! Perhatikan bahwa
data di kelompok I cenderung terkumpul di sekitar 7, sementara data di kelompok II
begitu beragam dan menyebar lebar hingga menyentuh 0 dan 19. Oleh karena itu
diperlukan pula ukuran keberagaman untuk melengkapi gambaran kita terhadap data yang
ada. Tiga ukuran keberagaman yang akan dibahas adalah range, varians, dan
standar deviasi.
A. Range (Rentang)
Ukuran sebaran ini menyatakan besarnya rentang jarak antara data
terkeci l dengan data terbesar . Rentang yang besar menandakan bahwa data relatif
lebih beragam dan sebaliknya.
Kita gunakan data Contoh di atas :
Kelompok I : 6, 6, 7, 7, 7, 8, 8 → Range data Kelompok I = 8 - 6 = 2
Kelompok II : 0, 1, 3, 7, 7, 12, 19 → Range data Kelompok II = 19 - 0 = 19
Pengetahuan apakah yang diperoleh? Kelompok II memiliki data yang lebih
beragam dengan range yang jauh lebih besar dari pada Kelompok I. Akan tetapi
karena ukuran ini hanya mengambil dua data ekstrem adakalanya sulit untuk
dijadikan ukuran unik untuk menilai keberagaman data.
B. Varians dan Standart Deviasi
Kita sudah melihat bahwa range tidak dapat dijadikan pijakan yang kokoh untuk
menilai keberagaman data. Oleh karena itu ukuran varians yang menggunakan prinsip
pencarian jarak antara setiap data dengan pusatnya (rata-rata) sering kali digunakan.
Secara matematis hal tersebut diru,uskan menjadi :
1
)(12
−
−=
∑=
n
XXs
n
ii
……………………….2.2
Secara sederhana rumus tersebut berarti setiap data observasi dikurangi dengan rata-rata
seluruh data. Setiap hasil pengurangan tersebut dikuadratkan, kemudian semuanya
dijumlahkan. Terakhir penjumlahan tersebut dibagi dengan (n-1), dengan n yang menyatakan
banyaknya data.
Contoh : dua kelompok data yang dimodifikasi
Kelompok I : 6, 15, 15, 16, 16, 16, 25 → Range Kelompok I = 25 – 6 = 19
- 11 -
Diktat Matakuliah Datamining
Kelompok II : 0, 1, 3, 7, 7, 12, 19 → Range Kelompok II = 10 – 0 = 19
Tabel 2.5 . Perincian perhitungan untuk Kelompok I dan II
Sebagai contoh perhitungan:
Kolom (1) baris ke-1 diperoleh dengan cara: (6 -15,57)2 = 91,61 dan seterusnya
untuk baris 2 - 7
Kolom (2) baris ke 6 diperoleh dengan cara: (12 - 7)2 = 25. dan seterusnya untuk
baris yang lain.
Varians Kelompok I diperoleh dengan cara membagi jumlah Kolom (1) dengan 6
(karena ada 7 buah data, sehingga (n - 1) = 6) .
Varians Kelompok II diperoleh dengan cara membagi jumlah Kolom (2) dengan 6.
Hasilnya adalah sebagai berikut:
Varians Kelompok I = 181,71/6 = 30,3
Varians Kelompok 11 = 270/6 = 45
Pengetahuan apakah yang diperoleh? Data pada Kelompok II berjarak relatif lebih
jauh dengan pusatnya (dalam hal ini rata-rata) dari pada data pada Kelompok I
sehingga variansnya lebih besar. Dengan kata lain, data pada Kelompok II lebih beragam
dibandingkan dengan data pada Kelompok I.
Seandainya data di atas memiliki satuan cm, maka varians memiliki satuan cm2.
Hal ini menyebabkan varians menjadi kurang sinkron dengan ukuran-ukuran lain,
seperti rata-rata, modus, persentil, range, dan lain-lain. Akibatnya dibuatlah ukuran
standar deviasi yang merupakan akar kuadrat varians. Jika ukuran starndar deviasi
kita terapkan pada hasil perhitungan varians di atas, maka standar deviasi Kelompo I =
29,30 = 5,5 dan Kelompok I1 = 45 = 6,7.
Data ke- Kelompok 1 Kolom (1) Kelompok II Kolom (2) 1 6 91,61 0 49 2 15 0,33 1 36 3 15 0,33 3 16 4 16 0,18 7 0 5 16 0,18 7 0 6 16 0,18 12 25 7 25 88,90 19 144
Jumlah 109 181,71 49 270 Rata-rata 15,57 7
- 12 -
Diktat Matakuliah Datamining
Pengetahuan apakah yang diperoleh? Data pada Kelompok II lebih beragam
dibandingkan dengan Kelompok I. standar deviasi memiliki satuan yang sama
dengan data asalnya. Apabila data di atas memiliki satuan cm maka standar
deviasinya pun memiliki satuan cm. Dengan demikian hasil yang muncul menjadi
lebih mudah dicerna maknanya.
SOAL LATIHAN
1. Berikut adalah catatan temperatur tertinggi tiap jam di dalam sebuah lemari
pendingin: 4,2; 4,7; 4,7; 5,0; 3,8; 3,6; 3,0; 5,1; 3,1; 3,8; 4,8; 4,0; 5,2; 4,3;
2,8; 2,0; 2,8; 3,3; 4,8; dan 5,0 (dalam derajat Celcius).
a. Gambar dan interpretasikan dot diagram dan histogram untuk data tersebut.
b. Hitung dan interpretasikan rata-rata, median, dan modus data tersebut.
c. Hitung dan interpretasikan range, varians, dan standar deviasi data tersebut.
2. Kurangi setiap observasi pada soal nomor 1 dengan angka 1 ,0 . Kemudian ,
l akukan u lang 1(a) - (c ) . Amat i dan bandingkan hasi lnya dengan sebelum
dikurangi 1,0. Seandainya Anda memilih sembarang angka, apakah akan
muncul pengaruh yang sama?
- 13 -
Diktat Matakuliah Datamining
III. FUNGSI MINOR UNTUK FUNGSI ESTIMASI Sebagai gambaran kasus akan diberi data volume air minum botol yang
diisi secara otomatis. Hasil pengukuran volume air di dalam 12 botol yang diambil
secara acak sebagai sampel ditampilkan pada Tabel 3.1.
Tabel 3.1. Data volume air minum di dalam botol
Nomor Botol Volume Air (ml) 1 20162 2025 3 1968 4 2007 5 20316 20557 2039 8 1981 9 1975
10 1964 11 2036
12 1987
Volume yang sebenarnya diharapkan untuk setiap botol adalah 2 liter (2.000 ml).
Data di atas menunjukkan bahwa mesin pengisi otomatis tersebut tidak mengisi tiap botol
dengan volume air yang tepat sama seperti yang diharapkan. Jadi jika Anda diberi pertanyaan
Pada umumnya berapakah volume air yang ada di dalam botol? bagaimanakah Anda harus
menjawabnya?
Pertanyaan tersebut tidak dapat kita jawab dengan baik bila kita hanya bersandar
mentah-mentah pada data kedua belas botol di atas. Kita perlu mengolah data tersebut untuk
memperkirakan rata-rata dan standar deviasi volume air yang diisikan oleh mesin
tersebut. Kegiatan memperkirakan inilah yang disebut estimasi yang merupakan fungsi
minor kedua data mining yang akan dibahas pada bab ini. Pembahasan untuk fungsi estimasi
mencakup dua bentuk estimasi yaitu estimasi titik dan selang kepercayaan. Hasil
estimasi akan diinterpretasikan untuk memperoleh pengetahuan dari fungsi ini.
Pengenalan Beberapa Istilah dasar
Sebelum melangkah lebih jauh ada baiknya kita mengenal terlebih dahulu
istilah populasi dan sampel. Perhatikan kembali contoh di atas kedua belas botol tersebut
merupakan sampel yang diambil dari populasi air minum botol. Populasi tersebut besarnya
tak terbatas sebab banyaknya botol akan terus bertambah. Sebagai contoh, sejauh ini
- 14 -
Diktat Matakuliah Datamining
telah diproduksi 100 botol air minum apakah itu berarti ukuran populasinya 100?
Tidak! Karena produksi masih terus berjalan (sehingga masih perlu diteliti) maka
banyaknya botol akan terus bertambah menjadi 101, 102, dan seterusnya. Oleh karena
itu kita mengambil sampel atau cuplikan dari seluruh populasi sebagai wakil
populasi tersebut.
A. Estimasi Titik dan Pengetahuan yang Dihasilkan
Estimasi titik merupakan bentuk estimasi yang menghasilkan satu buah nilai
estimasi saja yaitu berupa sebuah angka. Lalu apa yang sesungguhnya kita perkirakan?
Sesuatu yang tidak kita ketahui nilai sebenarnya yaitu karakteristik sebuah populasi.
Rata-rata dan varians merupakan dua besaran yang umum digunakan untuk menyata-
kan karakteristik sebuah populasi. Karakteristik sebuah populasi biasa disebut parameter
populasi. Mengingat ukuran populasi yang terus bertambah mustahil bagi kita untuk
menghitung rata-rata dan varians (atau standar deviasi) populasi. Akan tetapi
berbekal sampel yang ada kita dapat melakukan estimasi (perkiraan) pada kedua
parameter populasi tersebut. Pertanyaannya mengapa kedua parameter tersebut perlu
kita perkirakan? Sebab apabila kita memiliki perkiraan rata-rata dan varians yang
cukup akurat maka akan ada banyak pertanyaan yang dapat kita jawab dengan memuas-
kan. Ternyata cara untuk memperkirakan kedua parameter populasi tersebut cukup
sederhana seperti berikut.
1. Rata-rata populasi µ dapat diestimasi dengan rata-rata sampel ( x ).
2. Varian populasi σ2 dapat diestimasi dengan varians sampel (s2).
Untuk lebih jelasnya, mari kita coba mencari estimasi titik untuk rata-rata dan varians
dari data Tabel :3.2
Nomor Botol x i ( )2xxi −
1 2016 81 2 2025 324 3 1968 1521 4 2007 0 5 2031 576 6 2055 2304 7 2039 1024 8 1981 676 9 1975 1024 10 1964 1849
- 15 -
Diktat Matakuliah Datamining
11 2036 841 12 1987 400
Jumlah 24084 10620
Tabel :3.2: Perincian perhitungan rata-rata dan varians untuk data table 3.1.
Estimasi t i t ik untuk rata-rata populasi diperoleh dari rata-rata sampel:
Ra ta - r a t a s ample = 12
240841
=∑=
n
i
i
nx = 2007 ml
Estimasi titik untuk varians populasi diperoleh dari varians sampel:
Varians sample = ( )( ) 112
1062011
2
−=
−−∑
=
n
i
i
nxx = 965,45 ml2
Standar deviasi = ( )( ) 45,965
11
2
=−−∑
=
n
i
i
nxx = 31,07 ml
Pengetahuan apakah yang diperoleh? Kita dapat menjawab pertanyaan ini "Pada
umumnya setiap botol akan diisi air sebanyak 2007 ml (rata-rata), dengan varians
sebesar 965,45 ml2."
B. Selang Kepercayaan dan Pengetahuan yang Dihasilkannya.
Pada subbab sebelumnya kita telah mengetahui cara mengestimasi dua
parameter populasi yaitu rata-rata dan varians populasi. Hasil estimasinya berupa
satu angka saja sehingga disebut estimasi titik. Akan tetapi adakalanya satu titik
perkiraan saja kurang memuaskan bagi kita yang menyadari bahwa ti t ik tersebut
bagai-manapun juga adalah perkiraan yang mungkin saja meleset. Untuk menga-
komodasi ketidaktepatan (error) tersebut dibuatlah bentuk perkiraan lain yang
bukan berupa titik yaitu estimasi selang. Adapun batas bawah dan batas atas selang
tersebut dapat dihitung dengan cara:
Batas bawah (L) = XazX σ2/− ……… ………………….3.1
Batas atas (U) = XazX σ2/+
X merupakan rata-rata sampel (sehingga kita telah mengetahui angkanya), kemudian α
ditentu kan oleh kita sendiri lalu kita dapat mencari nilai z di tabel distribusi normal
(terlampir) dan terakhir kita juga akan mempelajari cara menghitung Xσ
Karena semuanya dapat kita hitung hingga kita memperoleh angkanya tentu
t idak ada halangan lagi bagi ki ta untuk menghitung selang kepercayaan tersebut.
- 16 -
Diktat Matakuliah Datamining
Pada contoh sampel 12 air minum botol, kita telah memperoleh rata-rata sampel sebesar
2007 ml, artinya X = 2007. Selanjutnya seandainya kita ingin membuat selang
kepercayaan 95%, berarti α =100% - 95% = 5%. Contoh lain seandainya kita ingin
membuat selang kepercayaan 90%, berarti α = 100% - 90% = 10%. Untuk kali ini, mari
kita coba buat selang kepercayaan 95%, yang berarti α = 5%. Lalu, bagaimanakah
cara mencari nilai ½ Zα? Kita mulai dengan membagi α dengan 2, α/2 = 5%/2 = 2,5%.
Dengan kata lain α/2 = 0,025. Pada tabel distribusi normal kita mula-mula perlu
mencari letak nilai 0,025 tersebut. Perhatikan gambar berikut.
Normal Deviate
z ,00 ,01 ,02 ,03 ,04 ,05 ,06 ,07 ,08 ,09 -4,0 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 -3,9 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 -,38 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 -,37 ,0001 ,0001 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 -,36 ,0002 ,0002 ,0001 ,0001 ,0001 ,0001 ,0001 ,0001 ,0001 ,0001 -3,5 ,0002 ,0002 ,0002 ,0002 ,0002 ,0002 ,0002 ,0002 ,0002 ,0002 -3,4 ,0003 ,0003 ,0003 ,0003 ,0003 ,0003 ,0003 ,0003 ,0003 ,0002 -3,3 ,0005 ,0005 ,0005 ,0004 ,0004 ,0004 ,0004 ,0004 ,0004 ,0004 -3,2 ,0007 ,0007 ,0006 ,0006 ,0006 ,0006 ,0006 ,0005 ,0005 ,0005 -3,1 ,0010 ,0009 ,0009 ,0009 ,0008 ,0008 ,0008 ,0008 ,0007 ,0007 -3,0 ,0013 ,0013 ,0013 ,0012 ,0012 ,0011 ,0011 ,0011 ,0010 ,0010 -2,9 ,0019 ,0018 ,0018 ,0017 ,0016 ,0016 ,0015 ,0015 ,0014 ,0014 -2,8 ,0026 ,0025 ,0024 ,0023 ,0023 ,0022 ,0021 ,0021 ,0020 ,0019 -2,7 ,0035 ,0034 ,0033 ,0032 ,0031 ,0030 ,0029 ,0028 ,0027 ,0026 -2,6 ,0047 ,0045 ,0044 ,0043 ,0041 ,0040 ,0039 ,0038 ,0037 ,0036 -2,5 ,0062 ,0060 ,0059 ,0057 ,0055 ,0054 ,0052 ,0051 ,0049 ,0048 -2,4 ,0082 ,0080 ,0078 ,0075 ,0073 ,0071 ,0069 ,0068 ,0066 ,0064 -2,3 ,0107 ,0104 ,0102 ,0099 ,0096 ,0094 ,0091 ,0089 ,0085 ,0084 -2,2 ,0139 ,0136 ,0132 ,0129 ,0125 ,0122 ,0119 ,0116 ,0113 ,0110 -2,1 ,0179 ,0174 ,0170 ,0166 ,0162 ,0158 ,0154 ,0150 ,0146 ,0143 -2,0 ,0228 ,0222 ,0217 ,0212 ,0207 ,0202 ,0297 ,0292 ,0288 ,0283 -1,9 ,0287 ,0281 ,0274 ,0268 ,0262 ,0256 ,0250 ,0244 ,0239 ,0233 -1,8 ,0359 ,0351 ,0344 ,0336 ,0329 ,0322 ,0314 ,0307 ,0301 ,0294 -1,7 ,0446 ,0436 ,0427 ,0418 ,0409 ,0401 ,0392 ,0384 ,0375 ,0367 -1,6 ,0548 ,0537 ,0526 ,0516 ,0505 ,0495 ,0485 ,0475 ,0465 ,0455 -1,5 ,0668 ,0655 ,0643 ,0630 ,0618 ,0606 ,0594 ,0582 ,0571 ,0559
Gambar 3..3 . Cara membaca tabel distribusi normal
Kemudian, perhatikan bahwa nilai 0,0250 tersebut terletak pada baris -1,9 dan kolom ,06 (dibaca nol koma nol enam). Adapun cara membacanya adalah dengan menggabungkan -1,9 dan 0,06 sehingga diperoleh -1,96. Jadi, 2/αz = ZO,025 = -1,96. Merujuk pada Persamaan
1.3, batas bawah menggunakan nilai 2/αz negatif, yaitu -1,96 sementara batas atas
menggunakan nilai 2/αz positif, yaitu 1,96. Terakhir, kita perlu menghitung Xσ Adapun rumus untuk menghi-tungnya adalah :
- 17 -
Diktat Matakuliah Datamining
nX
σσ = ……… ………………….1.4
Dari manakah kita dapat memperoleh nilai σ? Ingat bahwa pada akhir subbab ini kita
sudah memperoleh estimasi titik untuk varians. Ketika varians tersebut ditarik akar
kuadrat maka standar deviasinya akan didapatkan. Untuk kasus ini standar deviasi
yang diperoleh adalah 31,07 ml. Inilah yang menjadi nilai σ untuk Persamaan 1.4
Adapun n bernilai 12, yaitu banyaknya botol yang menjadi sampel. Dari uraian
tersebut, kita dapat menghitung nilai Xσ
97,81207,31 ===
nXσσ
Kembali pada Persamaan 1.3, kedua batas selang kepercayaan tersebut adalah
batas bawah (L) = 2007 - 1,96(8,97) = 1989,42 ml
batas atas (U) = 2007 + 1,96(8,97) = 2024,58 ml
Jadi, selang kepercayaan 95% berdasarkan sampel tersebut adalah (1989,42; 2024,58) ml.
Pengetahuan apakah yang diperoleh seandainya kita melakukan sebuah prosedur
yaitu mengambil sampel (dalam kasus kita sampelnya 12 botol) kemudian
menghitung rata-rata sampel tersebut dan terakhir membuat sebuah selang
kepercayaan? Dalam kasus tersebut apabila kita mengulangi prosedur tersebut
sebanyak 100 kali maka kita berpeluang untuk mendapatkan 95 buah selang yang benar-
benar mencakup rata-rata populasi yang sesungguhnya. Adapun angka 95% yang disebut-
sebut sejak tadi disebut tingkat keyakinan. Semakin tinggi tingkat keyakinan yang
kita inginkan semakin lebar pula selang yang akan dihasilkan. Bayangkan
contoh berikut Anda diminta menebak jumlah uang di saku seorang teman sebanyak
10 kali. Cara pertama tebakan Anda selalu memiliki rentang sempit katakanlah
Rp100, sehingga Anda menebak Rp10.000 – 10.100, Rp7.500 –7.600, Rp 43.100 – Rp
43.200, dan seterusnya hingga 10 kali. Cara kedua tebakan Anda selalu memiliki
rentang lebar, katakanlah Rp500.000,- sehingga Anda menebak Rp l .000 –
501.000, Rp 30.000 – 530.000, Rp 120.000 – 620.000, dan seterusnya. Cara manakah
yang Anda yakini akan lebih berhasil mencakup jumlah uang sebenanya di saku.
teman Anda secara tepat? Tentu cara kedua yang selangnya lebih lebar.
Secara ekstrem bila Anda ingin yakin 100% bahwa tebakan Anda pasti benar
tebak saja dari negatif tak hingga hingga positif tak hingga yang pada hakikatnya
menjadi sama saja dengan "tidak menebak". Oleh karena itu tingkat keyakinan
- 18 -
Diktat Matakuliah Datamining
yang terlalu tinggi juga tidak diinginkan sebab selang yang dihasilkan menjadi
terlalu lebar hingga kehilangan esensi dari perkiraan itu. sendiri.
Jadi dalam hal ini ada beberapa hal yang terkait dengan masalah estimasi yaitu
1. kegunaan fungsi estimasi
2. dalam pembahasan bab ini yang diestimasi (diperkirakan) adalah rata-rata dan
varians populasi, dan
3. cara estimasi titik dan cara estimasi selang kepercayaan.
SOAL LATIHAN
Sebuah tim penelit i bermaksud memperkirakan besarnya penghasilan penduduk
di suatu daerah. Lima belas orang yang telah bekerja atau memiliki usaha
diambilsecara acak dan ditanyai penghasilan per bulannya. Hasil yang diperoleh
(dalam juta rupiah) adalah 2,47; 1,78; 4,76; 0,67; 4,57; 2,95; 3,17; 2,42; 1,40; 5,61;
3,49; 2,39; 1,74; 2,47; 2,05.
1. Perkirakan rata-rata dan varians penghasilan penduduk daerah tersebut!
2. Buatlah selang keyakinan 90%, 95%, dan 99% untuk rata-rata penghasilan.
Bandingkan dari segi lebar intervalnya.
- 19 -
Diktat Matakuliah Datamining
IV. FUNGSI MINOR UNTUK FUNGSI PREDIKSI
Sebagai gambaran Anda akan diberi data mengenai lamanya waktu yang
dihabiskan oleh seorang pegawai restoran siap saji untuk mengantarkan pesanan keru-
mah pelanggan. Pegawai tersebut mengendarai sepeda motor untuk mengantarkan
pesanan langsung ke rumah pemesan. Data waktu sejak pegawai meninggalkan restoran
hingga ia mencapai pintu rumah pelanggan ditampilkan pada Tabel 4.1.
No.
Pesonon
Jarak
(km)
Waktu
(menit)
No.
Pesonan
Jarak
(km)
Woktu
(menit)
1 0,50 9,95 14 3,60 11,66
2 1,10 24,45 15 2,05 21,65
3 1,20 31,75 16 4,00 17,89
4 5,50 35,00 17 6,00 69,00
5 2,95 25,02 18 5,85 10,30
6 2,00 16,86 19 5,40 34,93
7 3,75 14,38 20 2,50 46,59
8 0,52 9,60 21 2,90 44,88
9 1,00 24,35 22 5,10 54,12
10 3,00 27,50 23 5,90 56,23
11 4,12 17,08 24 1,00 22,13
12 4,00 37,00 25 4,00 21,15
13 5,00 41,95
Tabel 4.1. Data waktu pengantaran pesanan
Berdasarkan data dalam table seandainya datang pesanan ke-26 dari rumah yang
jaraknya 1,5 km dari restoran seharusnya kita dapat memberikan prediksi waktu
pengantaran pesanan bagi pelanggan tersebut. Prediksi tersebut didasari anggapan
kita bahwa waktu pengantaran pesanan dipengaruhi oleh jarak rumah
pelanggan. Apakah anggapan tersebut benar? Hal tersebut akan kita buktikan nanti.
Contoh tersebut menggambarkan sebuah kegiatan prediksi. Lalu apa perbedaannya
dengan estimasi? Ingat kembali bahwa dalam estimasi kita memperkirakan suatu hal,
- 20 -
Diktat Matakuliah Datamining
misalnya rata-rata populasi dari sejumlah sampel yang kita miliki. Estimasi
di lakukan berdasarkan sampel yang ada di tangan ki ta . Sementara itu dalam
prediksi kita menggunakan data yang ada di tangan kita untuk memprediksi hasil
dari satu hal baru yang akan muncul selanjutnya misalnya munculnya pesanan
selanjutnya. Jadi estimasi dilakukan untuk memperkirakan hal yang tidak kita
ketahui (rata-rata populasi, varians populasi) sedangkan prediksi memperkirakan
hasil dari hal yang belum terjadi. Kita dapat menunggu hingga hal tersebut terjadi untuk
membuktikan seberapa tepat prediksi kita.
Berikutnya akan membahas cara prediksi yang disebut regresi linear kemudian
dilanjutkan dengan cara menganalisis prediksi yang dihasilkan. Apabila terdapat
istilah khusus maka istilah tersebut akan sekaligus dijelaskan di dalamnya.
Regresi Linear dan Pengetahuan Yang Dihasilkan
Dua jenis regresi linear yang akan dibahas pads subbab ini adalah regresi
linear sederhana dan regresi linear berganda. Secara sederhana, dapat dikatakan
bahwa regresi linear sederhana hanya melibatkan satu variabel pemberi pengaruh,
sementara regresi linear berganda melibatkan lebih dari satu variabel pemberi
pengaruh. Variabel adalah besaran yang berubah-ubah nilainya. Dalam kasus di atas,
sesungguh- nya terdapat banyak sekali variabel yang terlibat, misalnya nomor rumah
pelanggan, luas rumah pelanggan, jam pemesanan, suhu udara saat pemesanan,
banyaknya anggota keluarga pelanggan, dan sebagainya. Akan tetapi semua variabel
tersebut belum tentu relevan dengan kasus yang dihadapi. Variabel yang
(dianggap) relevan dan dicantumkan pada Tabel 4.1. adalah jarak rumah
pelanggan dan waktu tempuh pengiriman pesanan. selanjutnya kedua variabel
tersebut dapat dipilah menjadi dua jenis yaitu variabel pemberi pengaruh dan variabel
terpengaruh. Variabel pemberi pengaruh dapat dianalogikan sebagai sebab, sementara
variabel terpengaruh merupakan akibat.
Di antara jarak rumah pelanggan dan waktu tempuh, bagaimanakah hubungan
sebab-akibatnya? Pemikiran yang logic adalah jauh-dekatnya jarak rumah pelanggan
mengakibatkan panjang-pendeknya waktu tempuh pengiriman. Oleh karena itu jarak
merupakan variabel pemberi pengaruh sementara waktu tempuh adalah variabel
terpengaruh.
A. Regre s i L inear Sederhana
Regresi linear merupakan satu cara prediksi yang menggunakan garis lurus
- 21 -
Diktat Matakuliah Datamining
untuk menggambarkan hubungan di antara dua variabel (atau lebih). Dalam kasus
di atas kedua variabel tersebut adalah jarak dan waktu tempuh. Kita akan mencoba
menggambarkan data pada Tabel 4.1. dengan jarak sebagai sumbu X (dalam kilometer)
dan Waktu Tempuh sebagai sumbu Y (dalam menit). Setiap pasang data jarak-waktu
pada Tabel 4.1. digambarkan sebagai sebuah titik pada Gambar 4.1. Oleh karena itu
memuat 25 buah titik.
Gambar 4.1. : Data Tabel 4.1. dengan Jarak sebagai sumbu X dan Waktu sebagai sumbu Y Tujuan kita adalah mencari sebuah garis lurus yang sedekat mungkin dengan semua
titik sehingga garis tersebut menjadi sesuai untuk mewakili titik-titik tersebut. Secara
umum, garis tersebut dapat kita tulis dalam bentuk persamaan:
Y = β0 + β1x
Y adalah variabel terpengaruh, β0 adalah sebuah konstanta, β1 adalah gradien garis, dan x
adalah variabel pemberi pengaruh.
Gambar 4.2. Contoh tiga garis lurus untuk mendekati titik-titik data table 4.1.
- 22 -
Diktat Matakuliah Datamining
Gambar 4.2. tersebut menggambarkan tiga buah garis lurus. Manakah yang tampaknya
paling dapat mewakili semua titik?
Di antara ketiganya tampaknya garis B merupakan garis yang lebih baik dalam
mendekati titik-titik yang ada. Garis A terlalu jauh dari semua titik sementara garis C
justru tidak menggambarkan kecenderungan naiknya nilai sumbu Y (Waktu) seiring
dengan bertambahnya nilai sumbu X (Jarak). Pertanyaannya bagaimanakah cara
mencari garis regresi linear yang paling baik? Ingat bahwa untuk menggambarkan
sebuah persamaan garis kita memerlukan konstanta dan gradiennya. Jadi untuk
menemukan garis regresi linear yang paling baik kita perlu menghitung konstanta β0
dan gradien β1 dengan rumus:
β0 = xy 1β−
∑∑
∑∑∑
=
=
=
==
⎟⎠⎞⎜
⎝⎛
−
⎟⎠⎞⎜
⎝⎛⎟
⎠⎞⎜
⎝⎛
−=
n
i
n
ii
i
n
i
n
ii
n
ii
ii
n
xx
n
xyxy
1
2
12
1
11
1β ……… ………………….4.1
Dalam contoh kasus di a tas , Waktu menjadi var iabel Y (terpengaruh) dan
Jarak menjadi variabel X (pemberi pengaruh) sebab kita beranggapan bahwa waktu
dipengaruhi oleh jarak. Tabel 4.1. memberikan perincian perhitungan yang akan kita
masuk-kan ke da lam Persamaan 4.1. un tuk memperoleh persamaan garis regresi.
Tabel 4.2. Perincian perhitungan untuk regresi linear sederhana
No i
J a rak x
Wak tu y
yi xi x i2
1 0 ,50 9 ,95 4 ,98 0 ,25 2 1 ,10 24 ,45 26 ,90 1 ,21 3 1 ,20 31 ,75 38 ,10 1 ,44 4 5 ,50 35 ,00 192 ,50 30 ,25 5 2 ,95 25 ,02 73 ,81 8 ,70 6 2 ,00 16 ,86 33 ,72 4 ,00 7 3 ,75 14 ,38 53 ,93 14 ,06 8 0 ,52 9 ,60 4 ,99 0 ,27 9 1 ,00 24 ,35 24 ,35 1 ,00
10 3 ,00 27 ,50 82 ,50 9 ,00 11 4 ,12 17 ,08 70 ,37 16 ,97 12 4 ,00 37 ,00 148 ,00 16 ,00 13 5 ,00 41 ,95 209 ,75 25 ,00 14 3 ,60 11 ,66 41 ,98 12 ,96 15 2 ,05 21 ,65 44 ,38 4 ,20
- 23 -
Diktat Matakuliah Datamining
Dengan menggunakan hasil perhitungan pada tabel, kita dapat m e n g h i t u n g
g r a d i e n β1 d a n k o n s t a n t a β0 m e n g g u n a k a n Persamaan 4.1 :
25)94,82(18,353
25)94,82)(42,752(81,2745
21
−
−=β ……… ………………….4.2
β1 = 29,02 – 4,35(3,32) = 14,58
Persamaan garis regresi yang kita cari berbentuk Y = β0 + β1x. Berdasarkan hasil di
atas maka diperoleh persamaan Y = 14,58 + 4,35X.
Pengetahuan apakah yang diperoleh? Kita memprediksi bahwa waktu tempuh
pengiriman pesanan sama dengan 14,58 menit ditambah 4,35 kali jarak rumah
pelanggan. Lebih jauh lagi persamaan garis ini menyatakan bahwa bila rumah
pelanggan berjarak 0 km dari restoran waktu antarnya diprediksi 14,58 menit. Bila
jaraknya bertambah 1 km maka waktu tersebut pun akan bertambah 4,35 menit
menjadi 18,93 menit .Setiap pertambahan jarak rumah pelanggan sejauh 1 km
waktu pengiriman pun diprediksi akan bertambah selama 4,35 menit.
Setelah memperoleh garis regresi di atas ketika kita mendapatkan pelang-
gan ke-26 yang berjarak 1,5 km dari restoran kita dapat memprediksi bahwa
pesanan akan sampai ke tangan pelanggan dengan cara:
Y = 14,58 + 4,35X
Y = 14,58 + 4,35(1,5) = 21,1
Pesanan diperkirakan akan sampai ke tangan pelanggan dalam waktu 21,1 menit.
No i
J a rak x
Wak tu y
yi xi x i2
16 4 ,00 17 ,89 71 ,56 16 ,00 17 6 ,00 69 ,00 414 ,00 36 ,00 18 5 ,85 10 ,30 60 ,26 34 ,22 19 5 ,40 34 ,93 188 ,62 29 ,16 20 2 ,50 46 ,59 116 ,48 6 ,25 21 2 ,90 44 ,88 130 ,15 8 ,41 22 5 ,10 54 ,12 276 ,01 26 ,01 23 5 ,90 56 ,23 331 ,76 34 ,81 24 1 ,00 22 ,13 22 ,13 1 ,00 25 4 ,00 21 ,15 84 ,60 16 ,00
Jumlah 82 ,94 725 ,42 2745 ,81 353 ,18 Ra ta - r a t a 3 ,32 29 ,02
- 24 -
Diktat Matakuliah Datamining
B. Regresi Linear Berganda (Multiple Linear Regression)
Apakah regresi linear hanya dapat melibatkan satu variabel pemberi
pengaruh? Tidak!. Kita dapat menyusun persamaan regresi yang memiliki banyak
variabel X yaitu variabel pemberi pengaruh. Apabila kita memiliki k buah variabel
pemberi pengaruh maka bentuk persamaan garis regresinya menjadi:
Y = β0 + β1x1 + β2x2 + β3x3 + …. + βkxk
Y adalah variabel terpengaruh, β0 adalah sebuah konstanta, β1 adalah gradien pertama,
x1 adalah variabel pemberi pengaruh yang pertama, β2 adalah gradien kedua, dan x2
adalah variabel pemberi pengaruh yang kedua.
Persamaan-persamaan yang ditunjukkan pada Persamaan 4.2 dapat kita
gunakan untuk menemukan persamaan garis regresi Y = β0 + β1x1 + β2x2 + β3x3 + ….
+ βkxk . Perhatikan bahwa kita memiliki (k + 1) buah persamaan, sementara variabel
yang tidak kita ketahui juga ada sebanyak (k + 1) buah yaitu dari β0 hinggapk. Oleh
karena i tu k i ta dapat menyelesa ikan persamaanpersamaan pada Persamaan 4.2
untuk menemukan β0 hingga βk.
Persamaan 4.3.
∑∑∑∑∑=====
=++++n
ii
n
iikk
n
ii
n
ii
n
ii yxxxxn
1113
33
122
1110 ....... βββββ
∑∑∑∑∑∑======
=++++n
iii
n
iikik
n
iii
n
iii
n
ii
n
ii yxxxxxxxxx
11
11
131
33
1212
1
211
110 ....... βββββ
dst
∑∑∑∑∑∑======
=++++n
iiik
n
iikikk
n
iiik
n
iiik
n
iiik
n
iik yxxxxxxxxxx
1113
33
122
111
10 ....... βββββ
Mari kita kembali pada contoh di awal. Berdasarkan masukan p e g a w a i p e n g a n t a r
m a k a n a n l a m a n y a w a k t u u n t u k mengirimkan pesanan ternyata tidak hanya
bergantung pada jarak. Banyaknya lampu merah di perempatan jalan juga dapat mengham
bat perjalanan tabel 4.3.berisi data yang sama dengan table 4.1 namun telah
dilengkapi dengan data mengenai banyaknya lampu merah yang ditemui di
sepanjang perjalanan.
No Lampu Jarak Waktu No Lampu Jarak Waktu 1 2 0,50 9,95 14 2 3,60 11,66 2 8 1,10 24,45 15 4 2,05 21,65
- 25 -
Diktat Matakuliah Datamining
3 11 1,20 31,75 16 4 4,00 17,89 4 10 5,50 35,00 17 20 6,00 69,00 5 8 2,95 25,02 18 1 5,85 10,30 6 4 2,00 16,86 19 10 5,40 34,93 7 2 3,75 14,38 20 15 2,50 46,59 8 2 0,52 9,60 21 15 2,90 44,88 9 9 1,00 24,35 22 16 5,10 54,12 10 8 3,00 27,50 23 17 5,90 56,23 11 4 4,12 17,08 24 6 1,00 22,13 12 11 4,00 37,00 25 5 4,00 21,15 13 12 5,00 41,95 Jumla 206 82,94 725,42
Tabel 4.3. Data waktu pengantaran pesanan yang mengikutsertakan faktor lampu merah
K i t a d a p a t m e n g h i t u n g g r a d i e n β 1 , β 2 , d a n k o n s t a n t a β 0 menggunakan
Persamaan 4.4.
∑∑∑===
=++n
ii
n
ii
n
ii yxxn
1122
1110 βββ ……………………………………4.4.
∑∑∑∑====
=++n
iii
n
iii
n
ii
n
ii yxxxxx
11
1212
1
211
110 βββ
∑∑∑∑====
=++n
iii
n
ii
n
iii
n
ii yxxxxx
12
1
222
1211
120 βββ
A d a p u n p e r i n c i a n p e r h i t u n g a n k o m p o n e n - k o m p o n e n y a n g dibutuhkan untuk melengkapi persamaan-persamaan di a tas d1tampilkan pada Tabel 4.4.
Tabel 4.4. Perincian perhitungan untuk regresi linear berganda
No i
Lampu x1
Jarak x2
Waktu y xil
2 xi1xi2 xi1yi xi22 xi21yi
1. 2 0,50 9,95 4,00 1,00 19,90 0,25 4,98 2. 8 1,10 24,45 64,00 8,80 195,60 1,21 26,90 3. 11 1,20 31,75 121,00 13,20 349,25 1,44 38,10 4. 10 5,50 35,00 100,00 55,00 350,00 30,25 192,50 5. 8 2,95 25,02 64,00 23,60 200,16 8,70 73,81 6. 4 2,00 16,86 16,00 8,00 67,44 4,00 33,72 7. 2 3,75 14,38 4,00 7,50 28,76 14,06 53,93 8. 2 0,52 9,60 4,00 1,04 19,20 0,27 4,99 9. 9 1,00 24,35 81,00 9,00 219,15 1,00 24,35 10. 8 3,00 27,50 64,00 24,00 220,00 9,00 82,50 11. 4 4,12 17,08 16,00 16,48 68,32 16,97 70,37 12. 11 4,00 37,00 121,00 44,00 407,00 16,00 148,00 13. 12 5,00 41,95 144,00 60,00 503,40 25,00 209,75
- 26 -
Diktat Matakuliah Datamining
14. 2 3,60 11,66 4,00 7,20 23,32 12,96 41,98 15. 4 2,05 21,65 16,00 8,20 86,60 4,20 44,38 16. 4 4,00 17,89 16,00 16,00 71,56 16,00 71,56 17. 20 6,00 69,00 400,00 120,00 1380,00 36,00 414,00 18. 1 5,85 10,30 1,00 5,85 10,30 34,22 60,26 19. 10 5,40 34,93 100,00 54,00 349,30 29,16 188,62 20. 15 2,50 46,59 225,00 37,50 698,85 6,25 116,48 21. 15 2,90 44,88 225,00 43,50 673,20 8,41 130,15 22. 16 5,10 54,12 256,00 81,60 865,92 26,01 276,01 23. 17 5,90 56,23 289,00 100,30 955,91 34,81 331,76 24. 6 1,00 22,13 36,00 6,00 132,78 1,00 22,13 25. 5 4,00 21,15 25,00 20,00 105,75 16,00 84,60
Jumlah 206 82,94 725,42 2396,00 771,77 8001,67 353,18 2745,81
Bila kita isikan angka yang kita peroleh dari Tabel 4.4. pada Persamaan 4.4. maka
25β0 +β1(206) + β 2 (82,94) = 725,42
β0(206) + β 1(2396) + β2(771, 77) = 8001,67
β0(82,94) + β1(771,77) + β2 (353,18) = 2745,81
Ketiga persamaan tersebut diselesaikan hingga memperoleh βo = 2,31, β1 = 2,74, dan β2 =
1,24. Lengkapnya persamaan regresi yang kita peroleh adalah
Y = 2,31 + 2,74 X1 + 1,24 X2
Pengetahuan apakah yang diperoleh? Kita memprediksi bahwa waktu tempuh pengiriman
pesanan sama dengan 2,31 menit ditambah 2,74 kali banyaknya lampu merah yang
dite-mui di sepanjang perjalanan dan ditambah 1,24 kali jarak rumah pelanggan.
Lebih lanjut persamaan garis ini menyatakan bahwa bila rumah pelanggan berjarak 0
km dari restoran dan dapat dicapai tanpa melewati lampu merah, maka waktu
antarnya dipre-diksi 2,31 menit. Setiap pertambahan satu buah lampu merah yang
ditemui di perjalanan waktu antarnya diprediksi bertambah 2,74 menit. Sementara
pertambahan jarak rumah pelang-gan sejauh 1 km diprediksi menambah waktu antar
selama 1,24 menit.
Berdasarkan garis regresi di atas kita akan memprediksi waktu antar untuk pelanggan ke-
26 yang berjarak 1,5 km dari restoran. Akan tetapi kali ini kita juga perlu mengetahui
berapa banyak lampu merah yang akan ditemui pengantar sepanjang jalan dari restoran
hingga ke rumah pelanggan.Dalam kasus ini pengantar hanya akan menemukan
sebuah lampu merah.
Sekarang kita tabu bahwa X1 = 1 (lampu) dan X2 = 1,5 (jarak) sehingga kita dapat
mempre-diksi lamanya waktu hingga pesanan sampai ke tangan pelanggan dengan cara:
Y = 2,31 + 2,74 X1 + 1,24 X2
- 27 -
Diktat Matakuliah Datamining
Y = 2,31 + 2,74(1) + 1,24(1,5) = 6,91
Pesanan diperkirakan sampai ke tangan pelanggan dalam waktu 6,9 menit.
C. Analisa Garis Regresi Menggunakan Koefisien Determinasi
Pada subbab sebelumnya kita telah membuat dua garis regresi untuk
memprediksi waktu pengiriman pesanan (Y). Garis regresi pertama yang kita
peroleh hanya dengan menyertakan variabel jarak (X) sebagai pemberi pengaruh adalah :
Y = 14,58 + 4,35X (Y = 14,58 + 4,35 Jarak)
Garis regresi kedua yang kita peroleh dengan menyertakan dua variabel pemberi pengaruh,
Lampu Merah (X1) dan Jarak (X2), adalah
Y = 2,31 + 2,74Xi + 1,24X2 (Y = 2,31 + 2,74 Lampu + 1,24 Jarak)
Manakah yang lebih baik? Apabila kriteria yang kita gunakan adalah kemampuan
garis regresi untuk mewakili data historis (dalam kasus kita adalah data pada Tabel 4.4.),
maka kita dapat menggunakan ukuran koefisien determinasi yang dinotasikan
sebagai R2.
Koefisien determinasi merupakan besaran yang mengukur seberapa baik
kemam-puan garis regresi untuk menjelaskan keragaman data. Koefisien
determinasi dapat dihitung dengan rumus:
R2 = 1 - yy
E
SSS ………………………………4.5
SSE = ∑∑==
−=n
iii
n
ii yye
1
2
1
2 )ˆ( ………………………………4.6
Syy = ∑=
−n
ii yy
1
2)( ………………………………4.7
Pada persamaan SSE di Persamaan 4.7, notasi yi mewakili nilai y dari data yang
sebenar-nya, sementara notasi iy menyatakan nilai y yang kita peroleh melalui garis
regresi. Agar lebih jelas, mari kita kembali ke Tabel 4.5 dan mengambil data ke-7 dan
data ke-19 sebagai contoh.Data ke-7 memiliki Waktu (y) sebesar 14,38. Data
inilah yang dino- tasikan sebagai y7. Dari tabel kita juga dapat menemukan y19 = 34,93.
Lalu bagaimanakah caranya menemukan nilai iy ?
Bila kita menggunakan garis regresi pertama Y = 14,58 + 4,35X, dengan Y adalah
Waktu dan X adalah Jarak, maka:
- 28 -
Diktat Matakuliah Datamining
Y = 14 ,58 -4 ,35 (3 ,75 ) = 30 ,89
19y =14,58 + 4,35 (5,4) = 38,07
Bila kita menggunakan garis regresi kedua Y = 2,31 + 2,74X1 + 1,X2, dengan Y
adalah waktu, X1 adalah Lampu, dan X2 adalah jarak, maka :
7y = 2,31 + 2,74(2) + 1,24(3,75) = 12,44
19y = 2,31 + 2,74(10) + 1,24(5,4) = 36,41
Tabel 4.5 mencantumkan perincian perhitungan yang dilakukan untuk menemukan
koefisien determinasi. Keempat kolom, (1), (2), (3), dan (4), diperoleh dari Tabel
4.3 dengan urutan yang tepat sama, yaitu Nomor, Lampu, Jarak, dan Waktu. Kolom (5)
diperoleh dengan cara memasukkan nilai kolom (3), yaitu Jarak, ke dalam
persamaan regresi yang pertama: Y = 14,58 + 4,35X. Kolom (6) merupakan hasil
pengurangan kolom (4) dengan kolom (5), lalu dikuadratkan. Kolom (7)
diperoleh dengan cara memasukkan nilai kolom (2) dan kolom (3), yaitu Lampu dan
Jarak, ke dalam persama-an regresi yang kedua: Y = 2,31 + 2,74X1 + 1,24X2. Kolom
(8) merupakan hasil pengurangan kolom (4) dengan kolom (7), lalu dikuadratkan.
Kolom (9) merupakan hasil pengurangan kolom (4) dengan rata-rata kolom (4), lalu
dikuadratkan.
Tabel 4.5. Perincian perhitungan koefisien determinasi
(1) (2) (3) (4) (5) (6) (7) (8) (9) i x1 x2 y
iy ( )2ˆ ii yy −
Y (yi-Y)2 ( )2ii yy −
1. 2 0,50 9,95 16,76 46,31 8,41 2,37 363,542. 8 1,10 24,45 19,37 25,86 25,59 1,31 20,863. 11 1,20 31,75 19,80 142,80 33,94 4,79 7,41 4. 10 5,50 35,00 38,51 12,29 36,53 2,34 35,80 5. 8 2,95 25,02 27,41 5,72 27,89 8,23 15,916. 4 2,00 16,86 23,28 41,22 15,75 1,23 147,197. 2 3,75 14,38 30,89 272,66 12,44 3,76 214,218. 2 0,52 9,60 16,84 52,45 8,43 1,36 377,019. 9 1,00 24,35 18,93 29,38 28,21 14,90 21,7810. 8 3,00 27,50 27,63 0,02 27,95 0,20 2,3011. 4 4,12 17,08 32,50 237,84 18,38 1,69 142,4112. 11 4, 00 37,00 31,98 25,20 37,41 0,17 63,7113. 12 5, 00 41,95 36,33 31,58. 41,39 0,31 167,1114. 2 3,60 11,66 30,24 345,22 12,25 0,35 301,2615. 4 2,05 21,65 23,50 3,41 15,81 34,08 54,2116. 4 4,00 17,89 31,98 198,53 18,23 0,12 123,81
- 29 -
Diktat Matakuliah Datamining
17. 20 6,00 69,00 40,68 802,02 64,55 19,80 1598,6418. 1 5,85 10,30 40,03 883,72 12,30 4,02 350,3119. 10 5,40 34,93 38,07 9,86 36,41 2,18 34,9'20. 15 2,50 46,59 25,46 446,69 46,51 0,01 308,8f21. 15 2,90 44,88 27,20 312,76 47,01 4,52 251,6422.
16 5,10 54,12 36,77 301,20 52,47 2,711. 630,17
23. 17 5,90 56,23 40,25 255,52 56,21 0,00 740,5424. 6 1,00 22,13 18,93 10,24 19,99 4,58 47,4325. 5 4,00 21,15 31,98 117,29 20,97 0,03 61,89
Jumlah 206 82,94 725,42 725,29 4609,79 725,04 115,05 6084,02 Rata-rata 29,02
Perhitungan koefisien determinasi untuk kedua garis menggunakan persamaan diatas :
1. Garis regresi pertama (Y = 14,58 + 4,35X)
SSE = 4609,79 (jumlah kolom [6] )
Syy = 6084,02 (jumlah kolom [9] )
R2 = 1 – [4609,78/6084,02] = 0,2423 = 24,23 %
2. Garis regresi kedua (Y = 2,31 + 2,74X1 + 1,24X2)
SSE = 115,05 (jumlah kolom [8] )
Syy = 6084,02 (jumlah kolom [9] )
R2 = 1 – [115,05 /6084,02] = 0,9811 = 98,11%
Garis regresi kedua ternyata memiliki koefisien determinasi yang jauh lebih tinggi, artinya
garis tersebut lebih dapat menjelaskan keragaman waktu pengantaran pesanan pada Tabel 4,2.
Jadi dalam memprediksi waktu pengantaran pesanan selanjutnya kita sebaiknya menggunakan
garis regresi kedua yang mempertimbangkan dua variable pemberi pengaruh yaitu banyaknya
lampu merah dan jrak rumah pelanggak.
Jadi kita telah menguraikan beberapa hal yang terkait dengan masalah prediksi yaitu :
1. Kegunaan fungsi prediksi
2. Cara membuat persamaan garis regresi untuk satu atau lebih variable pemberi pengaruh
3. Cara melakukan analisis perbandingan antara dua garis regresi berdasarkan koefisien
determinasi.
SOAL LATIHAN
Dua puluh orang peserta kursus bahasa Inggris akan mengikuti ujian. Diperkirakan
nilai ujian tersebut dipengaruhi oleh lamanya waktu kursus (dalam bulan),
- 30 -
Diktat Matakuliah Datamining
nilai try out , dan banyaknya bahasa asing selain bahasa Inggris yang dikuasai.
1. Buatlah persamaan garis regresi yang melibatkan tiga variabel pemberi penga-ruh, yaitu lama Kursus, Try Out, dan Bahasa Lain.
2. Hitung koefisien determinasi garis tersebut. Apa arti dari angka koefisien determinasi yang diperoleh?
Data tersebut ditampilkan pada tabel berikut :
.
No. Lama Kursus Try Out Bahasa Lain Nilai Uji
1 9,9 77 1 85 2 10,2 75 1 80 3 11,5 88 0 87 4 12,9 90 1 91 5 14,6 91 1 95 6 13,6 85 2 93 7 8,7 68 1 78 8 12,3 78 2 88 9 15,5 91 1 100
10 14 88 1 91 11 11,9 84 2 92 12 11,5 81 1 89 13 9,8 75 0 85 14 10,1 76 0 83 15 11,1 74 0 82 16 12 73 0 83 17 12,6 80 2 89 18 13,2 90 1 88 19 14,3 86 1 93 20 9,5 70 0 76
- 31 -
Diktat Matakuliah Datamining
V. FUNGSI MAYOR UNTUK FUNGSI KLASIFIKASI Sebagai gambaran Anda diberi data mengenai 8 orang nasabah yang
pernah memperoleh kredit dari Bank Bhatara Putra. Data tersebut meliputi
besarnya tabungan (yang berjenis kategorial: rendah, sedang atau t inggi),
besarnya aset (yang berje-nis kategorial: rendah, sedang, atau tinggi), besarnya
pendapatan per tahun (dalam ribuan dolar yang berjenis numerik dan berskala
rasio) dan risiko kredit (yang berjenis kategorial: risiko baik atau buruk). Data
selengkapnya disajikan dalam Tabel 5.1.
Tabel 5.1. Data tabungan, aset, pendapatan, dan risiko kredit nasabah Bank Bhatara Putra
Data pada Tabel 5.1. berasal dari masa lampau sehingga data tersebut menjadi data histo-
ris atau data sejarah. Orang bijak selalu belajar dari pengalaman masa lampau, artinya
belajar dari sejarah. Apakah yang hendak kita pelajari dari data historis seperti yang
tertera pada Tabel 5.1.? Kita akan mencoba menyimak, merenungkan, dan mempela-
jari data pada tabel tersebut agar kelak sekiranya ada nasabah kesembilan, kese-
puluh, kesebelas, dan seterusnya, kita dapat mengklasifikasikan (menggolongkan) risiko
kredit para nasabah tersebut apabila diketahui tabungan, aset, dan pendapatan mereka. Bab ini
akan membahas fungsi mayor pertama dari data mining yaitu klasifikasi.
Pembahasan akan mencakup:
1. Pengenalan beberapa istilah dasar
Bagian ini akan memudahkan kita mengikuti pembahasan berikutnya tentang masalah
klasifikasi.
2. Prototipe masalah klasifikasi dan pengetahuan yang dihasilkannya
Bagian ini memberikan contoh atau ilustrasi yang akan memudahkan kita dalam
mendapatkan gambaran tentang apa yang sebenarnya menjadi input serta pengeta-
Nasabah Tabungan Aset Pendoputan Risiko Kredit A Sedang Tinggi 75 Baik B Rendah Rendah 50 Buruk C Tinggi Sedang 25 Buruk D Sedang Sedang 50 Baik E Rendah Sedang 100 Baik F Tinggi Tinggi 25 Baik G Rendah Rendah 15 Buruk
H Sedang Sedang 75 Baik
- 32 -
Diktat Matakuliah Datamining
huan apa yang menjadi output fungsi mayor klasifikasi. Selanjutnya interpretasi penge-
tahuan yang menjadi produk dari fungsi mayor klasifikasi akan diberikan.
3. Algoritme klasifikasi
Bagian ini membahas detail langkah-langkah yang dijalani oleh salah satu algoritme
yang digunakan data mining dalam menjalankan fungsi mayor pertamanya, yaitu
algoritme CART (Classification and Regression Trees).
4. Pengembangan selanjutnya
Bagian ini berisi informasi yang dapat digunakan oleh para pembaca yang tertarik untuk
mempelajari algoritme-algoritme lain yang dapat menjalankan fungsi mayor klasifikasi.
5.1. Pengenalan Beberapa Istilah Dasar
Data historis disebut juga data latihan atau data pengalaman. Mengapa disebut
demikian? Data historis disebut data latihan (training data) karena kita akan berlatih
dengan data tersebut untuk mendapatkan pengetahuan. Dan disebut data pengalaman karena
data tersebut berasal dari masa lampau, bukankah masa lampau adalah pengalaman bagi kita?
Algoritme klasifikasi akan menggunakan data latihan untuk sesuai pengertian data
mining menghasilkan pengetahuan. Pengetahuan apakah yang hendak dihasilkan dalam
klasifikasi? Tentu saja pengetahuan untuk menggolongkan risiko kredit seorang
nasabah pada masa mendatang berdasarkan tabungan, asset dan pendapatan mereka.
Data tabungan, aset, dan pendapatan yang akan dijadikan dasar untuk menentukan
risiko kredit disebut variabel prediktor/pemrediksi (predictor variable). Adapun risiko
kredit yang akan ditentukan berdasarkan variabel prediktor disebut variabel tujuan (target
variable).
Jadi secara ringkas pada klasifikasi sebuah catatan (record) akan diklasifikasikan ke dalam
salah satu dari sekian klasifikasi yang tersedia pada variabel tujuan berdasarkan nilai-nilai
variabel prediktornya. Masalah klasifikasi secara ringkas dapat digambarkan sebagai
berikut.
1. Masalah klasifikasi berangkat dari data latihan yang tersedia, misalnya data Tabel 5.1
2. Data latihan akan diolah dengan menggunakan algoritme klasifikasi.
3. Masalah klasifikasi berakhir dengan dihasilkannya sebuah pengetahuan yang direpresen-
tasikan dalam bentuk diagram, yang biasa disebut pohon keputusan (decision tree).
- 33 -
Diktat Matakuliah Datamining
5.2. Prototif Masalah Klasifikasi dan Pengetahuan yang dihasilkan.
Gambar 5.1. adalah contoh pohon keputusan, sebagai jawaban bagi masalah
klasifikasi dengan data latihan seperti yang tertera pada Tabel 5.1, yang dalam hal ini
variabel predicttornya adalah aset, tabungan, dan pendapatan, sedangkan variabel
tujuannya adalah risiko kredit.
Pohon keputusan pada Gambar 5.1. itulah yang menjadi pengetahuan yang
dihasil-kan dari fungsi klasifikasi. Sebelum kita mempelajari cara membaca gambar ini,
pengertian lambang-lambang yang digunakan pada gambar tersebut akan
diperkenalkan terlebih dahulu. Pada gambar tersebut terdapat dua jenis bentuk noktah.
Pertama noktah yang berbentuk elips yang disebut juga noktah keputusan. Noktah
jenis ini adalah noktah yang masih akan bercabang karena pada noktah ini suatu ca ta tan
(misa lnya , nasabah) be lum dapat d i tentukan klasifikasinya (apakah nasabah ini
mempunyai risiko kredit baik atau buruk). Noktah keputusan yang pertama biasa
disebut noktah dasar. Kedua, noktah yang berbentuk persegi panjang, yang disebut
juga noktah terminasi adalah noktah yang tidak akan bercabang lagi karena pada
noktah ini suatu catatan (misalnya, nasabah) sudah dapat ditentukan klasifikasinya.
Bagaimana cara membaca gambar pohon keputusan yang dihasilkan oleh suatu algorit-me
klasifikasi? Pertama-tama, pada noktah dasar semua catatan nasabah (A, B, C, D, E, F, G,
H) sama sekali belum mendapat klasifikasi. Terhadap seluruh catatan ini pertama-
tama tanyakan seberapa besar asetnya. Bila aset sebuah catatan termasuk rendah, catatan ini
langsung diklasifikasikan sebagai nasabah dengan risiko kredit yang buruk dan noktah bagi
catatan yang termasuk dalam klasifikasi ini berjenis noktah terminasi. Sesuai dengan
namanya, noktah ini tak akan pernah bercabang lagi. Catatan yang dicakup oleh noktah
terminasi ini adalah catatan B dan G. Namun bila aset sebuah catatan termasuk sedang atau
tinggi risiko kredit catatan tersebut belum bisa diklasifikasikan (apakah baik atau buruk)
sehingga noktahnya termasuk dalam jenis noktah keputusan. Noktah ini akan disebut
noktah keputusan A karena menjadi noktah keputusan pertama yang dihasilkan.
Catatan yang tercakup dalam noktah ini adalah catatan A, C, D, E, F, dan H.
Selanjutnya terhadap noktah keputusan A dilakukan percabangan dengan menanya
kan besarnya tabungan.
- 34 -
Diktat Matakuliah Datamining
Gambar 5.1. Pohon keputusan bagi masalah klasifikasi data nasabah Bank Bhatara Putra
Noktah Dasar Aset = rendah
VS Aset = Sedang, tinggi
Noktah Terminasi
Resiko Buruk (Catatan B, G)
Noktah Keputusan A (Catatan A, C, D, E, F,
Noktah Keputusan B Resiko Baik
(Catatan C, F)
Noktah Termanasi
Resiko Baik (Catatan A, D, E, H)
Noktah Terminasi
Resiko Baik (Catatan F)
Noktah Terminasi
Resiko Buruk (Catatan C)
Tabungan = tinggi Tabungan = Rendah, Sedang
Aset = Tinggi Aset = Sedang
- 35 -
Diktat Matakuliah Datamining
Bila tabungan sebuah catatan termasuk rendah atau sedang catatan tersebut langsung diklasi-
fikasikan sebagai nasabah dengan risiko kredit yang baik sehingga termasuk dalam
jenis noktah terminasi. Catatan yang dicakup oleh noktah terminasi adalah catatan A, D, E,
dan H. Bila tabungan sebuah catatan termasuk tinggi risiko kredit catatan ini belum bisa
diklasifikasikan (apakah baik atau buruk) sehingga noktahnya termasuk dalam jenis
noktah keputusan. Noktah ini akan disebut noktah keputusan B karena menjadi
noktah keputusan kedua yang dihasilkan. Catatan yang tercakup dalam noktah ini adalah
catatan C dan F. Selanjutnya terhadap noktah keputusan B dilakukan percabangan
dengan kembali menanyakan besarnya aset. Bila aset sebuah catatan termasuk tinggi, catatan
tersebut (nasabah F) langsung diklasifikasikan sebagai nasabah dengan risiko kredit yang baik
sehingga noktahnya termasuk dalam jenis noktah terminasi yang tidak akan pernah berca-
bang lagi. Namun bila aset sebuah catatan termasuk sedang catatan tersebut (nasabah C)
langsung diklasifikasikan sebagai nasabah dengan risiko kredit yang buruk sehingga
noktahnya termasuk dalam jenis noktah terminasi yang tidak akan pernah bercabang lagi.
5.3. Algoritme Klasifikasi Cart (Classification and Regresion Trees)
Pembahasan sebelumnya dapat kita ringkas dalam tiga penjelasan berikut:
1. Pertama kita memiliki data dari 8 nasabah seperti yang tertera pads Tabel 5.1 dan
ingin memperoleh pengetahuan yang dapat diaplikasikan kepada mereka yang berpotensi
menjadi nasabah kesembilan, kesepuluh, kesebelas, dan selanjutnya sehingga dengan
mengetahui aset tabungan dan pendapatan kita dapat menentukan risiko kredit mereka.
2. Kedua data itu kelak akan kita jadikan input bagi suatu algoritme yang saat ini belum
diketahui jenis algoritmenya.
3. Ketiga sebagai keluaran dari algoritme yang saat ini belum diketahui jenisnya kita akan
memperoleh pengetahuan yang secara sederhana dapat direpresentasikan dalam bentuk
pohon keputusan.
Subbab ini akan membahas detail salah satu algoritme yang dapat menghasilkan pohon
keputusan. Algoritme ini disebut Classification and Regression Trees atau CART. Ciri khas
algoritme CART ini adalah noktah keputusan yang selalu bercabang dua atau bercabang
biner.
Algoritme CART ini pertama kali digagas oleh Leo Breiman, Jerome Friedman, Richard
Olshen, dan Charles Stone (Larose, 2005). Algoritme ini juga masuk dalam The Top Ten
Algorithms in Data Mining (Wu dan Kumar, 2009). Agar lebih jelas kita terapkan
algoritme CART terhadap data pads Tabel 5.1
- 36 -
Diktat Matakuliah Datamining
Langkah-langkah pada algoritme CART adalah sebagai berikut.
1. Langkah pertama susunlah calon cabang (candidate split).
Penyusunan ini dilakukan terhadap seluruh variabel prediktor secara lengkap
(exhaustive). Daftar yang berisi calon cabang disebut daftar calon cabang mutakhir.
2. Langkah kedua adalah menilai kinerja keseluruhan calon cabang yang ada pada
daftar calon cabang mutakhir dengan jalan menghitung nilai besaran kesesuaian, Q(s│t)
yang akan diterangkan kemudian.
3. Langkah ketiga adalah menentukan calon cabang manakah yang akan benar-benar
dijadikan cabang dengan memilih calon cabang yang memiliki nilai kesesuaian Q(s│t)
terbesar. Setelah itu gambarkanlah percabangan. jika tidak ada lagi noktah keputusan,
pelaksanaan algoritme CART akan dihentikan. Namun jika masih terdapat noktah
keputusan pelaksanaan algoritme dilanjutkan dengan kembali ke langkah kedua,
dengan terlebih dahulu membuang calon cabang yang telah berhasil menjadi
cabang sehingga mendapatkan daftar calon cabang mutakhir yang baru.
Berikut ini adalah contoh penerapan algoritme CART pada masalah klasifikasi
terhadap data 8 nasabah pada Tabel 5.1.
A. Langkah Pertama Algoritme CART
Langkah pertama algoritme CART adalah menyusun calon cabang (candidate split).
Penyusunan ini dilakukan terhadap seluruh variabel prediktor secara lengkap
(exhaustive). Pada kasus ini yang menjadi variabel prediktor seluruhnya adalah
tabungan, aset, dan pendapatan. Mari kita susun calon cabang yang lengkap untuk
masing-masing variabel prediktor ini.
Perhatikanlah bahwa pembuatan calon cabang akan selalu patuh pada ciri khas algoritme
CART, yaitu adanya noktah keputusan yang selalu bercabang duo atau bercabang biner.
Colon cabang untuk variabel prediktor tabungan adalah sebagai berikut:
1. tabungan = Rendah, dan tabungan = (Sedang, Tinggi),
2. tabungan = Sedang, dan tabungan = (Rendah, Tinggi), dan
3. tabungan = Tinggi, dan tabungan = (Rendah, Sedang).
Colon cabang untuk variabel prediktor aset adalah sebagai berikut:
1. aset = Rendah, dan aset = (Sedang, Tinggi),
2. aset = Sedang , dan aset = (Rendah, Tinggi), dan
3. aset = Tinggi, dan aset = (Rendah, Sedang).
Pada variabel prediktor pendapatan yang sifatnya numerik, calon cabang yang dapat
- 37 -
Diktat Matakuliah Datamining
diusulkan adalah sebagai berikut:
1. pendapatan ≤ 25.000 dan pendapatan > 25.000,
2. pendapatan ≤ 50.000 dan pendapatan > 50.000, dan
3. pendapatan ≤ 75.000 dan pendapatan > 75.000.
Mengingat ciri khas algoritme CART yang setiap noktah keputusannya bercabang
biner, maka calon cabang akan diberi nama calon cabang kiri dan calon cabang kanan.
Selengkapnya, keseluruhan calon cabang disajikan dalam Tabel 1.14.
Tabel 5.2. Daftar calon cabang mutakhir masalah nasabah Bank Bhatara Putra (iterasi-1)
Mungkin ada pertanyaan yang mengganggu kita, yaitu mengapa kita perlu membubuhkan kata
calon pada istilah calon cabang?. Penggunaan kata tersebut memang diperlukan karena
kesembilan calon cabang pads Tabel 5.2. tidak seluruhnya menjadi cabang pada noktah
keputusan. Lalu bagaimana kita menentukan
1. calon cabang manakah yang akan benar-benar menjadi cabang noktah keputusan
2. calon cabang manakah yang tidak atau belum akan menjadi cabang noktah keputusan?
Pertanyaan tersebut akan dijawab pada langkah kedua algoritme CART.
B. Langkah Kedua Algoritme CART (Iterasi-1)
Langkah kedua algoritme ini akan menilai kinerja keseluruhan calon cabang yang ada pada
daftar calon cabang mutakhir. Untuk saat ini daftar calon cabang mutakhir tampak
dalam Tabel 5.2. Lalu bagaimana mengukur kinerja masing-masing calon cabang yang
terdaftar pada daftar tersebut?
Kinerja dari setiap calon cabang akan diukur melalui ukuran yang disebut kesesuaian
(goodness). Kesesuaian dari calon cabang s pada noktah keputusan t dilambangkan
Nomor Colon Cabang
Colon Cabang Kiri Colon Cabang Kanan
1 tabungan = Rendah tabungan = (Sedang, Tinggi) 2 tabungan = Sedang tabungan = (Rendah, Tinggi) 3 tabungan = Tinggi tabungan = (Rendah, Sedang) 4 aset = Rendah aset = (Sedang, Tinggi) 5 asst = Sedang asst = (Rendah, Tinggi) 6 asst = Tinggi aset = (Rendah, Sedang) 7 Pencloputon ≤ 25.000 penclapotan > 25.000 8 Pencloputon ≤ 50.000 pencloputon > 50.000 9 Pendupotan ≤ 75.000 penclopaton > 75-000
- 38 -
Diktat Matakuliah Datamining
dengan Q(s│t) dan didefinisikan sebagai
Q(s│t) = 2 PL PR ∑=
−goriJumlahkate
jRL tjPtjP
1
)()( ………………………………5.1
dalam hal ini
tL = calon cabang kiri dari noktah keputusan t
tR = calon cabang kanan dari noktah keputusan t
Bila didefinsikan besarannya: persamaan 5.1 menjadi
Q(s│t) = 2 PL PR Φ(s│t) ………………………………5.2
Hasil perhitungan nilai kesesuaian bagi tiap calon cabang yang masih terdapat dalam
daftar calon cabang mutakhir, yaitu Tabel 5.2, disajikan dalam Tabel 5.3.
Tabel 5.3. Perhitungan nilai kesesuaian untuk calon cabang 1, 2, 3, 4, 5, 6, 7, 8, 9
Nomor Colon
Cobang PL PR
Resiko Kredit P(j│tL) P(j│tR) 2 PL PR Φ(s│t) Q(s│t)
1 3/8= 0,375 5/8= 0,625 Baik 1/3= 0,333 4/5= 0,8 0,46875 0,933 0,4375 Buruk 2/3= 0,667 1/5= 0,2
2 3/8= 0,375 5/8= 0,625 Baik 3/3= 1 2/5= 0,4 0,46875 1,2 0,5625 Buruk 0/3=0 3/5=0,6 3 2/8=0,250 6/8=0,75 Baik 1/2=0,5 4/6=0,667 0,375 0,333 0,125 Buruk 1/2=0,5 2/6=0,333
4 2/8=0,250 6/8=0,75 Baik 0/2=0 5/6=0,833 0,375 1,667 0,625 Buruk 2/2=1 1/6=0,167 5 4/8=0,500 4/8=0,5 Baik 3/4=0,75 2/4=0,5 0,5 0,5 0,25
Buruk 1/4=0,25 2/4=0,5 6 2/8=0,250 6/8=0,75 Baik 2/2=1 3/6=0,5 0,375 1 0,375
- 39 -
Diktat Matakuliah Datamining
Buruk 0/2=0 3/6=0,5 7 3/8=0,375 5/8=0,625 Baik 1/3=0,333 4/5=0,8 0,46875 0,933 0,4375
Buruk 2/3=0,667 1/5=0,2 8 5/8=0,625 3/8=0,375 Baik 2/5=0,4 3/3=1 0,46875 1,2 0,5625
Buruk 3/5=0,6 0/3=0 9 7/8=0,875 1/8=0,125 Baik 4/7=0,571 1/1=1 0,21875 0,857 0,1875
Buruk 3/7=0,429 0/1=0 Untuk mendapatkan gambaran mengenai cars untuk mendapatkan Tabel 5.3, berikut
adalah penjelasan mengenai perhitungan nilai kesesuaian, misalnya bagi calon cabang
nomor 4, yaitu calon cabang yang terdiri atas calon cabang kiri, yaitu asset Rendah, dan
calon cabang kanan, yaitu aset = (Sedang, Tinggi).
Ada 2 buah catatan yang memenuhi syarat aset = Rendah, yaitu catatan B dan G (Iihat
Tabel 1.13). Adapun jumlah catatan pada data latihan yang dipertimbangkan saat ini 8 buah,
yaitu catatan A, B, C, D, E, F, G, dan H, sehingga dari Persamaan diatas
didapatkan:
= 2/8 = 0,25 Ada 6 buah catatan yang memenuhi syarat aset = (Sedang, Tinggi), yaitu catatan A, C, D, E, F,
dan H (lihat Tabel 5.2.). Adapun jumlah catatan pada data latihan yang dipertimbangkan saat ini
8 buah, yaitu catatan A, B, C, D, E, F, G, dan H, sehingga dari Persamaan di atas didapatkan:
Dari dua buah catatan yang memenuhi syarat calon cabang kiri, yaitu aset = Rendah, adalah
catatan B dan G:
1. tak ada di antaranya yang memenuhi kategori risiko kredit Baik sehingga dari Persamaan di
atas didapatkan:
2. keduanya memenuhi kategori risiko kredit = Buruk sehingga dari Persamaan di atas
didapatkan: :
- 40 -
Diktat Matakuliah Datamining
Enam buah catatan yang memenuhi syarat calon cabang kanan, yaitu aset = (Sedang, Tinggi) adalah
catatan A, C, D, E, F, dan H:
1. Lima catatan di antaranya, yaitu catatan A, D, E, F, dan H, memenuhi kategori risiko kredit
= Baik sehingga dari Persamaan di atas didapatkan:
2. Satu catatan di antaranya, yaitu catatan C, memenuhi kategori risiko kredit = Buruk
sehingga dari Persamaan di atas didapatkan:
Selanjutnya didapatkan:
1. nilai dari besaran
2PLPR =2(0,25)(0,75)=0,375
2. nilai dari besaran, lihat Persamaan di atas adalah
Q(s│t) = 2 PL PR ∑=
−goriJumlahkate
jRL tjPtjP
1
)()( =│0 – 0,833│ + │1 – 0,167│ = 1,667
dan akhirnya didapatkan pula = Q(s│t) = 2 PL PR Φ(s│t) = 2(0,25)(0,75)(1,667) = 0,6
Perhitungan nilai kesesuaian terhadap calon cabang nomor 4 dapat diambil analoginya
sehingga pembaca dapat memeriksa perhitungan sejenis terhadap calon cabang yang lain
Selengkapnya, hasil perhitungan itu tersaji pada Tabel 5.3.
C. Langkah Ketiga. Algoritme CART (Iterasi-1)
Langkah ketiga algoritme ini adalah menentukan calon cabang manakah yang akan benar-benar
dijadikan cabang. Hal ini dilakukan dengan memilih calon cabang yang memiliki nilai
kesesuaian Q(s│t) terbesar. Setelah itu, gambarkanlah percabangan sesuai hasil menjalankan
algoritme. Jika tidak ada lagi noktah keputusan, pelaksanaan algoritme CART akan
dihentikan. Namun, jika masih terdapat noktah keputusan, pelaksanaan algoritme dilanjutkan
dengan kembali ke langkah kedua, dengan terlebih dahulu membuang calon cabang yang
telah berhasil menjadi cabang. Dari Tabel 5.3. tampak bahwa calon cabang nomor 4 adalah
calon cabang dengan nilai besaran kesesuaian terbesar daripada calon cabang yang lain maka
calon cabang inilah yang akan kita pilih sebagai cabang pada tahap ini sehingga kita
memperoleh Gambar 5.2. dari iterasi-1 ini.
- 41 -
Diktat Matakuliah Datamining
Dari Gambar 5.2. tampak:
1. Pada noktah dasar kita masih berhadapan dengan seluruh catatan, yaitu catatan A,
B, C, D, E, F, G, dan H.
2. Colon cabang nomor 4 kini telah benar-benar menjadi cabang. Adapun
cabang kir inya , yai tu cabang yang memenuhi syarat aset = Rendah dipenuhi
oleh catatan B dan G, dan karena nilai variabel prediktor bagi kedua catatan ini seluruh
nya adalah risiko kredit = Buruk, maka noktah terminasi akan dihasilkan.
3, Cabang kanannya, yaitu cabang yang memenuhi syarat aset = (Sedang,Tinggi)
dipenuhi oleh catatan A, B, D, E, F, dan H, dan karena nilai variabel prediktor bagi
catatan-catatan ini ada yang memiliki risiko kredit = Buruk, maka dihasilkanlah noktah
keputusan. Karena merupakan noktah keputusan pertama, kita dapat
menyebutnya noktah keputusan A. Noktah ini akan bercabang lebih lanjut
karena bukan termasuk noktah terminasi.
Ini adalah hasil iterasi-1 dalam menjalankan algoritme CART. Dari Gambar 5.2.
tampak jelas bahwa noktah keputusan masih ada sehingga kita harus kembali ke
langkah kedua dan kali ini kita telah mulai memasuki iterasi-2.
D. Langkah Kedua Algoritme CART (Iterasi-2)
Langkah kedua algoritme ini akan menilai kinerja dari keseluruhan calon cabang
yang ada pada daftar calon cabang mutakhir. Untuk saat ini, daftar calon cabang
mutakhir berasal dari daftar sejenis sebelumnya (yaitu, Tabel 5.3) dengan
membuang calon cabang yang telah berhasil menjadi cabang pada langkah-langkah
sebelumnya, seperti yang terlihat pada Tabel 5.4. Daftar calon cabang mutakhir masalah nasabah
Bank Bhatara Putra (iterasi-2)
Gambar 5.2. Pohon keputusan bagai masalah klasifikasi data nasabah Bank Bhatara putra (iterasi-1)
- 42 -
Diktat Matakuliah Datamining
Tampak bahwa Tabel 5.4. sebenarnya berasal dari Tabel 5.2. dengan membuang calon
cabang 4 yang pada langkah ketiga iterasi-1 telah berhasil menjadi cabang.
Hasil perhitungan nilai kesesuaian bagi tiap calon cabang yang masih terdapat
dalam daftar calon cabang mutakhir, yaitu Tabel 5.4, disajikan dalam Tabel 5.5.
Tabel 5.5. Perhitungan nilai kesesuaian untuk calon cabang 1, 2, 3, 5, 6, 7, 8, 9
Nomor Colon
Cobang PL PR Risiko
Kredit P(j│ t
L) P(j│ t R) 2 P LP R Q ( s│ t ) Φ ( s│ t )
1 1/6=0,167 3/6=0,833 Baik 1/1=1 4/5=0,8 0,27778 0,933 0,25926 Buruk 0/I=0 1/5=0,2
2 3/6=0,5 3/6=0,500 Baik 3/3=1 2/3=0,667 0,5 0,667 0,33333 Buruk 0/3=0 1/3=0,333
3 2/6=0,333 4/6=0,667 Baik 1/2=0,5 4/4=1 0,44444 1,000 0,44444 Buruk 1/2=0,5 0/4=0
4
5 4/6=0,667 2/6=0,333 Baik 3/4=0,75 2/2=1 0,44444 GMG 0,22222
Buruk 1/4=0,25 0/2=0 6 2/6=0,333 4/6=0,667 Baik 2/2=1 3/4=0,75 0,44444 0,500 0,22222 Buruk 0/2=0 1/4=0,25
7 2/6=0,333 4/6=0,667 Boik 1/2=0,5 4/4=1 0,44444 1,000 0,44444
Buruk 1/2 =0,5 0/4=0 8 3/6=0,5 3/6=0,5 Baik 2/3=0,667 3/3=1 0,5 0,667 0,33333
Buruk 1/3=0,333 0/3=0 9 5/6=0,833 1/6=0,167 Boik 4/5=0,8 1/1=1 0,27778 0,400 0,11111
Buruk 1/5=0,2 0/1=0
.Nomor Colon Cabang
Colon Cabang Kiri Colon Cabang Kanan
1 tabungan = Rendah tabungan = (Sedang, Tinggi) 2 tabungan = Sedang tabungan = (Rendah, Tinggi) 3 tabungan = Tinggi tabungan = (Rendah, Sedang) 5 Asset = Sedang aset = (Rendah, Tinggi) 6 Asset = Tinggi Asset = 9rendah, tinggi0 7 pendapatan ≤ 25.000 pendapatan > 25.000 8 Pendapatan ≤ 50.000 pendapatan > 50.000 9 Pendapatan ≤ 75.000 pendapatan > 75.000
- 43 -
Diktat Matakuliah Datamining
Untuk mendapatkan gambaran mengenai caras mendapatkan Tabel 5.5. berikut ini
adalah penjelasan terhadap perhitungan nilai kesesuaian, misalnya saja bagi calon
cabang nomor 3, yaitu calon cabang yang terdiri atas calon cabang kiri (tabungan =
Tinggi) dan calon cabang kanan (tabungan = [Rendah, Sedang]).
Hendaknya kita tidak lupa bahwa noktah yang tengah kita kerjakan percabangan
nya saat ini adalah noktah keputusan A dan noktah ini hanya menyangkut catatan
1, 3, 4, 5, 6, dan 8. Dari catatan-catatan pada noktah keputusan A, terdapat 2 buah catatan
yang memenuhi syarat tabungan = Tinggi yaitu catatan C dan F (lihat Tabel 5.4).
Adapun jumlah catatan pada data latihan yang dipertimbangkan saat ini 6 buah,
yaitu catatan A, C, D, E, F, dan H sehingga dari Persamaan diatas didapatkan:
Selain itu terdapat 4 buah catatan yang memenuhi syarat tabungan = (Rendah,
Sedang) yaitu catatan A, D, E, dan H (lihat Tabel 1.13). Adapun jumlah catatan pada data
latihan yang dipertimbangkan saat ini 6 buah, yaitu catatan A, C, D, E, F, dan H sehingga
dari Persamaan di atas didapatkan:
Dari dua buah catatan yang memenuhi syarat calon cabang kiri, tabung = Tinggi yaitu C dan F 1. Satu catatan di antaranya, yaitu catatan F, memenuhi kategori risiko kredit =
Baik sehingga dari Persamaan di atas didapatkan:
2. Satu catatan lainnya, yaitu catatan C, memenuhi kategori r isiko kredit =
Buruk sehingga dari Persamaan di atas didapatkan:
- 44 -
Diktat Matakuliah Datamining
Dari empat buah catatan yang memenuhi syarat calon cabang kanan, tabungan = (Rendah,
Sedang), yaitu catatan A, D, E, dan H:
1. Semuanya memenuhi kategori risiko kredit = Baik sehingga dari Persamaan di atas
didapatkan:
2. Tidak ada catatan yang memenuhi kategori risiko kredit Buruk sehingga dari Persamaan di
atas didapatkan:
Selanjutnya didapatkan:
1. nilai dari besaran
2PLPR = 2(0,333)(0,667) = 0,4444
2. nilai dari besaran
Q(s│t) = ∑=
−goriJumlahkate
jRL tjPtjP
1
)()( =│0,5 – 1│ + │0,5 – 0│ = 1
dan akhirnya didapatkan pula
Q(s│t) = 2 PL PR Φ(s│t) = 2(0,333)(0,667)(I)=0,4444
Perhitungan nilai kesesuaian terhadap calon cabang nomor 3 dapat diambil analoginya
sehingga pembaca dapat memeriksa perhitungan sejenis terhadap calon cabang yang lain.
Selengkapnya hasil perhitungan tersaji pada Tabel 1.17
E. Langkah Ketiga Algoritme CART (Iterasi-2)
Langkah ketiga algoritme ini adalah menentukan calon cabang manakah yang akan benar-
benar dijadikan cabang. Hal ini ditempuh dengan memilih calon cabang yang
memiliki nilai kesesuaian Φ(s│t) terbesar. Setelah itu gambarkanlah percabangan sesuai
hasil menjalankan algoritme. Jika tidak ada lagi noktah keputusan pelaksanaan
algoritme CART akan dihentikan. Namun, jika masih terdapat noktah keputusan,
pelaksanaan algoritme dilanjutkan dengan kembali ke langkah kedua, dengan terlebih
dahulu membuang calon cabang yang telah berhasil menjadi cabang.
Dari Tabel 5.5 tampak bahwa calon cabang nomor 3 dan 7 adalah calon cabang dengan
nilai besaran kesesuaian terbesar daripada calon cabang yang lain maka salah satu
- 45 -
Diktat Matakuliah Datamining
dari calon cabang itulah yang akan kita pilih pada tahap ini sehingga kita memperoleh
Gambar 5.3. dari iterasi-2.
Gambar 5.3. Pohon keputusan bagi masalah klasifikasi data nasabah
Bank Bhatara Putra (iterasi-2)
Dari Gambar 5.3. terlihat bahwa:
1. Pada noktah keputusan A, kita masih berhadapan dengan catatan A, C, D, E, F, H.
2. Colon cabang nomor 3 kini telah benar-benar menjadi cabang. Adapun
cabang ki r inya , ya i tu cabang yang memenuhi syarat tabungan = Tinggi
dipenuhi oleh catatan C dan F. Karena kedua catatan tersebut memiliki nilai variabel
prediktor yang berbeda, maka dihasi lkanlah noktah keputusan. Karena
merupakan noktah keputusan kedua, kita dapat menyebutnya noktah keputusan B, dan
sesuai dengan namanya, noktah ini akan bercabang lagi.
- 46 -
Diktat Matakuliah Datamining
3. Cabang kanannya, yaitu cabang yang memenuhi syarat tabungan = (Rendah,
Sedang) dipenuhi oleh catatan A, D, E, dan H, dan karena nilai variabel
prediktor bagi catatancatatan ini semuanya soma, yaitu risiko kredit = Baik, maka
dihasilkanlah noktah terminasi. Sesuai dengan namanya, noktah tersebut tidak akan
bercabang lagi.
Ini adalah hasil iterasi-2 dalam menjalankan algoritme CART. Dari Gambar 1.8.
tampak jelas bahwa noktah keputusan masih ada sehingga kita hares kembah ke
langkah kedua, dan kah ini kita telah memulai memasuki iterasi-3.
F. Langkah Kedua Algoritme CART (Iterasi-3)
Langkah kedua algori tme ini akan meni lai kiner ja dari keseluruhan calon
cabang yang ada pada daftar calon cabang mutakhir. Untuk saat ini, daftar calon
cabang mutakhir berasal dari daftar sejenis sebelumnya (Tabel 5.2.), dengan
membuang calon cabang yang telah berhasil menjadi cabang pada langkah-langkah
sebelumnya.
Tabel 5.6. Daftar calon cabang mutakhir masalah nasabah Bank Bhatara Putra (iterasi-3)
Tampak bahwa Tabel 5.6. sebenarnya berasal dari Tabel 5.4, yang telah membuang calon
cabang 3 yang pada langkah ketiga iterasi-2 telah berhasil menjadi cabang. Selanjutnya, hasil
perhitungan nilai kesesuaian bagi tiap calon cabang yang masih terdapat dalam daftar calon
cabang mutakhir (Tabel 5.6) disajikan dalam Tabel 5.7.
Cabang Nomor Colon
Colon Cabang Kiri Colon Cabang Kanan
1 tabungan = Rendah tabungan = (Sedang, Tinggi) 2 tabungan = Sedang tabungan = (Rendah, Tinggi) 5 aset = Sedang aset = (Rendah, Tinggi) 6 aset = Tinggi aset = (Rendah, Sedang) 7 pendapatan ≤ 25.000 pendapatan > 25.000 8 Pendapatan ≤ 50.000 pendapatan > 50.000
9 Pendapatan ≤ 75.000 pendapatan > 75.000
- 47 -
Diktat Matakuliah Datamining
Tabel 5.7. Perhitungan nilai kesesuaian untuk calon cabang I, 2, 5, 6, 7, 8, 9
G. Langkah Ketiga Algoritme CART (Iterasi-3)
Langkah ketiga algoritme ini adalah menentukan calon cabang manakah yang akan benar-benar
dijadikan cabang. Hal ini ditempuh dengan memilih calon cabang yang memiliki nilai
kesesuaian Φ(s│t) terbesar. Setelah itu, gambarkanlah percabangan sesuai hasil menjalankan
algoritme. Jika tidak ada lagi noktah keputusan, pelaksanaan algoritme CART akan dihenti-
kan. Namun jika masih ada noktah keputusan pelaksanaan algoritme dilanjutkan dengan
kembali ke langkah kedua, dengan terlebih dahulu membuang calon cabang yang telah berhasil
menjadi cabang.
Dari Tabel 5.7. tampak bahwa calon cabang nomor 5 don 6 adalah calon cabang dengan nilai
besaran kesesuaian terbesar daripada calon cabang lainnya. Oleh karena itu salah satu dari
calon cabang itulah yang akan kita pilih pada tahap ini sehingga kita memperoleh Gambar 5.4.
(yang identik dengan Gambar 51. ) pads iterasi-3 ini.
Karena Gambar 5.5.(Pohon keputusan bagi masalah klasifikasi data nasabah Bank Bhatara Putra
(Iterasi-3)) sama persis dengan Gambar 5.4. maka tidak perlu digambar lagi.
Nomor Colon
Cabang PL PR Risiko
Kredit p(j│tL) P(j│tR) 2 P LP R Q ( s│t ) (D(s│t)
1 0/2=0 2/2=1 Baik 0 1/2=0,5 0 1,000 0 Buruk 0 1/2=0,5 2 0/2=0 2/2=1 Baik 0 1/2=0,5 0 1,000 0 Buruk 0 1/2=0,5 3 4
5 1/2=0,5 1/2=0,5 Baik 0/1 =0 1 /1=1 0,5 2,000 1 Buruk 1/1=1 0/1=0
6 1/2=0,5 1/2=0,5 Baik 1/1=1 0/1 =0 0,5 2,000 1 Buruk 0 /1=0 1 /1=1
7 2/2=1 0/2 =0 Baik 1/2=0,5 0/2=0 0 1,000 0 Buruk 1/2=0,5 0/2=0
8 2/2= 1 0/2= 0 Baik 1/2= 0,5 0 0 1,000 0 Buruk 1/2= 0,5 0
9 2/2= 1 0/2= 0 Baik 1/2= 0,5 0 0 1,000 0 Buruk 1/2= 0,5 0
- 48 -
Diktat Matakuliah Datamining
Dari Gambar 5.4. terlihat bahwa
1. Pada noktah keputusan B, kita masih berhadapan dengan 2 catatan, yaitu catatan C dan F.
2. Calon cabang nomor 5 kini telah benar-benar menjadi cabang. Karena
cabang kir inya, yai tu cabang yang memenuhi syarat (aset = Medium) hanya
diisi oleh sebuah catatan saja (catatan C), noktah terminasi akan dihasilkan
sehingga noktah ini tidak akan bercabang lagi.
3. cabang kanannya, yaitu cabang yang memenuhi syarat tabungan = (Rendah,
Tinggi) dipenuhi oleh catatan F. Karena menjadi satu-satunya catatan pada
cabang ini, noktah terminasi akan dihasilkan. Sesuai dengan namanya, noktah
tersebut tidak akan bercabang lagi.
Karena pada akhir langkah ketiga iterasi-3 ini tidak ada lagi noktah keputusan,
iterasi akan dihentikan dan Gambar 5.5. adalah pengetahuan yang dihasilkan dari
fungsi klasifi-kasi pada data mining.
5.4. Klasifikasi Pengembangan Selanjutnya.
Apakah algoritme CART merupakan satu-satunya algoritme bagi pemecahan
masalah klasifikasi? Ternyata tidak! Para peneliti dan pakar data mining tak
pernah lelah mencoba merancang algoritme baru bagi pemecahan masalah klasifikasi.
Pembaca yang menaruh minat untuk mendalami algoritme klasifikasi lain dapat
mempelajari algoritme berikut (Berry dan Browne, 2006):
1. Algoritme mean vector,
2. Algoritme k-nearest neighbor, bor,
3. Algoritme ID3,
4. Algoritme C4.5, dan
5. Algoritme C5.0.
Pada bab ini telah menguraikan beberapa hal yang terkait dengan masalah klasifikasi, yaitu
1. Istilah-istilah dasar pada masalah klasifikasi,
2. Contoh prototipe masalah klasifikasi dan pengetahuan yang dihasilkannya beserta
interpreta-sinya, dan
3. Detail langkah-langkah yang dijalani oleh salah satu algoritme yang digunakan data
mining dalam menjalankan fungsi mayor pertamanya, yaitu algoritme CART
(Classification and Regression Trees).
Dengan mencoba mendalami salah satu algoritme klasifikasi, yaitu CART penulis yakin
bahwa pembaca akan memiliki dasar yang kuat untuk mempelajari algoritme lain bagi
masalah klasifikasi.
- 49 -
Diktat Matakuliah Datamining
VI. FUNGSI MAYOR UNTUK PENGELOMPOKAN Sebagai gambaran Anda akan diberi data tentang 8 nasabah yang pernah
memperoleh kredit dari Bank Bhatara Putra. Selain itu data mereka kali ini
menyankut jumlah rumah dan mobil yang mereka miliki. Data selengkapnya
disajikan dalam Tabel 6.1.
Tabel 6.1. Data jumlah rumah dan mobil yang dimiliki 8 nasabah Bank Bhatara Putra
Nasabah Jumlah Rumah Jumlah Mobil A 1 3 B 3 3 C 4 3 D 5 3 E 1 2 F 4 2 G 1 1 H 2 1
Kita akan mencoba menyimak, merenungkan, dan mempelajari data pada Tabel
1.20. sehingga diharapkan kelak kita dapat mengelompokkan (clustering) kedelapan
nasabah tersebut ke dalam dua a tau leb ih ke lompok nasabah. Pengelompokan
yang diharapkan adalah pengelompokan yang mampu menghasilkan kelompok nasabah yang
memenuhi sifat berikut.
1. Nasabah yang jumlah rumah dan mobilnya hampir sama akan berada pada
kelompok nasabah yang sama,
2. Nasabah yang jumlah rumah dan mobilnya cukup berbeda akan berada pada
kelompok nasabah yang berbeda.
Bab ini akan membahas fungsi mayor kedua data mining, yaitu pengelompokan.
Pembahasannya akan mencakup:
1. Pengenalan beberapa istilah dasar
Bagian ini akan memudahkan kita untuk mengikuti pembahasan tentang masalah
pengelompokan.
2. Prototipe masalah pengelompokan dan pengetahuan yang dihasilkannya
Bagian ini memberikan contoh atau ilustrasi yang akan memudahkan kita dalam
mendapatkan gambaran mengenai apakah yang sebenarnya menjadi input serta
pengetahuan apakah yang menjadi output dari fungsi mayor pengelompokan.
Selanjutnya interpretasi terhadap pengetahuan yang menjadi produk dari fungsi mayor
pengelompokan akan diberikan.
- 50 -
Diktat Matakuliah Datamining
3. Algoritme pengelompokan
Bagian ini membahas detail langkah-langkah yang dijalani oleh salah satu algoritme
yang digunakan data mining dalam menjalankan fungsi mayor keduanya yaitu
algoritme k-means.
4. Pengembangan selanjutnya
Bagian ini berisi informasi yang dapat digunakan para pembaca yang tertarik untuk
mempelajari algoritme-algoritme lain yang dapat menjalankan fungsi mayor
pengelompokan.
6.1. Pengenalan Beberapa istilah dasar
Pada masalah pengelompokan, hal-hal yang akan dikelompokkan disebut objek atau
catatan. Dalam Tabel 6.1. objek dapat mengambil bentuk kedelapan nasabah yang akan
dikelompokkan. Setiap objek dibedakan (dari objek lain) berdasarkan atribut yang dimili-
kinya masing-masing. Dalam kasus pengelompokan terhadap objek pada Tabel 6.1. setiap
objek dicirikan oleh atribut yang berupa jumlah rumah dan mobil yang dimiliki.
Kumpulan dari seluruh atribut disebut data input. Pada masalah pengelompokan terhadap
objek pada Tabel 6.1. data input berupa himpunan dari keseluruhan atribut jumlah
rumah dan mobil yang dimiliki objek (berupa nasabah) yang akan dikelompokkan.
Algoritme pengelompokan akan menggunakan data input, sesuai dengan pengertian data
mining untuk menghasilkan pengetahuan. Pengetahuan apakah yang hendak dihasilkan
dalam pengelompokan? Pengetahuan yang berupa penentuan beberapa kelompok catatan yang
memiliki kemiripan atribut.
Jadi secara ringkas pada pengelompokan catatan-catatan yang memiliki kemiripan atribut
akan dikelompokkan ke dalam salah satu dari sekian kelompok. Adapun catatan-catatan
yang kurang memiliki kesamaan atribut akan ditempatkan pada kelompok yang berbeda.
Masalah pengelompokan secara ringkas dapat digambarkan sebagai berikut.
1. Masalah pengelompokan berangkat dari data input yang tersedia misalnya Tabel 6.1
2. Data input diolah dengan. menggunakan algoritme pengelompokan.
3. Masalah pengelompokan berakhir dengan dihasilkannya 2 atau lebih kelompok
objek sehingga objek-objek yang memiliki kemiripan atr ibut akan dimasuk-
kan ke dalam kelompok yang sama dan objek-objek yang kurang memiliki
kemiripan atribut akan dimasukkan dalam kelompok yang berbeda.
- 51 -
Diktat Matakuliah Datamining
6.2. Prototipe Masalah Pengelempokan dan Pengetahuan yang Dihasilkannya.
Sebagai contoh kedelapan nasabah pada Tabel 6.1. hendak dikelompokkan ke dalam 3
kelompok. Tabel 6.2. adalah contoh hasil pengelompokan, sebagai jawaban bagi
masalah pengelompokan dengan data input seperti yang tertera pada Tabel 6.2. yang
dalam hal ini atributnya berupa jumlah rumah dan mobil setiap nasabah.
Tabel 6.2. Hasil pengelompokan nasabah ke dalam 3 kelompok
Hasil pengelompokan pada Tabel 6.2. merupakan pengetahuan yang dihasilkan dari
fungsi pengelompokan. Bentuk pengetahuan lain yang didapatkan adalah interpretasi
berikut.
1. Kelompok nasabah pertama adalah kelompok yang unik karena hanya memiliki
seorang anggota saja, yaitu nasabah B yang kelak akan menjadi jelas bagi kita
bahwa kelompok ini merupakan kelompok nasabah yang memiliki jumlah
rumah sedang (3 buah) dan jumlah mobil banyak (3 buah).
2. Kelompok nasabah kedua memiliki 4 orang anggota, yaitu. nasabah A, E, G, dan
H, yang kelak akan menjadi jelas bagi kita bahwa kelompok ini merupakan
kelompok nasabah yang memiliki rata-rata jumlah rumah sedikit (1,25 buah)
dan rata-rata jumlah mobil yang sedikit pula (1,75 buah).
3. Kelompok nasabah ketiga memiliki 3 orang anggota, yaitu nasabah C, D, dan. F,
yang kelak akan menjadi jelas bagi kita bahwa kelompok ini merupakan
kelompok nasabah yang memiliki rata-rata jumlah rumah banyak (4,33 buah)
dan rata-rata jumlah mobil yang cukup banyak (2,67 buah).
6.3. Algoritne Pengelompokan k-Means
Pembahasan sebelumnya dapat k i ta r ingkas dalam t iga penjelasan berikut.
1. Pertama kita memiliki data input berupa atribut dari 8 buah catatan nasabah
seperti yang tertera pada Tabel 6.1. dan kita ingin memperoleh pengetahuan mengenai
bagai-mana catatan-catatan itu harus dikelompokkan agar diperoleh kelompok
catatan yang memiliki kemiripan atribut.
2. Kedua, data input itu kelak akan kita jadikan input bagi suatu algoritme,
yang saat ini belum kita ketahui jenis algoritmenya.
Kelompok (Cluster) Anggota Kelompok 1 {B} 2 {A, E, G, H} 3 {C, D, F)
- 52 -
Diktat Matakuliah Datamining
3. Ketiga, sebagai keluaran dari algoritme, yang saat ini belum kita ketahui jenisnya,
kita akan memperoleh pengetahuan berupa kelompok catatan yang memiliki
kemiripan atribut.
Bagian ini akan membahas detail dari salah satu algoritme yang dapat menghasilkan
kelompok catatan yang memiliki kemiripan atribut. Algoritme itu disebut algoritme
pengelompokan k-means yang akan menghasilkan kelompok catatan sebanyak k buah.
Algori tme k-means pertama kal i digagas oleh J . MacQueen (Larose, 2005).
Di bagian ini, kita akan menerapkan algoritme k-means pada data dalam Tabel 6.1.
Langkah-langkah pada algoritme k-means adalah sebagai berikut.
1. Langkah pertama: Tanyakan kepada pemakai algoritme k-means, catatan-catatan
yang ada akan dibuat menjadi berapa kelompok, sebutlah sebanyak k kelompok.
2. Langkah kedua: Secara sembarang, pilihlah k buah catatan (dari sekian catatan
yang ada) sebagai pusat-pusat kelompok awal.
3. Langkah ketiga: Untuk setiap catatan, tentukan pusat kelompok terdekatnya
dan tetapkan catatan tersebut sebagai anggota dari kelompok yang terdekat
pusat kelompoknya. Hitung rasio antara besaran Between Cluster Variation dengan
Within Cluster Variation, lalu bandingkan rasio tersebut dengan rasio sebelumnya
(bila sudah ada). Jika rasio tersebut membesar, lanjutkan ke langkah keempat.
Jika tidak, hentikan prosesnya.
4. Langkah keempat: Perbarui pusat-pusat kelompok (berdasarkan kelompok
yang didapat dari langkah ketiga) dan kembalilah ke langkah ketiga.
Berikut adalah contoh penerapan algoritme k-means pada masalah pengelom-
pokan terhadap data dari 8 nasabah pada Tabel 6.1.
A. Langkah Pertama Algoritme k-means
Apa yang menjadi langkah pertama algoritme k-means? Langkah pertama dari
algoritme k-means adalah menanyakan
kepada pemakai algoritme k-means, catatan-catatan yang ada a k a n d i b u a t
m e n j a d i b e r a p a k e l o m p o k . J i k a j u m l a h kelompoknya tiga, nilai k-nya adalah
3 atau k = 3.
B. Langkah Kedua Algoritme k-means
Pada langkah kedua algoritme ini kita akan secara sembarang memilih k = 3
buah catatan (dari 8 catatan yang ada) sebagai pusat-pusat kelompok awal, misalnya
- 53 -
Diktat Matakuliah Datamining
1. Catatan B sebagai pusat kelompok 1 sehingga m1 (3,3),
2. Catatan E sebagai pusat kelompok 2 sehingga m2 =(1,2), dan
3. Catatan F sebagai pusat kelompok 3 sehingga m3 = (4,2).
C. Langkah Ketiga Algoritme k-means (Iterasi-1)
Pada langkah ketiga algoritme ini setiap catatan akan ditentukan pusat
kelompok terdekatnya. catatan tersebut akan ditetapkan sebagai anggota
kelompok yang terdekat pusat kelompoknya, seperti yang tampak dalam Tabel 6.3.
Tabel 6.3. Perhitungan Jarak catatan ke pusat kelompok dan
penetapan keanggotaan catatan (iterasi-1)
Dari Tabel 6.3. didapatkan keanggotaan sebagai berikut:
1. kelompok 1 (atau C1) = {B},
2. kelompok 2 (atau C2) = {A, E, G, H}, dan
3. kelompok 3 (atau C3) = {C, D, F}.
Pada langkah ini dihitung pula rasio antara besaran Between Cluster Variation
(BCV) dengan Within Cluster Variation (WCV), seperti berikut:
1 . BCV = d(m1, ,m2) + d(m1, ,m3 ) + d(m2 ,m3) = 6,650 (dalam hal ini,
d(mi,mj) menyatakan jarak Euclides dari mi ke mj )
2 . W C V = 1 2 + 0 2 + 1 2 + 1 , 4 1 4 2 + 0 2 + 0 2 + 1 2 + 1 , 4 1 4 2 = 7
Sehingga besarnya rasio adalah
950,0=WCVBCV
Mengingat langkah sebelumnya belum mendapatkan rasio ini, maka perbandingan
rasio belum dapat dilakukan dan algoritme dilanjutkan ke langkah keempat.
Catatan Jarak ke pusat kelompok 1
Jarak ke pusatkelompok 2
Jarak ke pusatkelompok 3
Jarak terdekat ke kelompok
A 2 1 3,162 C2 B 0 2,236 1,414 Cl C 1 3,162 1 C3 D 2 4,123 1,414 C3 E 2,236 0 3 C2 F 1,414 3 0 C3 G 2,828 1 3,162 C2 H 2,236 1,414 2,236 C2
- 54 -
Diktat Matakuliah Datamining
D. Langkah Keempat Algoritme k-means (Iterasi-1)
Pada langkah ini pembaruan pusat-pusat kelompok akan dilakukan seperti
berikut:
1. m1= rata-rata (mB)= (3, 3)
2. m2 = rata-rata (mA, mE, mG, mH) = (1, 25;1,75)
3. m3 = rata-rata (mC , mD, mF) = (4,333; 2,667)
Selanjutnya, kita akan kembah ke langkah ketiga.
E. Langkah Ketiga Algoritme k-means (Iterasi-2)
Pada langkah ketiga algoritme ini, pusat kelompok terdekat dari setiap catatan
akan ditentukan. Tetapkan catatan tersebut sebagai anggota kelompok yang
terdekat pusat kelompoknya, seperti yang tampak dalam Tabel 6.4.
Tabel 6.4. Perhitungan jarak catatan ke pusat kelompok
dan penetapan keanggotaan catatan (iterasi-2)
Dari Tabel 6.4. didapatkan keanggotaan sebagai berikut:
1. kelompok 1 (atau C1) = {B},
2. kelompok 2 (atau C2) = {A, E, G, H}, dan
3. kelompok 3 (atau C3) = {C, D, F}.
Pada langkah ini , rasio antara besaran Between Cluster Variation (BCV) dengan
Within Cluster Variation (WCV) akan dihitung seperti berikut:
1 . B C V = d ( m 1 , m 2 ) + d ( m 1 , m 3 ) + d ( m 2 , m 3 ) = 6 , 7 4 1
(dalam hal ini d(mi,mj) menyatakan jarak Euclides dari mi ke m j)
Catatan Jarak ke
pusat kelompok 1
Jarak ke pusat
kelompok 2
Jarak ke pusat
kelompok 3
Jarak terdekat kekelompok
A 2 1,275 3,350 C2 B 0 1,768 1,374 C1 c 1 3,021 0,471 C3 D 2 3,953 0,745 C3 E 2,236 0,354 3,399 C2 F 1,414 2,813 0,745 C3 G 2,828 0,791 3,727 C2 H 2,236 1,061 2,867 C2
- 55 -
Diktat Matakuliah Datamining
2. WCV=1,2752 + 02 + 0,47 12 + 0 ,7452 + 0,3542 + 0,7452 + 0 ,7912 + 1,0612 = 4,833
sehingga diperoleh besarnya rasio, yaitu
394,1=WCVBCV
Tampak bahwa nilai rasio ini (1,394) membesar dibandingkan rasio sejenis yang
dida-patkan pada langkah sebelumnya (0,950). Oleh karena itu algoritme dilanjutkan ke
langkah keempat.
F. Langkah Keempat Algoritme k-means (Iterasi-3)
Pada langkah ini pembaruan pusat-pusat kelompok akan dilakukan seperti berikut:
1. m1 = rata - rata(mB) = (3,3)
2. m2 = rata-rata (mA, mE, mG, mH) = (1, 25; 1, 75)
3. m3 = rata-rata (mC, mD, mF) = (4,333; 2,667)
Selanjutnya kita akan kembali ke langkah ketiga.
7. Langkah Ketiga Algoritme k-means (Iterasi-3)
Pada langkah ketiga algoritme ini pusat kelompok terdekat untuk setiap catatan
akan ditentukan. Lalu tetapkan catatan tersebut sebagai anggota kelompok
yang terdekat pusat kelompoknya, seperti yang tampak dalam Tabel 6.5.
Tabel 6.5. Perhitungan jarak catatan ke pusat kelompok
dan penetapan keanggotaan catatan (iterasi-3)
Catatan Jarak ke
pusat kelompok 1
Jarak ke
pusat kelompok 2
Jarak ke
pusat kelompok 3
Jorak
terdekat ke kelompok
A 2 1,275 3,350 C2
B 0 1,768 1,374 C1 C 1 3,021 0,471 C3
D 2 3,953 0,745 C3 E 2,236 0,354 3,399 C2
F 1,414 2,813 0,745 C3 G 2,828 0,791 3,727 C2 H 2,236 1,061 2,867 C2
- 56 -
Diktat Matakuliah Datamining
Dari Tabel 6.5. didapatkan keanggotaan sebagai berikut:
1. kelompok 1 (atau C1) = {B},
2. kelompok 2 (atau C2) = {A, E, G, H}, dan
3. kelompok 3 (atau C3) = {C, D, F}.
Pada langkah ini rasio antara besaran Between Cluster Variation (BCV) dengan
Within Cluster Variation (WCV) juga akan dihitung, seperti berikut:
1. BCV = d(m1,m2) + d(m1, m3) + d(m2,m3) = 6,741
(dalam hal ini, d(mi,mj) menyatakan jarak Euclides dari mi ke mj)
2. WCV = 1,275 2 + ()2 + 0,4712 + 0,7452 + 0,3542 + 0,7452 + 0,7912 + 1,0612 = 4,833
sehingga diperoleh besarnya rasio, yaitu
394,1=WCVBCV
Tampak bahwa nilai rasio tersebut (1,394) sudah tidak lagi membesar disbanding
kan dengan rasio sejenis yang didapatkan pada langkah sebelumnya (1,394).
Oleh karena itu algoritme akan dihentikan.
6.4. Pengelompokan Pengembangan Selanjutnya
Apakah algoritme k-means merupakan satu-satunya algoritme bagi pemecahan
masalah pengelompokan? Ternyata tidak! Para peneliti dan pakar data mining tidak
pernah lelah mencoba merancang algoritme baru bagi pemecahan masalah
pengelompokan. Pembaca yang menaruh minat untuk mendalami algoritme pengelompokan
lain dapat mempelajari algoritme berikut (Berry dan Browne, 2006):
1. Algoritme hierarchical clustering,
2. Algoritme partitional clustering,
3. Algoritme single linkage,
4. Algoritme complete linkage,
5. Algoritme average linkage,
6. dan lain-lain.
Jadi pada bab ini telah menguraikan beberapa hal yang terkait dengan masalah
pengelompokan, yaitu ;
- 57 -
Diktat Matakuliah Datamining
1. Istilah-istilah dasar pada masalah pengelompokan,
2. Contoh prototipe masalah pengelompokan dan pengetahuan yang
dihasilkannya beserta interpretasinya, dan
3. Detail langkah-langkah yang dijalani oleh salah satu algoritme yang
digunakan data mining dalam menjalankan fungsi mayor keduanya, yaitu
algoritme k-means.
Dengan mencoba mendalami salah satu algoritme pengelompokan, yaitu k-means,
kita yakin, bahwa kita kini telah memiliki dasar yang kuat untuk mempelajari
algoritme lain bagi masalah ini.
- 58 -
Diktat Matakuliah Datamining
VII. FUNGSI MAYOR UNTUK ATURAN ASOSIASI Sebagai gambaran kita akan diberi data daftar belanja 14 orang pengunjung yang
pernah berbelanja di Toserba Favorit. Data tersebut meliputi item-item belanja
yang dibeli oleh 14 orang tersebut. Data selengkapnya tampak dalam Tabel 7.1.
Tabel 7.1. Daftar item belanja 14 pengunjung Toserba Favorit
Data pads Tabel 7.1. berasal dari masa lampau sehingga data tersebut menjadi data
historis atau data sejarah. Orang bijak selalu belajar dari pengalaman masa lampau,
artinya belajar dari sejarah. Apakah yang hendak kita pelajari dari data historis Tabel
7.1.? Kita akan mencoba menyimak, merenungkan dan mempelajari data pada tabel
tersebut. Harapannya kelak kita dapat menemukan aturan asosiasi (association rule) yang
mampu mengidentifikasi item-item manakah yang seringkali dibeli secara bersamaan oleh
para pengunjung. Bab ini akan membahas fungsi mayor ketiga dari data mining, yaitu
aturan asosiasi. Pembahasannya akan mencakup:
1. Pengenalan beberapa istilah dasar
Bagian ini akan memudahkan kita mengikuti pembahasan berikutnya tentang masalah
aturan asosiasi.
2. Prototipe masalah aturan asosiasi dan pengetahuan yang dihasilkannya
Bagian ini memberikan contoh atau ilustrasi yang akan memudahkan kita dalam
Pengunjung ke- Item Belania yang Dibeli
1 Broccoli, green peppers, corn
2 Asparagus, squash, corn
3 torn, tomatoes, beans, squash
4 Green peppers, corn, tomatoes, beans
5 Beans, asparagus, broccoli
6 Squash, asparagus, beans, tomatoes
7 7amoloes, corn
8 Broccoli; tomatoes, green peppers
9 Squash, asparagus, beans
10 Beans, corn 11 Green peppers, broccoli, beans, squash 12 Asparagus, beans, squash 13 Squash, irorflosparqvs, beans 14 torn, green peppers, tomatoes, beans, bror(oli
- 59 -
Diktat Matakuliah Datamining
mendapat kan gambaran tentang apakah yang sebenarnya menjadi input serta
pengetahuan apakah yang menjadi output fungsi mayor aturan asosiasi. Selanjutnya
interpretasi pada pengetahuan yang menjadi produk fungsi mayor aturan asosiasi akan
diberikan.
3. Algoritme aturan asosiasi
Bagian ini membahas detail langkah-langkah yang dijalani oleh salah satu
algorit-me yang digunakan data mining dalam menjalankan fungsi mayor
ketiganya, yaitu algoritme MBA (Market Basket Analysis).
4. Pengembangan selanjutnya
Bagian ini berisi informasi yang dapat digunakan oleh para pembaca yang tertarik
untuk mempelajari algoritme-algoritme lain yang dapat menjalankan fungsi mayor
aturan asosiasi.
7.1. Pengenalan Beberapa Istilah Dasar
Data historis disebut juga data latihan atau data pengalaman. Mengapa disebut
demikian? Disebut data latihan (training data) karena kita akan berlatih dengan data
tersebut untuk mendapatkan pengetahuan. Dan, disebut data pengalaman karena data
tersebut berasal dari masa lampau.
Algoritme aturan asosiasi akan menggunakan data latihan sesuai dengan pengertian data
mining untuk menghasilkan pengetahuan. Pengetahuan apakah yang hendak
dihasilkan dalam aturan asosiasi? Pengetahuan untuk mengetahui item-item belanja
yang sering dibeli secara bersamaan dalam suatu waktu.
Aturan asosiasi yang berbentuk “if... then ... "atau “jika ... maka ... " merupakan
pengetahuan yang dihasilkan dari fungsi aturan asosiasi. Sebelum kita mempelajari
cara untuk mengha-silkan aturan asosiasi, beberapa istilah yang amat teknis
akan diperkenalkan terlebih dahulu.
Istilah teknis pertama yang harus kita ketahui adalah item, yaitu barang yang dibeli atau
barang yang menjadi objek kegiatan belanja. Jadi, untuk masalah Toserba Favorit,
terdapat tujuh jenis item, yaitu (urut abjad) asparagus, beans, broccoli, corn, green
peppers, squash, dan tomatoes. Himpunan item yang dilambangkan dengan I adalah
himpunan dari semua jenis item yang akan dibahas. Jadi untuk kasus Toserba Favorit
himpunan itemnya dijelaskan dengan persamaan berikut.
- 60 -
Diktat Matakuliah Datamining
Persamaan 7.1
I [Asparagus, Beans, Broccoli, Corn, Green peppers, Squash, Tomatoes]
Himpunan item yang dibeli oleh pengunjung ke-i disebut transaksi ke-i yang
dilambangkan dengan Ti sebagai contoh:
Persamaan 7.2
T1 = {Broccoli, green peppers, corn}
T2 = {Asparagus, squash, corn}
dst
T14 = {Corn, green peppers, tomatoes, beans, broccoli}
Himpunan dari seluruh transaksi dilambangkan dengan D sehingga:
Persamaan 7.3
D = {T1T2, …………………, T14}
Aturan asosiasi yang ingin dihasilkan kelak akan berbentuk implikasi berikut:
Persamaan 7.4
"Jika A, maka B" atau " A ⇒ B ”
Dalam hal ini, A disebut anteseden (atau pendahulu) dari implikasi, sedangkan B
disebut konsekuen (atau pengikut) dari implikasi. sebagai catatan aturan asosiasi
yang kelak akan dihasilkan haruslah memenuhi dua sifat. Pertama baik A
maupun B adalah himpunan bagian murni dari I jadi:
Persamaan 7.5
A,B ⊂ I
Kedua, himpunan A dan B adalah dua himpunan yang saling lepas, jadi:
Persamaan 7.6
A ∩ B = Φ
Salah satu ukuran kinerja bagi aturan asosiasi "A ⇒ B" adalah besaran support (atau
dukungan) yang dilambangkan dengan s(A ⇒ B) dan didefinisikan sebagai:
- 61 -
Diktat Matakuliah Datamining
Persamaan 7.7
s(A ⇒ B) = P(A ∩ B) = Ukuran kinerja yang lain bagi aturan asosiasi "A ⇒ B " adalah besaran support yang
dilambangkan dengan conf( A ⇒ B) dan didefinisikan sebagai:
Persamaan 7.8
conf(A⇒ B) = P(A│B) =
Suatu itemset adalah suatu himpunan yang beranggotakan sebagian atau seluruh
item yang menjadi anggota I. Beberapa contoh dari itemset adalah (Asparagus) atau
[Asparagus, Beans}, demikian jugs dengan [Asparagus, Beans, Squash). Suatu itemset
yang beranggotakan k buah item disebut k-itemset. Jadi:
1. Himpunan [Asparagus) adalah suatu itemset. Lebih spesifik lagi 1-itemset
karena hanya beranggotakan satu buah item saja.
2. Himpunan {Asparagus, Beans} adalah suatu itemset. Lebih spesifik lagi 2-
itemset karena beranggotakan dua buah item.
3. Himpunan [Asparagus, Beans, Squash] adalah suatu itemset. Lebih spesifik
lagi, 3-itemset karena beranggotakan tiga buah item.
Besaran frekuensi itemset mengukur berapa kali sebuah itemset muncul sebagai
bagian atau keseluruhan transaksi yang menjadi anggota daftar transaksi D. Sebagai
contoh:
1. Frekuensi itemset {Asparagus} adalah 6 karena himpunan ini menjadi bagian
dari enam transaksi pada Tabel 7.1. yaitu T2, T5, T6, T9, T12 , dan T13 .
2. Frekuensi itemset {Asparagus, Beans} adalah 5 karena himpunan
inimen-jadi bagian dari lima transaksi pada Tabel 7.1., yaitu T5, T6, T9,
T12 & T13
3. Frekuensi itemset {Asparagus, Beans, Squash} adalah 4 karena
himpunan ini menjadi bagian dari empat transaksi pada Tabel 7.1. yaitu
T6,T9, T12 & T13-
- 62 -
Diktat Matakuliah Datamining
Suatu itemset sering (frequent itemset) adalah suatu itemset yang memiliki frekuensi
itemset minimal sebesar bilangan Φ yang ditetapkan. Sebagai gambaran, bila kita
tetapkan Φ = 4, maka
1. Itemset {Asparagus, Beans, Squash} termasuk itemset sering karena memi-liki frekuensi itemset yang telah melebihi atau minimal sebesar Φ = 4,
2. Itemset {Squash, Tomatoes} tidak termasuk itemset sering karena memiliki frekuensi itemset sebesar 3, artinya masih di bawah nilai Φ yang ditetapkan.
Itemset sering yang memiliki k buah anggota disebut k-itemset sering (frequent k-
itemset), misalnya itemset {Asparagus, Beans, Squash} termasuk 3-itemset sering
karena himpunan ini termasuk itemset sering dan memiliki 3 buah anggota.
Himpunan dari seluruh k-itemset sering dilambangkan dengan Fk. Masalah aturan
asosiasi secara ringkas dapat digambarkan sebagai berikut.
1. Masalah aturan asosiasi berangkat dari data latihan yang tersedia, misalnya
Tabel 7.1. Data latihan diolah dengan menggunakan algoritme aturan
asosiasi.
2. Masalah aturan asosiasi berakhir dengan dihasilkannya sebuah
pengetahuan yang direpresentasikan dalam bentuk sebuah diagram yang
biasa disebut aturan asosiasi.
7.2. Prototipe Masalah Aturan Asosiasi dan Pengetahuan yang Dihasilkannya
Kembali pada data latihan yang tertera pada Tabel 7.1. berikut adalah contoh
aturan asosiasi yang dihasilkan kelak:
"Jika membeli asparagus, maka membeli beans."
Aturan ini dapat diartikan bahwa:
1. Item asparagus mempunyai kecenderungan untuk dibeli bersama-sama dengan
item beans, atau
2. Pengunjung Toserba Favorit yang membeli asparagus, mempunyai kecenderungan
untuk juga membeli beans.
Sebenarnya masih ada banyak aturan asosiasi yang dapat dihasilkan, namun
demikian kiranya
1 dengan pembahasan prototipe masalah aturan asosiasi, kita dapat mengeta-
hui definisi masalah aturan asosiasi, dan
2 . dengan pembahasan in te rpre tas i penge tahuan yang dihasilkan oleh
- 63 -
Diktat Matakuliah Datamining
fungsi mayor aturan asosiasi, kita bisa mengetahui cara memaknai
pengetahuan yang dihasilkan dari masalah ini.
7.3. Algoritme Aturan Asosiasi , MBA (Market Basklet Analysis)
Pembahasan sebelumnya dapat kita ringkas dalam tiga penjelasan. berikut.
1. Pertama, kita memiliki data historis berupa daftar item yang dibeli 14
pengunjung Toserba Favorit seperti yang tertera pada Tabel 7.1. dan. kita
ingin memperoleh pengetahuan yang dapat diaplikasikan untuk
menghasilkan aturan asosiasi sehingga dapat mengetahui item-item
belanja yang sering dibeli bersama-sama oleh para pengunjung.
2. Kedua data itu kelak akan kita jadikan input bagi suatu algoritme yang
saat ini belum kita ketahui jenis algoritmenya.
3. Ketiga sebagai keluaran algoritme yang saat ini belum kita ketahui jenisnya
kita akan memperoleh pengetahuan yang secara sederhana dapat direpre-
sentasikan dalam bentuk pernyataan
Bagian ini akan membahas detail dari salah satu algoritme yang dapat menghasilkan
aturan asosiasi yaitu algoritme MarketBasket Analysis (MBA). Algoritme ini masuk
dalam The Top Ten Algorithms in Data Mining (Wu dan Kumar, 2009).
Langkah-langkah pada algoritme MBA dapat dibagi ke dalam tiga langkah besar
yang kemudian dapat diuraikan menjadi langkah-langkah yang lebih terperinci.
Ketiga langkah besar itu adalah sebagai berikut:
1. Langkah besar pertama, menetapkan besaran. Φ ( l ihat pembahasann konsep
itemset sering), nilai minimum besaran support dan besaran confidence yang
diinginkan untuk dipenuhi oleh aturan asosiasi yang ingin dihasilkan
2. Langkah besar kedua menetapkan semua itemset sering yaitu itemset yang
memi- liki frekuensi itemset minimal sebesar bilangan Φ yang telah ditetapkan
sebelumnya,
3. Langkah besar ketiga dari semua itemset sering hasilkan aturan asosiasi yang
memenu hi nilai minimum support dan. confidence (yang jugs telah ditetapkan).
Berikut adalah contoh penerapan algoritme MBA pada masalah aturan asosiasi
terha-dap data belanja 14 orang pengunjung Toserba Favorit pada Tabel 7.1.
- 64 -
Diktat Matakuliah Datamining
A. Langkah Besar Pertama Algoritme MBA
Apa yang menjadi langkah besar pertama algoritme MBA? Langkah besar
pertama algoritme MBA adalah menetapkan besarnya besaran Φ dan ni la i
minimum sup-port dan. confidence, misalnya Φ=4, maka min(support)=30%, &
min(confidence)= 70%.
B. Langkah Besar Kedua Algoritme MBA
Pada langkah ini kita akan menyusun semua itemset sering yaitu itemset yang
memili ki frekuensi itemset minimal sebesar bilangan Φ = 4 yang telah ditetapkan
pada langkah besar pertama sebelumnya. Kita akan memulainya dengan membahas
setiap 1-itemset berikut:
{Asparagus}, {Beans}, {Broccoli}, {Corn}, {Green peppers}, {Squash}, dan
{Tomatoes} adalah 1-itemset sering karena itemset ini berhasil muncul melebihi Φ
kali, atau 4 kali, dalam daftar D atau, untuk mudahnya, dalam Tabel 1.25. Dengan
demikian
F1 = {{Asparagus}, {Beans}, {Broccoli}, {Corn}, {Green peppers},
{Squash}, {Tomatoes}}.
Kita lanjutkan dengan membahas setiap 2-itemset berikut:
1. {Asparagus, Beans}, {Asparagus, Broccoli}, {Asparagus, Corn}, {Asparagus,
Green peppers}, {Asparagus, Squash}, {Asparagus, Tomatoes}, {Beans,
Broccoli}, {Beans, Corn}, {Beans, Green peppers}, {Beans, Squash}, {Beans,
Tomatoes}, {Broccoli, Corn}, {Broccoli, Green peppers}, {Broccoli, Squash},
{Broccoli, Tomatoes}, {Corn, Green peppers}, {Corn, Squash}, {Corn, Tomatoes},
{Green peppers, Squash}, {Green peppers, Tomatoes}, dan {Squash, Tomatoes}
2. Pembaca dapat menjadikannya sebagai latihan bahwa penelaahan yang
mendalam terhadap keseluruhan 2-itemset tersebut akan membawa kita pada
suatu kesimpulan bahwa hanya {Asparagus, Beans}, {Asparagus, Squash},
{Beans, Corn}, {Beans, Squash}, {Beans, Tomatoes}, {Broccoli, Green peppers}, dan
{Corn, Tomatoes} yang merupakan 2-itemset sering sehingga F2 =
{{Asparagus, Beans}, {Asparagus, Squash}, {Beans, Corn}, {Beans, Squash},
{Beans, Tomatoes}, {Broccoli, Green peppers}, dan {Corn, Tomatoes}}
Untuk meringankan kita dalam mengkaji F3, F4, F5, dan seterusnya gunakan aturan
berikut:
- 65 -
Diktat Matakuliah Datamining
"Jika Z bukan itemset sering, maka Z ∪ A pasti bukan itemset sering, untuk setiap A."
Aturan atau kaidah ini disebut aturan apriori.
Contoh penerapan aturan apriori akan dijelaskan di bagian ini. Dari pembicaraan
sebe- lumnya didapatkan bahwa {Asparagus, Broccoli} bukan 2-itemset sering maka
menurut aturan apriori:
{Asparagus, Broccoli, Corn} merupakan gabungan dari 2itemset {Asparagus,
Broccoli}, yang tidak termasuk ke dalam 2-itemset sering, dengan 1-itemset
sering {Corn}, maka {Asparagus, Broccoli, Corn} tidak akan pernah menjadi
3-itemset sering.
Pembaca dapat menjadikannya sebagai latihan bahwa penerapan a turan apr ior i
terhadap seluruh anggota F2 hanya akan memberikan {Asparagus, Beans,
Squash} sebagai satu-satunya 3-itemset sering sehingga didapatkan:
F3 = {{Asparagus, Beans, Squash}}
Selanjutnya, akan diperoleh:
F4 = F5 = F6 = F7 = Φ
Jadi secara ringkas penerapan langkah besar kedua algoritme MBA akan menghasilkan
himpunan itemset sering F1, F2, dan F3.
C. Langkah Besar Ketiga Algoritme MBA
Pada langkah besar ketiga ini, aturan asosiasi yang memenuhi nilai minimum support
dan confidence (yang juga telah ditetapkan) dari semua itemset sering yang ada akan
dibangun.
Langkah terperinci dari langkah besar ini adalah sebagai berikut:
1. Pertama dari semua itemset sering s yang ada di F2, F3 dan seterusnya, daftarkan semua
himpunan bagian murni yang tak kosong dari s sebutlah ss.
Jadi:
a. untuk s = {Asparagus, Beans}, didapatkan ss ={Asparagus} atau ss ={Beans},
b. untuk s = {Asparagus, Squash}, didapatkan ss = {Asparagus}atau ss= {Squash},
c. untuk s = {Beans, Corn}, didapatkan ss = {Beans} atau ss {Corn},
d. untuk s = {Beans, Squash}, didapatkan ss = {Beans} atau ss = {Squash},
e. untuk s ={Beans, Tomatoes}, didapatkan ss = {Beans} atau ss = {Tomatoes},
f. untuk s = {Broccoli, Green peppers}, didapatkan ss {Broccoli}atau ss= {Green
peppers}
- 66 -
Diktat Matakuliah Datamining
g. untuk s = {Corn, Tomatoes}, didapatkan ss = {Corn} atau ss = {Tomatoes},
h. untuk s = {Asparagus, Beans, Squash}, didapatkan ss = {Asparagus}, atau ss =
{Beans}, atau ss = {Squash} atau ss = {Asparagus, Beans}, atau ss =
{Asparagus, Squash}atau ss= {Beans, Squash}.
2. Kedua bentuk aturan asosiasi yang berpola: "Jika ss, maka (s-ss)" atau "s ⇒ (s-ss)"
Untuk mempermudah pilihlah aturan yang hanya berkonsekuen sebuah i tem
saja sehingga (s-ss) hanya beranggotakan sebuah item saja. Jadi untuk
masalah Toserba Favorit didapatkan calon aturan asosiasi pads Tabel 7.2.
Tabel 7.2. Daftar calon aturan asosiasi
Dori Itemset Sering Dihosilkan Aturan Asosiasi Support Confidence (Asparagus, Beans) Jika beli asparagus, maka beli beans 5/14=35,7% 5/6=83,3% Jika beli beans, maka beli asparagus 5/14=35,7% 5/10=50,0% {Asparagus, Squash) Jika beli asparagus, maka beli squash 5/14=35,7% 5/6=83,3% Jika beli squash, maka beli asparagus 5/14=35,7% 5/7=71,4% {Beans,Corn) Jika beli beans, maka beli turn 5/14=35,7% 5/10=50,0% Jika beli corn, maka beli beans 5/14=35,7% 5/8=62,5% {Beans, Squash) Jika beli beans, maka beli squash 6/14=42,9% 6/10=60,0% Jika beli squash, maka beli beans 6/14=42,9% 6/7=85,7% (Beans, Tomatoes) Jika beli beans, maka beli tomatoes 4/14=28,6% 4/10=40,0% Jika beli tomatoes, maka beli beans 4/14=28,6% 4/6=66,7% {Broccoli, Green peppers) Jika bell broccoli; maka beli greeflpepuers 4/14=28,6% 4/5=80,0% Jika bell green peppers, maka beli broccoli 4/14=28,6% 4/5=80,0% (Corn, Tomatoes) Jika beli corn, maka beli tomatoes 4/14=28,6% 4/8=50,0% Jika beli tomatoes, maka beli corn 4/14=28,6% 4/6=66,7% (Asparagus, Beans, Squash)
Jiko beli asparagus dan beans, maka beli squash
4/14=28,6% 4/5=80,0%
Jika beli asparagusdan squash, maka beli beans
4/14=28,6% 4/5=80,0%
Jika beli beonsdan squash, maka beli asparagus
4/14=28,6% 4/6=66,7%
3. Ketiga, pilih aturan asosiasi yang memenuhi nilai minimum (support) dan minimum
(confidence) saja. Adapun aturan asosiasi yang memenuhi batasan min (support) = 30%
dan min (confidence) = 70% tampak pads Tabel 7.3.
- 67 -
Diktat Matakuliah Datamining
Tabel 7.3. Daftar aturan asosiasi yang memenuhi syarat min (support) = 30% dan min (confidence) = 70%
Dari itemset sering Dihasilkan aturan asosiasi Support Confidence
{Asparagus, Beans) Jika bell asparagus, maka beli beans 5/14=35,70/o 5/6=83,3% {Asparagus, Squash) Jika beli asparagus, maka beli squash 5/14=35,7% 5/6=83,3% Jika beli squash, maka beli asparagus 5/14=35,70/o 5/7=71,4% {Beans, torn) Jika beli corn, maka beli beans 5/14=35,70/o 5/8=62,5%
{Beans, Squash) Jika beli beans, maka bell squash 6/14=42,9% 6/10=60,0% Jika bell squash, maka bell beans 6/14=42,9% 6/7=85,7%
7.4. Aturan Asosiasi Pengembangan Selanjutnya
Apakah algoritme MBA merupakan satu-satunya algoritme bagi pemecahan masalah aturan
asosiasi? Ternyata tidak! Para peneliti dan pakar data mining tak pernah lelah
mencoba merancang algoritme baru bagi pemecahan masalah aturan asosiasi. Pem-
baca yang menaruh minat untuk mendalami algoritme aturan asosiasi lain dapat
mempelajari algoritme berikut (Berry dan Browne, 2006):
1. algoritme Generalized Association Rules,
2. algoritme Quantitative Association Rule, dan
3. algoritme Asynchronous Parallel Mining.
Pada bab ini menguraikan beberapa hal yang terkait dengan masalah aturan asosiasi,
yaitu
1. istilah-istilah dasar pada masalah aturan asosiasi,
2. contoh prototipe masalah aturan asosiasi dan pengetahuan yang dihasilkannya
beserta interpretasinya, dan
3. detail langkah-langkah yang yang dijalani oleh salah satu algoritme yang
diguna-kan data mining dalam menjalankan fungsi mayor ketiganya, yaitu
algoritme MBA (Market Basket Analysis).
Dengan mencoba mendalami salah satu algoritme aturan asosiasi, yaitu MBA,
penulis yakin bahwa kini pembaca telah memiliki dasar yang kuat untuk mempelajari
algoritme lain bagi masalah ini.