Tugas Akhir Data Mining

Nama : Nuriyadi

MIM : 10751000260

Jur/Lok : TIF/ VI D

B.study : Data mining

1. Iterative Dichotomiser 3 (ID3)Algoritma ID3

Iterative Dichotomiser 3 (ID3) merupakan sebuah metode yang

digunakan untuk membangkitkan pohon keputusan. Algoritma pada

metode ini berbasis pada Occam’s razor: lebih memilih pohon keputusan

yang lebih kecil (teori sederhana) dibanding yang lebih besar. Tetapi tidak

dapat selalu menghasilkan pohon keputusan yang paling kecil dan

karena itu occam’s razor bersifat heuristik. Occam’s razor diformalisasi

menggunakan konsep dari entropi informasi. Berikut algoritma dari ID3,

Input : sampel training, label training, atribut

• Membuat simpul akar untuk pohon yang dibuat

• Jika semua sampel positif, berhenti dengan suatu pohon dengan satu

simpul akar, beri label (+)

• Jika semua sampel negatif, berhenti dengan suatu pohon dengan satu

simpul akar beri label (-)

• Jika atribut kosong, berhenti dengan suatu pohon dengan satu simpul

akar, dengan label sesuai nilai yang terbanyak yang ada pada label

training

• Untuk yang lain, Mulai

- A atribut yang mengklasifikasikan sampel dengan hasil terbaik

(berdasarkan gain ratio)

- Atribut keputusan untuk simpul akar A

- Untuk setiap nilai, vi, yang mungkin untuk A,

o Tambahkan cabang dibawah akar yang berhubungan dengan A =vi

o Tentukan sampel Svi sebagai subset dari sampel yang mempunyai

nilai vi untuk atribut A

o Jika sampel Svi kosong,

- Dibawah cabang tambahkan simpul daun dengan label = nilai

yang terbanyak yang ada pada label training

- Yang lain, tambah cabang baru dibawah cabang yang

sekarang

- C4.5(sampel training, label training, atribut-[A])

• Berhenti

Permasalahan

Berdasarkan latar belakang diatas salah satu pokok permasalahan yang

diangkat adalah memperoleh pengetahuan dan mengidentifikasi mahasisiwa

baru yang akan diterima disebuah universitas sehingga akan memberikan

kemudahan bagi pihak universitas untuk menentukan siapa saja yang berhak

masuk atau diterima berdasarkan kriteria tertentu dalam hal ini nilai SPMB,

nilai UAN (Ujian Akhir Nasional) dan nilai psikotest. Metode atau cara

yang digunakan adalah membentuk pohon keputusan dengan algoritma

Iterative Dichotomicer 3 (ID3).

Entropy dan Information Gain

Sebuah obyek yang diklasifikasikan dalam pohon harus dites nilai

entropinya. Entropy adalah ukuran dari teori informasi yang dapat

mengetahui karakteristik dari impuryt ,dan homogenity dari kumpulan data.

Dari nilai entropy tersebut kemudian dihitung nilai information gain (IG)

masing-masing atribut.

Entropy(S) = -p+log2p+-p-log2p-

dimana :

S adalah ruang (data) sample yang digunakan untuk training.

P+ adalah jumlah yang bersolusi positif (mendukung) pada data sample

untuk kriteria tertentu.

P+ adalah jumlah yang bersolusi negatif (tidak mendukung) pada data

sample untuk kriteria tertentu.

Dari rumus entropy diatas dapat disimpulkan bahwa definisi entropy adalah,

entropy (S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat

mengekstrak suatu kelas (+ atau -) dari sejumlah data acak pada suatu ruang

sampel S. Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan

suatu kelas. Semakin kecil nilai entropy maka semakin baik digunakan dalam

mengekstraksi suatu kelas. Panjang kode untuk menyatakan informasi secara

optimal adalah –log2p bits untuk messages yang mempunyai probabilitas p.

Sehingga jumlah bit yang diperkirakan untuk mengekstraksi S ke dalam

kelas adalah : - p+log2 p+ - p- log2 p-

Information Gain

setelah mendapat nilai entropy untuk suatu kumpulan data, maka kita dapat

mengukur efektivitas suatu atribut dalam mengklasifikasikan data. Ukuran

efektifitas ini disebut information gain. Secara matematis, infomation gain

dari suatu atribut A,dituliskan sebagai berikut :

Gain(S,A) = Entropy(S) – Entropy(Sv),

dimana :

A : atribut

V : menyatakan suatu nilai yang mungkin untuk atribut A

Values(A) : himpunan yang mungkin untuk atribut A

|Sv| : jumlah sampel untuk nilai v

|S| : jumlah seluruh sampel data

Entropy(Sv): entropy untuk sampel-sampel yang memilki nilai v

METODE

a. Mencari sampel data yang akan digunakan untuk melaksanakan proses

transformasi menjadi pengetahuan

b. Menghitng nilai entropy dan information gain untuk menentukan the best

classifier

c. Melakukan konstruksi pohon keputusan

d. Lakukan operasi conjunction ( ^ ) pada setiap simpul yang dikunjungi

sampai ditemukan leaf node.

PEMBAHASAN

DESKRIPSI PERMASALAHAN

Data penerimaan Mahasiswa

Terdapat 11 orang mahasiswa yang mengikuti seleksi penerimaan mahasiswa

baru (SPMB) dengan memperhatikan 3 parameter / atribut penilaian

Tiga parameter / atribut :

1. Nilai SPMB dikelompokkan dalam 3 kategori (Tinggi, sedang, Rendah )

2. UAN dikelompokkan dalam 3 kategori ( bagus, cukup, kurang )

3. Psikotest dikelompokkan dalam 2 kategori ( baik dan buruk)

Untuk data yang lengkap seharusnya terdapat 3 x 3 x 2 = 18 kombinasi

sampel data, tetapi dalam tabel kombinasi dibawah hanya terdapat 11 sampel

data artinya masih ada 7 sampel data lain yang belum diketahui. Contoh : [

nilai SPMB „Tinggi” UAN „Kurang” Psikotest „Buruk” ]. Kita tidak bisa

menetukan peserta SPMB tersebut diterima atau tidak.

Dengan Decision Tree menggunakan algoritma ID3 aturan atau data yang

belum diketahui bisa kita temukan sehingga kita bisa menentukan seoarang

peserta tes diterima atau tidak.

pada data penerimaan mahasiswa, jumlah kelas adalah 2, yaitu : „ya” dan

„tidak” (c = 2 ).

Jumlah sampel kelas 1 („ya”) adalah 8 dan jumlah sampel untuk kelas 2

(„tidak) adalah 3 . jadi p1 = 8 dan p2 = 3. Dengan demikian entropy untuk

kumpulan sampel data S adalah :

Entropy (S) = - ( 8/11) log2 ( 8/11) – (3/11) log2 (3/11)

= 0,8454

Dari table missal atribut Diterima=“ya” merupakan sampel (+), dan atribut

Diterima=“Tidak” merupakan sampel (-) , dari sampel data pada table

didapat :

Values (nil.SPMB) = Tinggi, Sedang, Rendah

S = [ 8+ , 3- ] , | S | = 11

STinggi = [ 3+ , 1- ] , | STinggi | = 4

Ssedang = [ 3+ , 1- ] , | Ssedang | = 4

SRendah = [ 2+, 1- ] , | SRendah | = 3

Hitung entropy STinggi , Ssedang , SRendah dan Information Gain Untuk

nilai SPMB adalah :

Entropy (S) = 0,8454

Entropy (STinggi) = (-3/4) log2 (3/4) - (1/4) log2 (1/4) = 0,8113

Entropy (Ssedang ) = (-3/4) log2 (3/4) - (1/4) log2 (1/4) = 0,8113

Entropy (SRendah) = (-2/3) log2 (2/3) - (1/3) log2 (1/3) = 0,9183

Information Gain (S, Nil.SPMB)

=Entropy(S)–

= 0,8454 – (4/11)0,8113 – (3/11) 0,9183

= 0,8454 – 0,2950 – 0,2950 – 0,25044

= 0,0049

Values( UAN) = Bagus, Cukup, Kurang

SBagus = [ 3+, 0- ] , | SBagus | = 3

SCukup = [ 4+, 1- ] , | SCukup | = 5

SKurang = [ 1+, 2- ] , | SKurang | = 3

Entropy (SBagus) = (-3/3) log2 (3/3) - (0/3) log2 (0/3)

= 0

menunjukkan entropy minimum karena jumlah sampel pada salah satu kelas

adalah = 0 (keberagaman data minimum).

Entropy (SCukup) = (-4/5) log2 (4/5) - (1/5) log2 (1/5) = 0,72192

Entropy (SKurang) = (-1/3) log2 (1/3) - (2/3) log2 (2/3) = 0,91829

IG (S, UAN) = Entropy ( S) –

= 0,8454 – 0 – (5/11) 0,7219 – (3/11) 0,9183

= 0,8454 – 0,32814 – 0,25044

= 0,26682

SBaik = [ 6+, 0- ] , | SBaik | = 6

SBuruk = [ 2+, 3- ] , | SBuruk | = 5

Entropy (SBaik) = (-6/6) log2 (6/6) – (0/6) log2 (0/0)

= 0 ( kebergaman data minimum )

Entropy (SBuruk) = (-2/5) log2 (2/5) – (3/5) log2 (3/5)

= 0,97094

IG ( S, Psikotest ) = 0,8454 – 0 – (5/11) 0,97094

= 0,8454 – 0,44134

= 0,40406

Dari perhitugan diatas didapat nilai Information Gain dari ketiga atribut (

Nil.SPMB, UAN, dan Psikotest )

IG ( S, Nil.SPMB) = 0,0049

IG ( S, UAN) = 0,26682

IG ( S, Psikotest) = 0,40406

Dari ketiga nilai Information Gain diatas Gain ( S, Psikotest ) adalah yang

terbesar sehingga atribut Psikotest merupakan the best classifier dan harus

diletakkan sebagai root.

Rekursi Level O iterasi ke-1

Memanggil fungsi ID3 dengan kumpulan sampel berupa semua sampel data

= [ 8+ , 3- ];

Atribut target = „Diterima” dan kumpulan atribut [nil.SPMB, UAN,

Psikotest]

Hitung entropy dan Information Gain untuk menentukan the best classifier

dan meletakkannya sebagai root.

Dari penjelasan sebelumnya didapat nilai Information Gain (S, Psikotest )

sebgai the best classifier karena IG nya terbesar. Setelah mendapat the best

classifier langkah selanjutnya adalah setiap nilai pada atribut Psikotest akan

di cek apakah perlu dibuat subtree di level berikutnya atau tidak.. atribut

Psikotest, ada 2 sampel ( baik dan buruk ). Untuk nilai „Baik” terdapat 6

sampel, berarti sampel baik tidak kosong. Sehingga perlu memanggil fungsi

ID3 dengan kumpulan sampel berupa sampel baik = [6+, 0-] , atribut target

=“Diterima” dan kumpulan atribut ={ nil.SPMB, Psikotest }

Rekursi level 1 iterasi ke 1

Memanggil fungsi ID3 dengan kumpulan sampel berupa sampel baik [6+, 0-]

atribut target = „Diterima” dan kumpulan atribut (nil.SPMB, UAN). Semua

sampel baik termasuk dalam kelas “ya” maka fungsi ini akan berhenti dan

mengembalikan satu simpul tunggal Root dengan label „ya” .

Rekursi level 0 , Itersi ke 2

Pada proses rekursi level 0 , iterasi ke 1, sudah dilakukan pengecekan untuk

atribut „Psikotest” dengan nilai „baik”. Untuk nilai „buruk”, terdapat 5

sampel, berarti Sampelburuk tidak kosong. Sehingga, perlu memanggil

fungsi ID3 dengan kumpulan sampel berupa Sampelburuk = [ 2+, 3- ],

AtributTarget =“Diterima”, dan KumpulanAtribut = { nil.SPMB, UAN }.

Rekursi level 1 iterasi ke 2

Memanggil fungsi ID3 dengan kumpulan sampel berupa Sampelburuk = [2+,

3-], AtributTarget = „Diterima”, dan KumpulanAtribut = { nil.SPMB,

Psikotest }. Pada tahap ini dilakukan perhitungan information gain untuk

atribut nil.SPMB dan UAN . tetapi kumpulan sampel yang diperhitungkan

adalah Sampelburuk dengan 5 sampel data, yaitu [ 2+ , 3- ]. Dengan kata lain

S = Sampelburuk.

Value (nil.SPMB) = Tinggi, Sedang, rendah

S = Sampelburuk = [2+, 3- ] , | S | = 5

STinggi = [1+, 1-] , | STinggi | = 2

SSedang = [1+, 1-] , | SSedang | = 2

SRendah = [0+, 1-] , | SRendah | = 1

Hitung nilai entropy untuk S, STinggi , SSedang , SRendah dan Information

Gain untuk nil.SPMB adalah :

Entropy (S) = - ( 2/5) log2 (2/5) – (3/5) log2 (3/5

= 0,9710

Entropy (STinggi) = - (1/2) log2 (1/2) – (1/2) log2 (1/2)

= 1

Entropy (SSedang) = - (1/2) log2 (1/2) – (1/2) log2 (1/2)

= 1

Entropy (SRendah) = - (0/1) log2 (0/1) – (1/1) log2 (1/1)

= 0

Gain (S, nil.SPMB) = Entropy (S) – Entropy (Sv)

= Entropy (S) – (2/5) Entropy (STinggi) – (2/5)Entropy (SSedang) –

(1/5)Entropy (SRendah)

= 0,9710 – (2/5) 1 – (2/5)1 – 0

= 0,1710

Value (UAN) = Bagus, Cukup, Kurang

S = SampleBuruk = [2+, 3-] , | S | = 5, Entropy (S) = 0,9710

SBagus = [ 0+, 0-] , | SBagus | = 0

SCukup = [2+, 1-] , | SCukup | = 3

SKurang = [0+, 2-] , | SKurang | = 2

Entropy (SBagus) = 0

Entropy (SCukup)= - (2/3) log2 (2/3) – (1/3) log2 (1/3)

= 0,9183

Entropy (SKurang) = 0

Gain (S, UAN) = Entropy (S) – Entropy (Sv)

= Entropy (S) – (0/5) Entropy (STinggi) – (3/5)Entropy (SSedang) –

(2/5)Entropy (SRendah)

= 0,9710 – 0 – (3/5) 0,9183 – 0

= 0,4200

Dari kedua nilai Information Gain diatas, Gain (S, UAN) adalah yang

terbesar. Sehingga UAN adalah atribut yang merupakan the best classifier

dan harus diletakkan sebagai simpul dibawah simpul „Psikotest” pada cabang

nilai „buruk”. Selanjutnya, setiap nilai pada atribut UAN akan dicek apakah

perlu dibuat subtree dilevel berikutnya atau tidak. Untuk nilai „bagus” ( pada

kumpulan sample berupa SampleBuruk = [2+, 3-] ) terdapat 0 sample berarti

SampleBagus kosong. Sehingga, perlu dibuat satu simpul daun (leaf

node,simpul yang tidak punya anak dibawahnya).

Dengan label yang paling sering muncul pada SampleBuruk, yaitu „Tidak„.

Kemudian dilakukan pengecekap untuk atribut „UAN” bernilai „Cukup”.

Untuk nilai „Cukup” ( pada kumpulan sample berupa SampleBuruk = [2+, 3-

] ). Terdapat 3 sample, berarti sample „Cukup” tidak kosong. Sehingga perlu

memanggil fungsi ID3 dengan kumpulan Sample berupa SampleCukup =

[2+, 1-] , AtributTarget = „Diterima”. Dan kumpulan Atribut = { nil.SPMB}.

Rekursi level 2 iterasi ke-1

Memanggil fungsi ID3 dengan kumpulan Sample berupa SampleCukup =

[2+, 1-] AtributTarget = „Diterima” , dan KumpulanAtribut = {nil.SPMB}.

karena kumpulan atribut hanya berisi satu atribut { yaitu nil.SPMB } , maka

atribut yang menjadi the best classifier adalah nil.SPMB dan harus

dilettakkan sebagai simpul dibawah simpul „UAN” pada cabang nilai

„Cukup” . selanjutnya setiap nilai pada atribut nilai.SPMB akan dicek

apakah dibuat subtree dilevel berikutnya atau tidak. Untuk nilai „Tinggi” (

pada kumpulan berupa SampleCukup = [2+, 1-] ), terdapat 1 sampel , berarti

SampleTinggi tidak kosong. Sehingga, perlu memanggil fungsi ID3 dengan

kumpulan sample berupa SampleTinggi = [ 1+, 0-] , AtributTarget =

„Diterima” dan kumpulan atribut = {}.


Memanggil fungsi ID3 dengan kumpulan sample berupa SampleTinggi = [

1+, 0-] , AtributTarget = „Diterima” dan kumpulan atribut = {}. Karena

semua sample pada SampleTinggi termasuk dalam kelas „ya” , maka fungsi

ini akan berhenti dan mengembalikan satu simpul tunggal Root dengan label

„ya”.Selanjutnya, proses akan kembali ke rekursi level 2 iterasi ke-2.


Pengecekan atribut nil.SPMB untuk nilai „Tinggi” sudah dilakukan pada

rekursi level 2 itersi ke-1. Selanjutnya, pengecekan dilakukan pada atribut

nil.SPMB untuk nilai „Sedang” . ternyata terdapat 1 sampel pada kumpulan

sampel dimana psikotest bernilai „Buruk” dan UAN bernilai „Cukup” .

karena SampleSedang tidak kosong maka perlu memanggil fungsi ID3

dengan KumpulanSampel berupa SampleSedang = [ 1+, 0- ], AtributTarget =

„Diterima”, dan KumpulanAtribut = {}.


Memanggil fungsi ID3 dengan KumpulanSampel berupa SampleSedang = [

1+, 0- ], AtributTarget = „Diterima”, dan KumpulanAtribut = {}. Karena

sample pada SampleSedang termasuk kedalam kelas „Ya” , maka fungsi ini

akan berhenti dan mengembalikan satu simpul tunggal Root dengan label

„Ya”

Selanjutnya proses akan kembali pada rekursi level 2 iterasi ke-3.


Pada rekursi level 2 iterasi ke-1 dan ke-2, sudah dilakukan pengecekan

atribut nil.SPMB untuk nilai „Tinggi” dan „Sedang”. Selanjutnya,

pengecekan dilakukan pada Atribut nil.SPMB untuk nilai „Rendah”.

Ternyata terdapat 1 sample pada KumpulanSample dimana Psikotest bernilai

„Buruk” dan UAN bernilai „Cukup” . karena SampleRendah tidak kosong,

maka perlu memanggil fungsi ID3 dengan KumpulanSample berupa

SampleRendah = [ 0+, 1-] , AtributTarget = „Diterima”, dan

KumpulanAtribut = {}.


Memanggil fungsi ID3 dengan kumpulanSample berupa SampleKurang = [

0+, 1- ], AtributTarget = „Diterima”, dan kumpulanAtribut = {}. Karena

semua sample pada SampleKurang termasuk dalam kelas „Tidak”, maka

fungsi ini akan berhenti dan mengembalikan satu simpul tunggal Root

dengan label „Tidak”


Pengecekan atribut UAN untuk nilai „Bagus” dan „Cukup” yaitu pada

rekursi level 1 iterasi ke-2. Selanjutnya pengecekan dilakukan pada atribut

UAN untuk nilai „Kurang” . ternyata terdapat 2 sample pada

KumpulanSample dimana Psikotest bernilai ”Buruk” dan UAN bernilai

”Rendah”. Karena SampleRendah tidak kosong sehingga perlu memanggil

fungsi ID3 dengan KumpulanSample berupa SampleRendah = [ 0+, 2- ],

AtributTarget = „Diterima”, dan KumpulanAtribut = { IPK } Selanjutnya

proses akan kembali ke rekursi level 2 iterasi ke-4


Memanggil fungsi ID3 dengan KumpulanSample berupa SampleRendah = [

0+, 2- ], AtributTarget = „Diterima”, dan KumpulanAtribut = { IPK }.

Karena semua sample pada SampleRendah termasuk kedalam kelas „Tidak” ,

maka fungsi ini akan berhenti dan mengembalikan satu simpul tunggal Root

dengan label „Tidak”

Dilihat dari langkah-langkah diatas bahwa ID3 melakukan strategis

pencarian yaitu dimulai dari pohon kosong, kemudian secara progresif

berusaha menemukan sebuah pohon keputusan yang mampu

mengklasifikasikan sampel-sampel data secara akurat tanpa kesalahan. Dan

dari akhir proses ID3 didapat pohon keputusan akhir di dapat 7 sampel data

lain yang belum diketahui sebelumnya, ketujuh sampel itu adalah sebagai

berikut :

Sebelumnya kita melakukan penelusuran mulai dari simpul Root menuju

ketiga leaf node tersebut. Lakukan operasi conjunction ( ^ ) pada setiap

simpul yang dikunjungi sampai ditemukan leaf node ‘Ya’. Kemudian,

lakukan operasi disjunction ( v ) pada penelusuran tersebut. Dengan

demikian 7 sampel yang belum diketahui adalah sebagai berikut :

(Psikotest = ‘Buruk’) ^ (UAN=’Bagus’) ^ (nil.SMB=’Tinggi’) à

Diterima=’Tidak’ (Psikotest = ‘Baik’) ^ (UAN=’Kurang’) ^

(nil.SMB=’Tinggi’) Diterima=’ Ya’

(Psikotest = ‘Buruk’) ^ (UAN=’Bagus’) ^ (nil.SMB=’Sedang’) à

Diterima=’Tidak’

(Psikotest = ‘Baik’) ^ (UAN=’Kurang’) ^ (nil.SMB=’Sedang’) à

Diterima=’ Ya’

(Psikotest = ‘Buruk’) ^ (UAN=’Bagus’) ^ (nil.SMB=’ Rendah’) à


(Psikotest = ‘Baik’) ^ (UAN=’ Cukup’) ^ (nil.SMB=’ Rendah’) à

Diterima=’ Yas’

(Psikotest = ‘Buruk’) ^ (UAN=’ Kurang’) ^ (nil.SMB=’ Rendah’)à


Psikotest

Baik

Psikotest

Baik

Ya Peserta

SPMB

Nil.SPMB UAN Psikotest Diterima

P12 Tinggi Bagus Buruk Tidak

P13 Tinggi Kurang Baik Ya

P14 Sedang Bagus Buruk Tidak

P15 Sedang Kurang Baik Ya

P16 Rendah Bagus Buruk Tidak

P17 Rendah Cukup Baik Ya

P18 Rendah Kurang Buruk Tidak

Pohon keputusan akhir yang dihasilkan oleh fungsi ID3.

Dengan demikian 7 sampel yang belum diketahui adalah sebagai berikut :

(Psikotest = ‘Buruk’) ^ (UAN=’Bagus’) ^ (nil.SMB=’Tinggi’)


(Psikotest = ‘Baik’) ^ (UAN=’Kurang’) ^ (nil.SMB=’Tinggi’)à Diterima=’

Ya’

(Psikotest = ‘Buruk’) ^ (UAN=’Bagus’) ^ (nil.SMB=’Sedang’) à


(Psikotest = ‘Baik’) ^ (UAN=’Kurang’) ^ (nil.SMB=’Sedang’) à

Diterima=’ Ya’

(Psikotest = ‘Buruk’) ^ (UAN=’Bagus’) ^ (nil.SMB=’ Rendah’) à


(Psikotest = ‘Baik’) ^ (UAN=’ Cukup’) ^ (nil.SMB=’ Rendah’) à

Diterima=’ Yas’

(Psikotest = ‘Buruk’) ^ (UAN=’ Kurang’) ^ (nil.SMB=’ Rendah’) à


Peserta SPMB Nil.

SPMB

UAN Psiko

test

Di terima

P12 Tinggi Bagus Buruk Tidak

P13 Tinggi Kurang Baik Ya

P14 Sedang Bagus Buruk Tidak

P15 Sedang Kurang Baik Ya

P16 Rendah Bagus Buruk Tidak

P17 Rendah Cukup Baik Ya

P18 Rendah Kurang Buruk Tidak

2. Metode C4.5ALGORITMA C4.5

Salah satu algoritma induksi pohon keputusan yaitu ID3 (Iterative

Dichotomiser 3). ID3 dikembangkan oleh J. Ross Quinlan. Dalam prosedur

algoritma ID3, input berupa sampel training, label training dan atribut.

Algoritma C4.5 merupakan pengembangan dari ID3. Sedangkan pada

perangkat lunak open source WEKA mempunyai versi sendiri C4.5 yang

dikenal sebagai J48.

Algoritma C4.5

Algoritma C4.5

Input : sampel training, label training, atribut

• Membuat simpul akar untuk pohon yang dibuat

• Jika semua sampel positif, berhenti dengan suatu pohon dengan satu

simpul akar, beri label (+)

• Jika semua sampel negatif, berhenti dengan suatu pohon dengan satu

simpul akar beri label (-)

• Jika atribut kosong, berhenti dengan suatu pohon dengan satu simpul

akar, dengan label sesuai nilai yang terbanyak yang ada pada label

training

• Untuk yang lain, Mulai

- A atribut yang mengklasifikasikan sampel dengan hasil terbaik

(berdasarkan gain ratio)

- Atribut keputusan untuk simpul akar A

- Untuk setiap nilai, vi, yang mungkin untuk A,

o Tambahkan cabang dibawah akar yang berhubungan dengan A =vi

o Tentukan sampel Svi sebagai subset dari sampel yang mempunyai

nilai vi untuk atribut A

o Jika sampel Svi kosong,

- Dibawah cabang tambahkan simpul daun dengan label = nilai

yang terbanyak yang ada pada label training

- Yang lain, tambah cabang baru dibawah cabang yang

sekarang

- C4.5(sampel training, label training, atribut-[A])

• Berhenti

Kasus :

Untuk memudahkan penjelasan mengenai algoritma C4.5 berikut ini

disertakan contoh kasus yang dituangkan dalam Tabel

Dalam kasus yang tertera pada Tabel 3.1, akan dibuat pohon keputusan untuk

menentukan main tenis atau tidak dengan melihat keadaan cuaca, temperatur,

kelembaban dan keadaan angin.

Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah

sebagai berikut:

1. Pilih atribut sebagai akar

2. Buat cabang untuk masing-masing nilai

3. Bagi kasus dalam cabang

4. Ulangi proses untuk masing-masing cabang sampai semua kasus pada

cabang memiliki kelas yang sama.

Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari

atribut-atribut yang ada. Untuk menghitung gain digunakan rumus seperti

tertera dalam Rumus 1 (Craw, S., ---).

Sedangkan penhitungan nilai entropy dapat dilihat pada rumus 2

berikut(Craw, S., ---):

Berikut ini adalah penjelasan lebih rinci mengenai masing-masing langkah

dalam pembentukan pohon keputusan dengan menggunakan algoritma C4.5

untuk menyelesaikan permasalahan pada Tabel 3.1.

1. Menghitung jumlah kasus, jumlah kasus untuk keputusan Yes, jumlah

kasus untuk keputusan No, dan Entropy dari semua kasus dan kasus

yang dibagi berdasarkan atribut OUTLOOK, TEMPERATURE,

HUMIDITY dan WINDY. Setelah itu lakukan penghitungan Gain

untuk masing-masing atribut. Hasil perhitungan ditunjukkan oleh

Tabel

Baris TOTAL kolom Entropy pada Tabel dihitung dengan rumus 2,

sebagai berikut:

Dari hasil pada Tabel 3.2 dapat diketahui bahwa atribut dengan Gain

tertinggi adalah HUMIDITY yaitu sebesar 0.37. Dengan demikian

HUMIDITY dapat menjadi node akar. Ada 2 nilai atribut dari

HUMIDITY yaitu HIGH dan NORMAL. Dari kedua nilai atribut

tersebut, nilai atribut NORMAL sudah mengklasifikasikan kasus menjadi

1 yaitu keputusan-nya Yes, sehingga tidak perlu dilakukan perhitungan

lebih lanjut, tetapi untuk nilai atribut HIGH masih perlu dilakukan

perhitungan lagi. Dari hasil tersebut dapat digambarkan pohon keputusan

sementara-nya tampak seperti Gambar 3.1

1.



yang dibagi berdasarkan atribut OUTLOOK, TEMPERATURE dan

WINDY yang dapat menjadi node akar dari nilai atribut HIGH.

Setelah itu lakukan penghitungan Gain untuk masing-masing atribut.

Hasil perhitungan ditunjukkan oleh Tabel 3.3.

Dari hasil pada Tabel 3.3 dapat diketahui bahwa atribut dengan Gain

tertinggi adalah OUTLOOK yaitu sebesar 0.67. Dengan demikian

OUTLOOK dapat menjadi node cabang dari nilai atribut HIGH. Ada 3

nilai atribut dari OUTLOOK yaitu CLOUDY, RAINY dan SUNNY. Dari

ketiga nilai atribut tersebut, nilai atribut CLOUDY sudah

mengklasifikasikan kasus menjadi 1 yaitu keputusan-nya Yes dan nilai

atribut SUNNY sudah mengklasifikasikan kasus menjadi satu dengan

keputusan No, sehingga tidak perlu dilakukan perhitungan lebih lanjut,

tetapi untuk nilai atribut RAINY masih perlu dilakukan perhitungan lagi.

Pohon keputusan yang terbentuk sampai tahap ini ditunjukkan pada

gambar 3.2 berikut:



yang dibagi berdasarkan atribut TEMPERATURE dan WINDY yang

dapat menjadi node cabang dari nilai atribut RAINY. Setelah itu

lakukan penghitungan Gain untuk masing-masing atribut. Hasil

perhitungan ditunjukkan oleh Tabel 3.4.

Dari hasil pada tabel 3.4 dapat diketahui bahwa atribut dengan Gain tertinggi

adalah WINDY yaitu sebesar 1. Dengan demikian WINDY dapat menjadi

node cabang dari nilai atribut RAINY. Ada 2 nilai atribut dari WINDY yaitu

FALSE dan TRUE. Dari kedua nilai atribut tersebut, nilai atribut FALSE

sudah mengklasifikasikan kasus menjadi 1 yaitu keputusan-nya Yes dan nilai

atribut TRUE sudah mengklasifikasikan kasus menjadi satu dengan

keputusan No, sehingga tidak perlu dilakukan perhitungan lebih lanjut untuk

nilai atribut ini.

Pohon keputusan yang terbentuk sampai tahap ini ditunjukkan pada Gambar

3.3.

Dengan memperhatikan pohon keputusan pada Gambar 3.3, diketahui bahwa

semua kasus sudah masuk dalam kelas. Dengan demikian, pohon keputusan

pada Gambar 3.3 merupakan pohon keputusan terakhir yang terbentuk.

3. Metode C5.0Algoritme C5.0

Algoritme C5.0 adalah salah satu algoritme yang terdapat dalam

klasifikasi data mining disamping algoritme CART, yang khususnya

diterapkan pada teknik decision tree. C5.0 merupakan penyempurnaan

algoritme terdahulu yang dibentuk oleh Ross Quinlan pada tahun 1987, yaitu

ID3 dan C4.5. Dalam algoritme C5.0, pemilihan atribut yang akan diproses

menggunakan information gain. Secara heuristik akan dipilih atribut yang

menghasilkan simpul yang paling bersih (purest). Kalau dalam cabang suatu

decision tree anggotanya berasal dari satu kelas maka cabang ini disebut

pure. Kriteria yang digunakan adalah information gain. Jadi dalam memilih

atribut untuk memecah obyek dalam beberapa kelas harus kita pilih atribut

yang menghasilkan information gain paling besar.

Ukuran information gain digunakan untuk memilih atribut uji pada setiap

node di dalam tree. Ukuran ini digunakan untuk memilih atribut atau node pada

pohon. Atribut dengan nilai information gain tertinggi akan terpilih sebagai

parent bagi node selanjutnya. Formula untuk information gain adalah

(Kantardzic, 2003):

m

I (s1 , s2 ,...., sm )= pi log 2 ( pi ) (2.1)i =1

S adalah sebuah himpunan yang terdiri dari s data sampel. Diketahui

atribut class adalah m dimana mendefinisikan kelas-kelas di dalamnya, Ci (for

i= 1, …, m), si adalah jumlah sampel pada S dalam class Ci. untukmengklasifikasikan sampel yang digunakan maka diperlukan informasi dengan

menggunakan aturan seperti di atas (2.1). Dimana pi adalah proporsi kelas dalam

output seperti pada kelas Ci dan diestimasikan dengan si /s. Atribut A memiliki

nilai tertentu {a1, a2, …, av}. Atribut A dapat digunakan pada partisi S ke dalam

v subset, {S1, S2, …, Sv}, dimana Sj berisi sample pada S yang bernilai aj pada A.Jika A dipilih sebagai atribut tes (sebagai contoh atribut terbaik untuk split),

maka subset ini akan berhubungan pada cabang dari node himpunan S. Sij adalah

jumlah sample pada class Ci dalam sebuah subset Sj. Untuk mendapatkaninformasi nilai subset dari atribut A tersebut maka digunakan formula,

yE( A) =

s1 j +... + smj I (s1 j,...smj )(2.2)

j =1 s

s1 j +.. + smjadalah jumlah subset j yang dibagi dengan jumlah sampel pada S,s

maka untuk mendapatkan nilai gain, selanjutnya digunakan formula

Gain(A)=I(s1,s2,...,sm)–E(A) (2.3)

C5.0 memiliki fitur penting yang membuat algoritme ini menjadi lebih

unggul dibandingkan dengan algoritme terdahulunya dan mengurangi

kelemahan yang ada pada algoritme decision tree sebelumnya. Fitur tersebut

adalah (Quinlan, 2004) :

1. C5.0 telah dirancang untuk dapat menganalisis basis data subtansial yang

berisi puluhan sampai ratusan record dan satuan hingga ratusan field

numerik dan nominal.

2. untuk memaksimumkan tingkat penafsiran pengguna terhadap hasil yang

disajikan, maka klasifikasi C5.0 disajikan dalam dua bentuk, menggunakan

pohon keputusan dan sekumpulan aturan IF-then yang lebih mudah untuk

dimengerti dibandingkan neural network.

3. C5.0 mudah digunakan dan tidak membutuhkan pengetahuan tinggi

tentang statistik atau machine learning.

K-Nearest Neighbor Algorithm

Seperti halnya decision tree, K-Nearest Neighbor sangat sering

digunakan dalam klasifikasi dengan tujuan dari algoritme ini adalah untuk

mengklasifikasi objek baru berdasarkan atribut dan training samples (Larose,

2002 ).

Algoritme k-nearest neighbor (k-NN atau KNN) adalah sebuah metode

untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang

jaraknya paling dekat dengan objek tersebut. Teknik ini sangat sederhana dan

mudah diimplementasikan. Mirip dengan teknik klastering, pengelompokkan

suatu data baru berdasarkan jarak data baru itu ke beberapa data/tetangga

(neighbor) terdekat. Dalam hal ini jumlah data/tetangga terdekat ditentukan oleh

user yang dinyatakan dengan k. Misalkan ditentukan k=5, maka setiap data

testing dihitung jaraknya terhadap data training dan dipilih 5 data training yang

jaraknya paling dekat ke data testing. Lalu periksa output atau labelnya masing-

masing, kemudian tentukan output mana yang frekuensinya paling banyak. Lalu

masukkan suatu data testing ke kelompok dengan output paling banyak.

Misalkan dalam kasus klasifikasi dengan 3 kelas, lima data tadi terbagi atas tiga

data dengan output kelas 1, satu data dengan output kelas 2 dan satu data dengan

output kelas 3, maka dapat disimpulkan bahwa output dengan label kelas 1

adalah yang paling banyak. Maka data baru tadi dapat dikelompokkan ke dalam

kelas 1. Prosedur ini dilakukan untuk semua data testing (Santosa, 2007).

Gambar 4 berikut ini adalah bentuk representasi K-NN dengan 1, 2 dan 3

tetangga data terhadap data baru x (Pramudiono, 2003).

- - - - - - - - - -- - + +- - + + - - - + - + + + -- - +- + - x + x +

x - + +- + + - +

(a)1-nearest neighbor (b)2-nearest neighbor (c)3-nearest neighbor

Gambar 4. Ilustrasi 1-, 2-, 3-nearest neighbor terhadap data baru (x)

Untuk mendefinisikan jarak antara dua titik yaitu titik pada data training

(x) dan titik pada data testing (y) maka digunakan rumus Euclidean,

n

d ( x, y ) = ( xi yi ) 2(2.4)

i =1

dengan d adalah jarak antara titik pada data training x dan titik data testing

y yang akan diklasifikasi, dimana x=x1,x2,…,xi dan y=y1,y2,…,yi dan I

merepresentasikan nilai atribut serta n merupakan dimensi atribut (Han &

Kamber, 2001). Sebagai ilustrasi, pada Tabel 1 berikut ini disajikan contohpenerapan rumus Euclidean, pada empat data klasifikasi kualitas baik dan tidakbaik sebuah kertas tisu yang dinilai berdasarkan daya tahan kertas tersebut dan

fungsinya. Sebanyak tiga data yang sudah terklasifikasi yaitu data no 1,2, dan 3

masing-masing data dihitung jaraknya ke data no 4 untuk mendapatkan

kelas yang sesuai bagi data no 4 maka k=1 (Teknomo, 2006).

Tabel 1. Tabel klasifikasi kualitas baik atau tidak baik sebuahkertas tisu

No Fungsi Daya Tahan Klasifikasi1 7 7 Tidak baik

2 7 4 Tidak baik

3 3 4 Baik

4 1 4 ?

Berikut ini disajikan pula perhitungan yang dilakukan terhadap

tiga data yang sudah terklasifikasi dengan data yang belum terklasifikasi

pada Tabel 1 di atas.

Jarak data no satu ke data no empat:

d1,4 = (7 1)2 +(7 4)2 = 62 +32 = 45 =6.07

Jarak data no dua ke data no empat:

d2,4 = (7 1)2 +(4 +4)2 = 62 +02 = 36 = 6

Jarak data no tiga ke data no empat:

d 3 , 4 = (3 1) 2 + ( 4 + 4 ) 2 = 2 2 + 0 2 = 4 = 2

Dari hasil perhitungan di atas diperoleh jarak antara data no tiga dan data

no empat adalah jarak yang terdekat maka kelas data no empat adalah

baik.

Teknik ini akan diujicobakan terhadap dataset akademik yang

belum terklasifikasi atau data yang belum dikenal, untuk menemukan

kelas yang sesuai dengan berdasarkan pada data tetangga terdekatnya

yang sudah terklasifikasi. Tingkat ketepatan klasifikasi terhadap data dari

kedua algoritma yang digunakan menjadi titik fokus analisa dalam

penelitian.

Membangun Model Prediksi

Secara umum, proses dasar dalam membangun model prediksi

adalah sama, terlepas dari teknik data mining yang akan digunakan.

Keberhasilan dalam membangun model lebih banyak tergantung pada

proses bukan pada teknik yang digunakan, dan proses tersebut sangat

tergantung pada data yang digunakan untuk menghasilkan model. Hal ini

terkait dengan tahapan praproses data dalam data mining yaitu

pembersihan data (data cleaning) yang harus dikerjakan sebelum

melakukan tahap pengolahan data dengan tujuan membersihkan data

yang akan diolah dari redudancy dan missing value.

Tantangan utama dalam membangun model prediksi adalah

mengumpulkan data awal yang cukup banyak jumlahnya. Data

preclassified, hasilnya sudah diketahui, dan oleh karena itu data

preclassified digunakan untuk melatih model, sehingga disebut model

set. Data dibagi secara acak menggunakan teknik 3-fold cross

validation ke dalam kelompok data training dan data testing. Masing-

masing kelompok akan diujicobakan ke dalam kedua algoritma yang

dipakai.

Alat ukur dalam evaluasi

Evaluasi model merupakan tahapan yang juga dikerjakan dalam

penelitian dengan tujuan untuk memperoleh informasi yang terdapat

pada hasil klasifikasi terhadap kedua algoritma yang digunakan. Dalam

weka classifier hasil klasifikasi yang diperoleh disertakan dengan

beberapa alat ukur yang tersedia di dalamnya, diantaranya adalah

sebagai berikut :

- Confusion matrix

Dalam penelitian ini dipilih alat ukur evaluasi berupa confusion

matrix yang terdapat pada weka classifier dengan tujuan untuk

mempermudah dalam menganilisis performa algoritma karena

confusion matrix memberikan informasi dalam bentuk angka

sehingga dapat dihitung rasio keberhasilan klasifikasi. Confusion

matrix adalah salah satu alat ukur berbentuk matrik 2x2 yang

digunakan untuk mendapatkan jumlah ketepatan klasifikasi

dataset terhadap kelas aktif dan tidak aktif pada kedua algoritma

yang dipakai. Dalam kasus dengan dua klasifikasi data keluaran

seperti contoh : ya dan tidak, pinjam atau tidak pinjam, atau

contoh lainnya, tiap kelas yang diprediksi memiliki empat

kemungkinan keluaran yang berbeda, yaitu true positives (TP)

dan true negatives (TN) menunjukkan ketepatan klasifikasi. Jika

prediksi keluaran bernilai positif sedangkan nilai aslinya adalah

negative maka disebut dengan false positive (FP) dan jika prediksi

keluaran bernilai negatif sedangkan nilai aslinya adalah positif

maka disebut dengan false negative (FN). Berikut ini pada Tabel 2

disajikan bentuk confusion matrix seperti yang telah dijelaskan

sebelumnya.

Tabel 2. Perbedaan hasil yang diperoleh dari dua kelasprediksi

Predicted ClassYes No

Actual Yes True Positive False NegativeClass No False Positive True Negative

Beberapa kegiatan yang dapat dilakukan dengan

menggunakan data hasil klasifikasi dalam confusion matrix

diantaranya :

- menghitung nilai rata-rata keberhasilan klasifikasi (overall

success rate) ke dalam kelas yang sesuai dengan cara

membagi jumlah data yang terklasifikasi dengan benar,

dengan seluruh data yang diklasifikasi.

- Selain itu dilakukan pula penghitungan persentase kelas

positif ( true positive & false positive ) yang diperoleh dalam

klasifikasi, yang disebut dengan lift chart.

- Lift chart terkait erat dengan sebuah tehnik dalam

mengevaluasi skema data mining yang dikenal dengan ROC

(receiver operating characteristic) yang berfungsi

mengekspresikan persentase jumlah proporsi positif dan

negatif yang diperoleh.

- Recall precision berfungsi menghitung persentase false

positive dan false negative untuk menemukan informasi di

dalamnya .

Review Riset yang Relevan

Moertini (2003) melakukan penelitian menggunakan algoritma

C4.5 yang merupakan algoritma pendahulu dari C5.0. Hasil dari

penelitian tersebut menyebutkan bahwa algoritma C4.5 memiliki

performa yang baik dalam mengkonstruksi sebuah pohon keputusan dan

menghasilkan aturan-aturan yang dapat digunakan pada waktu yang akan

datang. Salah satu kesimpulan yang diperoleh mempertegas alasan

bahwa algoritma ini digunakan untuk klasifikasi data yang memiliki

atribut-atribut numerik dan kategorikal.

Sufandi (2007) melakukan penelitian untuk memprediksi kemajuan

belajar mahasiswa aktif yaitu dengan melakukan pengujian

menggunakan data dengan kategori mahasiswa aktif dengan metode

Neural Network Multi Layer Perceptron namun tidak selesai dikejakan

karena hasil klasifikasi mahasiswa aktif & tidak aktif tidak diperoleh

dengan jelas .

Contoh Soal Algoritma C5.0

DATA DAN METODEData

Sumber data yang digunakan dalam penelitian berasal dari data

mahasiswa tahun angkatan 2000 sampai dengan 2005, dan dari tiga

program studi yaitu S1-Sistem Informasi, S1-Teknik Informatika, serta

D3-Manajemen Informatika. Beberapa jenis data diperoleh dari sistem

yang berjalan namun hanya data identitas mahasiswa dan data IPK

mahasiswa saja yang digunakan untuk penelitian, dikarenakan informasi

yang terkandung di dalamnya sudah mewakili informasi yang dibutuhkan

untuk dijadikan indikator penentu dalam klasifikasi data keluaran yang

diinginkan.

Jumlah data yang diperoleh adalah sebanyak 2.115 record data

yang berasal dari dataset identitas mahasiswa dan 1.088 record data

yang berasal dari dataset IPK. Dataset mahasiswa terdiri dari 64

atribut yang menjelaskan identitas diri mahasiswa dan informasi

tentang keadaan mahasiswa yang bersangkutan saat mendaftarkan diri

pada UPNVJ. Atribut-atribut tersebut diantaranya adalah nama,

tanggal lahir, alamat, asal sekolah, nama orangtua, pekerjaan

orangtua, gelombang daftar, no ujian, dan no registrasi pokok (NRP).

Sedangkan dataset IPK hanya terdiri dari 7 atribut, dimana

memberikan informasi mengenai prestasi akademik dan beban studi

yang sudah diambil mahasiswa yang bersangkutan. Atribut-atribut

tersebut adalah NRP, tahun akademik, semester, sks semester, IP

semester, sks kumulatif, dan IP Kumulatif. Keterangan atribut pada

dataset mahasiswa dan contoh datanya dapat dilihat pada lampiran

yang terdapat dalam tesis ini. Dan untuk keterangan atribut pada

dataset IPK dan contoh datanya dapat dilihat pula pada lampiran yang

terdapat dalam tesis ini.

Seluruh atribut pada kedua dataset di atas selanjutnya akan

diseleksi untuk mendapatkan atribut-atribut yang berisi nilai yang

relevan, tidak missing value, dan tidak redundant, dimana ketiga syarat

tersebut merupakan syarat awal yang harus dikerjakan dalam data mining

sehingga akan diperoleh dataset yang bersih untuk digunakan pada tahap

mining data. Dikatakan missing value jika atribut- atribut dalam dataset

tidak berisi nilai atau kosong, sementara itu data dikatakan redundant

jika dalam satu dataset yang sama terdapat lebih dari satu record yang

berisi nilai yang sama. Relevan tidaknya sebuah atribut dapat ditentukan

oleh keluaran yang ingin dihasilkan, misalnya untuk mengetahui bahwa

seorang mahasiswa tidak aktif, tidak relevan jika indikator yang dilihat

adalah agamanya. Contoh dataset dengan atribut yang missing value

dapat dilihat pada Tabel 3 di bawah ini.

Tabel 3. Contoh instances dengan missing value pada sebagianatributnya

NAMA TGLHR ALMHS KDPOSMAYA YULIETNA 7/19/1982 PERUM. I KARAWACI

RACHMAD NUR RIFAI 10/23/1981 12520

MUHAMNAD ICHSAN KURNIA 8/31/1983 JL.MENTENG 14270

ATIKAH 4/10/1985 KEL. BAKTI JAYA 16418

WAHMI ARDIANSYAH 10/31/1984 16418

MULTARINI

CHANDRA SEVILLA 1/7/1983 GG.ALI ANDONG 16516

URUPAN MAGDALENA 1/10/1984 12320

OVIRINA PUTRI WARDHANI 10/31/1984 BLOK AA XI, RENI JAYA 15417

HARDIANTO 1/26/1985 12790

Pada tabel di atas terlihat bahwa record ke 1, 2, 5, 6, 8 dan

10, beberapa atributnya tidak berisi data atau kosong. Maka

keadaan seperti diatas dikatakan bahwa atribut tersebut missing

value. Selain atribut yang missing value, disajikan pula contoh

dataset dengan data yang redundant seperti pada Tabel 4 di

bawah ini.

Tabel 4. Contoh redundancy data

NAMA TGLHR ALMHS KOTA NMSLA ALMSLAWidya sitha P 11/16/1981 komp. Kehakiman Tangerang SMU 7 Tangerang

M.arya B 4/9/1984 Halim PK Jak-Tim SMUN 42 Halim PK

Andri suhardi 1/18/1982 Jak-Pus SMK Bahariwan 45-3 Jak-Ut

Bondan andira 9/15/1981 Cibubur Jak-Tim STM TELKOM Jak-bar

M.arya B 4/9/1984 Halim PK Jak-Tim SMUN 42 Halim PK

Siti komalasari 9/24/1983 Jak-Sel SMU Darul Ma’arif Jak-Sel

Record 2 dan record 5 pada tabel di atas berisi data yang sama, maka

dikatakan record tersebut redundant.

Metode

Kerangka Pemikiran

Sebagai langkah awal maka perlu adanya identifikasi masalah

berkenaan dengan masalah yang di bahas. Kemudian dilakukan

pengumpulan data berkaitan dengan permasalahan yang akan diteliti dan

studi literatur untuk menentukan metode data mining untuk pengolahan

data dan penentuan alternatif solusi. Selanjutnya dilakukan pengumpulan

data untuk menentukan parameter-parameter yang menyebabkan

berkurangnya jumlah mahasiswa FIK-UPNVJ dalam hampir tiap

semesternya. Kerangka pemikiran dalam pengembangan model sistem

pada penelitian ini dapat digambarkan dalam suatu diagram alir

penelitian seperti pada Gambar 5.

Mulai

Identifikasi Masalah

Pengumpulan Data Studi Literatur

Data Praproses

Feature Selection

Dataset KNNC5.0

Selesai EvaluasiHasil

Gambar 5. Kerangka pemikiran penelitian Dengan demikian diharapkan dapat diperoleh gambaran yang lengkapdan menyeluruh tentang tahap-tahap penelitian yang akan dilaksanakanserta keterkaitan antara satu tahap dengan tahap selanjutnya.1. Identifikasi Masalah

Menggali permasalahan yang ditemukan pada obyek yang di teliti guna

mencari alternatif solusi yang terkait dengan permasalahan, diantaranya,

a. Jumlah mahasiswa tidak aktif yang bertambah.b. Karakteristik mahasiswa tidak aktif yang tidak tersedia.

2. Studi Literatur

Kegiatan mempelajari dan memahami fungsi-fungsi data mining,

teknik-teknik dan algoritma yang digunakan dalam data mining.

Adapun literatur yang digunakan berasal dari buku-buku data mining

dan jurnal penelitian bidang data mining untuk teknik klasifikasi

dengan algoritma C5.0 dan K-Nearest Neighbor. Penelitian yang

dilakukan sebelumnya oleh Moertini, Beikzadeh dan Phon

menggunakan C5.0 & KNN menunjukkan bahwa kedua algoritma ini

dapat melakukan klasifikasi data di atas 80%.

3. Pengumpulan data

Tahap pengumpulan data untuk mendapatkan sejumlah informasi yang

dibutuhkan dengan mengambil data akademik mahasiswa pada Sistem

Informasi Akademik FIK-UPNVJ. Maka diperolehlah dataset mahasiswa

dan dataset IPK untuk digunakan dalam penelitian karena kedua dataset

ini sudah mewakili informasi yang dibutuhkan.

4. Data Praproses

Adalah tahap seleksi data bertujuan untuk mendapatkan data yang

bersih dan siap untuk digunakan dalam penelitian. Tahapan yang

dikerjakan adalah dengan melakukan perubahan terhadap beberapa

tipe data pada atribut dataset dengan tujuan untuk mempermudah

pemahaman terhadap isi record, juga melakukan seleksi dengan

memperhatikan konsistensi data, missing value, dan redundant pada

data. Beberapa atribut yang bertipe numeric diubah menjadi string,

dan atribut Tgllhr yang bertipe data date menjadi numeric. Untuk atribut

Tgllhr selanjutnya berubah nama menjadi Usia. Atribut Anakke dan Dari

digabung dengan nama Anakke dan tipe data string. Sebanyak 6 atribut

terpilih yang berasal dari 64 atribut dataset mahasiswa dan 7 atribut

dataset IPK.

5. Feature Selection

Adalah tahapan seleksi atribut, dimana atribut-atribut yang

diperoleh dari tahap praproses selanjutnya diseleksi lagi menggunakan

formula Information Gain yang menghasilkan nilai Gain dari seluruh

atribut dalam dataset yang mana formula ini terdapat dalam algoritma

C5.0 dengan fungsinya untuk mendapatkan atribut yang berfungsi

sebagai root atau akar pada decision tree, node dan leaf .

6. Teknik Data Mining

Tahap pengolahan data dengan memfungsikan algoritma dan

teknik yang telah ditentukan sebelumnya, yaitu klasifikasi menggunakan

algoritma C5.0 dan KNN. Algoritma C5.0 bekerja untuk menghasilkan

aturan-aturan klasifikasi dalam bentuk pohon keputusan (decision tree)

yang selanjutnya aturan-aturan tersebut akan digunakan pada dataset

yang baru. KNN berfungsi sebagai algoritma pembanding yang akan

melakukan prediksi klasifikasi data dengan menentukan sejumlah data

tetangga yang sudah terklasifikasi.

7. Dataset

Tahap seleksi atribut menghasilkan himpunan data akhir yang

digunakan untuk tahap klasifikasi data berupa dataset akademik. Dataset

akademik adalah data yang sudah tidak lagi mengandung data dengan

missing value dan redundant. Dengan menggunakan teknik 3-fold cross

validation, data dibagi menjadi dua bagian sebagai data training dan satu

bagian sebagai data testing, yang mana training dan testing dilakukan

sebanyak 3 kali.

8. Hasil

Klasifikasi dengan algoritma C5.0 memberikan hasil berupa

aturan-aturan klasifikasi dalam bentuk if-then dan dalam bentuk pohon

keputusan (decision tree) serta menunjukkan karakteristik data yang

diklasifikasi, sedangkan KNN hanya memberikan hasil berupa jumlah

ketepatan dan ketidaktepatan data yang diklasifikasi namun tidak dapat

menunjukkan karakterisitk dari data yang di klasifikasi. Sehingga dapat

dikatakan bahwa telah diperoleh sebanyak dua model yang berasal dari

kedua penerapan algoritma yang dipilih.

9. Evaluasi

Analisis terhadap hasil klasifikasi yang diperoleh dengan

menggunakan kedua algoritma menunjukkan bahwa rata-rata lama waktu

yang dibutuhkan sangat singkat yaitu 0.01 seconds. Dilakukan pula

analisis dengan beberapa alat evaluasi yang lain dengan menggunakan

tabel confusion matrix, yaitu hasil klasifikasi dengan proporsi positif dan

negatif yang diperoleh akan dievaluasi sehingga diperoleh persentase

kelas positif dalam lift chart, persentase jumlah proporsi positif dan

negatif dalam ROC, dan nilai rata-rata keberhasilan klasifikasi ke dalam

kelas yang sesuai dalam overall success rate.

Tata Laksana

Kegiatan yang dilakukan dalam penelitian ini diantaranya adalah

pembentukan model klasifikasi untuk memperoleh aturan-aturan yang

dibutuhkan. Proses dimulai dengan pendefinisian masalah serta

mempelajari bisnis proses dari sistem yang sedang berjalan. Pada tahap

selanjutnya melakukan uji coba terhadap dataset baru yang belum

terklasifikasi dengan menggunakan aturan-aturan yang diperoleh dari

tahap sebelumnya.

Metodologi data mining didasarkan pada tiga tahapan yang

dilakukan untuk mendeteksi mahasiswa yang berpotensi untuk tidak aktif

pada waktu yang akan datang dengan memperhatikan karakteristik data

dalam dataset. Ketiga tahapan tersebut adalah a) seleksi atribut dataset b)

menangani data yang tidak konsisten, redundant dan missing value c) rule

mining dan klasifikasi.

Pada tahap pertama, seleksi atribut dalam dataset untuk mendapatkan

atribut dengan record yang relevan terhadap keluaran yang diinginkan. Pada

tahap kedua, pemrosesan awal data mahasiswa dilakukan untuk menghapus

data atau record yang tidak konsisten, redundant dan missing value dan

mengekstrak data yang akan digunakan untuk mengelompokkan mahasiswa

ke dalam klas aktif dan tidak aktif. Pada tahap ketiga, algoritme decision tree

classifier digunakan untuk menghasilkan aturan-aturan yang berguna untuk

mendeteksi mahasiswa yang tidak aktif.

HASIL DAN PEMBAHASAN

Praproses Data

Tahap pertama yang dilakukan adalah menyeleksi seluruh

data pada kedua dataset dengan memperhatikan keberadaan setiap

record data pada keduanya. Jika terdapat record tertentu pada

salah satu dataset namun record tersebut tidak terdapat pada

dataset yang lain, maka record yang dimaksud akan dihapus

karena record tersebut dinilai tidak konsisten. Pada Tabel 5 dan

Tabel 6 di bawah ini berisi contoh ketidak-konsistenan data pada

dataset mahasiswa dan dataset IPK.

Tabel 5. Contoh data pada dataset mahasiswa

NRP NAMA TGLHR ALMHS1 KOTA NMSLA200502113 Ikrar Achmad B 10/28/1981 Komp. Kopassus Depok SMU 105 Jkt

200502114 Cindy Rahmawati 7/23/1982 Delima I Blok K-3 Depok SMUN 103

200502115 Dyah Andri M 1/4/1981 Sukatani Cimanggis Depok SMU Islam PB.Sudirman200502116 Siti Maesaroh 10/19/1981 Jakarta SMUN 97 Ciganjur

200502117 Yanuar Tri P 1/8/1982 Pinang Kp. Baru Jakarta SMU Borobudur

200502118 Fransiskus Ony F 2/23/1983 Laki Cimanggis Bogor SMUN I Cimanggis

Tabel 6. Contoh data pada dataset IPK

I_NRP I_THAK I_SMT I_IPS I_JSKSS I_IPK I_JSKSK200502113 0001 1 1.90 20 1.90 20

200502114 0001 1 2.00 16 2.00 16

200502116 0001 1 2.50 20 2.50 20

200502117 0001 1 2.00 14 2.00 14

200502118 0001 1 2.10 20 2.10 20

200502119 0001 1 1.70 20 1.70 20

Record dengan NRP=200502115 yang terdapat pada dataset

mahasiswa tidak terdapat pada dataset IPK, maka record tersebut

dihapus karena dinilai tidak konsisten keberadaan informasinya.

Yang dilakukan selanjutnya adalah seleksi terhadap atribut

dataset, dimana diketahui sebanyak 64 atribut terdapat pada

dataset mahasiswa dan 7 atribut pada dataset IPK. Seleksi ini

dilakukan untuk mendapatkan atribut-atribut dengan nilai yang

relevan terhadap status keaktifan studi mahasiswa sehingga untuk

selanjutnya atribut-atribut yang dinilai berisi nilai yang tidak relevan

tidak lagi disertakan dalam dataset. Di bawah ini disajikan contoh

instances dengan beberapa atribut pada dataset mahasiswa seperti

tampak pada Tabel 7.

Tabel 7. Contoh instances dengan beberapa atribut pada datasetmahasiswa

NoForm NoUjiGel NoUji NRP Nama PilJur1 PilJur2 TglDft TryOut0049 30076 WIDYA SIST 311 511 3/30/2001 FALSE

0067 50013 M.ARYA NUG 511 512 4/3/2001 TRUE

0070 50016 ANDRI SUHA 512 502 4/3/2001 FALSE

0082 50005 BONDAN AND 511 414 4/4/2001 FALSE

0088 50026 SITI KOMAL 512 502 4/5/2001 FALSE

0097 30038 ASNIDA RAT 311 511 4/6/2001 TRUE

0120 5 ACHMAD DJO 502 4/10/2001

0122 5 EDO TIAS R 511 4/10/2001

0131 50039 IKA MARYAN 512 4/10/2001 FALSE

0147 50062 ANGELA RUS 512 112 4/12/2001 FALSE

NoForm, NoUjiGel, NoUji, NRP, Nama adalah atribut-atribut

yang tidak digunakan dalam penelitian karena menjadi tidak relevan jika

seorang mahasiswa berpotensi tidak aktif pada waktu yang akan datang

ditentukan oleh atribut-atribut tersebut. PilJur1, PilJur2, TglDft dan

TryOut dapat dipilih sebagai atribut dalam penelitian, namun tidak

terdapat keterangan atau penjelasan yang berkaitan dengan atribut-

atribut tersebut baik berupa nilai hasil ujian masuk, lama waktu yang

disediakan untuk mendaftar pada setiap gelombang daftar, dan lembaga

yang melaksanakan tryout serta kapan dilaksanakannya, maka atribut-

atribut yang tertera pada tabel di atas tidak dipilih untuk digunakan

dalam penelitian. Pada Tabel 8 di bawah ini, disajikan contoh instances

dengan atribut pada dataset IPK.

Tabel 8. Contoh instances dengan atribut pada dataset IPK


201511029 0102 1 1.59 17 1.59 17

201511030 0102 1 1.63 19 1.63 19

201511031 0102 1 1.68 19 1.68 19


201511001 0102 2 2.62 21 2.75 40

201511003 0102 2 2.48 21 2.50 40

201511004 0102 2 2.71 21 2.85 40

201511005 0102 2 3.28 25 3.41 44

201511007 0102 2 2.83 23 2.90 42

Contoh dataset di atas digunakan untuk melihat prestasi akademik

yang diperoleh oleh setiap mahasiswa pada tiap semester yang diambil.

Atribut I_IPK adalah satu-satunya atribut yang dipilih karena dinilai sudah

mewakili informasi prestasi akademik mahasiswa hingga saat masa akhir

studi yang ditempuh. Pada sistem yang berjalan, masa studi yang telah

ditempuh oleh setiap mahasiswa dapat dilihat pada atribut I_THAK, I_SMT

dan I_JSKSK. Jika mahasiswa dengan NRP tertentu tidak muncul pada tahun

akademik selanjutnya baik pada semester ganjil maupun genap maka

mahasiswa tersebut dianggap tidak menyelesaikan masa studi yang harus

ditempuh. Misal masa studi D3 adalah 7 semester dengan total sks 115 sks,

namun mahasiswa yang dimaksud tidak melakukan registrasi pada tahun

akademik dan semester yang sedang berjalan dan pada semester selanjutnya

hingga masa studi yang berlaku dan total sks yang telah diambil lebih kecil

atau sama dengan separuh dari total sks yang berlaku .

Tahap seleksi atribut tidak hanya dilakukan untuk mendapatkan

konsistensi dan relevansi isi dari atribut yang dimiliki namun juga dilakukan

seleksi terhadap atribut yang mengandung missing value atau nilai yang

hilang atau kosong, serta atribut yang mengandung data yang redudancy atau

data yang duplikat. Jika ditemukan dalam kedua dataset terdapat atribut

dengan nilai kosong atau missing value ataupun atribut dengan data yang

redudancy, maka data tersebut dihapus, demikian halnya seperti seleksi yang

dilakukan sebelumnya terhadap atribut-atribut dalam dataset. Hal ini

dilakukan karena atribut yang missing value tidak memberikan informasi

apapun jika dipertahankan keberadaannya, demikian pula dengan atribut

yang redundancy, maka cukup dipilih salah satunya saja dari data yang

redundant karena data tersebut berisi informasi yang sama. Tahap seleksi ini

disebut juga dengan tahap pembersihan data atau data cleaning yang

bertujuan mendapatkan data yang bersih, sehingga data tersebut dapat

digunakan untuk tahap selanjutnya yaitu transformasi data. Pada Gambar 2 telah

diperlihatkan bahwa proses data cleaning adalah proses awal yang dikerjakan

sebelum melakukan tahap mining.

Dari tahap seleksi atribut yang telah dilakukan di atas diperoleh beberapa

atribut sementara yang akan digunakan dalam penelitian, yaitu : NRP, Tgllhr,

Alamat, Pekerjaan Orangtua, JenisSLA, WilSMU, Anakke, dan Dari yang

berasal dari dataset mahasiswa dan atribut IPK dari dataset IPK. Dan jumlah

data akhir yang diperoleh adalah sebanyak 1.175 record data dari total data

sebelumnya adalah 3.203 record data.

Selanjutnya adalah menghapus atribut NRP , dimana pada tahap

sebelumnya atribut ini digunakan untuk melihat kemunculannya pada tiap

semester dan tahun akademik pada dataset IPK, setelah diperoleh informasi

yang dicari maka atribut ini sudah tidak lagi diperlukan. Sehingga atribut-

atribut yang digunakan hanya tinggal atribut Tgllhr, JenisSLA, PkOrtu,

Anakke dan Dari.

Tahap berikutnya adalah merubah tipe data dari beberapa atribut tadi,

diantaranya adalah atribut Tgllhr, JenisSLA, PkOrtu, Anakke dan atribut

Dari. Hal ini dilakukan dengan tujuan agar isi pada setiap atribut lebih mudah

dipahami oleh pengguna data maupun pengguna informasi. Pada Tabel 9 di

bawah ini ditampilkan contoh instances dengan atribut-atribut yang

disebutkan tadi.

Tabel 9. Contoh instances dengan atribut yang akan dirubah tipe datanya

TGLLAHIR PK_ORTU JNSSLA AKKE DARI3/4/1983 1 1 1 2

8/3/1982 1 1 1 3

9/23/1981 3 1 2 4

9/24/1979 4 1 5 7

11/19/1981 4 1 1 2

1/11/1983 4 1 2 2

2/1/1981 2 1 3 3

9/7/1982 4 1 1 3

7/13/1982 4 1 4 4

4/1/1983 4 1 1 1

7/11/1980 2 1 3 3

5/28/1981 3 1 3 3

TGLLAHIR PK_ORTU JNSSLA AKKE DARI10/25/1981 2 1 2 2

3/23/1981 4 1 2 4

Tipe data atribut TglLhr yang semula adalah date diubah menjadi atribut

Usia dengan tipe data numeric, sehingga tidak lagi berisi tanggal lahir

mahasiswa melainkan berisi usia mahasiswa pada saat awal kuliah pada

semester satu. Tipe data JenisSLA, PkOrtu, Anakke dan Dari diubah menjadi

bertipe data string, sehingga dapat lebih mudah dipahami isi atribut yang

dikandung dan tipe data ini dan sesuai dengan tipe data yang digunakan dalam

algoritma decision tree. Atribut Anakke dan atribut Dari dijadikan dalam satu

atribut baru bernama Anakke yang berisi informasi kategori urutan anak dalam

keluarga.

Beberapa atribut pada tabel di atas masih berisi data dalam bentuk kode

angka, seperti nampak pada atribut PkOrtu dan JenisSLA. Berikut ini pada Tabel

10 disajikan keterangan kode pada kedua atribut tersebut.

Tabel 10. Keterangan kode pada atribut PkOrtu dan JenisSLA

Atribut Kode KeteranganPkOrtu 1 TNI

2 PNS

3 Swasta

4 Purnawirawan

JenisSLA 1 SMU

2 SMK

3 MA/MAN

Setelah perubahan tipe data dan pemberian nama baru dilakukan kepada

beberapa atribut maka isi dari atribut yang bersangkutanpun berubah. Berikut ini

tampak pada Tabel 11 adalah contoh instances dengan tipe data dan nama atribut

yang baru.

Tabel 11. Contoh instances dengan tipe data dan nama atribut yang baru

USIA PKORTU JNSSLA Anakke17 TNI smu sulung

18 TNI smu sulung

19 SWASTA smu tengah

USIA PKORTU JNSSLA Anakke21 PURNAWIRAWAN smu tengah

19 PURNAWIRAWAN smu sulung

17 PURNAWIRAWAN smu bungsu

19 PNS smu bungsu

18 PURNAWIRAWAN smu sulung

18 PURNAWIRAWAN smu bungsu

17 PURNAWIRAWAN smu tunggal

20 PNS smu bungsu

19 SWASTA smu bungsu

19 PNS smu tengah

19 PURNAWIRAWAN smu tengah

Beberapa tahapan yang telah dilakukan sebelumnya telah memberikan

hasil berupa dataset dengan atribut-atribut terpilih yang akan digunakan

selanjutnya pada tahap transformasi data. Selengkapnya atribut terpilih tersebut

beserta contoh datanya dapat dilihat pada Tabel 12 di bawah ini.

Tabel 12. Contoh instances dengan atribut terpilih

USIA ALAMAT PKORTU JNSSLA WILSMU Anakke IPK17 JAKARTA TNI smu jakarta sulung 2.41

18 JAKARTA TNI smu jakarta sulung 2.64

19 TANGERANG SWASTA smu tangerang tengah 2.62

21 JAKARTA PURNAWIRAWAN smu jakarta tengah 1.64

19 JAKARTA PURNAWIRAWAN smu jakarta sulung 2.15

17 JAKARTA PURNAWIRAWAN smu jakarta bungsu 3.3

19 DEPOK PNS smu lainnya bungsu 2.19

18 LAINNYA PURNAWIRAWAN smu lainnya sulung 2.49

18 JAKARTA PURNAWIRAWAN smu jakarta bungsu 3.07

17 JAKARTA PURNAWIRAWAN smu jakarta tunggal 3.61

20 DEPOK PNS smu jakarta bungsu 3.24

19 JAKARTA SWASTA smu jakarta bungsu 2.71

19 JAKARTA PNS smu jakarta bungsu 2.95

19 JAKARTA PNS smu jakarta bungsu 2.19

Berikut ini disajikan beberapa keterangan yang berkaitan dengan atribut-

atribut pada tabel di atas, yaitu :

a. Usia

Merupakan atribut yang berisi usia mahasiswa pada saat masuk kuliah

semester satu. Atribut ini adalah atribut pengganti dari atribut sebelumnya

yaitu Tgllhr.

b. Alamat

Merupakan atribut yang berisi alamat tinggal mahasiswa pada saat

melakukan registrasi ulang. Untuk selanjutnya atribut ini dikelompokkan

dalam enam kategori kota wilayah tinggal yaitu Jakarta, Bogor, Depok,

Tangerang, Bekasi, dan Lainnya. Kategori kota lainnya memberikan arti

bahwa kota yang dimaksud adalah kota wilayah selain dari lima kota

wilayah yang sudah disebutkan tadi.

c. PkOrtu

Merupakan atribut yang menjelaskan jenis pekerjaan orang tua dari

mahasiswa, yang kemudian dikelompokkan dalam empat kategori yaitu

Purnawirawan, Swasta, TNI (yang maksud adalah anggota Tentara

Nasional Indonesia), dan PNS (Pegawai Negeri Sipil). Pengelompokkan ini

didasarkan kepada data sumber tentang jenis pekerjaan orang tua yang

dimiliki oleh FIK-UPNVJ.

d. JenisSLA

Merupakan atribut yang menjelaskan kelompok sekolah lanjutan asal

mahasiswa yang dikelompokkan ke dalam jenis sekolah kejuruan (SMK),

sekolah menengah umum (SMU), dan sekolah lanjutan atas keagamaan

(MA/Madrasah Aliyah).

e. WilSMU

Berisi alamat wilayah kota sekolah lanjutan asal mahasiswa. Kategori yang

dibuat untuk atribut ini adalah sama dengan kategori yang ada pada atribut

sebelumnya yaitu alamat, yaitu Jakarta, Bogor, Depok, Tangerang, Bekasi,

dan Lainnya.

f. Anakke

Merupakan atribut yang menjelaskan urutan anak dalam keluarga. Kategori

yang dibuat berdasarkan kepada informasi yang ada pada atribut Anakke

dan Dari, dengan menganalisa isi terhadap keduanya sehingga atribut yang

dihasilkan terbagi ke dalam empat kategori yaitu sulung, tengah, bungsu, dan

tunggal.

g. IPK

Merupakan atribut yang berisi nilai prestasi kumulatif mulai dari semester satu

hingga akhir semester yang di tempuh oleh mahasiswa. Terdapat lima kategori

IPK yang diberlakukan pada FIK-UPNVJ yaitu IPK < 1.50, 1.50 – 1.99, 2.00 –

2.49, 2.50 – 2.99, dan >= 3.00.

Hasil yang di peroleh dari tahap seleksi atribut di atas telah menghasilkan

sejumlah 7 atribut baru dan 1.175 record data dengan isi data yang tidak lagi

redundant, tidak missing value dan data yang digunakan adalah data yang konsisten.

Untuk selanjutnya dataset tersebut disebut dengan nama dataset akademik. Tahapan

yang akan dikerjakan kemudian adalah transformasi data, yang akan dijelaskan pada

sub bahasan selanjutnya.

Data Mining

Dengan menggunakan metode 3-fold cross validation maka dataset akademik

secara acak dibagi ke dalam tiga bagian, yaitu dua bagian sebagai data training dan

satu bagian sebagai data testing. Pada Tabel 13 berikut ini disajikan kombinasi dari

tiga bagian dataset akademik tersebut.

Tabel 13. Kombinasi dataset hasil pemisahan dengan metode 3-fold cross validation

Data Training Data Testing

Dataset 1 dan Dataset 2 (training 1) Dataset 3 (testing 1)



Kemudian dataset di atas digunakan untuk mengkonstruksi pohon

keputusan (decision tree) yang dimulai dengan pembentukan bagian akar,

kemudian data terbagi berdasarkan atribut-atribut yang sesuai untuk dijadikan

leaf node. Tahap ini dimulai dengan melakukan seleksi atribut menggunakan

formula information gain yang terdapat pada algoritma C5.0 seperti tampak pada

halaman 11 Formula 2.1, Formula 2.2 dan Formula 2.3, sehingga diperoleh nilai

gain untuk masing-masing atribut, yang mana atribut dengan nilai gain tertinggi

akan menjadi parent bagi node-node selanjutnya. Node-node tersebut berasal dari

atribut-atribut yang memiliki nilai gain yang lebih kecil dari nilai gain atribut

parent. Maka untuk mendapatkan nilai gain dari dua kelas output yang berbeda

yaitu ’aktif’ dan ’tidak aktif’ pada dataset akademik adalah dengan menghitung

tingkat impurity kedua kelas tersebut. Berikut ini pada Tabel 14 disajikan contoh

data kelas mahasiswa aktif dan tidak aktif berdasarkan atribut JnsSLA.

Tabel 14. Contoh data dengan kelas mahasiswa aktif dan tidak aktif berdasarkan

atribut JnsSLA

JnsSLA Aktif Tidak Aktif

SMU 801 219

SMK 104 23

MA 20 8

Selanjutnya dengan menggunakan data pada Tabel 14 di atas dicari nilai

information gainnya yaitu,

I (925,250)= 1175925

log2 1175925

1175250

log2 1175250

= 0,739

Jika dalam satu set hanya terdiri dari satu kelas maka entropinya = 0. Jika

perbandingan dua kelas rasionya sama maka nilai entropinya=1. Dengan

menggunakan formula yang sama dilakukan pemilihan atribut, dimana akan dihitung

rasio nilai kelas aktif dan tidak aktif dari seluruh atribut. Salah satu contoh

penerapan formula tersebut untuk pemilihan atribut (atribut JnsSLA) adalah sebagai

berikut,

JnsSLA = SMU,

I (801,219)= 1020801

log2 1020801

1020219

log2 1020219

= 0,75

JnsSLA = SMK,

23I (104,23)=104

log 104 23 log = 0,682127 2 127 127 2 127

JnsSLA = MA,

20 8

I (20,8)=20

log

8

log = 0.86228

2

28 28 2 28

Maka total entropi atribut JnsSLA :

E( JnsSLA)=1020

1175 (0,75)+1175127

(0,682)+117528

(0,862)=0,745

Maka nilai Gain atribut JnsSLA : G(JnsSLA)= 0,739 0,745 = 0,006

Hasil diatas diperoleh dengan menggunakan data 100% yang berjumlah

1175 dengan keadaan data tidak terbagi ke dalam 3-fold cross validation. Bila

diterapkan pada data yang sudah terbagi ke dalam 3-fold cross validation akan

memberikan hasil yang berbeda pada setiap kelompok datanya.

Untuk tahap selanjutnya hal yang sama yaitu penerapan formula

information gain dilakukan terhadap atribut-atribut yang lainnya dalam dataset

akademik, sehingga diperoleh atribut dengan nilai gain tertinggi yang kemudian

dipilih sebagai simpul pertama pada decision tree yang dikenal dengan nama

root/akar. Pada simpul selanjutnya secara berurutan diisi oleh atribut-atribut

yang bernilai gain lebih rendah, dan akan berhenti pada simpul akhir yang berisi

kelas output dari setiap cabangnya yang dikenal dengan nama leaf/daun. Tabel

15 di bawah ini menyajikan nilai gain dari seluruh atribut pada kelompok data

training dan data testing yang mana nilai gain atribut Alamat, PkOrtu, JnsSLA,

WilSMU, Anakke, dan IPK yang terdapat dalam tabel adalah hasil pembulatan

terhadap nilai aslinya.

Tabel 15. Nilai gain seluruh atribut pada kelompok data training dan data testing

Dataset Instances Gain

Usia Alamat PkOrtu JnsSLA WilSMU Anakke IPK

training 1 784 0 0.024 0.002 0.005 0.013 0.002 0.242

Dataset Instances Gain

Usia Alamat PkOrtu JnsSLA WilSMU Anakke IPK

training 2 783 0 0.018 0.002 0.002 0.009 0.002 0.249

training 3 783 0 0.023 0.004 0.002 0.011 0.003 0.204

rata-rata 0 0.022 0.003 0.003 0.011 0.002 0.232

Pada Tabel 15 diatas tampak bahwa atribut IPK memiliki nilai Gain

tertinggi, sehingga atribut ini menjadi atribut root pada decision tree, kemudian

dilanjutkan dengan atribut Alamat dan WilSMU yang berfungsi sebagai child

node, dan diakhiri oleh label kelas aktif dan tidak aktif yang berfungsi sebagai

leaf. Maka dapat dikatakan bahwa parameter penentu pertama seorang

mahasiswa berpotensi untuk aktif atau tidak aktif pada waktu yang akan datang

dilihat dari IPK yang diperoleh mahasiswa yang bersangkutan, kemudia Alamat

tinggal dan WilSMU mahasiswa tersebut. Atribut Usia, PkOrtu, JnsSLA dan

Anakke rata-rata nilai gain yang diperoleh sangat kecil jika dibandingkan

dengan atribut Alamat, WilSMU dan IPK, sehingga dapat disimpulkan bahwa

dukungan informasi yang terkandung dalam atribut tersebut terhadap output

yang dicapai sangat kecil. Maka atribut akhir yang terpilih hanya terdiri dari

atribut IPK, Alamat, dan WilSMU. Dengan menggunakan tiga atribut terakhir

tadi maka diperoleh dengan jelas karakteristik mahasiswa aktif dan tidak aktif

beserta aturan yang mengklasifikasikan data tersebut.

Pada Gambar 6 berikut ini disajikan hasil klasifikasi pada data testing 3

dengan menggunakan tiga atribut terakhir tadi.

Gambar 6. Gambar hasil klasifikasi data testing 3 menggunakan wekaclassifier

Salah satu hasil klasifikasi decision tree seperti pada Gambar 6 diatas

menggunakan beberapa parameter yang tersedia pada weka classifier untuk

klasifikasi menggunakan algoritma C5.0 ( atau J48 pada weka ) yaitu :

- binary splits= false, jika bernilai true maka setiap level hanya terdiri dari dua

cabang (pada setiap atribut hanya terdiri dari dua kategori, kategori lain

dianggap sebagai kategori pada atibut lain)

- confidencefactor = 0.25, atribut dengan nilai gain sama dengan 0.25 atau

lebih tinggi maka terpilih sebagai atribut untuk decision tree, sedangkan

atribut dengan nilai lebih kecil dari 0.25 akan dipangkas (pruned) dan tidak

terpilih sebagai atribut untuk decision tree.

- debug = false, jika bernilai true maka classifier akan memberikan informasi

yang akan ditampilkan pada layar console.

- minnumObj = 2, jumlah minimum instances per leaf.

- numfolds=3, data yang akan diklasifikasi dibagi menjadi 3 bagian yaitu 1

bagian data digunakan untuk proses pruning sedangkan 2 bagian data yang

lainnya digunakan untuk membentuk decision tree berdasarkan hasil dari

bagian data sebelumnya .

- reducederrorpruning = false,tidak dilakukan prosedur pruning yang lain

- save instance data = false, tidak dilakukan penyimpanan data training untuk

visualisasi

- seed = 1, digunakan untuk mengacak data saat reduksi error pruningdilakukan

- subtreeraising = true, memeriksa posisi subtree pada saat proses pruning

dilakukan

- unpruned = false, jika bernilai true maka proses pruning tidak dikerjakan.

- uselaplace = false,dengan menggunakan metode Laplace akan dihitung

jumlah true classified dan missclassified.

Pada Gambar 6 diatas terlihat bahwa weka classifier hanya memilih

atribut IPK sebagai atribut dalam decision tree, sedangkan atribut lainnya

terpangkas dari decision tree. Maka dapat disimpulkan bahwa dengan jumlah

dan jenis data yang ada pada testing 3 hanya dibutuhkan atribut IPK untuk

mendapatkan kelas output dari dataset tersebut. Hasil klasifikasi pada data

testing 3 diatas tampak pula struktur if -then yang menunjukkan susunan

aturan-aturan yang diperoleh, berikut pada Gambar 7 ditampilkan kembali

bentuk aturan yang dimaksud :

Gambar 7. Aturan-aturan klasifikasi hasil data testing 3

Adapun struktur if-then untuk aturan diatas adalah sebagai berikut :

If IPK <= 1.77 then Status = Tidak Aktif

Else

If IPK > 1.77 then Status = Aktif

Dan bentuk Gambar 7 diatas dapat pula dilihat dalam bentuk decision

tree yang dihasilkan, seperti pada Gambar 8 berikut ini :

Gambar 8. Hasil klasifikasi dengan algoritma C5.0 menggunakan weka

classifier dalam bentuk struktur pohon keputusan

Klasifikasi dengan decision tree (algoritma C5.0) telah menghasilkan

beberapa aturan, baik dalam bentuk struktur pohon keputusan maupun dalam

bentuk aturan if – then. Kegiatan selanjutnya adalah melakukan klasifikasi

dengan menggunakan metode K-Nearest Neighbor (KNN) yang mana dalam

weka classifier diberi nama IBk. Pada dasarnya tahapan yang dilakukan kali ini

menggunakan beberapa parameter yang berisi nilai yang sudah default pada

weka classifier, hanya saja untuk parameter KNN akan diisi dengan nilai ganjil

mulai dari 1, 3 dan 5. Karena jumlah data/tetangga pada KNN ditentukan oleh

user dan untuk mendapatkan hasil yang reasonable maka k berisi data dalam

bilangan ganjil, maka dipilihlah jumlah tetangga dengan angka-angka tersebut,

dengan asumsi bahwa jumlah tetangga data yang diambil adalah sebanyak 1, 3

dan 5 tetangga data. Parameter-parameter yang dimaksud yaitu :

- KNN=1,banyaknya jumlah tetangga data yang diambil.

- crossValidate = false, digunakan untuk menentukan k yang terbaik.

- debug = false, jika bernilai true maka classifier akan memberikan informasi

yang akan ditampilkan pada layar console.

- distanceWeighting =no distance weighting, setiap data tetangga yang dipilih

tidak diberi bobot.

- meanSquared = false,akan lebih baik bila digunakan untuk data-data regresi.

- nearestNeighborSearchAlgorithm=LinearNNSearch, adalah algoritma

standar yang digunakan untuk mencari tetangga data pada weka.

- windowsize = 0, jumlah maksimum data yang diklasifikasi tidak terbatas.

Hasil yang diperoleh menunjukkan kecenderungan yang lebih baik dalam

mengklasifikasikan data, baik dengan jumlah tetangga data=1, 3 atau 5. Setiap

data yang diuji diperhatikan tingkat ketepatan dan ketidaktepatan dalam

mengklasifikasikan data tersebut dan lama waktu yang dibutuhkan untuk

membangun model. Hasil klasifikasi dengan tingkat ketepatan klasifikasi data

yang tertinggi dan lama waktu terendah dalam membangun model akan

dijadikan sebagai model terbaik. Karena k adalah satu-satunya hyper-paramater

dalam KNN yang mana nilainya harus ditentukan dengan coba-coba, maka k

yang diambil adalah k=1, k=3 dan k=5. Angka-angka tersebut diambil bertujuan

untuk mendapatkan hasil yang reasonable yaitu hasil yang diperoleh memiliki

waktu yang singkat dalam membangun model , data terklasifikasi dengan baik.

Seperti halnya pada algoritma C5.0, penggunaan algoritme ini dalam

data training dan data testing memberikan hasil yang berbeda-beda, dan berikut

ini pada Gambar 9 ditampilkan hasil klasifikasi dengan KNN=1 atau jumlah data

tetangga yang diambil adalah sebanyak 1 pada data testing 3.

Gambar 9. Hasil klasifikasi dengan KNN=1 pada data testing 3 menggunakan

weka classifier

Pada Gambar 9 di atas sebanyak 82 record data diklasifikasikan sebagai

mahasiswa tidak aktif, 309 record data mahasiswa aktif dan 9 record data

diklasifikasikan tidak sesuai dengan kelasnya yaitu terdiri dari 3 record data

diduga sebagai mahasiswa tidak aktif ternyata adalah mahasiswa aktif serta 6

data diduga sebagai mahasiswa aktif ternyata adalah mahasiswa tidak aktif.

Selebihnya hasil uji coba klasifikasi dengan KNN dapat dilihat pada bab

lampiran yang terdapat pada tesis ini. Pengujian data dengan KNN relatif lebih

singkat untuk dilakukan dibandingkan dengan C5.0.

Pada bahasan berikutnya akan dilakukan analisis dengan menggunakan

beberapa alat ukur evaluasi seperti yang sudah dijelaskan pada bahasan

sebelumnya, terhadap hasil yang diperoleh dengan menggunakan algoritma C5.0

dan KNN.

Evaluasi

Seperti yang sudah dijelaskan pada bahasan sebelumnya, pada tahap ini

akan dilakukan evaluasi terhadap kedua algoritma yang dipakai pada dataset

akademik dengan memperhatikan beberapa parameter evaluasi yaitu correctly

classified, incorrectly classified, yang mana kedua parameter ini diwakili oleh

parameter overall success rate yang terdapat pada confusion matrix. Persentase

klasifikasi sesuai dengan kelasnya dan klasifikasi yang tidak sesuai dengan

kelasnya diukur menggunakan lift chart dan recall precision sehingga diperoleh

informasi yang tersembunyi di dalamnya. Untuk lebih mempermudah

pemahaman dalam menganalisa hasil klasifikasi yang disajikan, dilampirkan

pula beberapa visualisasi hasil tersebut dalam bentuk grafik yang akan disajikan

setelah tabel persentase hasil klasifikasi.

Berikut ini pada Tabel 16 disajikan persentase hasil klasifikasi data

sesuai dengan kelasnya berdasarkan alat ukur evaluasi berupa confusion matrix

yang terdiri dari overall success rate, lift chart, dan recall precision pada C5.0

dan KNN terhadap data training dan data testing.

Tabel 16. Persentase hasil klasifikasi berdasarkan alat ukur evaluasi confusion

matrix (overall success rate, lift chart, dan recall precision)

Dataset Overall success rate Lift chart Recall precisionC5.0 K=1 K=3 K=5 C5.0 K=1 K=3 K=5 C5.0 K=1 K=3 K=587.91 94.21 88.64 86.94 38 41 38 37 81 90 85 84Training86.98 95.83 88.17 89.03 39 42 38 37 80 90 85 85Testing

Pada Tabel 16 diatas dapat dilihat bahwa kecenderungan hasil terbaik

diperoleh pada saat uji coba data menggunakan KNN dengan k=1. Baik pada

saat uji coba dengan data training yang jumlah datanya dua kali lebih banyak

dari data testing, hasil yang diperoleh tetap menunjukkan nilai tertinggi hingga

mencapai lebih dari 95%.

Berikut ini pada Gambar 10, Gambar 11, Gambar 12, disajikan grafik

yang menunjukkan perbandingan terhadap dua metode diatas ke dalam masing-

masing alat ukur evaluasi yang digunakan seperti disebutkan sebelumnya.

57

10090807060(%

)Training50Testing

nila

i

40302010

0C5.0 knn=1 knn=3 knn=5

Overall success rate

Gambar 10. Grafik Overall Success Rate pada dataset akademik menggunakan metode decision

tree (C5.0) dan KNN

Pada grafik di atas terlihat bahwa keberhasilan klasifikasi yang mencapai nilai hampir

100% menunjukkan bahwa KNN dengan k=1 menjadi lebih baik dibandingkan C5.0, namun

keberhasilan tersebut tidak terulang pada saat jumlah k diberikan nilai yang lebih besar. Maka

dapat disimpulkan bahwa klasifikasi metode KNN dengan k=1 adalah model terbaik.

100908070)

training( % 60testing50

nila

i

40302010

0c5.0 knn=1 knn=2 knn=3

lift chart

Gambar 11. Grafik Lift Chart pada dataset akademik menggunakan metode decision tree (5.0)

dan KNN

Pada Gambar 11 di atas, kecenderungan hasil yang sama yaitu jumlah kelas positif pada

kedua algoritma terjadi pada saat klasifikasi dilakukan dengan

menggunakan data training dan testing. Rata-rata jumlah data yang terklasifikasi ke dalam

kelas positif mencapai 40% dari seluruh data yang diklasifikasi.\

58

10090807060(%

)

Training50

Testing

nila

i

403020100

C5.0 knn=1 knn=3 knn=5

recall precision

Gambar 12. Grafik Recall Precision pada dataset akademik menggunakan metode decision tree

(5.0) dan KNN

Pada grafik di atas data yang di klasifikasi dan sesuai dengan kelasnya rata-rata mencapai

nilai hingga 80% lebih, yang menyatakan bahwa seluruh data yang di klasifikasi dapat dikenali

dengan sangat baik oleh kedua algoritma. Hal ini dapat disebabkan oleh karena dilakukannya

tahap seleksi data dan atribut sebelum dilakukan kegiatan klasifikasi, sehingga seluruh data yang

diolah hanyalah data yang bersih dari missing value dan redudancy. Sementara itu sejumlah data

yang diklasifikasi namun tidak sesuai dengan kelasnya (missclassified) sebanyak 5%, dan berikut

ini pada Gambar 13 disajikan grafik persentase klasifikasi sesuai dengan kelasnya (true

classified) dan klasifikasi tidak sesuai dengan kelasnya (missclassified).

ketepatan klasifikasi100

90807060 true classified(%

)

missclassified50

nila

i

403020100

C5.0 knn=1 knn=3 knn=5

Gambar 13. Grafik persentase true classified dan missclassified

Hasil yang diperoleh dalam penelitian ini dengan menggunakan algoritma C5.0 dan KNN

menunjukkan bahwa decision tree dengan algoritma C5.0 tetap dinilai lebih baik ini

dibandingkan dengan KNN, karena decision tree memberikan output berupa karakteristik data

59

yang terklasifikasi, baik untuk kelas aktif maupun kelas tidak aktif. Sedangkan knn tidak dapat

memberikan karakteristik tersebut sehingga tidak diperoleh informasi karakteristik data yang

dibutuhkan, melainkan hanya memberikan informasi jumlah data yang dapat terklasifikasi dan

tidak terklasifikasi saja.

4. Metode Clustering

Clustering adalah suatu metode pengelompokan berdasarkan ukuran

kedekatan(kemiripan).Clustering beda dengan group, kalau group berarti kelompok yang

sama,kondisinya kalau tidak ya pasti bukan kelompoknya.Tetapi kalau cluster tidak harus

sama akan tetapi pengelompokannya berdasarkan pada kedekatan dari suatu karakteristik

sample yang ada, salah satunya dengan menggunakan rumus jarak ecluidean.Aplikasinya

cluster ini sangat banyak, karena hamper dalam mengidentifikasi permasalahan atau

pengambilan keputusan selalu tidak sama persis akan tetapi cenderung memiliki kemiripan

saja.

Manfaat

• Identifikasi obyek (Recognition) :

Dalam bidang mage Processing , Computer Vision atau robot vision

• Decission Support System dan data mining

Segmentasi pasar, pemetaan wilayah, Manajemen marketing dll.

Prinsip dasar :

• Similarity Measures (ukuran kedekatan)

• Distances dan Similarity Coeficients untuk beberapa sepasang dari item

Ecluidean Distance:

2222

211 )(...)()(),( pp yxyxyxyxd −++−+−=

Atau :

60

2/12

1||),(

−= ∑

=i

p

ii yxyxd

Metode Clustering pada dasarnya mengoptimumkan pusat cluster(centroid) atau

mengoptimalkan lebar antar cluster.

Macam-macam metode clustering :

• Berbasis Metode Statistikk

a. Hirarchical clustering method : pada kasus untuk jumlah kelompok belum

ditentukan terlebih dulu, contoh data-data hasil survey kuisioner

Macam-metode jenis ini: Single Lingkage,Complete Linkage,Average Linkage dll.

b. Non Hirarchical clustering method: Jumlah kelompok telah ditentukan terlebih

dulu.Metode yang digunakan : K-Means.

• Berbasis Fuzzy : Fuzzy C-Means

• Berbasis Neural Network : Kohonen SOM, LVQ

• Metode lain untuk optimasi centroid atau lebar cluster : Genetik Algoritma (GA)

Gambar : Salah contoh 3 cluster yang terbentuk

61

Pertama akan kita bahas dulu metode cluster secara statistic untuk non hirachical method

yaitu: K-Means Clustering

Algoritma:

1. Partisi item menjadi K initial cluster

2. Lakukan proses perhitungan dari daftar item, tandai item untuk kelompok yang mana

berdasarkan pusat(mean) yang terdekat (dengan menggunakan distance dapat

digunakan Euclidean distance).Hitung kembali pusat centroid untuk item baru yang

diterima pada cluster tersebut dari cluster yang kehilangan item.

3. Ulangi step 2 hingga tidak ada lagi tempat yang akan ditandai sebagai cluster baru.

Contoh :

Dikethui data sebagai berikut:

ObservasiItem

X1 X2

A 5 3

B -1 1

C 1 -2

D -3 -2

Ditanya: Lakukan cluster menjadi 2 kelompok (K=2).

• Langkah pertama:

Cluster Koordinate dari Centroid−

1X−

2X

(AB)2

2)1(5

=−+ 2

213

=+

(CD)1

2)3(1

−=−+ 2

2)2(2

−=−+−

• Langkah kedua :

Lakukan perhitungan jarak dengan eclidean dari masing-masing item dari

centroid(pusat) cluster dan tandai kembali setiap item berdasarkan kedekatan

group.Jika item bergerak dari initial configuration, Centroid(pusat/means) cluster

harus diupdate sebelum diproses.Kita hitung kwadrat jarak(squared distance) sbb:

62

61)23()15())(,(10)23()25())(,(

222

222

=+++=

=−+−=

CDAdABAd

Sejak A dekat pada cluster (AB) dibandingkan pada cluster (CD), maka tidak perlu

ditandai.Lanjutkab perhitungan :

9)21()11())(,(10)112()21())(,(

222

222

=+++−=

=++−=

CDBdABBd

Sehingga B akan ditandi kembali menjadi anggota baru pada cluster (CD), sehingga

membentuk cluster baru (BCD) maka koordinat dari pusat cluster terupdate sebagai berikut :

Cluster Koordinate dari Centroid−

1X−

2X

A 5 3

(BCD) -1 -1

Selanjutnya lakukn chek untuk setiap item untuk ditandai kembali. Perhitungan kwadrat

jarak(squared distances) dibarikan sbb:

Cluster Koordinate dari Centroid

A B C D

A 0 40 41 89

(BCD) 52 4 5 5

63

Kita lihat setiap item yang baru telah ditandai untuk cluster berdasarkan centroid(pusat)

terdekat maka proses telah dihentikan.Sehingga dengan K=2 cluster maka terbentuk cluster

sebagai berikut : A dan (BCD).

Tugas Akhir Data Mining

Documents

Transcript of Tugas Akhir Data Mining