Perbandingan Algoritma Id3 Dan c5.0 Dalam Indentifikasi Penjurusan Siswa Sma

12
1 PERBANDINGAN ALGORITMA ID3 DAN C5.0 DALAM INDENTIFIKASI PENJURUSAN SISWA SMA *Holisatul Munawaroh, **Bain Khusnul K,S.T.,M.Kom ***Yeni Kustiyahningsih,S.Kom.,M.Kom Program Studi Teknik Informatika, Universitas Trunojoyo Jl. Raya Telang, PO BOX 2, Kamal, Bangkalan E-mail: *[email protected], ** [email protected], *** [email protected] ABSTRAK Selama ini pemilihan jurusan di SMA Negeri 2 Bangkalan merupakan masalah yang selalu dihadapi oleh guru. Masalah yang sering terjadi adalah keterlambatan nilai siswa dari wali kelas dan banyaknya jumlah siswa kelas X sehingga proses penjurusannya kurang tepat. Oleh karenanya diperlukan suatu sistem yang terkomputerisasi yang dapat menangani masalah diatas. Pada penelitian ini dibangun aplikasi untuk mengidentifikasi penjurusan siswa SMA. Aplikasi penjurusan SMA ini menggunakan algoritma ID3 dan C5.0 yang merupakan algoritma pohon keputusan yang sering digunakan karena memiliki tingkat akurasi yang tinggi dalam menentukan keputusan. Namun, belum diketahui algoritma mana diantara keduanya yang lebih unggul kinerjanya. Oleh karena itu algoritma ini perlu dibandingkan. Penelitian ini membandingkan kinerja dari algoritma ID3 dan C5.0 dalam melakukan identifikasi penjurusan siswa SMA. Penelitian ini menggunakan 200 data siswa kelas X tahun ajaran 2011/2012, data tersebut dipecah menjadi 2 yaitu 150 data training dan 50 data testing. Hasil dari penelitian yang dilakukan, diketahui nilai precision terbesar dicapai oleh algoritma C5.0 pre pruning dengan nilai sebesar 94,87 %. Nilai recall terbesar dicapai oleh algoritma C5.0 pre pruning dengan nilai sebesar 97,37 %. Nilai accuracy terbesar dicapai oleh algoritma C5.0 pre pruning dengan nilai sebesar 94 %. Nilai error rate terkecil dicapai oleh algoritma C5.0 pre pruning dengan nilai sebesar 6%. Hasil akhir dari penelitian ini adalah algoritma C5.0 lebih baik dari pada algoritma ID3 karena memiliki tingkat akurasi yang lebih tinggi daripada algoritma ID3. Kata Kunci: Pohon Keputusan, ID3, C5.0, IPA, IPS. ABSTRACT All this time election majors at high school 2 Bangkalan is a problem that has always faced by teachers. The problem that often occurs is the delay value of homeroom students and the large number of students of class X so that the process majoring is less precise. Therefore we need a computerized system that can handle the above problems. In this research, built applications for identify majors high school students. This application uses algorithms ID3 and C5.0 that is decision tree algorithm often used because it has a high degree of accuracy in determining the decision. However, the algorithm is not yet known which of the two is superior performance. Therefore these algorithms need to be compared. This study compared the performance of ID3 and C5.0 algorithms in identifying majors of students in high school. This study uses 200 data class X students of the school year 2011/2012, the data is broken down into 2 that is 150 training data and 50 testing data. Results of research conducted, the largest known value of precision is achieved by pre-pruning algorithm C5.0 with a value of 94.87%. Biggest recall value achieved by pre pruning algorithm C5.0 with a value of 97.37%. Greatest accuracy values achieved by pre-pruning algorithm C5.0 with a value of 94%. Value of the smallest error rate achieved by pre pruning algorithm C5.0 a value of 6%. The end result of this research is the C5.0 algorithm is better than the ID3 algorithm because it has a higher level of accuracy than the ID3 algorithm. Keywords: Decision Tree, ID3, C5.0, Science, Social Studies.

Transcript of Perbandingan Algoritma Id3 Dan c5.0 Dalam Indentifikasi Penjurusan Siswa Sma

Page 1: Perbandingan Algoritma Id3 Dan c5.0 Dalam Indentifikasi Penjurusan Siswa Sma

1

PERBANDINGAN ALGORITMA ID3 DAN C50 DALAM

INDENTIFIKASI PENJURUSAN SISWA SMA

Holisatul Munawaroh Bain Khusnul KSTMKom

Yeni KustiyahningsihSKomMKom

Program Studi Teknik Informatika Universitas Trunojoyo

Jl Raya Telang PO BOX 2 Kamal Bangkalan

E-mail holisatulgmailcom bainkkgmailcom ykustiyahningsihyahoocom

ABSTRAK

Selama ini pemilihan jurusan di SMA Negeri 2 Bangkalan merupakan masalah yang selalu dihadapi oleh

guru Masalah yang sering terjadi adalah keterlambatan nilai siswa dari wali kelas dan banyaknya jumlah

siswa kelas X sehingga proses penjurusannya kurang tepat Oleh karenanya diperlukan suatu sistem yang

terkomputerisasi yang dapat menangani masalah diatas Pada penelitian ini dibangun aplikasi untuk

mengidentifikasi penjurusan siswa SMA Aplikasi penjurusan SMA ini menggunakan algoritma ID3 dan

C50 yang merupakan algoritma pohon keputusan yang sering digunakan karena memiliki tingkat akurasi

yang tinggi dalam menentukan keputusan Namun belum diketahui algoritma mana diantara keduanya yang

lebih unggul kinerjanya Oleh karena itu algoritma ini perlu dibandingkan Penelitian ini membandingkan

kinerja dari algoritma ID3 dan C50 dalam melakukan identifikasi penjurusan siswa SMA Penelitian ini

menggunakan 200 data siswa kelas X tahun ajaran 20112012 data tersebut dipecah menjadi 2 yaitu 150 data

training dan 50 data testing Hasil dari penelitian yang dilakukan diketahui nilai precision terbesar dicapai

oleh algoritma C50 pre pruning dengan nilai sebesar 9487 Nilai recall terbesar dicapai oleh algoritma

C50 pre pruning dengan nilai sebesar 9737 Nilai accuracy terbesar dicapai oleh algoritma C50 pre

pruning dengan nilai sebesar 94 Nilai error rate terkecil dicapai oleh algoritma C50 pre pruning dengan

nilai sebesar 6 Hasil akhir dari penelitian ini adalah algoritma C50 lebih baik dari pada algoritma ID3

karena memiliki tingkat akurasi yang lebih tinggi daripada algoritma ID3

Kata Kunci Pohon Keputusan ID3 C50 IPA IPS

ABSTRACT

All this time election majors at high school 2 Bangkalan is a problem that has always faced by teachers The

problem that often occurs is the delay value of homeroom students and the large number of students of class

X so that the process majoring is less precise Therefore we need a computerized system that can handle the

above problems In this research built applications for identify majors high school students This application

uses algorithms ID3 and C50 that is decision tree algorithm often used because it has a high degree of

accuracy in determining the decision However the algorithm is not yet known which of the two is superior

performance Therefore these algorithms need to be compared This study compared the performance of ID3

and C50 algorithms in identifying majors of students in high school This study uses 200 data class X

students of the school year 20112012 the data is broken down into 2 that is 150 training data and 50 testing

data Results of research conducted the largest known value of precision is achieved by pre-pruning

algorithm C50 with a value of 9487 Biggest recall value achieved by pre pruning algorithm C50 with a

value of 9737 Greatest accuracy values achieved by pre-pruning algorithm C50 with a value of 94

Value of the smallest error rate achieved by pre pruning algorithm C50 a value of 6 The end result of this

research is the C50 algorithm is better than the ID3 algorithm because it has a higher level of accuracy than

the ID3 algorithm

Keywords Decision Tree ID3 C50 Science Social Studies

2 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

PENDAHULUAN

Sekolah Menengah Atas (disingkat SMA) adalah jenjang pendidikan menengah pada

pendidikan formal di Indonesia setalah lulus Sekolah Menengah Pertama (atau sederajat) Sekolah

Menengah Atas ditempuh dalam kurun waktu 3 tahun mulai dari kelas X sampai kelas XII Pada

tahun kedua (yakni kelas XI) siswa SMA dapat memilih jurusan yang ada Idealnya pemilihan

jurusan itu berdasarkan minat bakat dan kemampuan siswa sehingga dengan itu mereka

diharapkan akan berhasil dalam menyelesaikan studinya di SMA serta dapat melanjutkan

pendidikan ke jenjang yang lebih tinggi

Proses penjurusan di SMAN 2 Bangkalan dilakukan pada saat siswa berada di kelas X dan

akan naik ke kelas XI Setelah wali kelas menerima seluruh nilai semester maka wali kelas akan

memutuskan apakah siswa tersebut naik atau tidak Jika siswa tersebut dinyatakan naik maka

selanjutnya akan dilakukan proses penjurusan oleh tim yang terdiri dari Wakil Kepala Sekolah

Bidang Kurikulum Guru Bimbingan Konseling Wali Kelas X dan Guru Mata Pelajaran yang

berkaitan dengan penjurusan Masalah yang sering terjadi dalam proses penjurusan adalah

keterlambatan nilai siswa dari para wali kelas akibatnya pada akhir proses penjurusan para tim

penentu jurusan berburu waktu sehingga proses penjurusan kurang tepat ditambah lagi dengan

banyaknya jumlah siswa kelas X Tahun ajaran 20112012 tercatat siswa kelas X sejumlah plusmn 320

orang

Penjurusan siswa yang dilakukan di SMAN 2 Bangkalan hanya pada dua jurusan yaitu IPA

dan IPS Penentuan penjurusan ini dipertimbangkan berdasarkan nilai akademik siswa minat

siswa dan bakat siswa yang dilihat dari hasil psikotest Pada penelitian ini dibangun aplikasi untuk

mengidentifikasi penjurusan siswa SMA Aplikasi penjurusan SMA ini menggunakan algoritma

ID3 dan C50 yang merupakan algoritma pohon keputusan yang sering digunakan karena memiliki

tingkat akurasi yang tinggi dalam menentukan keputusan

Dalam studi kasus yang lain penelitian terkait perbandingan kinerja pohon keputusan

ID3 dan C45 pernah dilakukan oleh Sofi Defiyanti dan D L Crispina Pardede dengan judul

ldquoperbandingan kinerja algoritma ID3 dan C45 dalam klasifikasi spam-mailrdquo membuktikan bahwa

pohon keputusan dengan algoritma ID3 memiliki kinerja yang lebih baik dibandingkan algoritma

C45 dalam mengklasifikasikan data spam email Berikutnya penelitian tentang prediksi

keaktifan studi mahasiswa dengan algoritma C50 dan K-Nearest Neighbor yang melakukan

prediksi untuk mengetahui keaktifan seorang mahasiswa Dalam penelitian ini proses klasifikasi

yang memberikan hasil bahwa atribut Indeks Prestasi Kumulatif (IPK) merupakan atribut yang

menentukan status studi mahasiswa Hasil penelitian ini memberikan informasi bahwa Algoritma

C50 lebih baik dibandingkan algoritma K-Nearest Neighbor

Berdasarkan kedua penelitian tersebut dapat dilihat bahwa kedua algoritma ID3 dan C50

mempunyai kinerja yang baik dalam pengidentifikasiannya Namun belum diketahui algoritma

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 3

mana diantara keduanya yang lebih unggul kinerjanya Oleh karena itu algoritma ini perlu

dibandingkan Pada penelitian ini membandingkan kinerja dari algoritma ID3 dan C50 dalam

melakukan identifikasi penjurusan siswa SMA Hasil akhir dari penelitian ini diharapkan dapat

mengetahui algoritma mana yang memiliki akurasi yang paling tinggi Rule yang dihasilkan juga

akan digunakan sebagai penentu keputusan sehingga dapat memprediksi jurusan siswa IPA atau

IPS

TINJAUAN PUSTAKA

Profil SMA

SMA Negeri 2 Bangkalan merupakan salah satu unit pelaksana teknis dinas pendidikan

kota Bangkalan yang berada di Jl Soekarno hatta 18 kelurahan Mlajah kecamatan Bangkalan

SMAN 2 Bangkalan ini dibuka pada tanggal 1 April 1978 dan memiliki status akreditasi sekolah

yaitu A pada tahun 2005 Jumlah siswa kelas X tahun ajaran 20112012 adalah plusmn 320 siswa

Penjurusan siswa yang dilakukan di SMAN 2 Bangkalan hanya pada dua jurusan yaitu IPA dan

IPS Penentuan penjurusan ini dipertimbangkan berdasarkan nilai akademik siswa minat siswa

dan bakat siswa yang dilihat dari hasil psikotest

Data Mining

Data Mining adalah salah satu bidang yang berkembang pesat karena besarnya kebutuhan

akan nilai tambah dari database skala besar yang makin banyak terakumulasi sejalan dengan

pertumbuhan teknologi informasi Definisi umum dari Data Mining itu sendiri adalah serangkaian

proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara

manual dari suatu kumpulan data [1]

Pohon Keputusan

Pohon keputusan adalah salah satu metode klasifikasi yang paling popular karena mudah

untuk diinterpretasi oleh manusia Konsep dari pohon keputusan adalah mengubah data menjadi

pohon keputusan dan aturan-aturan keputusan

Algoritma pohon keputusan telah banyak digunakan dalam penelitian dari berbagai

studi kasus Penelitian terkait dengan proposal tugas akhir ini pernah dilakukan oleh Moh

Nugroho W (2012) dengan judul ldquoPerbandingan kinerja pohon keputusan ID3 dan C45 dalam

identifikasi kelayakan kredit sepeda motorrdquo Penelitian tersebut dilakukan untuk

mengidentifikasi kelayakan kredit menggunakan algoritma pohon keputusan ID3 dan C45 serta

untuk mengukur kinerja algoritma ID3 dan C45 dari sisi keakuratan hasil prediksi Pengukuran

kinerja yang dilakukan menggunakan sekelompok data uji untuk mengetahui persentase precision

recall dan accuracy Hasil akhir dari penelitian ini menunjukkan bahwa algoritma C45

memiliki tingkat akurasi yang lebih tinggi daripada algoritma ID3 [3]

4 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

Dalam studi kasus yang lain penelitian terkait perbandingan kinerja pohon keputusan

ID3 dan C45 pernah dilakukan Surbhi Hardikar Ankur Shrivastava dan Vijay Choudhary

(2012) dengan judul ldquoComparison between ID3 and C45 in Contrast to IDSrdquo Pada penelitian

ini analisa perbandingan yang dilakukan berdasarkan kinerja parameter yaitu akurasi penggunaan

memory model build time search time dan error rate Hasil dari penelitian ini menunjukkan

bahwa algoritma C45 memiliki tingkat akurasi yang sama dengan algoritma ID3 [4]

Selanjutnya penelitian tentang klasifikasi tumbunhan jamur dengan menggunakan

algoritma C50 pada tahun 2009 yang menghasilkan dua kelas jamur yaitu jamur yang dapat

dimakan ( edible mushroom ) dan jamur beracun ( poisonous mushroom ) Dalam penelitian ini

metode yang digunakan adalah decision tree yang merupakan metode klasifikasi yang paling

banyak digunakan dengan algoritma C50 Dataset tumbuhan jamur dibagi menjadi 3 bagian yaitu

2 bagian untuk data training dan 1 bagian untuk data testing Hasil klasifikasi menunjukkan bahwa

presentase nilai akurasi mencapai 100 yang menunjukkan bahwa algoritma yang digunakan

sangat cocok dengan data yang diolah [5]

Pembangunan tree dimulai dengan data pada simpul akar (root node) yang dilanjutkan

dengan pemilihan sebuah atribut formulasi sebuah logical test pada atribut tersebut dan

pencabangan pada setiap hasil dari test Langkah ini terus bergerak ke subset ke contoh yang

memenuhi hasil dari simpul anak cabang (internal node) yang sesuai melalui proses rekursif pada

setiap simpul anak cabang Langkah-langkah tersebut diulangi hingga dahan-dahan dari tree

memiliki contoh dari satu kelas tertentu Beberapa model decision tree yang sudah dikembangkan

antara lain adalah IDS ID3 C45 C50 CHAID dan CART

METODE PENELITIAN

ID3

Algoritma ID3 atau Iterative Dichotomiser 3 (ID3) merupakan sebuah metode yang

digunakan untuk membuat pohon keputusan yang telah dikembangkan oleh J Ross Quinlan sejak

tahun 1986 Algoritma pada metode ini menggunakan konsep dari entropy informasi Algoritma

ID3 dapat diimplementasikan menggunakan fungsi rekursif (fungsi yang memanggil dirinya sendiri)

[6]

Secara ringkas langkah kerja Algoritma ID3 dapat digambarkan sebagai berikut [7]

1 Hitung Entropy dan Information gain dari setiap atribut dengan menggunakan rumus

PPPP=SEntropy 22 loglog)( (1)

Dimana

S = ruang (data) sample yang digunakan untuk training

P+ = jumlah yang bersolusi positif (mendukung) pada data sample untuk kriteria tertentu

jumlah yang bersolusi negatif (tidak mendukung) pada data sample untuk kriteria tertentu

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 5

Gain S A = Entropy S minus sumSv

SEntropy(Sv) (2)

Dimana

S = ruang (data) sample yang digunakan untuk training

A = atribut

V = suatu nilai yang mungkin untuk atribut A

Nilai(A) = himpunan yang mungkin untuk atribut A

|Sv| = jumlah sample untuk nilai V

|S| = jumlah seluruh sample data

Entropy(Sv) = entropy untuk sample-sample yang memiliki nilai V

Tujuan dari pengukuran nilai information gain adalah untuk memilih atribut yang akan

dijadikan cabang pada pembentukan pohon keputusan

2 Pilih atribut yang memiliki nilai information gain terbesar

3 Bentuk simpul yang berisi atribut tersebut

4 Ulangi proses perhitungan information gain yang akan terus dilaksanakan sampai semua

data telah termasuk dalam kelas yang sama Atribut yang telah dipilih tidak

diikutkan lagi dalam perhitungan nilai information gain

C50

Algoritma C50 merupakan merupakan penyempurnaan dari algoritma terdahulu yang

dibentuk oleh Ross Quinlan pada tahun 1987 yaitu algoritma ID3 dan C45

Perbedaan utama C50 dari ID3 adalah

- C50 dapat menangani atribut kontinyu dan diskrit Akan tetapi pada penelitian ini yang

dipakai hanya atribut diskrit karena jika menggunakan atribut kontinyu pohon yang

dihasilkan akan panjang dan tidak efisien

- Hasil pohon keputusan C50 dapat dipangkas atau terdapat pruning (pemangkasan)

Atribut dengan nilai information gain tertinggi akan terpilih sebagai parent bagi node

selanjutnya Algoritma ini membentuk pohon keputusan dengan cara pembagian dan menguasai

sampel secara rekursif dari atas ke bawah Algoritma ini dimulai dengan semua data yang dijadikan

akar dari pohon keputusan sedangkan atribut yang dipilih akan menjadi pembagi bagi sampel

tersebut

119868 1199041 1199042 hellip 119904119898 = minussum 119901119894119898119894=1 log2 119901119894 (3)

S adalah sebuah himpunan yang terdiri dari s data sampel Diketahui atribut class adalah m

dimana mendefinisikan kelas-kelas di dalamnya Ci (for i= 1hellipm) si adalah jumlah sampel pada S

dalam class Ci untuk mengklasifikasikan sampel yang digunakan maka diperlukan informasi

dengan menggunakan aturan 3 Dimana pi adalah proporsi kelas dalam output seperti pada kelas Ci

dan diestimasikan dengan si s Atribut A memiliki nilai tertentu a1 a2hellip av Atribut A dapat

6 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

digunakan pada partisi S ke dalam v subset S1 S2 hellip Sv dimana Sj berisi sample pada S yang

bernilai aj pada A Jika A dipilih sebagai atribut tes (sebagai contoh atribut terbaik untuk split)

maka subset ini akan berhubungan pada cabang dari node himpunan S Sij adalah jumlah sample

pada class Ci dalam sebuah subset Sj Untuk mendapatkan informasi nilai subset dari atribut A

tersebut maka digunakan formula

119864 119860 = sum1199041119895 ++119904119898119895

119904119868(1199041119895 hellip 119904119898119895 )

119910119895=1 (4)

1199041119895 ++119904119898119895

119904 adalah jumlah subset j yang dibagi dengan jumlah sampel pada S maka untuk

mendapatkan nilai gain selanjutnya digunakan formula

119866119886119894119899 119860 = 119868 1199041 1199042hellip 119904119898 minus 119864 119860 (5)

Pre Pruning

Pre pruning yaitu pemangkasan yang dilakukan sejak awal pembentukan pohon dengan cara

menghentikan pembangunan suatu subtree lebih awal yaitu dengan memutuskan untuk tidak lebih

jauh mempartisi data training Cara kerja pre pruning adalah dengan menghitung dulu nilai

information gain untuk mengetahui nilai parent dan child Setelah parent dan child diketahui

kemudian dihitung nilai errornya jika nilai error child lebih kecil parent maka parent membentuk

subtree lagi tapi sebaliknya jika nilai error child lebih besar dari parent maka pruning dilakukan

dan pembentukan subtree berhenti Untuk menghitung nilai error digunakan rumus dibawah ini

Rumus pre pruning

(6)

Dimana

r = nilai perbandingan error rate

n = total sample

cz 1

c = confidence level

Post Pruning

Post Pruning merupakan pemangkasan yang dilakukan setelah pohon terbentuk secara utuh

Reduced Error Pruning merupakan salah satu algoritma postpruning Algoritma ini membagi data

menjadi dua yaitu training data dan test data Training data adalah data yang digunakan untuk

membentuk pohon keputusan sedangkan test data digunakan untuk menghitung nilai error rate

pada pohon setelah dipangkas

n

z

n

z

n

r

n

rz

n

zr

e2

2

222

1

42

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 7

Cara kerja REP adalah dengan memangkas internal node yang dimulai dari internal node

paling bawah ke atas Pemangkasan dilakukan dengan cara mengganti atribut dengan leaf node

yang memiliki kelas yang dominan muncul Setelah itu test data diproses menggunakan rule hasil

pemangkasan kemudian dihitung nilai error ratenya Test data juga diproses dengan rule awal

yaitu rule yang terbentuk sebelum pohon dipangkas kemudian dihitung nilai error ratenya

Apabila nilai error rate yang dihasilkan dari pemangkasan pohon lebih kecil maka pemangkasan

dilakukan

Rancangan Sistem

Gambar 1 Flowchart Sistem

HASIL DAN PEMBAHASAN

Data yang digunakan dalam tugas akhir ini merupakan data siswa kelas X angkatan 20112012

yang diperoleh dari SMAN 2 Bangkalan Jumlah data yang digunakan sebanyak 200 data dimana

140 data memiliki kelas ipa dan 60 memiliki kelas ips Dalam implementasinya data diujicoba

menjadi 3 skenario Skenario 1 digunakan untuk membandingakan algritma ID3 dan C50 pre

Mulai

Input data training data testing

Preprosesing (transformasi data numerik ke

kategorikal)

Mining ID3

Selesai

Proses klasifikasi data

testing dengan rule ID3

Proses Klasifikasi

Pohon Keputusan amp

Rule ID3

Mining C50

Pohon Keputusan

amp Rule C50

Penilaian Kinerja

ID3 amp C50

Input Data Penentu Keputusan

Jurusan IPA atau IPS

Proses klasifikasi data

testing dengan rule C50

8 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

pruning skenario 2 digunakan untuk membandingkan algoritma post pruning dan skenario 3

digunakan untuk efektifitas dan efisiensi dari algoritma Pada penelitian ini data dipecah menjadi 3

yaitu data training digunakan untuk membentuk pohon keputusan data testing digunakan untuk

ujicoba pada pohon yang telah dibentuk guna menghitung nilai error rate dan data test pruning

digunakan untuk mengetes akurasi pada pohon yang telah dibentuk guna proses pemangkasan

pohon

Skenario 1

Skenario 1 digunakan untuk membandingkan algritma ID3 dan C50 pre pruning Pada

skenario 1 ini data yang digunakan yaitu 150 data training dan 50 data testing Data yang akan

digunakan dipecah menjadi 2 yaitu data training dan data testing yaitu

Berikut keterangan dari jumlah populasi data yaitu

Tabel 1 Data Skenario 1

Skenario 2

Skenario 2 digunakan untuk membandingkan algoritma post pruning Dalam algoritma post

pruning data yang digunakan dipecah menjadi 3 yaitu data training data testing dan data test

pruning Untuk membandingkan kinerjanya data post pruning dipecah menjadi 3 partisi yaitu

partisi 50100 adalah 50 data training 100 data test pruning partisi 7575 adalah 75 data training

75 data test pruning dan partisi 10050 adalah 100 data training 50 data test pruning Dari ketiga

partisi tersebut sama-sama menggunakan 50 data testing Berikut keterangan jumlah populasi data

Tabel 2 Data Skenario 2

Skenario 3

Skenario 3 digunakan untuk membandingkan algoritma ID3 C50 pre pruning dan C50 post

pruning guna untuk mengetahui efektifitas dan efisiensi dari algoritma tersebut

Berikut keterangan dari jumlah populasi data yaitu

ID3 C50

prepruning

Training 150 150

Testing 50 50

Jumlah 200 200

C50 Post Pruning

50100 7575 10050

Training 50 75 100

Test Pruning 100 75 50

Testing 50 50 50

Jumlah 200 200 200

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 9

Tabel 3 Data Skenario 3

Analisa Perbandingan Algoritma

Setelah pohon dibentuk selanjutnya dilakukan perbandingan dengan data yang merupakan

data testing data yang digunakan ada 50 data dimana data tersebut dilakukan pengklasifikasian

menggunakan rule ID3 dan C50 yang telah dibentuk Kemudian kelas yang terbentuk

dibandingkan dan dihitung nilai error ratenya

Setelah proses klasifikasi kemudian dihitung kinerja dari masing-masing algoritma yang

meliputi akurasi error rate precision dan recall Berikut tabel kinerja perbandingan

Tabel 4 Kinerja Perbandingan Algoritma

Kinerja

Skenario 1 Skenario 2 Skenario 3

ID3

15050

C50 Pre

Pruning

15050

C50

Post

Pruning

50100

C50

Post

Pruning

7575

C50

Post

Pruning

10050

ID3

100100

C50 Pre

Pruning

100100

C50 Post

Pruning

100100

Akurasi 86 94 94 94 90 93 93 95

Error Rate 14 6 6 6 10 7 7 5

Precision 8974 9487 9487 9487 9024 9342 9231 9474

Recall 9211 9737 9737 9737 9737 9726 9863 9863

Skenario 1

Pada Skenario 1 terdapat penilaian kinerja algoritma ID3 dan C50 pre pruning Penilaian

kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing Perbandingan skenario 1

ini digunakan untuk membandingkan kinerja dari kedua algoritma guna mengetahui algoritma

mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja diketahui algoritma C50 pre

pruning memiliki akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 pre

pruning sebesar 94 sedangkan ID3 sebesar 86

ID3 C50

prepruning

C50 post

pruning

Training 100 100 50

Testing 100 100 50

Test Pruning - - 100

Jumlah 200 200 50

10 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

Perbandingan pada skenario 1 dari kedua algoritma dapat digambarkan pada grafik berikut

Gambar 2 Grafik Skenario 1

Skenario 2

Pada Skenario 2 terdapat penilaian kinerja algoritma C50 post pruning Penilaian kinerja

diperoleh dari hasil klasifikasi rule algoritma c50 post pruning dengan 50 data testing Dalam

skenario 2 ini terdapat 3 partisi data yaitu 50100 adalah 50 training dan 100 test pruning 7575

adalah 75 training dan 75 test pruning 10050 adalah 100 training dan 50 test pruning

Perbandingan skenario 2 ini digunakan untuk membandingkan kinerja algoritma dari tiap partisi

guna mengetahui algoritma mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja

diketahui algoritma C50 post pruning 50100 dan 7575 memiliki akurasi yang sama dan lebih

baik dari pada C50 post pruning 10050 Ini terlihat dari nilai akurasi C50 post pruning 50100

dan 7575 sebesar 9388 sedangkan C50 post pruning 10050 sebesar 90

Perbandingan pada skenario 2 dari ketiga partisi data dari algoritma C50 post pruning dapat

digambarkan pada grafik berikut

Gambar 3 Grafik Skenario 2

Skenario 3

Pada Skenario 3 terdapat penilaian kinerja algoritma ID3 C50 pre pruning dan C50 post

pruning Penilaian kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing

Perbandingan skenario 3 ini digunakan untuk membandingkan kinerja dari kedua algoritma guna

mengetahui algoritma mana yang paling bagus kinerjanya selain itu untuk efektifitas dan efisiensi

dari algoritma tersebut Dari Hasil penilaian kinerja diketahui algoritma C50 post pruning memiliki

0

20

40

60

80

100

120

ID3 15050 C50 prepruning 15050

Precision

Recall

Akurasi

Error Rate

0

20

40

60

80

100

120

C50 post pruning 50100

C50 post pruning 7575

C50 post pruning 10050

Precision

Recall

Akurasi

Error Rate

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 11

akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 post pruning sebesar 95

sedangkan ID3 sebesar 93

Perbandingan pada skenario 3 dari kedua algoritma dapat digambarkan pada grafik berikut

Gambar 4 Grafik Skenario 3

KESIMPULAN DAN SARAN

Kesimpulan

Beberapa kesimpulan yang dapat diambil dari hasil penelitian ini adalah

1 Hasil ujicoba pengukuran kinerja kedua algoritma menggunkanan 3 skenario yang telah

dilakukan dapat disimpulkan bahwa pada skenario 3 merupakan ujicoba paling efektif karena

akurasi yang dihasilkan mencapai 95 pada algoritma C50 post pruning 100100

2 Algoritma pohon keputusan yang terbaik adalah algoritma C50 karena memiliki kinerja

(precision recall accuracy dan error rate) yang lebih baik dibandingkan algoritma ID3 Ini

terlihat dari nilai akurasi C50 post pruning 100100 sebesar 95 sedangkan untuk ID3

100100 sebesar 93

3 Hasil penilaian kinerja yang telah diketahui dapat disimpulkan juga bahwa semakin banyak

data testing yang digunakan semakin tinggi tingkat akurasi yang dihasilkan Ini terlihat dari

hasil skenario 1 menggunakan 50 data testng algoritma ID3 sebesar 86 dan C50 post

pruning sebesar 90 Sedangkan menggunakan 100 data testing hasil kinerjanya meningkat

pada algoritma ID3 sebesar 93 dan C50 post pruning sebesar 95

Saran

Saran-saran yang bisa disampaikan adalah sebagai berikut

1 Aplikasi ini masih bisa dikembangkan untuk algoritma pohon keputusan lainnya dan untuk

metode pruning yang digunakan juga masih bisa dikembangkan lagi

2 Algoritma C50 pada aplikasi ini tidak bisa mengklasifikasi data yang mengandung missing

value sehingga dapat lebih disempurnakan lagi

3 Tampilan dari aplikasi ini masih terlihat kaku sehingga dapat dibuat lebih menarik lagi

0

20

40

60

80

100

120

ID3 100100

C50 pre pruning 100100

C50 post pruning 100100

Precision

Recall

Akurasi

Error Rate

12 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

DAFTAR PUSTAKA

[1] Pramudiono I Pengantar Data Mining Menambang Permata Pengetahuan di Gunung

Data 2003 ltURLhttpikcdinusacidumumikoiko-dataminingzipgt diakses

tanggal 17 Oktober 2012

[2] Nugroho Fanuel Kristanto Harianto dan Oslan Yetli Validitas Suatu Alamat

menggunakan Pohon keputusan dengan Algoritma ID3 Jurnal Informatika Volume 3

Nomor 2 April 2007 1 2 2007

[3] Hardikar S Shrivastava A Choudhary V Comparison between ID3 and C45 in

Contrast to IDS VSRD-IJCSIT Vol 2 (7) 659-667 2012

[4] Humairah N Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C50

[Skripsi] UPN Veteran Jakarta 2009

[5] Nugroho MW Perbandingan kinerja pohon keputusan ID3 dan C45 dalam klasifikasi

kelayakan kredit sepeda motor (studi kasus Bussan Auto Finance) [Skripsi] Universitas

Trunojoyo Bangkalan 2012

[6] Wahyudin Metode Iterative Dichotomizer 3 (ID3) Untuk Penerimaan Mahasiswa Baru

Tanpa Tahun ltURLhttpfileupieduDirektoriFPMIPAPRODI_ILMU_

KOMPUTERWAHYUDINmetode_ID3_untuk_mhsbarupdfgt diakses tanggal 17 Oktober

2012

[7] Defianti S dan Pardede D L C Perbandingan Kinerja Algoritma ID3 dan C45 dalam

Klasifikasi SpamMail 2008 ltURLhttpopenstoragegunadarmaacid

~mwiryanaKOMMITper-artikel03-02-004-Perbandingan5BSofi5Dpdfgt diakses

tanggal 5 Oktober 2012

[8] Ernawati I Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C50 dan K-

Nearest Neighbor [Tesis] Institut Pertanian Bogor Bogor 2008

[9] Tanpa Nama Constructing Decision Trees Tanpa Tahun ltURLhttpnotes-

storecomNotesDecision-Tree1011pptgt diakses tanggal 3 Oktober 2012

Page 2: Perbandingan Algoritma Id3 Dan c5.0 Dalam Indentifikasi Penjurusan Siswa Sma

2 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

PENDAHULUAN

Sekolah Menengah Atas (disingkat SMA) adalah jenjang pendidikan menengah pada

pendidikan formal di Indonesia setalah lulus Sekolah Menengah Pertama (atau sederajat) Sekolah

Menengah Atas ditempuh dalam kurun waktu 3 tahun mulai dari kelas X sampai kelas XII Pada

tahun kedua (yakni kelas XI) siswa SMA dapat memilih jurusan yang ada Idealnya pemilihan

jurusan itu berdasarkan minat bakat dan kemampuan siswa sehingga dengan itu mereka

diharapkan akan berhasil dalam menyelesaikan studinya di SMA serta dapat melanjutkan

pendidikan ke jenjang yang lebih tinggi

Proses penjurusan di SMAN 2 Bangkalan dilakukan pada saat siswa berada di kelas X dan

akan naik ke kelas XI Setelah wali kelas menerima seluruh nilai semester maka wali kelas akan

memutuskan apakah siswa tersebut naik atau tidak Jika siswa tersebut dinyatakan naik maka

selanjutnya akan dilakukan proses penjurusan oleh tim yang terdiri dari Wakil Kepala Sekolah

Bidang Kurikulum Guru Bimbingan Konseling Wali Kelas X dan Guru Mata Pelajaran yang

berkaitan dengan penjurusan Masalah yang sering terjadi dalam proses penjurusan adalah

keterlambatan nilai siswa dari para wali kelas akibatnya pada akhir proses penjurusan para tim

penentu jurusan berburu waktu sehingga proses penjurusan kurang tepat ditambah lagi dengan

banyaknya jumlah siswa kelas X Tahun ajaran 20112012 tercatat siswa kelas X sejumlah plusmn 320

orang

Penjurusan siswa yang dilakukan di SMAN 2 Bangkalan hanya pada dua jurusan yaitu IPA

dan IPS Penentuan penjurusan ini dipertimbangkan berdasarkan nilai akademik siswa minat

siswa dan bakat siswa yang dilihat dari hasil psikotest Pada penelitian ini dibangun aplikasi untuk

mengidentifikasi penjurusan siswa SMA Aplikasi penjurusan SMA ini menggunakan algoritma

ID3 dan C50 yang merupakan algoritma pohon keputusan yang sering digunakan karena memiliki

tingkat akurasi yang tinggi dalam menentukan keputusan

Dalam studi kasus yang lain penelitian terkait perbandingan kinerja pohon keputusan

ID3 dan C45 pernah dilakukan oleh Sofi Defiyanti dan D L Crispina Pardede dengan judul

ldquoperbandingan kinerja algoritma ID3 dan C45 dalam klasifikasi spam-mailrdquo membuktikan bahwa

pohon keputusan dengan algoritma ID3 memiliki kinerja yang lebih baik dibandingkan algoritma

C45 dalam mengklasifikasikan data spam email Berikutnya penelitian tentang prediksi

keaktifan studi mahasiswa dengan algoritma C50 dan K-Nearest Neighbor yang melakukan

prediksi untuk mengetahui keaktifan seorang mahasiswa Dalam penelitian ini proses klasifikasi

yang memberikan hasil bahwa atribut Indeks Prestasi Kumulatif (IPK) merupakan atribut yang

menentukan status studi mahasiswa Hasil penelitian ini memberikan informasi bahwa Algoritma

C50 lebih baik dibandingkan algoritma K-Nearest Neighbor

Berdasarkan kedua penelitian tersebut dapat dilihat bahwa kedua algoritma ID3 dan C50

mempunyai kinerja yang baik dalam pengidentifikasiannya Namun belum diketahui algoritma

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 3

mana diantara keduanya yang lebih unggul kinerjanya Oleh karena itu algoritma ini perlu

dibandingkan Pada penelitian ini membandingkan kinerja dari algoritma ID3 dan C50 dalam

melakukan identifikasi penjurusan siswa SMA Hasil akhir dari penelitian ini diharapkan dapat

mengetahui algoritma mana yang memiliki akurasi yang paling tinggi Rule yang dihasilkan juga

akan digunakan sebagai penentu keputusan sehingga dapat memprediksi jurusan siswa IPA atau

IPS

TINJAUAN PUSTAKA

Profil SMA

SMA Negeri 2 Bangkalan merupakan salah satu unit pelaksana teknis dinas pendidikan

kota Bangkalan yang berada di Jl Soekarno hatta 18 kelurahan Mlajah kecamatan Bangkalan

SMAN 2 Bangkalan ini dibuka pada tanggal 1 April 1978 dan memiliki status akreditasi sekolah

yaitu A pada tahun 2005 Jumlah siswa kelas X tahun ajaran 20112012 adalah plusmn 320 siswa

Penjurusan siswa yang dilakukan di SMAN 2 Bangkalan hanya pada dua jurusan yaitu IPA dan

IPS Penentuan penjurusan ini dipertimbangkan berdasarkan nilai akademik siswa minat siswa

dan bakat siswa yang dilihat dari hasil psikotest

Data Mining

Data Mining adalah salah satu bidang yang berkembang pesat karena besarnya kebutuhan

akan nilai tambah dari database skala besar yang makin banyak terakumulasi sejalan dengan

pertumbuhan teknologi informasi Definisi umum dari Data Mining itu sendiri adalah serangkaian

proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara

manual dari suatu kumpulan data [1]

Pohon Keputusan

Pohon keputusan adalah salah satu metode klasifikasi yang paling popular karena mudah

untuk diinterpretasi oleh manusia Konsep dari pohon keputusan adalah mengubah data menjadi

pohon keputusan dan aturan-aturan keputusan

Algoritma pohon keputusan telah banyak digunakan dalam penelitian dari berbagai

studi kasus Penelitian terkait dengan proposal tugas akhir ini pernah dilakukan oleh Moh

Nugroho W (2012) dengan judul ldquoPerbandingan kinerja pohon keputusan ID3 dan C45 dalam

identifikasi kelayakan kredit sepeda motorrdquo Penelitian tersebut dilakukan untuk

mengidentifikasi kelayakan kredit menggunakan algoritma pohon keputusan ID3 dan C45 serta

untuk mengukur kinerja algoritma ID3 dan C45 dari sisi keakuratan hasil prediksi Pengukuran

kinerja yang dilakukan menggunakan sekelompok data uji untuk mengetahui persentase precision

recall dan accuracy Hasil akhir dari penelitian ini menunjukkan bahwa algoritma C45

memiliki tingkat akurasi yang lebih tinggi daripada algoritma ID3 [3]

4 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

Dalam studi kasus yang lain penelitian terkait perbandingan kinerja pohon keputusan

ID3 dan C45 pernah dilakukan Surbhi Hardikar Ankur Shrivastava dan Vijay Choudhary

(2012) dengan judul ldquoComparison between ID3 and C45 in Contrast to IDSrdquo Pada penelitian

ini analisa perbandingan yang dilakukan berdasarkan kinerja parameter yaitu akurasi penggunaan

memory model build time search time dan error rate Hasil dari penelitian ini menunjukkan

bahwa algoritma C45 memiliki tingkat akurasi yang sama dengan algoritma ID3 [4]

Selanjutnya penelitian tentang klasifikasi tumbunhan jamur dengan menggunakan

algoritma C50 pada tahun 2009 yang menghasilkan dua kelas jamur yaitu jamur yang dapat

dimakan ( edible mushroom ) dan jamur beracun ( poisonous mushroom ) Dalam penelitian ini

metode yang digunakan adalah decision tree yang merupakan metode klasifikasi yang paling

banyak digunakan dengan algoritma C50 Dataset tumbuhan jamur dibagi menjadi 3 bagian yaitu

2 bagian untuk data training dan 1 bagian untuk data testing Hasil klasifikasi menunjukkan bahwa

presentase nilai akurasi mencapai 100 yang menunjukkan bahwa algoritma yang digunakan

sangat cocok dengan data yang diolah [5]

Pembangunan tree dimulai dengan data pada simpul akar (root node) yang dilanjutkan

dengan pemilihan sebuah atribut formulasi sebuah logical test pada atribut tersebut dan

pencabangan pada setiap hasil dari test Langkah ini terus bergerak ke subset ke contoh yang

memenuhi hasil dari simpul anak cabang (internal node) yang sesuai melalui proses rekursif pada

setiap simpul anak cabang Langkah-langkah tersebut diulangi hingga dahan-dahan dari tree

memiliki contoh dari satu kelas tertentu Beberapa model decision tree yang sudah dikembangkan

antara lain adalah IDS ID3 C45 C50 CHAID dan CART

METODE PENELITIAN

ID3

Algoritma ID3 atau Iterative Dichotomiser 3 (ID3) merupakan sebuah metode yang

digunakan untuk membuat pohon keputusan yang telah dikembangkan oleh J Ross Quinlan sejak

tahun 1986 Algoritma pada metode ini menggunakan konsep dari entropy informasi Algoritma

ID3 dapat diimplementasikan menggunakan fungsi rekursif (fungsi yang memanggil dirinya sendiri)

[6]

Secara ringkas langkah kerja Algoritma ID3 dapat digambarkan sebagai berikut [7]

1 Hitung Entropy dan Information gain dari setiap atribut dengan menggunakan rumus

PPPP=SEntropy 22 loglog)( (1)

Dimana

S = ruang (data) sample yang digunakan untuk training

P+ = jumlah yang bersolusi positif (mendukung) pada data sample untuk kriteria tertentu

jumlah yang bersolusi negatif (tidak mendukung) pada data sample untuk kriteria tertentu

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 5

Gain S A = Entropy S minus sumSv

SEntropy(Sv) (2)

Dimana

S = ruang (data) sample yang digunakan untuk training

A = atribut

V = suatu nilai yang mungkin untuk atribut A

Nilai(A) = himpunan yang mungkin untuk atribut A

|Sv| = jumlah sample untuk nilai V

|S| = jumlah seluruh sample data

Entropy(Sv) = entropy untuk sample-sample yang memiliki nilai V

Tujuan dari pengukuran nilai information gain adalah untuk memilih atribut yang akan

dijadikan cabang pada pembentukan pohon keputusan

2 Pilih atribut yang memiliki nilai information gain terbesar

3 Bentuk simpul yang berisi atribut tersebut

4 Ulangi proses perhitungan information gain yang akan terus dilaksanakan sampai semua

data telah termasuk dalam kelas yang sama Atribut yang telah dipilih tidak

diikutkan lagi dalam perhitungan nilai information gain

C50

Algoritma C50 merupakan merupakan penyempurnaan dari algoritma terdahulu yang

dibentuk oleh Ross Quinlan pada tahun 1987 yaitu algoritma ID3 dan C45

Perbedaan utama C50 dari ID3 adalah

- C50 dapat menangani atribut kontinyu dan diskrit Akan tetapi pada penelitian ini yang

dipakai hanya atribut diskrit karena jika menggunakan atribut kontinyu pohon yang

dihasilkan akan panjang dan tidak efisien

- Hasil pohon keputusan C50 dapat dipangkas atau terdapat pruning (pemangkasan)

Atribut dengan nilai information gain tertinggi akan terpilih sebagai parent bagi node

selanjutnya Algoritma ini membentuk pohon keputusan dengan cara pembagian dan menguasai

sampel secara rekursif dari atas ke bawah Algoritma ini dimulai dengan semua data yang dijadikan

akar dari pohon keputusan sedangkan atribut yang dipilih akan menjadi pembagi bagi sampel

tersebut

119868 1199041 1199042 hellip 119904119898 = minussum 119901119894119898119894=1 log2 119901119894 (3)

S adalah sebuah himpunan yang terdiri dari s data sampel Diketahui atribut class adalah m

dimana mendefinisikan kelas-kelas di dalamnya Ci (for i= 1hellipm) si adalah jumlah sampel pada S

dalam class Ci untuk mengklasifikasikan sampel yang digunakan maka diperlukan informasi

dengan menggunakan aturan 3 Dimana pi adalah proporsi kelas dalam output seperti pada kelas Ci

dan diestimasikan dengan si s Atribut A memiliki nilai tertentu a1 a2hellip av Atribut A dapat

6 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

digunakan pada partisi S ke dalam v subset S1 S2 hellip Sv dimana Sj berisi sample pada S yang

bernilai aj pada A Jika A dipilih sebagai atribut tes (sebagai contoh atribut terbaik untuk split)

maka subset ini akan berhubungan pada cabang dari node himpunan S Sij adalah jumlah sample

pada class Ci dalam sebuah subset Sj Untuk mendapatkan informasi nilai subset dari atribut A

tersebut maka digunakan formula

119864 119860 = sum1199041119895 ++119904119898119895

119904119868(1199041119895 hellip 119904119898119895 )

119910119895=1 (4)

1199041119895 ++119904119898119895

119904 adalah jumlah subset j yang dibagi dengan jumlah sampel pada S maka untuk

mendapatkan nilai gain selanjutnya digunakan formula

119866119886119894119899 119860 = 119868 1199041 1199042hellip 119904119898 minus 119864 119860 (5)

Pre Pruning

Pre pruning yaitu pemangkasan yang dilakukan sejak awal pembentukan pohon dengan cara

menghentikan pembangunan suatu subtree lebih awal yaitu dengan memutuskan untuk tidak lebih

jauh mempartisi data training Cara kerja pre pruning adalah dengan menghitung dulu nilai

information gain untuk mengetahui nilai parent dan child Setelah parent dan child diketahui

kemudian dihitung nilai errornya jika nilai error child lebih kecil parent maka parent membentuk

subtree lagi tapi sebaliknya jika nilai error child lebih besar dari parent maka pruning dilakukan

dan pembentukan subtree berhenti Untuk menghitung nilai error digunakan rumus dibawah ini

Rumus pre pruning

(6)

Dimana

r = nilai perbandingan error rate

n = total sample

cz 1

c = confidence level

Post Pruning

Post Pruning merupakan pemangkasan yang dilakukan setelah pohon terbentuk secara utuh

Reduced Error Pruning merupakan salah satu algoritma postpruning Algoritma ini membagi data

menjadi dua yaitu training data dan test data Training data adalah data yang digunakan untuk

membentuk pohon keputusan sedangkan test data digunakan untuk menghitung nilai error rate

pada pohon setelah dipangkas

n

z

n

z

n

r

n

rz

n

zr

e2

2

222

1

42

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 7

Cara kerja REP adalah dengan memangkas internal node yang dimulai dari internal node

paling bawah ke atas Pemangkasan dilakukan dengan cara mengganti atribut dengan leaf node

yang memiliki kelas yang dominan muncul Setelah itu test data diproses menggunakan rule hasil

pemangkasan kemudian dihitung nilai error ratenya Test data juga diproses dengan rule awal

yaitu rule yang terbentuk sebelum pohon dipangkas kemudian dihitung nilai error ratenya

Apabila nilai error rate yang dihasilkan dari pemangkasan pohon lebih kecil maka pemangkasan

dilakukan

Rancangan Sistem

Gambar 1 Flowchart Sistem

HASIL DAN PEMBAHASAN

Data yang digunakan dalam tugas akhir ini merupakan data siswa kelas X angkatan 20112012

yang diperoleh dari SMAN 2 Bangkalan Jumlah data yang digunakan sebanyak 200 data dimana

140 data memiliki kelas ipa dan 60 memiliki kelas ips Dalam implementasinya data diujicoba

menjadi 3 skenario Skenario 1 digunakan untuk membandingakan algritma ID3 dan C50 pre

Mulai

Input data training data testing

Preprosesing (transformasi data numerik ke

kategorikal)

Mining ID3

Selesai

Proses klasifikasi data

testing dengan rule ID3

Proses Klasifikasi

Pohon Keputusan amp

Rule ID3

Mining C50

Pohon Keputusan

amp Rule C50

Penilaian Kinerja

ID3 amp C50

Input Data Penentu Keputusan

Jurusan IPA atau IPS

Proses klasifikasi data

testing dengan rule C50

8 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

pruning skenario 2 digunakan untuk membandingkan algoritma post pruning dan skenario 3

digunakan untuk efektifitas dan efisiensi dari algoritma Pada penelitian ini data dipecah menjadi 3

yaitu data training digunakan untuk membentuk pohon keputusan data testing digunakan untuk

ujicoba pada pohon yang telah dibentuk guna menghitung nilai error rate dan data test pruning

digunakan untuk mengetes akurasi pada pohon yang telah dibentuk guna proses pemangkasan

pohon

Skenario 1

Skenario 1 digunakan untuk membandingkan algritma ID3 dan C50 pre pruning Pada

skenario 1 ini data yang digunakan yaitu 150 data training dan 50 data testing Data yang akan

digunakan dipecah menjadi 2 yaitu data training dan data testing yaitu

Berikut keterangan dari jumlah populasi data yaitu

Tabel 1 Data Skenario 1

Skenario 2

Skenario 2 digunakan untuk membandingkan algoritma post pruning Dalam algoritma post

pruning data yang digunakan dipecah menjadi 3 yaitu data training data testing dan data test

pruning Untuk membandingkan kinerjanya data post pruning dipecah menjadi 3 partisi yaitu

partisi 50100 adalah 50 data training 100 data test pruning partisi 7575 adalah 75 data training

75 data test pruning dan partisi 10050 adalah 100 data training 50 data test pruning Dari ketiga

partisi tersebut sama-sama menggunakan 50 data testing Berikut keterangan jumlah populasi data

Tabel 2 Data Skenario 2

Skenario 3

Skenario 3 digunakan untuk membandingkan algoritma ID3 C50 pre pruning dan C50 post

pruning guna untuk mengetahui efektifitas dan efisiensi dari algoritma tersebut

Berikut keterangan dari jumlah populasi data yaitu

ID3 C50

prepruning

Training 150 150

Testing 50 50

Jumlah 200 200

C50 Post Pruning

50100 7575 10050

Training 50 75 100

Test Pruning 100 75 50

Testing 50 50 50

Jumlah 200 200 200

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 9

Tabel 3 Data Skenario 3

Analisa Perbandingan Algoritma

Setelah pohon dibentuk selanjutnya dilakukan perbandingan dengan data yang merupakan

data testing data yang digunakan ada 50 data dimana data tersebut dilakukan pengklasifikasian

menggunakan rule ID3 dan C50 yang telah dibentuk Kemudian kelas yang terbentuk

dibandingkan dan dihitung nilai error ratenya

Setelah proses klasifikasi kemudian dihitung kinerja dari masing-masing algoritma yang

meliputi akurasi error rate precision dan recall Berikut tabel kinerja perbandingan

Tabel 4 Kinerja Perbandingan Algoritma

Kinerja

Skenario 1 Skenario 2 Skenario 3

ID3

15050

C50 Pre

Pruning

15050

C50

Post

Pruning

50100

C50

Post

Pruning

7575

C50

Post

Pruning

10050

ID3

100100

C50 Pre

Pruning

100100

C50 Post

Pruning

100100

Akurasi 86 94 94 94 90 93 93 95

Error Rate 14 6 6 6 10 7 7 5

Precision 8974 9487 9487 9487 9024 9342 9231 9474

Recall 9211 9737 9737 9737 9737 9726 9863 9863

Skenario 1

Pada Skenario 1 terdapat penilaian kinerja algoritma ID3 dan C50 pre pruning Penilaian

kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing Perbandingan skenario 1

ini digunakan untuk membandingkan kinerja dari kedua algoritma guna mengetahui algoritma

mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja diketahui algoritma C50 pre

pruning memiliki akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 pre

pruning sebesar 94 sedangkan ID3 sebesar 86

ID3 C50

prepruning

C50 post

pruning

Training 100 100 50

Testing 100 100 50

Test Pruning - - 100

Jumlah 200 200 50

10 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

Perbandingan pada skenario 1 dari kedua algoritma dapat digambarkan pada grafik berikut

Gambar 2 Grafik Skenario 1

Skenario 2

Pada Skenario 2 terdapat penilaian kinerja algoritma C50 post pruning Penilaian kinerja

diperoleh dari hasil klasifikasi rule algoritma c50 post pruning dengan 50 data testing Dalam

skenario 2 ini terdapat 3 partisi data yaitu 50100 adalah 50 training dan 100 test pruning 7575

adalah 75 training dan 75 test pruning 10050 adalah 100 training dan 50 test pruning

Perbandingan skenario 2 ini digunakan untuk membandingkan kinerja algoritma dari tiap partisi

guna mengetahui algoritma mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja

diketahui algoritma C50 post pruning 50100 dan 7575 memiliki akurasi yang sama dan lebih

baik dari pada C50 post pruning 10050 Ini terlihat dari nilai akurasi C50 post pruning 50100

dan 7575 sebesar 9388 sedangkan C50 post pruning 10050 sebesar 90

Perbandingan pada skenario 2 dari ketiga partisi data dari algoritma C50 post pruning dapat

digambarkan pada grafik berikut

Gambar 3 Grafik Skenario 2

Skenario 3

Pada Skenario 3 terdapat penilaian kinerja algoritma ID3 C50 pre pruning dan C50 post

pruning Penilaian kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing

Perbandingan skenario 3 ini digunakan untuk membandingkan kinerja dari kedua algoritma guna

mengetahui algoritma mana yang paling bagus kinerjanya selain itu untuk efektifitas dan efisiensi

dari algoritma tersebut Dari Hasil penilaian kinerja diketahui algoritma C50 post pruning memiliki

0

20

40

60

80

100

120

ID3 15050 C50 prepruning 15050

Precision

Recall

Akurasi

Error Rate

0

20

40

60

80

100

120

C50 post pruning 50100

C50 post pruning 7575

C50 post pruning 10050

Precision

Recall

Akurasi

Error Rate

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 11

akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 post pruning sebesar 95

sedangkan ID3 sebesar 93

Perbandingan pada skenario 3 dari kedua algoritma dapat digambarkan pada grafik berikut

Gambar 4 Grafik Skenario 3

KESIMPULAN DAN SARAN

Kesimpulan

Beberapa kesimpulan yang dapat diambil dari hasil penelitian ini adalah

1 Hasil ujicoba pengukuran kinerja kedua algoritma menggunkanan 3 skenario yang telah

dilakukan dapat disimpulkan bahwa pada skenario 3 merupakan ujicoba paling efektif karena

akurasi yang dihasilkan mencapai 95 pada algoritma C50 post pruning 100100

2 Algoritma pohon keputusan yang terbaik adalah algoritma C50 karena memiliki kinerja

(precision recall accuracy dan error rate) yang lebih baik dibandingkan algoritma ID3 Ini

terlihat dari nilai akurasi C50 post pruning 100100 sebesar 95 sedangkan untuk ID3

100100 sebesar 93

3 Hasil penilaian kinerja yang telah diketahui dapat disimpulkan juga bahwa semakin banyak

data testing yang digunakan semakin tinggi tingkat akurasi yang dihasilkan Ini terlihat dari

hasil skenario 1 menggunakan 50 data testng algoritma ID3 sebesar 86 dan C50 post

pruning sebesar 90 Sedangkan menggunakan 100 data testing hasil kinerjanya meningkat

pada algoritma ID3 sebesar 93 dan C50 post pruning sebesar 95

Saran

Saran-saran yang bisa disampaikan adalah sebagai berikut

1 Aplikasi ini masih bisa dikembangkan untuk algoritma pohon keputusan lainnya dan untuk

metode pruning yang digunakan juga masih bisa dikembangkan lagi

2 Algoritma C50 pada aplikasi ini tidak bisa mengklasifikasi data yang mengandung missing

value sehingga dapat lebih disempurnakan lagi

3 Tampilan dari aplikasi ini masih terlihat kaku sehingga dapat dibuat lebih menarik lagi

0

20

40

60

80

100

120

ID3 100100

C50 pre pruning 100100

C50 post pruning 100100

Precision

Recall

Akurasi

Error Rate

12 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

DAFTAR PUSTAKA

[1] Pramudiono I Pengantar Data Mining Menambang Permata Pengetahuan di Gunung

Data 2003 ltURLhttpikcdinusacidumumikoiko-dataminingzipgt diakses

tanggal 17 Oktober 2012

[2] Nugroho Fanuel Kristanto Harianto dan Oslan Yetli Validitas Suatu Alamat

menggunakan Pohon keputusan dengan Algoritma ID3 Jurnal Informatika Volume 3

Nomor 2 April 2007 1 2 2007

[3] Hardikar S Shrivastava A Choudhary V Comparison between ID3 and C45 in

Contrast to IDS VSRD-IJCSIT Vol 2 (7) 659-667 2012

[4] Humairah N Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C50

[Skripsi] UPN Veteran Jakarta 2009

[5] Nugroho MW Perbandingan kinerja pohon keputusan ID3 dan C45 dalam klasifikasi

kelayakan kredit sepeda motor (studi kasus Bussan Auto Finance) [Skripsi] Universitas

Trunojoyo Bangkalan 2012

[6] Wahyudin Metode Iterative Dichotomizer 3 (ID3) Untuk Penerimaan Mahasiswa Baru

Tanpa Tahun ltURLhttpfileupieduDirektoriFPMIPAPRODI_ILMU_

KOMPUTERWAHYUDINmetode_ID3_untuk_mhsbarupdfgt diakses tanggal 17 Oktober

2012

[7] Defianti S dan Pardede D L C Perbandingan Kinerja Algoritma ID3 dan C45 dalam

Klasifikasi SpamMail 2008 ltURLhttpopenstoragegunadarmaacid

~mwiryanaKOMMITper-artikel03-02-004-Perbandingan5BSofi5Dpdfgt diakses

tanggal 5 Oktober 2012

[8] Ernawati I Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C50 dan K-

Nearest Neighbor [Tesis] Institut Pertanian Bogor Bogor 2008

[9] Tanpa Nama Constructing Decision Trees Tanpa Tahun ltURLhttpnotes-

storecomNotesDecision-Tree1011pptgt diakses tanggal 3 Oktober 2012

Page 3: Perbandingan Algoritma Id3 Dan c5.0 Dalam Indentifikasi Penjurusan Siswa Sma

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 3

mana diantara keduanya yang lebih unggul kinerjanya Oleh karena itu algoritma ini perlu

dibandingkan Pada penelitian ini membandingkan kinerja dari algoritma ID3 dan C50 dalam

melakukan identifikasi penjurusan siswa SMA Hasil akhir dari penelitian ini diharapkan dapat

mengetahui algoritma mana yang memiliki akurasi yang paling tinggi Rule yang dihasilkan juga

akan digunakan sebagai penentu keputusan sehingga dapat memprediksi jurusan siswa IPA atau

IPS

TINJAUAN PUSTAKA

Profil SMA

SMA Negeri 2 Bangkalan merupakan salah satu unit pelaksana teknis dinas pendidikan

kota Bangkalan yang berada di Jl Soekarno hatta 18 kelurahan Mlajah kecamatan Bangkalan

SMAN 2 Bangkalan ini dibuka pada tanggal 1 April 1978 dan memiliki status akreditasi sekolah

yaitu A pada tahun 2005 Jumlah siswa kelas X tahun ajaran 20112012 adalah plusmn 320 siswa

Penjurusan siswa yang dilakukan di SMAN 2 Bangkalan hanya pada dua jurusan yaitu IPA dan

IPS Penentuan penjurusan ini dipertimbangkan berdasarkan nilai akademik siswa minat siswa

dan bakat siswa yang dilihat dari hasil psikotest

Data Mining

Data Mining adalah salah satu bidang yang berkembang pesat karena besarnya kebutuhan

akan nilai tambah dari database skala besar yang makin banyak terakumulasi sejalan dengan

pertumbuhan teknologi informasi Definisi umum dari Data Mining itu sendiri adalah serangkaian

proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara

manual dari suatu kumpulan data [1]

Pohon Keputusan

Pohon keputusan adalah salah satu metode klasifikasi yang paling popular karena mudah

untuk diinterpretasi oleh manusia Konsep dari pohon keputusan adalah mengubah data menjadi

pohon keputusan dan aturan-aturan keputusan

Algoritma pohon keputusan telah banyak digunakan dalam penelitian dari berbagai

studi kasus Penelitian terkait dengan proposal tugas akhir ini pernah dilakukan oleh Moh

Nugroho W (2012) dengan judul ldquoPerbandingan kinerja pohon keputusan ID3 dan C45 dalam

identifikasi kelayakan kredit sepeda motorrdquo Penelitian tersebut dilakukan untuk

mengidentifikasi kelayakan kredit menggunakan algoritma pohon keputusan ID3 dan C45 serta

untuk mengukur kinerja algoritma ID3 dan C45 dari sisi keakuratan hasil prediksi Pengukuran

kinerja yang dilakukan menggunakan sekelompok data uji untuk mengetahui persentase precision

recall dan accuracy Hasil akhir dari penelitian ini menunjukkan bahwa algoritma C45

memiliki tingkat akurasi yang lebih tinggi daripada algoritma ID3 [3]

4 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

Dalam studi kasus yang lain penelitian terkait perbandingan kinerja pohon keputusan

ID3 dan C45 pernah dilakukan Surbhi Hardikar Ankur Shrivastava dan Vijay Choudhary

(2012) dengan judul ldquoComparison between ID3 and C45 in Contrast to IDSrdquo Pada penelitian

ini analisa perbandingan yang dilakukan berdasarkan kinerja parameter yaitu akurasi penggunaan

memory model build time search time dan error rate Hasil dari penelitian ini menunjukkan

bahwa algoritma C45 memiliki tingkat akurasi yang sama dengan algoritma ID3 [4]

Selanjutnya penelitian tentang klasifikasi tumbunhan jamur dengan menggunakan

algoritma C50 pada tahun 2009 yang menghasilkan dua kelas jamur yaitu jamur yang dapat

dimakan ( edible mushroom ) dan jamur beracun ( poisonous mushroom ) Dalam penelitian ini

metode yang digunakan adalah decision tree yang merupakan metode klasifikasi yang paling

banyak digunakan dengan algoritma C50 Dataset tumbuhan jamur dibagi menjadi 3 bagian yaitu

2 bagian untuk data training dan 1 bagian untuk data testing Hasil klasifikasi menunjukkan bahwa

presentase nilai akurasi mencapai 100 yang menunjukkan bahwa algoritma yang digunakan

sangat cocok dengan data yang diolah [5]

Pembangunan tree dimulai dengan data pada simpul akar (root node) yang dilanjutkan

dengan pemilihan sebuah atribut formulasi sebuah logical test pada atribut tersebut dan

pencabangan pada setiap hasil dari test Langkah ini terus bergerak ke subset ke contoh yang

memenuhi hasil dari simpul anak cabang (internal node) yang sesuai melalui proses rekursif pada

setiap simpul anak cabang Langkah-langkah tersebut diulangi hingga dahan-dahan dari tree

memiliki contoh dari satu kelas tertentu Beberapa model decision tree yang sudah dikembangkan

antara lain adalah IDS ID3 C45 C50 CHAID dan CART

METODE PENELITIAN

ID3

Algoritma ID3 atau Iterative Dichotomiser 3 (ID3) merupakan sebuah metode yang

digunakan untuk membuat pohon keputusan yang telah dikembangkan oleh J Ross Quinlan sejak

tahun 1986 Algoritma pada metode ini menggunakan konsep dari entropy informasi Algoritma

ID3 dapat diimplementasikan menggunakan fungsi rekursif (fungsi yang memanggil dirinya sendiri)

[6]

Secara ringkas langkah kerja Algoritma ID3 dapat digambarkan sebagai berikut [7]

1 Hitung Entropy dan Information gain dari setiap atribut dengan menggunakan rumus

PPPP=SEntropy 22 loglog)( (1)

Dimana

S = ruang (data) sample yang digunakan untuk training

P+ = jumlah yang bersolusi positif (mendukung) pada data sample untuk kriteria tertentu

jumlah yang bersolusi negatif (tidak mendukung) pada data sample untuk kriteria tertentu

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 5

Gain S A = Entropy S minus sumSv

SEntropy(Sv) (2)

Dimana

S = ruang (data) sample yang digunakan untuk training

A = atribut

V = suatu nilai yang mungkin untuk atribut A

Nilai(A) = himpunan yang mungkin untuk atribut A

|Sv| = jumlah sample untuk nilai V

|S| = jumlah seluruh sample data

Entropy(Sv) = entropy untuk sample-sample yang memiliki nilai V

Tujuan dari pengukuran nilai information gain adalah untuk memilih atribut yang akan

dijadikan cabang pada pembentukan pohon keputusan

2 Pilih atribut yang memiliki nilai information gain terbesar

3 Bentuk simpul yang berisi atribut tersebut

4 Ulangi proses perhitungan information gain yang akan terus dilaksanakan sampai semua

data telah termasuk dalam kelas yang sama Atribut yang telah dipilih tidak

diikutkan lagi dalam perhitungan nilai information gain

C50

Algoritma C50 merupakan merupakan penyempurnaan dari algoritma terdahulu yang

dibentuk oleh Ross Quinlan pada tahun 1987 yaitu algoritma ID3 dan C45

Perbedaan utama C50 dari ID3 adalah

- C50 dapat menangani atribut kontinyu dan diskrit Akan tetapi pada penelitian ini yang

dipakai hanya atribut diskrit karena jika menggunakan atribut kontinyu pohon yang

dihasilkan akan panjang dan tidak efisien

- Hasil pohon keputusan C50 dapat dipangkas atau terdapat pruning (pemangkasan)

Atribut dengan nilai information gain tertinggi akan terpilih sebagai parent bagi node

selanjutnya Algoritma ini membentuk pohon keputusan dengan cara pembagian dan menguasai

sampel secara rekursif dari atas ke bawah Algoritma ini dimulai dengan semua data yang dijadikan

akar dari pohon keputusan sedangkan atribut yang dipilih akan menjadi pembagi bagi sampel

tersebut

119868 1199041 1199042 hellip 119904119898 = minussum 119901119894119898119894=1 log2 119901119894 (3)

S adalah sebuah himpunan yang terdiri dari s data sampel Diketahui atribut class adalah m

dimana mendefinisikan kelas-kelas di dalamnya Ci (for i= 1hellipm) si adalah jumlah sampel pada S

dalam class Ci untuk mengklasifikasikan sampel yang digunakan maka diperlukan informasi

dengan menggunakan aturan 3 Dimana pi adalah proporsi kelas dalam output seperti pada kelas Ci

dan diestimasikan dengan si s Atribut A memiliki nilai tertentu a1 a2hellip av Atribut A dapat

6 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

digunakan pada partisi S ke dalam v subset S1 S2 hellip Sv dimana Sj berisi sample pada S yang

bernilai aj pada A Jika A dipilih sebagai atribut tes (sebagai contoh atribut terbaik untuk split)

maka subset ini akan berhubungan pada cabang dari node himpunan S Sij adalah jumlah sample

pada class Ci dalam sebuah subset Sj Untuk mendapatkan informasi nilai subset dari atribut A

tersebut maka digunakan formula

119864 119860 = sum1199041119895 ++119904119898119895

119904119868(1199041119895 hellip 119904119898119895 )

119910119895=1 (4)

1199041119895 ++119904119898119895

119904 adalah jumlah subset j yang dibagi dengan jumlah sampel pada S maka untuk

mendapatkan nilai gain selanjutnya digunakan formula

119866119886119894119899 119860 = 119868 1199041 1199042hellip 119904119898 minus 119864 119860 (5)

Pre Pruning

Pre pruning yaitu pemangkasan yang dilakukan sejak awal pembentukan pohon dengan cara

menghentikan pembangunan suatu subtree lebih awal yaitu dengan memutuskan untuk tidak lebih

jauh mempartisi data training Cara kerja pre pruning adalah dengan menghitung dulu nilai

information gain untuk mengetahui nilai parent dan child Setelah parent dan child diketahui

kemudian dihitung nilai errornya jika nilai error child lebih kecil parent maka parent membentuk

subtree lagi tapi sebaliknya jika nilai error child lebih besar dari parent maka pruning dilakukan

dan pembentukan subtree berhenti Untuk menghitung nilai error digunakan rumus dibawah ini

Rumus pre pruning

(6)

Dimana

r = nilai perbandingan error rate

n = total sample

cz 1

c = confidence level

Post Pruning

Post Pruning merupakan pemangkasan yang dilakukan setelah pohon terbentuk secara utuh

Reduced Error Pruning merupakan salah satu algoritma postpruning Algoritma ini membagi data

menjadi dua yaitu training data dan test data Training data adalah data yang digunakan untuk

membentuk pohon keputusan sedangkan test data digunakan untuk menghitung nilai error rate

pada pohon setelah dipangkas

n

z

n

z

n

r

n

rz

n

zr

e2

2

222

1

42

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 7

Cara kerja REP adalah dengan memangkas internal node yang dimulai dari internal node

paling bawah ke atas Pemangkasan dilakukan dengan cara mengganti atribut dengan leaf node

yang memiliki kelas yang dominan muncul Setelah itu test data diproses menggunakan rule hasil

pemangkasan kemudian dihitung nilai error ratenya Test data juga diproses dengan rule awal

yaitu rule yang terbentuk sebelum pohon dipangkas kemudian dihitung nilai error ratenya

Apabila nilai error rate yang dihasilkan dari pemangkasan pohon lebih kecil maka pemangkasan

dilakukan

Rancangan Sistem

Gambar 1 Flowchart Sistem

HASIL DAN PEMBAHASAN

Data yang digunakan dalam tugas akhir ini merupakan data siswa kelas X angkatan 20112012

yang diperoleh dari SMAN 2 Bangkalan Jumlah data yang digunakan sebanyak 200 data dimana

140 data memiliki kelas ipa dan 60 memiliki kelas ips Dalam implementasinya data diujicoba

menjadi 3 skenario Skenario 1 digunakan untuk membandingakan algritma ID3 dan C50 pre

Mulai

Input data training data testing

Preprosesing (transformasi data numerik ke

kategorikal)

Mining ID3

Selesai

Proses klasifikasi data

testing dengan rule ID3

Proses Klasifikasi

Pohon Keputusan amp

Rule ID3

Mining C50

Pohon Keputusan

amp Rule C50

Penilaian Kinerja

ID3 amp C50

Input Data Penentu Keputusan

Jurusan IPA atau IPS

Proses klasifikasi data

testing dengan rule C50

8 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

pruning skenario 2 digunakan untuk membandingkan algoritma post pruning dan skenario 3

digunakan untuk efektifitas dan efisiensi dari algoritma Pada penelitian ini data dipecah menjadi 3

yaitu data training digunakan untuk membentuk pohon keputusan data testing digunakan untuk

ujicoba pada pohon yang telah dibentuk guna menghitung nilai error rate dan data test pruning

digunakan untuk mengetes akurasi pada pohon yang telah dibentuk guna proses pemangkasan

pohon

Skenario 1

Skenario 1 digunakan untuk membandingkan algritma ID3 dan C50 pre pruning Pada

skenario 1 ini data yang digunakan yaitu 150 data training dan 50 data testing Data yang akan

digunakan dipecah menjadi 2 yaitu data training dan data testing yaitu

Berikut keterangan dari jumlah populasi data yaitu

Tabel 1 Data Skenario 1

Skenario 2

Skenario 2 digunakan untuk membandingkan algoritma post pruning Dalam algoritma post

pruning data yang digunakan dipecah menjadi 3 yaitu data training data testing dan data test

pruning Untuk membandingkan kinerjanya data post pruning dipecah menjadi 3 partisi yaitu

partisi 50100 adalah 50 data training 100 data test pruning partisi 7575 adalah 75 data training

75 data test pruning dan partisi 10050 adalah 100 data training 50 data test pruning Dari ketiga

partisi tersebut sama-sama menggunakan 50 data testing Berikut keterangan jumlah populasi data

Tabel 2 Data Skenario 2

Skenario 3

Skenario 3 digunakan untuk membandingkan algoritma ID3 C50 pre pruning dan C50 post

pruning guna untuk mengetahui efektifitas dan efisiensi dari algoritma tersebut

Berikut keterangan dari jumlah populasi data yaitu

ID3 C50

prepruning

Training 150 150

Testing 50 50

Jumlah 200 200

C50 Post Pruning

50100 7575 10050

Training 50 75 100

Test Pruning 100 75 50

Testing 50 50 50

Jumlah 200 200 200

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 9

Tabel 3 Data Skenario 3

Analisa Perbandingan Algoritma

Setelah pohon dibentuk selanjutnya dilakukan perbandingan dengan data yang merupakan

data testing data yang digunakan ada 50 data dimana data tersebut dilakukan pengklasifikasian

menggunakan rule ID3 dan C50 yang telah dibentuk Kemudian kelas yang terbentuk

dibandingkan dan dihitung nilai error ratenya

Setelah proses klasifikasi kemudian dihitung kinerja dari masing-masing algoritma yang

meliputi akurasi error rate precision dan recall Berikut tabel kinerja perbandingan

Tabel 4 Kinerja Perbandingan Algoritma

Kinerja

Skenario 1 Skenario 2 Skenario 3

ID3

15050

C50 Pre

Pruning

15050

C50

Post

Pruning

50100

C50

Post

Pruning

7575

C50

Post

Pruning

10050

ID3

100100

C50 Pre

Pruning

100100

C50 Post

Pruning

100100

Akurasi 86 94 94 94 90 93 93 95

Error Rate 14 6 6 6 10 7 7 5

Precision 8974 9487 9487 9487 9024 9342 9231 9474

Recall 9211 9737 9737 9737 9737 9726 9863 9863

Skenario 1

Pada Skenario 1 terdapat penilaian kinerja algoritma ID3 dan C50 pre pruning Penilaian

kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing Perbandingan skenario 1

ini digunakan untuk membandingkan kinerja dari kedua algoritma guna mengetahui algoritma

mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja diketahui algoritma C50 pre

pruning memiliki akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 pre

pruning sebesar 94 sedangkan ID3 sebesar 86

ID3 C50

prepruning

C50 post

pruning

Training 100 100 50

Testing 100 100 50

Test Pruning - - 100

Jumlah 200 200 50

10 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

Perbandingan pada skenario 1 dari kedua algoritma dapat digambarkan pada grafik berikut

Gambar 2 Grafik Skenario 1

Skenario 2

Pada Skenario 2 terdapat penilaian kinerja algoritma C50 post pruning Penilaian kinerja

diperoleh dari hasil klasifikasi rule algoritma c50 post pruning dengan 50 data testing Dalam

skenario 2 ini terdapat 3 partisi data yaitu 50100 adalah 50 training dan 100 test pruning 7575

adalah 75 training dan 75 test pruning 10050 adalah 100 training dan 50 test pruning

Perbandingan skenario 2 ini digunakan untuk membandingkan kinerja algoritma dari tiap partisi

guna mengetahui algoritma mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja

diketahui algoritma C50 post pruning 50100 dan 7575 memiliki akurasi yang sama dan lebih

baik dari pada C50 post pruning 10050 Ini terlihat dari nilai akurasi C50 post pruning 50100

dan 7575 sebesar 9388 sedangkan C50 post pruning 10050 sebesar 90

Perbandingan pada skenario 2 dari ketiga partisi data dari algoritma C50 post pruning dapat

digambarkan pada grafik berikut

Gambar 3 Grafik Skenario 2

Skenario 3

Pada Skenario 3 terdapat penilaian kinerja algoritma ID3 C50 pre pruning dan C50 post

pruning Penilaian kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing

Perbandingan skenario 3 ini digunakan untuk membandingkan kinerja dari kedua algoritma guna

mengetahui algoritma mana yang paling bagus kinerjanya selain itu untuk efektifitas dan efisiensi

dari algoritma tersebut Dari Hasil penilaian kinerja diketahui algoritma C50 post pruning memiliki

0

20

40

60

80

100

120

ID3 15050 C50 prepruning 15050

Precision

Recall

Akurasi

Error Rate

0

20

40

60

80

100

120

C50 post pruning 50100

C50 post pruning 7575

C50 post pruning 10050

Precision

Recall

Akurasi

Error Rate

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 11

akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 post pruning sebesar 95

sedangkan ID3 sebesar 93

Perbandingan pada skenario 3 dari kedua algoritma dapat digambarkan pada grafik berikut

Gambar 4 Grafik Skenario 3

KESIMPULAN DAN SARAN

Kesimpulan

Beberapa kesimpulan yang dapat diambil dari hasil penelitian ini adalah

1 Hasil ujicoba pengukuran kinerja kedua algoritma menggunkanan 3 skenario yang telah

dilakukan dapat disimpulkan bahwa pada skenario 3 merupakan ujicoba paling efektif karena

akurasi yang dihasilkan mencapai 95 pada algoritma C50 post pruning 100100

2 Algoritma pohon keputusan yang terbaik adalah algoritma C50 karena memiliki kinerja

(precision recall accuracy dan error rate) yang lebih baik dibandingkan algoritma ID3 Ini

terlihat dari nilai akurasi C50 post pruning 100100 sebesar 95 sedangkan untuk ID3

100100 sebesar 93

3 Hasil penilaian kinerja yang telah diketahui dapat disimpulkan juga bahwa semakin banyak

data testing yang digunakan semakin tinggi tingkat akurasi yang dihasilkan Ini terlihat dari

hasil skenario 1 menggunakan 50 data testng algoritma ID3 sebesar 86 dan C50 post

pruning sebesar 90 Sedangkan menggunakan 100 data testing hasil kinerjanya meningkat

pada algoritma ID3 sebesar 93 dan C50 post pruning sebesar 95

Saran

Saran-saran yang bisa disampaikan adalah sebagai berikut

1 Aplikasi ini masih bisa dikembangkan untuk algoritma pohon keputusan lainnya dan untuk

metode pruning yang digunakan juga masih bisa dikembangkan lagi

2 Algoritma C50 pada aplikasi ini tidak bisa mengklasifikasi data yang mengandung missing

value sehingga dapat lebih disempurnakan lagi

3 Tampilan dari aplikasi ini masih terlihat kaku sehingga dapat dibuat lebih menarik lagi

0

20

40

60

80

100

120

ID3 100100

C50 pre pruning 100100

C50 post pruning 100100

Precision

Recall

Akurasi

Error Rate

12 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

DAFTAR PUSTAKA

[1] Pramudiono I Pengantar Data Mining Menambang Permata Pengetahuan di Gunung

Data 2003 ltURLhttpikcdinusacidumumikoiko-dataminingzipgt diakses

tanggal 17 Oktober 2012

[2] Nugroho Fanuel Kristanto Harianto dan Oslan Yetli Validitas Suatu Alamat

menggunakan Pohon keputusan dengan Algoritma ID3 Jurnal Informatika Volume 3

Nomor 2 April 2007 1 2 2007

[3] Hardikar S Shrivastava A Choudhary V Comparison between ID3 and C45 in

Contrast to IDS VSRD-IJCSIT Vol 2 (7) 659-667 2012

[4] Humairah N Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C50

[Skripsi] UPN Veteran Jakarta 2009

[5] Nugroho MW Perbandingan kinerja pohon keputusan ID3 dan C45 dalam klasifikasi

kelayakan kredit sepeda motor (studi kasus Bussan Auto Finance) [Skripsi] Universitas

Trunojoyo Bangkalan 2012

[6] Wahyudin Metode Iterative Dichotomizer 3 (ID3) Untuk Penerimaan Mahasiswa Baru

Tanpa Tahun ltURLhttpfileupieduDirektoriFPMIPAPRODI_ILMU_

KOMPUTERWAHYUDINmetode_ID3_untuk_mhsbarupdfgt diakses tanggal 17 Oktober

2012

[7] Defianti S dan Pardede D L C Perbandingan Kinerja Algoritma ID3 dan C45 dalam

Klasifikasi SpamMail 2008 ltURLhttpopenstoragegunadarmaacid

~mwiryanaKOMMITper-artikel03-02-004-Perbandingan5BSofi5Dpdfgt diakses

tanggal 5 Oktober 2012

[8] Ernawati I Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C50 dan K-

Nearest Neighbor [Tesis] Institut Pertanian Bogor Bogor 2008

[9] Tanpa Nama Constructing Decision Trees Tanpa Tahun ltURLhttpnotes-

storecomNotesDecision-Tree1011pptgt diakses tanggal 3 Oktober 2012

Page 4: Perbandingan Algoritma Id3 Dan c5.0 Dalam Indentifikasi Penjurusan Siswa Sma

4 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

Dalam studi kasus yang lain penelitian terkait perbandingan kinerja pohon keputusan

ID3 dan C45 pernah dilakukan Surbhi Hardikar Ankur Shrivastava dan Vijay Choudhary

(2012) dengan judul ldquoComparison between ID3 and C45 in Contrast to IDSrdquo Pada penelitian

ini analisa perbandingan yang dilakukan berdasarkan kinerja parameter yaitu akurasi penggunaan

memory model build time search time dan error rate Hasil dari penelitian ini menunjukkan

bahwa algoritma C45 memiliki tingkat akurasi yang sama dengan algoritma ID3 [4]

Selanjutnya penelitian tentang klasifikasi tumbunhan jamur dengan menggunakan

algoritma C50 pada tahun 2009 yang menghasilkan dua kelas jamur yaitu jamur yang dapat

dimakan ( edible mushroom ) dan jamur beracun ( poisonous mushroom ) Dalam penelitian ini

metode yang digunakan adalah decision tree yang merupakan metode klasifikasi yang paling

banyak digunakan dengan algoritma C50 Dataset tumbuhan jamur dibagi menjadi 3 bagian yaitu

2 bagian untuk data training dan 1 bagian untuk data testing Hasil klasifikasi menunjukkan bahwa

presentase nilai akurasi mencapai 100 yang menunjukkan bahwa algoritma yang digunakan

sangat cocok dengan data yang diolah [5]

Pembangunan tree dimulai dengan data pada simpul akar (root node) yang dilanjutkan

dengan pemilihan sebuah atribut formulasi sebuah logical test pada atribut tersebut dan

pencabangan pada setiap hasil dari test Langkah ini terus bergerak ke subset ke contoh yang

memenuhi hasil dari simpul anak cabang (internal node) yang sesuai melalui proses rekursif pada

setiap simpul anak cabang Langkah-langkah tersebut diulangi hingga dahan-dahan dari tree

memiliki contoh dari satu kelas tertentu Beberapa model decision tree yang sudah dikembangkan

antara lain adalah IDS ID3 C45 C50 CHAID dan CART

METODE PENELITIAN

ID3

Algoritma ID3 atau Iterative Dichotomiser 3 (ID3) merupakan sebuah metode yang

digunakan untuk membuat pohon keputusan yang telah dikembangkan oleh J Ross Quinlan sejak

tahun 1986 Algoritma pada metode ini menggunakan konsep dari entropy informasi Algoritma

ID3 dapat diimplementasikan menggunakan fungsi rekursif (fungsi yang memanggil dirinya sendiri)

[6]

Secara ringkas langkah kerja Algoritma ID3 dapat digambarkan sebagai berikut [7]

1 Hitung Entropy dan Information gain dari setiap atribut dengan menggunakan rumus

PPPP=SEntropy 22 loglog)( (1)

Dimana

S = ruang (data) sample yang digunakan untuk training

P+ = jumlah yang bersolusi positif (mendukung) pada data sample untuk kriteria tertentu

jumlah yang bersolusi negatif (tidak mendukung) pada data sample untuk kriteria tertentu

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 5

Gain S A = Entropy S minus sumSv

SEntropy(Sv) (2)

Dimana

S = ruang (data) sample yang digunakan untuk training

A = atribut

V = suatu nilai yang mungkin untuk atribut A

Nilai(A) = himpunan yang mungkin untuk atribut A

|Sv| = jumlah sample untuk nilai V

|S| = jumlah seluruh sample data

Entropy(Sv) = entropy untuk sample-sample yang memiliki nilai V

Tujuan dari pengukuran nilai information gain adalah untuk memilih atribut yang akan

dijadikan cabang pada pembentukan pohon keputusan

2 Pilih atribut yang memiliki nilai information gain terbesar

3 Bentuk simpul yang berisi atribut tersebut

4 Ulangi proses perhitungan information gain yang akan terus dilaksanakan sampai semua

data telah termasuk dalam kelas yang sama Atribut yang telah dipilih tidak

diikutkan lagi dalam perhitungan nilai information gain

C50

Algoritma C50 merupakan merupakan penyempurnaan dari algoritma terdahulu yang

dibentuk oleh Ross Quinlan pada tahun 1987 yaitu algoritma ID3 dan C45

Perbedaan utama C50 dari ID3 adalah

- C50 dapat menangani atribut kontinyu dan diskrit Akan tetapi pada penelitian ini yang

dipakai hanya atribut diskrit karena jika menggunakan atribut kontinyu pohon yang

dihasilkan akan panjang dan tidak efisien

- Hasil pohon keputusan C50 dapat dipangkas atau terdapat pruning (pemangkasan)

Atribut dengan nilai information gain tertinggi akan terpilih sebagai parent bagi node

selanjutnya Algoritma ini membentuk pohon keputusan dengan cara pembagian dan menguasai

sampel secara rekursif dari atas ke bawah Algoritma ini dimulai dengan semua data yang dijadikan

akar dari pohon keputusan sedangkan atribut yang dipilih akan menjadi pembagi bagi sampel

tersebut

119868 1199041 1199042 hellip 119904119898 = minussum 119901119894119898119894=1 log2 119901119894 (3)

S adalah sebuah himpunan yang terdiri dari s data sampel Diketahui atribut class adalah m

dimana mendefinisikan kelas-kelas di dalamnya Ci (for i= 1hellipm) si adalah jumlah sampel pada S

dalam class Ci untuk mengklasifikasikan sampel yang digunakan maka diperlukan informasi

dengan menggunakan aturan 3 Dimana pi adalah proporsi kelas dalam output seperti pada kelas Ci

dan diestimasikan dengan si s Atribut A memiliki nilai tertentu a1 a2hellip av Atribut A dapat

6 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

digunakan pada partisi S ke dalam v subset S1 S2 hellip Sv dimana Sj berisi sample pada S yang

bernilai aj pada A Jika A dipilih sebagai atribut tes (sebagai contoh atribut terbaik untuk split)

maka subset ini akan berhubungan pada cabang dari node himpunan S Sij adalah jumlah sample

pada class Ci dalam sebuah subset Sj Untuk mendapatkan informasi nilai subset dari atribut A

tersebut maka digunakan formula

119864 119860 = sum1199041119895 ++119904119898119895

119904119868(1199041119895 hellip 119904119898119895 )

119910119895=1 (4)

1199041119895 ++119904119898119895

119904 adalah jumlah subset j yang dibagi dengan jumlah sampel pada S maka untuk

mendapatkan nilai gain selanjutnya digunakan formula

119866119886119894119899 119860 = 119868 1199041 1199042hellip 119904119898 minus 119864 119860 (5)

Pre Pruning

Pre pruning yaitu pemangkasan yang dilakukan sejak awal pembentukan pohon dengan cara

menghentikan pembangunan suatu subtree lebih awal yaitu dengan memutuskan untuk tidak lebih

jauh mempartisi data training Cara kerja pre pruning adalah dengan menghitung dulu nilai

information gain untuk mengetahui nilai parent dan child Setelah parent dan child diketahui

kemudian dihitung nilai errornya jika nilai error child lebih kecil parent maka parent membentuk

subtree lagi tapi sebaliknya jika nilai error child lebih besar dari parent maka pruning dilakukan

dan pembentukan subtree berhenti Untuk menghitung nilai error digunakan rumus dibawah ini

Rumus pre pruning

(6)

Dimana

r = nilai perbandingan error rate

n = total sample

cz 1

c = confidence level

Post Pruning

Post Pruning merupakan pemangkasan yang dilakukan setelah pohon terbentuk secara utuh

Reduced Error Pruning merupakan salah satu algoritma postpruning Algoritma ini membagi data

menjadi dua yaitu training data dan test data Training data adalah data yang digunakan untuk

membentuk pohon keputusan sedangkan test data digunakan untuk menghitung nilai error rate

pada pohon setelah dipangkas

n

z

n

z

n

r

n

rz

n

zr

e2

2

222

1

42

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 7

Cara kerja REP adalah dengan memangkas internal node yang dimulai dari internal node

paling bawah ke atas Pemangkasan dilakukan dengan cara mengganti atribut dengan leaf node

yang memiliki kelas yang dominan muncul Setelah itu test data diproses menggunakan rule hasil

pemangkasan kemudian dihitung nilai error ratenya Test data juga diproses dengan rule awal

yaitu rule yang terbentuk sebelum pohon dipangkas kemudian dihitung nilai error ratenya

Apabila nilai error rate yang dihasilkan dari pemangkasan pohon lebih kecil maka pemangkasan

dilakukan

Rancangan Sistem

Gambar 1 Flowchart Sistem

HASIL DAN PEMBAHASAN

Data yang digunakan dalam tugas akhir ini merupakan data siswa kelas X angkatan 20112012

yang diperoleh dari SMAN 2 Bangkalan Jumlah data yang digunakan sebanyak 200 data dimana

140 data memiliki kelas ipa dan 60 memiliki kelas ips Dalam implementasinya data diujicoba

menjadi 3 skenario Skenario 1 digunakan untuk membandingakan algritma ID3 dan C50 pre

Mulai

Input data training data testing

Preprosesing (transformasi data numerik ke

kategorikal)

Mining ID3

Selesai

Proses klasifikasi data

testing dengan rule ID3

Proses Klasifikasi

Pohon Keputusan amp

Rule ID3

Mining C50

Pohon Keputusan

amp Rule C50

Penilaian Kinerja

ID3 amp C50

Input Data Penentu Keputusan

Jurusan IPA atau IPS

Proses klasifikasi data

testing dengan rule C50

8 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

pruning skenario 2 digunakan untuk membandingkan algoritma post pruning dan skenario 3

digunakan untuk efektifitas dan efisiensi dari algoritma Pada penelitian ini data dipecah menjadi 3

yaitu data training digunakan untuk membentuk pohon keputusan data testing digunakan untuk

ujicoba pada pohon yang telah dibentuk guna menghitung nilai error rate dan data test pruning

digunakan untuk mengetes akurasi pada pohon yang telah dibentuk guna proses pemangkasan

pohon

Skenario 1

Skenario 1 digunakan untuk membandingkan algritma ID3 dan C50 pre pruning Pada

skenario 1 ini data yang digunakan yaitu 150 data training dan 50 data testing Data yang akan

digunakan dipecah menjadi 2 yaitu data training dan data testing yaitu

Berikut keterangan dari jumlah populasi data yaitu

Tabel 1 Data Skenario 1

Skenario 2

Skenario 2 digunakan untuk membandingkan algoritma post pruning Dalam algoritma post

pruning data yang digunakan dipecah menjadi 3 yaitu data training data testing dan data test

pruning Untuk membandingkan kinerjanya data post pruning dipecah menjadi 3 partisi yaitu

partisi 50100 adalah 50 data training 100 data test pruning partisi 7575 adalah 75 data training

75 data test pruning dan partisi 10050 adalah 100 data training 50 data test pruning Dari ketiga

partisi tersebut sama-sama menggunakan 50 data testing Berikut keterangan jumlah populasi data

Tabel 2 Data Skenario 2

Skenario 3

Skenario 3 digunakan untuk membandingkan algoritma ID3 C50 pre pruning dan C50 post

pruning guna untuk mengetahui efektifitas dan efisiensi dari algoritma tersebut

Berikut keterangan dari jumlah populasi data yaitu

ID3 C50

prepruning

Training 150 150

Testing 50 50

Jumlah 200 200

C50 Post Pruning

50100 7575 10050

Training 50 75 100

Test Pruning 100 75 50

Testing 50 50 50

Jumlah 200 200 200

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 9

Tabel 3 Data Skenario 3

Analisa Perbandingan Algoritma

Setelah pohon dibentuk selanjutnya dilakukan perbandingan dengan data yang merupakan

data testing data yang digunakan ada 50 data dimana data tersebut dilakukan pengklasifikasian

menggunakan rule ID3 dan C50 yang telah dibentuk Kemudian kelas yang terbentuk

dibandingkan dan dihitung nilai error ratenya

Setelah proses klasifikasi kemudian dihitung kinerja dari masing-masing algoritma yang

meliputi akurasi error rate precision dan recall Berikut tabel kinerja perbandingan

Tabel 4 Kinerja Perbandingan Algoritma

Kinerja

Skenario 1 Skenario 2 Skenario 3

ID3

15050

C50 Pre

Pruning

15050

C50

Post

Pruning

50100

C50

Post

Pruning

7575

C50

Post

Pruning

10050

ID3

100100

C50 Pre

Pruning

100100

C50 Post

Pruning

100100

Akurasi 86 94 94 94 90 93 93 95

Error Rate 14 6 6 6 10 7 7 5

Precision 8974 9487 9487 9487 9024 9342 9231 9474

Recall 9211 9737 9737 9737 9737 9726 9863 9863

Skenario 1

Pada Skenario 1 terdapat penilaian kinerja algoritma ID3 dan C50 pre pruning Penilaian

kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing Perbandingan skenario 1

ini digunakan untuk membandingkan kinerja dari kedua algoritma guna mengetahui algoritma

mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja diketahui algoritma C50 pre

pruning memiliki akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 pre

pruning sebesar 94 sedangkan ID3 sebesar 86

ID3 C50

prepruning

C50 post

pruning

Training 100 100 50

Testing 100 100 50

Test Pruning - - 100

Jumlah 200 200 50

10 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

Perbandingan pada skenario 1 dari kedua algoritma dapat digambarkan pada grafik berikut

Gambar 2 Grafik Skenario 1

Skenario 2

Pada Skenario 2 terdapat penilaian kinerja algoritma C50 post pruning Penilaian kinerja

diperoleh dari hasil klasifikasi rule algoritma c50 post pruning dengan 50 data testing Dalam

skenario 2 ini terdapat 3 partisi data yaitu 50100 adalah 50 training dan 100 test pruning 7575

adalah 75 training dan 75 test pruning 10050 adalah 100 training dan 50 test pruning

Perbandingan skenario 2 ini digunakan untuk membandingkan kinerja algoritma dari tiap partisi

guna mengetahui algoritma mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja

diketahui algoritma C50 post pruning 50100 dan 7575 memiliki akurasi yang sama dan lebih

baik dari pada C50 post pruning 10050 Ini terlihat dari nilai akurasi C50 post pruning 50100

dan 7575 sebesar 9388 sedangkan C50 post pruning 10050 sebesar 90

Perbandingan pada skenario 2 dari ketiga partisi data dari algoritma C50 post pruning dapat

digambarkan pada grafik berikut

Gambar 3 Grafik Skenario 2

Skenario 3

Pada Skenario 3 terdapat penilaian kinerja algoritma ID3 C50 pre pruning dan C50 post

pruning Penilaian kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing

Perbandingan skenario 3 ini digunakan untuk membandingkan kinerja dari kedua algoritma guna

mengetahui algoritma mana yang paling bagus kinerjanya selain itu untuk efektifitas dan efisiensi

dari algoritma tersebut Dari Hasil penilaian kinerja diketahui algoritma C50 post pruning memiliki

0

20

40

60

80

100

120

ID3 15050 C50 prepruning 15050

Precision

Recall

Akurasi

Error Rate

0

20

40

60

80

100

120

C50 post pruning 50100

C50 post pruning 7575

C50 post pruning 10050

Precision

Recall

Akurasi

Error Rate

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 11

akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 post pruning sebesar 95

sedangkan ID3 sebesar 93

Perbandingan pada skenario 3 dari kedua algoritma dapat digambarkan pada grafik berikut

Gambar 4 Grafik Skenario 3

KESIMPULAN DAN SARAN

Kesimpulan

Beberapa kesimpulan yang dapat diambil dari hasil penelitian ini adalah

1 Hasil ujicoba pengukuran kinerja kedua algoritma menggunkanan 3 skenario yang telah

dilakukan dapat disimpulkan bahwa pada skenario 3 merupakan ujicoba paling efektif karena

akurasi yang dihasilkan mencapai 95 pada algoritma C50 post pruning 100100

2 Algoritma pohon keputusan yang terbaik adalah algoritma C50 karena memiliki kinerja

(precision recall accuracy dan error rate) yang lebih baik dibandingkan algoritma ID3 Ini

terlihat dari nilai akurasi C50 post pruning 100100 sebesar 95 sedangkan untuk ID3

100100 sebesar 93

3 Hasil penilaian kinerja yang telah diketahui dapat disimpulkan juga bahwa semakin banyak

data testing yang digunakan semakin tinggi tingkat akurasi yang dihasilkan Ini terlihat dari

hasil skenario 1 menggunakan 50 data testng algoritma ID3 sebesar 86 dan C50 post

pruning sebesar 90 Sedangkan menggunakan 100 data testing hasil kinerjanya meningkat

pada algoritma ID3 sebesar 93 dan C50 post pruning sebesar 95

Saran

Saran-saran yang bisa disampaikan adalah sebagai berikut

1 Aplikasi ini masih bisa dikembangkan untuk algoritma pohon keputusan lainnya dan untuk

metode pruning yang digunakan juga masih bisa dikembangkan lagi

2 Algoritma C50 pada aplikasi ini tidak bisa mengklasifikasi data yang mengandung missing

value sehingga dapat lebih disempurnakan lagi

3 Tampilan dari aplikasi ini masih terlihat kaku sehingga dapat dibuat lebih menarik lagi

0

20

40

60

80

100

120

ID3 100100

C50 pre pruning 100100

C50 post pruning 100100

Precision

Recall

Akurasi

Error Rate

12 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

DAFTAR PUSTAKA

[1] Pramudiono I Pengantar Data Mining Menambang Permata Pengetahuan di Gunung

Data 2003 ltURLhttpikcdinusacidumumikoiko-dataminingzipgt diakses

tanggal 17 Oktober 2012

[2] Nugroho Fanuel Kristanto Harianto dan Oslan Yetli Validitas Suatu Alamat

menggunakan Pohon keputusan dengan Algoritma ID3 Jurnal Informatika Volume 3

Nomor 2 April 2007 1 2 2007

[3] Hardikar S Shrivastava A Choudhary V Comparison between ID3 and C45 in

Contrast to IDS VSRD-IJCSIT Vol 2 (7) 659-667 2012

[4] Humairah N Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C50

[Skripsi] UPN Veteran Jakarta 2009

[5] Nugroho MW Perbandingan kinerja pohon keputusan ID3 dan C45 dalam klasifikasi

kelayakan kredit sepeda motor (studi kasus Bussan Auto Finance) [Skripsi] Universitas

Trunojoyo Bangkalan 2012

[6] Wahyudin Metode Iterative Dichotomizer 3 (ID3) Untuk Penerimaan Mahasiswa Baru

Tanpa Tahun ltURLhttpfileupieduDirektoriFPMIPAPRODI_ILMU_

KOMPUTERWAHYUDINmetode_ID3_untuk_mhsbarupdfgt diakses tanggal 17 Oktober

2012

[7] Defianti S dan Pardede D L C Perbandingan Kinerja Algoritma ID3 dan C45 dalam

Klasifikasi SpamMail 2008 ltURLhttpopenstoragegunadarmaacid

~mwiryanaKOMMITper-artikel03-02-004-Perbandingan5BSofi5Dpdfgt diakses

tanggal 5 Oktober 2012

[8] Ernawati I Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C50 dan K-

Nearest Neighbor [Tesis] Institut Pertanian Bogor Bogor 2008

[9] Tanpa Nama Constructing Decision Trees Tanpa Tahun ltURLhttpnotes-

storecomNotesDecision-Tree1011pptgt diakses tanggal 3 Oktober 2012

Page 5: Perbandingan Algoritma Id3 Dan c5.0 Dalam Indentifikasi Penjurusan Siswa Sma

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 5

Gain S A = Entropy S minus sumSv

SEntropy(Sv) (2)

Dimana

S = ruang (data) sample yang digunakan untuk training

A = atribut

V = suatu nilai yang mungkin untuk atribut A

Nilai(A) = himpunan yang mungkin untuk atribut A

|Sv| = jumlah sample untuk nilai V

|S| = jumlah seluruh sample data

Entropy(Sv) = entropy untuk sample-sample yang memiliki nilai V

Tujuan dari pengukuran nilai information gain adalah untuk memilih atribut yang akan

dijadikan cabang pada pembentukan pohon keputusan

2 Pilih atribut yang memiliki nilai information gain terbesar

3 Bentuk simpul yang berisi atribut tersebut

4 Ulangi proses perhitungan information gain yang akan terus dilaksanakan sampai semua

data telah termasuk dalam kelas yang sama Atribut yang telah dipilih tidak

diikutkan lagi dalam perhitungan nilai information gain

C50

Algoritma C50 merupakan merupakan penyempurnaan dari algoritma terdahulu yang

dibentuk oleh Ross Quinlan pada tahun 1987 yaitu algoritma ID3 dan C45

Perbedaan utama C50 dari ID3 adalah

- C50 dapat menangani atribut kontinyu dan diskrit Akan tetapi pada penelitian ini yang

dipakai hanya atribut diskrit karena jika menggunakan atribut kontinyu pohon yang

dihasilkan akan panjang dan tidak efisien

- Hasil pohon keputusan C50 dapat dipangkas atau terdapat pruning (pemangkasan)

Atribut dengan nilai information gain tertinggi akan terpilih sebagai parent bagi node

selanjutnya Algoritma ini membentuk pohon keputusan dengan cara pembagian dan menguasai

sampel secara rekursif dari atas ke bawah Algoritma ini dimulai dengan semua data yang dijadikan

akar dari pohon keputusan sedangkan atribut yang dipilih akan menjadi pembagi bagi sampel

tersebut

119868 1199041 1199042 hellip 119904119898 = minussum 119901119894119898119894=1 log2 119901119894 (3)

S adalah sebuah himpunan yang terdiri dari s data sampel Diketahui atribut class adalah m

dimana mendefinisikan kelas-kelas di dalamnya Ci (for i= 1hellipm) si adalah jumlah sampel pada S

dalam class Ci untuk mengklasifikasikan sampel yang digunakan maka diperlukan informasi

dengan menggunakan aturan 3 Dimana pi adalah proporsi kelas dalam output seperti pada kelas Ci

dan diestimasikan dengan si s Atribut A memiliki nilai tertentu a1 a2hellip av Atribut A dapat

6 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

digunakan pada partisi S ke dalam v subset S1 S2 hellip Sv dimana Sj berisi sample pada S yang

bernilai aj pada A Jika A dipilih sebagai atribut tes (sebagai contoh atribut terbaik untuk split)

maka subset ini akan berhubungan pada cabang dari node himpunan S Sij adalah jumlah sample

pada class Ci dalam sebuah subset Sj Untuk mendapatkan informasi nilai subset dari atribut A

tersebut maka digunakan formula

119864 119860 = sum1199041119895 ++119904119898119895

119904119868(1199041119895 hellip 119904119898119895 )

119910119895=1 (4)

1199041119895 ++119904119898119895

119904 adalah jumlah subset j yang dibagi dengan jumlah sampel pada S maka untuk

mendapatkan nilai gain selanjutnya digunakan formula

119866119886119894119899 119860 = 119868 1199041 1199042hellip 119904119898 minus 119864 119860 (5)

Pre Pruning

Pre pruning yaitu pemangkasan yang dilakukan sejak awal pembentukan pohon dengan cara

menghentikan pembangunan suatu subtree lebih awal yaitu dengan memutuskan untuk tidak lebih

jauh mempartisi data training Cara kerja pre pruning adalah dengan menghitung dulu nilai

information gain untuk mengetahui nilai parent dan child Setelah parent dan child diketahui

kemudian dihitung nilai errornya jika nilai error child lebih kecil parent maka parent membentuk

subtree lagi tapi sebaliknya jika nilai error child lebih besar dari parent maka pruning dilakukan

dan pembentukan subtree berhenti Untuk menghitung nilai error digunakan rumus dibawah ini

Rumus pre pruning

(6)

Dimana

r = nilai perbandingan error rate

n = total sample

cz 1

c = confidence level

Post Pruning

Post Pruning merupakan pemangkasan yang dilakukan setelah pohon terbentuk secara utuh

Reduced Error Pruning merupakan salah satu algoritma postpruning Algoritma ini membagi data

menjadi dua yaitu training data dan test data Training data adalah data yang digunakan untuk

membentuk pohon keputusan sedangkan test data digunakan untuk menghitung nilai error rate

pada pohon setelah dipangkas

n

z

n

z

n

r

n

rz

n

zr

e2

2

222

1

42

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 7

Cara kerja REP adalah dengan memangkas internal node yang dimulai dari internal node

paling bawah ke atas Pemangkasan dilakukan dengan cara mengganti atribut dengan leaf node

yang memiliki kelas yang dominan muncul Setelah itu test data diproses menggunakan rule hasil

pemangkasan kemudian dihitung nilai error ratenya Test data juga diproses dengan rule awal

yaitu rule yang terbentuk sebelum pohon dipangkas kemudian dihitung nilai error ratenya

Apabila nilai error rate yang dihasilkan dari pemangkasan pohon lebih kecil maka pemangkasan

dilakukan

Rancangan Sistem

Gambar 1 Flowchart Sistem

HASIL DAN PEMBAHASAN

Data yang digunakan dalam tugas akhir ini merupakan data siswa kelas X angkatan 20112012

yang diperoleh dari SMAN 2 Bangkalan Jumlah data yang digunakan sebanyak 200 data dimana

140 data memiliki kelas ipa dan 60 memiliki kelas ips Dalam implementasinya data diujicoba

menjadi 3 skenario Skenario 1 digunakan untuk membandingakan algritma ID3 dan C50 pre

Mulai

Input data training data testing

Preprosesing (transformasi data numerik ke

kategorikal)

Mining ID3

Selesai

Proses klasifikasi data

testing dengan rule ID3

Proses Klasifikasi

Pohon Keputusan amp

Rule ID3

Mining C50

Pohon Keputusan

amp Rule C50

Penilaian Kinerja

ID3 amp C50

Input Data Penentu Keputusan

Jurusan IPA atau IPS

Proses klasifikasi data

testing dengan rule C50

8 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

pruning skenario 2 digunakan untuk membandingkan algoritma post pruning dan skenario 3

digunakan untuk efektifitas dan efisiensi dari algoritma Pada penelitian ini data dipecah menjadi 3

yaitu data training digunakan untuk membentuk pohon keputusan data testing digunakan untuk

ujicoba pada pohon yang telah dibentuk guna menghitung nilai error rate dan data test pruning

digunakan untuk mengetes akurasi pada pohon yang telah dibentuk guna proses pemangkasan

pohon

Skenario 1

Skenario 1 digunakan untuk membandingkan algritma ID3 dan C50 pre pruning Pada

skenario 1 ini data yang digunakan yaitu 150 data training dan 50 data testing Data yang akan

digunakan dipecah menjadi 2 yaitu data training dan data testing yaitu

Berikut keterangan dari jumlah populasi data yaitu

Tabel 1 Data Skenario 1

Skenario 2

Skenario 2 digunakan untuk membandingkan algoritma post pruning Dalam algoritma post

pruning data yang digunakan dipecah menjadi 3 yaitu data training data testing dan data test

pruning Untuk membandingkan kinerjanya data post pruning dipecah menjadi 3 partisi yaitu

partisi 50100 adalah 50 data training 100 data test pruning partisi 7575 adalah 75 data training

75 data test pruning dan partisi 10050 adalah 100 data training 50 data test pruning Dari ketiga

partisi tersebut sama-sama menggunakan 50 data testing Berikut keterangan jumlah populasi data

Tabel 2 Data Skenario 2

Skenario 3

Skenario 3 digunakan untuk membandingkan algoritma ID3 C50 pre pruning dan C50 post

pruning guna untuk mengetahui efektifitas dan efisiensi dari algoritma tersebut

Berikut keterangan dari jumlah populasi data yaitu

ID3 C50

prepruning

Training 150 150

Testing 50 50

Jumlah 200 200

C50 Post Pruning

50100 7575 10050

Training 50 75 100

Test Pruning 100 75 50

Testing 50 50 50

Jumlah 200 200 200

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 9

Tabel 3 Data Skenario 3

Analisa Perbandingan Algoritma

Setelah pohon dibentuk selanjutnya dilakukan perbandingan dengan data yang merupakan

data testing data yang digunakan ada 50 data dimana data tersebut dilakukan pengklasifikasian

menggunakan rule ID3 dan C50 yang telah dibentuk Kemudian kelas yang terbentuk

dibandingkan dan dihitung nilai error ratenya

Setelah proses klasifikasi kemudian dihitung kinerja dari masing-masing algoritma yang

meliputi akurasi error rate precision dan recall Berikut tabel kinerja perbandingan

Tabel 4 Kinerja Perbandingan Algoritma

Kinerja

Skenario 1 Skenario 2 Skenario 3

ID3

15050

C50 Pre

Pruning

15050

C50

Post

Pruning

50100

C50

Post

Pruning

7575

C50

Post

Pruning

10050

ID3

100100

C50 Pre

Pruning

100100

C50 Post

Pruning

100100

Akurasi 86 94 94 94 90 93 93 95

Error Rate 14 6 6 6 10 7 7 5

Precision 8974 9487 9487 9487 9024 9342 9231 9474

Recall 9211 9737 9737 9737 9737 9726 9863 9863

Skenario 1

Pada Skenario 1 terdapat penilaian kinerja algoritma ID3 dan C50 pre pruning Penilaian

kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing Perbandingan skenario 1

ini digunakan untuk membandingkan kinerja dari kedua algoritma guna mengetahui algoritma

mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja diketahui algoritma C50 pre

pruning memiliki akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 pre

pruning sebesar 94 sedangkan ID3 sebesar 86

ID3 C50

prepruning

C50 post

pruning

Training 100 100 50

Testing 100 100 50

Test Pruning - - 100

Jumlah 200 200 50

10 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

Perbandingan pada skenario 1 dari kedua algoritma dapat digambarkan pada grafik berikut

Gambar 2 Grafik Skenario 1

Skenario 2

Pada Skenario 2 terdapat penilaian kinerja algoritma C50 post pruning Penilaian kinerja

diperoleh dari hasil klasifikasi rule algoritma c50 post pruning dengan 50 data testing Dalam

skenario 2 ini terdapat 3 partisi data yaitu 50100 adalah 50 training dan 100 test pruning 7575

adalah 75 training dan 75 test pruning 10050 adalah 100 training dan 50 test pruning

Perbandingan skenario 2 ini digunakan untuk membandingkan kinerja algoritma dari tiap partisi

guna mengetahui algoritma mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja

diketahui algoritma C50 post pruning 50100 dan 7575 memiliki akurasi yang sama dan lebih

baik dari pada C50 post pruning 10050 Ini terlihat dari nilai akurasi C50 post pruning 50100

dan 7575 sebesar 9388 sedangkan C50 post pruning 10050 sebesar 90

Perbandingan pada skenario 2 dari ketiga partisi data dari algoritma C50 post pruning dapat

digambarkan pada grafik berikut

Gambar 3 Grafik Skenario 2

Skenario 3

Pada Skenario 3 terdapat penilaian kinerja algoritma ID3 C50 pre pruning dan C50 post

pruning Penilaian kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing

Perbandingan skenario 3 ini digunakan untuk membandingkan kinerja dari kedua algoritma guna

mengetahui algoritma mana yang paling bagus kinerjanya selain itu untuk efektifitas dan efisiensi

dari algoritma tersebut Dari Hasil penilaian kinerja diketahui algoritma C50 post pruning memiliki

0

20

40

60

80

100

120

ID3 15050 C50 prepruning 15050

Precision

Recall

Akurasi

Error Rate

0

20

40

60

80

100

120

C50 post pruning 50100

C50 post pruning 7575

C50 post pruning 10050

Precision

Recall

Akurasi

Error Rate

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 11

akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 post pruning sebesar 95

sedangkan ID3 sebesar 93

Perbandingan pada skenario 3 dari kedua algoritma dapat digambarkan pada grafik berikut

Gambar 4 Grafik Skenario 3

KESIMPULAN DAN SARAN

Kesimpulan

Beberapa kesimpulan yang dapat diambil dari hasil penelitian ini adalah

1 Hasil ujicoba pengukuran kinerja kedua algoritma menggunkanan 3 skenario yang telah

dilakukan dapat disimpulkan bahwa pada skenario 3 merupakan ujicoba paling efektif karena

akurasi yang dihasilkan mencapai 95 pada algoritma C50 post pruning 100100

2 Algoritma pohon keputusan yang terbaik adalah algoritma C50 karena memiliki kinerja

(precision recall accuracy dan error rate) yang lebih baik dibandingkan algoritma ID3 Ini

terlihat dari nilai akurasi C50 post pruning 100100 sebesar 95 sedangkan untuk ID3

100100 sebesar 93

3 Hasil penilaian kinerja yang telah diketahui dapat disimpulkan juga bahwa semakin banyak

data testing yang digunakan semakin tinggi tingkat akurasi yang dihasilkan Ini terlihat dari

hasil skenario 1 menggunakan 50 data testng algoritma ID3 sebesar 86 dan C50 post

pruning sebesar 90 Sedangkan menggunakan 100 data testing hasil kinerjanya meningkat

pada algoritma ID3 sebesar 93 dan C50 post pruning sebesar 95

Saran

Saran-saran yang bisa disampaikan adalah sebagai berikut

1 Aplikasi ini masih bisa dikembangkan untuk algoritma pohon keputusan lainnya dan untuk

metode pruning yang digunakan juga masih bisa dikembangkan lagi

2 Algoritma C50 pada aplikasi ini tidak bisa mengklasifikasi data yang mengandung missing

value sehingga dapat lebih disempurnakan lagi

3 Tampilan dari aplikasi ini masih terlihat kaku sehingga dapat dibuat lebih menarik lagi

0

20

40

60

80

100

120

ID3 100100

C50 pre pruning 100100

C50 post pruning 100100

Precision

Recall

Akurasi

Error Rate

12 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

DAFTAR PUSTAKA

[1] Pramudiono I Pengantar Data Mining Menambang Permata Pengetahuan di Gunung

Data 2003 ltURLhttpikcdinusacidumumikoiko-dataminingzipgt diakses

tanggal 17 Oktober 2012

[2] Nugroho Fanuel Kristanto Harianto dan Oslan Yetli Validitas Suatu Alamat

menggunakan Pohon keputusan dengan Algoritma ID3 Jurnal Informatika Volume 3

Nomor 2 April 2007 1 2 2007

[3] Hardikar S Shrivastava A Choudhary V Comparison between ID3 and C45 in

Contrast to IDS VSRD-IJCSIT Vol 2 (7) 659-667 2012

[4] Humairah N Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C50

[Skripsi] UPN Veteran Jakarta 2009

[5] Nugroho MW Perbandingan kinerja pohon keputusan ID3 dan C45 dalam klasifikasi

kelayakan kredit sepeda motor (studi kasus Bussan Auto Finance) [Skripsi] Universitas

Trunojoyo Bangkalan 2012

[6] Wahyudin Metode Iterative Dichotomizer 3 (ID3) Untuk Penerimaan Mahasiswa Baru

Tanpa Tahun ltURLhttpfileupieduDirektoriFPMIPAPRODI_ILMU_

KOMPUTERWAHYUDINmetode_ID3_untuk_mhsbarupdfgt diakses tanggal 17 Oktober

2012

[7] Defianti S dan Pardede D L C Perbandingan Kinerja Algoritma ID3 dan C45 dalam

Klasifikasi SpamMail 2008 ltURLhttpopenstoragegunadarmaacid

~mwiryanaKOMMITper-artikel03-02-004-Perbandingan5BSofi5Dpdfgt diakses

tanggal 5 Oktober 2012

[8] Ernawati I Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C50 dan K-

Nearest Neighbor [Tesis] Institut Pertanian Bogor Bogor 2008

[9] Tanpa Nama Constructing Decision Trees Tanpa Tahun ltURLhttpnotes-

storecomNotesDecision-Tree1011pptgt diakses tanggal 3 Oktober 2012

Page 6: Perbandingan Algoritma Id3 Dan c5.0 Dalam Indentifikasi Penjurusan Siswa Sma

6 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

digunakan pada partisi S ke dalam v subset S1 S2 hellip Sv dimana Sj berisi sample pada S yang

bernilai aj pada A Jika A dipilih sebagai atribut tes (sebagai contoh atribut terbaik untuk split)

maka subset ini akan berhubungan pada cabang dari node himpunan S Sij adalah jumlah sample

pada class Ci dalam sebuah subset Sj Untuk mendapatkan informasi nilai subset dari atribut A

tersebut maka digunakan formula

119864 119860 = sum1199041119895 ++119904119898119895

119904119868(1199041119895 hellip 119904119898119895 )

119910119895=1 (4)

1199041119895 ++119904119898119895

119904 adalah jumlah subset j yang dibagi dengan jumlah sampel pada S maka untuk

mendapatkan nilai gain selanjutnya digunakan formula

119866119886119894119899 119860 = 119868 1199041 1199042hellip 119904119898 minus 119864 119860 (5)

Pre Pruning

Pre pruning yaitu pemangkasan yang dilakukan sejak awal pembentukan pohon dengan cara

menghentikan pembangunan suatu subtree lebih awal yaitu dengan memutuskan untuk tidak lebih

jauh mempartisi data training Cara kerja pre pruning adalah dengan menghitung dulu nilai

information gain untuk mengetahui nilai parent dan child Setelah parent dan child diketahui

kemudian dihitung nilai errornya jika nilai error child lebih kecil parent maka parent membentuk

subtree lagi tapi sebaliknya jika nilai error child lebih besar dari parent maka pruning dilakukan

dan pembentukan subtree berhenti Untuk menghitung nilai error digunakan rumus dibawah ini

Rumus pre pruning

(6)

Dimana

r = nilai perbandingan error rate

n = total sample

cz 1

c = confidence level

Post Pruning

Post Pruning merupakan pemangkasan yang dilakukan setelah pohon terbentuk secara utuh

Reduced Error Pruning merupakan salah satu algoritma postpruning Algoritma ini membagi data

menjadi dua yaitu training data dan test data Training data adalah data yang digunakan untuk

membentuk pohon keputusan sedangkan test data digunakan untuk menghitung nilai error rate

pada pohon setelah dipangkas

n

z

n

z

n

r

n

rz

n

zr

e2

2

222

1

42

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 7

Cara kerja REP adalah dengan memangkas internal node yang dimulai dari internal node

paling bawah ke atas Pemangkasan dilakukan dengan cara mengganti atribut dengan leaf node

yang memiliki kelas yang dominan muncul Setelah itu test data diproses menggunakan rule hasil

pemangkasan kemudian dihitung nilai error ratenya Test data juga diproses dengan rule awal

yaitu rule yang terbentuk sebelum pohon dipangkas kemudian dihitung nilai error ratenya

Apabila nilai error rate yang dihasilkan dari pemangkasan pohon lebih kecil maka pemangkasan

dilakukan

Rancangan Sistem

Gambar 1 Flowchart Sistem

HASIL DAN PEMBAHASAN

Data yang digunakan dalam tugas akhir ini merupakan data siswa kelas X angkatan 20112012

yang diperoleh dari SMAN 2 Bangkalan Jumlah data yang digunakan sebanyak 200 data dimana

140 data memiliki kelas ipa dan 60 memiliki kelas ips Dalam implementasinya data diujicoba

menjadi 3 skenario Skenario 1 digunakan untuk membandingakan algritma ID3 dan C50 pre

Mulai

Input data training data testing

Preprosesing (transformasi data numerik ke

kategorikal)

Mining ID3

Selesai

Proses klasifikasi data

testing dengan rule ID3

Proses Klasifikasi

Pohon Keputusan amp

Rule ID3

Mining C50

Pohon Keputusan

amp Rule C50

Penilaian Kinerja

ID3 amp C50

Input Data Penentu Keputusan

Jurusan IPA atau IPS

Proses klasifikasi data

testing dengan rule C50

8 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

pruning skenario 2 digunakan untuk membandingkan algoritma post pruning dan skenario 3

digunakan untuk efektifitas dan efisiensi dari algoritma Pada penelitian ini data dipecah menjadi 3

yaitu data training digunakan untuk membentuk pohon keputusan data testing digunakan untuk

ujicoba pada pohon yang telah dibentuk guna menghitung nilai error rate dan data test pruning

digunakan untuk mengetes akurasi pada pohon yang telah dibentuk guna proses pemangkasan

pohon

Skenario 1

Skenario 1 digunakan untuk membandingkan algritma ID3 dan C50 pre pruning Pada

skenario 1 ini data yang digunakan yaitu 150 data training dan 50 data testing Data yang akan

digunakan dipecah menjadi 2 yaitu data training dan data testing yaitu

Berikut keterangan dari jumlah populasi data yaitu

Tabel 1 Data Skenario 1

Skenario 2

Skenario 2 digunakan untuk membandingkan algoritma post pruning Dalam algoritma post

pruning data yang digunakan dipecah menjadi 3 yaitu data training data testing dan data test

pruning Untuk membandingkan kinerjanya data post pruning dipecah menjadi 3 partisi yaitu

partisi 50100 adalah 50 data training 100 data test pruning partisi 7575 adalah 75 data training

75 data test pruning dan partisi 10050 adalah 100 data training 50 data test pruning Dari ketiga

partisi tersebut sama-sama menggunakan 50 data testing Berikut keterangan jumlah populasi data

Tabel 2 Data Skenario 2

Skenario 3

Skenario 3 digunakan untuk membandingkan algoritma ID3 C50 pre pruning dan C50 post

pruning guna untuk mengetahui efektifitas dan efisiensi dari algoritma tersebut

Berikut keterangan dari jumlah populasi data yaitu

ID3 C50

prepruning

Training 150 150

Testing 50 50

Jumlah 200 200

C50 Post Pruning

50100 7575 10050

Training 50 75 100

Test Pruning 100 75 50

Testing 50 50 50

Jumlah 200 200 200

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 9

Tabel 3 Data Skenario 3

Analisa Perbandingan Algoritma

Setelah pohon dibentuk selanjutnya dilakukan perbandingan dengan data yang merupakan

data testing data yang digunakan ada 50 data dimana data tersebut dilakukan pengklasifikasian

menggunakan rule ID3 dan C50 yang telah dibentuk Kemudian kelas yang terbentuk

dibandingkan dan dihitung nilai error ratenya

Setelah proses klasifikasi kemudian dihitung kinerja dari masing-masing algoritma yang

meliputi akurasi error rate precision dan recall Berikut tabel kinerja perbandingan

Tabel 4 Kinerja Perbandingan Algoritma

Kinerja

Skenario 1 Skenario 2 Skenario 3

ID3

15050

C50 Pre

Pruning

15050

C50

Post

Pruning

50100

C50

Post

Pruning

7575

C50

Post

Pruning

10050

ID3

100100

C50 Pre

Pruning

100100

C50 Post

Pruning

100100

Akurasi 86 94 94 94 90 93 93 95

Error Rate 14 6 6 6 10 7 7 5

Precision 8974 9487 9487 9487 9024 9342 9231 9474

Recall 9211 9737 9737 9737 9737 9726 9863 9863

Skenario 1

Pada Skenario 1 terdapat penilaian kinerja algoritma ID3 dan C50 pre pruning Penilaian

kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing Perbandingan skenario 1

ini digunakan untuk membandingkan kinerja dari kedua algoritma guna mengetahui algoritma

mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja diketahui algoritma C50 pre

pruning memiliki akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 pre

pruning sebesar 94 sedangkan ID3 sebesar 86

ID3 C50

prepruning

C50 post

pruning

Training 100 100 50

Testing 100 100 50

Test Pruning - - 100

Jumlah 200 200 50

10 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

Perbandingan pada skenario 1 dari kedua algoritma dapat digambarkan pada grafik berikut

Gambar 2 Grafik Skenario 1

Skenario 2

Pada Skenario 2 terdapat penilaian kinerja algoritma C50 post pruning Penilaian kinerja

diperoleh dari hasil klasifikasi rule algoritma c50 post pruning dengan 50 data testing Dalam

skenario 2 ini terdapat 3 partisi data yaitu 50100 adalah 50 training dan 100 test pruning 7575

adalah 75 training dan 75 test pruning 10050 adalah 100 training dan 50 test pruning

Perbandingan skenario 2 ini digunakan untuk membandingkan kinerja algoritma dari tiap partisi

guna mengetahui algoritma mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja

diketahui algoritma C50 post pruning 50100 dan 7575 memiliki akurasi yang sama dan lebih

baik dari pada C50 post pruning 10050 Ini terlihat dari nilai akurasi C50 post pruning 50100

dan 7575 sebesar 9388 sedangkan C50 post pruning 10050 sebesar 90

Perbandingan pada skenario 2 dari ketiga partisi data dari algoritma C50 post pruning dapat

digambarkan pada grafik berikut

Gambar 3 Grafik Skenario 2

Skenario 3

Pada Skenario 3 terdapat penilaian kinerja algoritma ID3 C50 pre pruning dan C50 post

pruning Penilaian kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing

Perbandingan skenario 3 ini digunakan untuk membandingkan kinerja dari kedua algoritma guna

mengetahui algoritma mana yang paling bagus kinerjanya selain itu untuk efektifitas dan efisiensi

dari algoritma tersebut Dari Hasil penilaian kinerja diketahui algoritma C50 post pruning memiliki

0

20

40

60

80

100

120

ID3 15050 C50 prepruning 15050

Precision

Recall

Akurasi

Error Rate

0

20

40

60

80

100

120

C50 post pruning 50100

C50 post pruning 7575

C50 post pruning 10050

Precision

Recall

Akurasi

Error Rate

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 11

akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 post pruning sebesar 95

sedangkan ID3 sebesar 93

Perbandingan pada skenario 3 dari kedua algoritma dapat digambarkan pada grafik berikut

Gambar 4 Grafik Skenario 3

KESIMPULAN DAN SARAN

Kesimpulan

Beberapa kesimpulan yang dapat diambil dari hasil penelitian ini adalah

1 Hasil ujicoba pengukuran kinerja kedua algoritma menggunkanan 3 skenario yang telah

dilakukan dapat disimpulkan bahwa pada skenario 3 merupakan ujicoba paling efektif karena

akurasi yang dihasilkan mencapai 95 pada algoritma C50 post pruning 100100

2 Algoritma pohon keputusan yang terbaik adalah algoritma C50 karena memiliki kinerja

(precision recall accuracy dan error rate) yang lebih baik dibandingkan algoritma ID3 Ini

terlihat dari nilai akurasi C50 post pruning 100100 sebesar 95 sedangkan untuk ID3

100100 sebesar 93

3 Hasil penilaian kinerja yang telah diketahui dapat disimpulkan juga bahwa semakin banyak

data testing yang digunakan semakin tinggi tingkat akurasi yang dihasilkan Ini terlihat dari

hasil skenario 1 menggunakan 50 data testng algoritma ID3 sebesar 86 dan C50 post

pruning sebesar 90 Sedangkan menggunakan 100 data testing hasil kinerjanya meningkat

pada algoritma ID3 sebesar 93 dan C50 post pruning sebesar 95

Saran

Saran-saran yang bisa disampaikan adalah sebagai berikut

1 Aplikasi ini masih bisa dikembangkan untuk algoritma pohon keputusan lainnya dan untuk

metode pruning yang digunakan juga masih bisa dikembangkan lagi

2 Algoritma C50 pada aplikasi ini tidak bisa mengklasifikasi data yang mengandung missing

value sehingga dapat lebih disempurnakan lagi

3 Tampilan dari aplikasi ini masih terlihat kaku sehingga dapat dibuat lebih menarik lagi

0

20

40

60

80

100

120

ID3 100100

C50 pre pruning 100100

C50 post pruning 100100

Precision

Recall

Akurasi

Error Rate

12 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

DAFTAR PUSTAKA

[1] Pramudiono I Pengantar Data Mining Menambang Permata Pengetahuan di Gunung

Data 2003 ltURLhttpikcdinusacidumumikoiko-dataminingzipgt diakses

tanggal 17 Oktober 2012

[2] Nugroho Fanuel Kristanto Harianto dan Oslan Yetli Validitas Suatu Alamat

menggunakan Pohon keputusan dengan Algoritma ID3 Jurnal Informatika Volume 3

Nomor 2 April 2007 1 2 2007

[3] Hardikar S Shrivastava A Choudhary V Comparison between ID3 and C45 in

Contrast to IDS VSRD-IJCSIT Vol 2 (7) 659-667 2012

[4] Humairah N Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C50

[Skripsi] UPN Veteran Jakarta 2009

[5] Nugroho MW Perbandingan kinerja pohon keputusan ID3 dan C45 dalam klasifikasi

kelayakan kredit sepeda motor (studi kasus Bussan Auto Finance) [Skripsi] Universitas

Trunojoyo Bangkalan 2012

[6] Wahyudin Metode Iterative Dichotomizer 3 (ID3) Untuk Penerimaan Mahasiswa Baru

Tanpa Tahun ltURLhttpfileupieduDirektoriFPMIPAPRODI_ILMU_

KOMPUTERWAHYUDINmetode_ID3_untuk_mhsbarupdfgt diakses tanggal 17 Oktober

2012

[7] Defianti S dan Pardede D L C Perbandingan Kinerja Algoritma ID3 dan C45 dalam

Klasifikasi SpamMail 2008 ltURLhttpopenstoragegunadarmaacid

~mwiryanaKOMMITper-artikel03-02-004-Perbandingan5BSofi5Dpdfgt diakses

tanggal 5 Oktober 2012

[8] Ernawati I Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C50 dan K-

Nearest Neighbor [Tesis] Institut Pertanian Bogor Bogor 2008

[9] Tanpa Nama Constructing Decision Trees Tanpa Tahun ltURLhttpnotes-

storecomNotesDecision-Tree1011pptgt diakses tanggal 3 Oktober 2012

Page 7: Perbandingan Algoritma Id3 Dan c5.0 Dalam Indentifikasi Penjurusan Siswa Sma

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 7

Cara kerja REP adalah dengan memangkas internal node yang dimulai dari internal node

paling bawah ke atas Pemangkasan dilakukan dengan cara mengganti atribut dengan leaf node

yang memiliki kelas yang dominan muncul Setelah itu test data diproses menggunakan rule hasil

pemangkasan kemudian dihitung nilai error ratenya Test data juga diproses dengan rule awal

yaitu rule yang terbentuk sebelum pohon dipangkas kemudian dihitung nilai error ratenya

Apabila nilai error rate yang dihasilkan dari pemangkasan pohon lebih kecil maka pemangkasan

dilakukan

Rancangan Sistem

Gambar 1 Flowchart Sistem

HASIL DAN PEMBAHASAN

Data yang digunakan dalam tugas akhir ini merupakan data siswa kelas X angkatan 20112012

yang diperoleh dari SMAN 2 Bangkalan Jumlah data yang digunakan sebanyak 200 data dimana

140 data memiliki kelas ipa dan 60 memiliki kelas ips Dalam implementasinya data diujicoba

menjadi 3 skenario Skenario 1 digunakan untuk membandingakan algritma ID3 dan C50 pre

Mulai

Input data training data testing

Preprosesing (transformasi data numerik ke

kategorikal)

Mining ID3

Selesai

Proses klasifikasi data

testing dengan rule ID3

Proses Klasifikasi

Pohon Keputusan amp

Rule ID3

Mining C50

Pohon Keputusan

amp Rule C50

Penilaian Kinerja

ID3 amp C50

Input Data Penentu Keputusan

Jurusan IPA atau IPS

Proses klasifikasi data

testing dengan rule C50

8 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

pruning skenario 2 digunakan untuk membandingkan algoritma post pruning dan skenario 3

digunakan untuk efektifitas dan efisiensi dari algoritma Pada penelitian ini data dipecah menjadi 3

yaitu data training digunakan untuk membentuk pohon keputusan data testing digunakan untuk

ujicoba pada pohon yang telah dibentuk guna menghitung nilai error rate dan data test pruning

digunakan untuk mengetes akurasi pada pohon yang telah dibentuk guna proses pemangkasan

pohon

Skenario 1

Skenario 1 digunakan untuk membandingkan algritma ID3 dan C50 pre pruning Pada

skenario 1 ini data yang digunakan yaitu 150 data training dan 50 data testing Data yang akan

digunakan dipecah menjadi 2 yaitu data training dan data testing yaitu

Berikut keterangan dari jumlah populasi data yaitu

Tabel 1 Data Skenario 1

Skenario 2

Skenario 2 digunakan untuk membandingkan algoritma post pruning Dalam algoritma post

pruning data yang digunakan dipecah menjadi 3 yaitu data training data testing dan data test

pruning Untuk membandingkan kinerjanya data post pruning dipecah menjadi 3 partisi yaitu

partisi 50100 adalah 50 data training 100 data test pruning partisi 7575 adalah 75 data training

75 data test pruning dan partisi 10050 adalah 100 data training 50 data test pruning Dari ketiga

partisi tersebut sama-sama menggunakan 50 data testing Berikut keterangan jumlah populasi data

Tabel 2 Data Skenario 2

Skenario 3

Skenario 3 digunakan untuk membandingkan algoritma ID3 C50 pre pruning dan C50 post

pruning guna untuk mengetahui efektifitas dan efisiensi dari algoritma tersebut

Berikut keterangan dari jumlah populasi data yaitu

ID3 C50

prepruning

Training 150 150

Testing 50 50

Jumlah 200 200

C50 Post Pruning

50100 7575 10050

Training 50 75 100

Test Pruning 100 75 50

Testing 50 50 50

Jumlah 200 200 200

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 9

Tabel 3 Data Skenario 3

Analisa Perbandingan Algoritma

Setelah pohon dibentuk selanjutnya dilakukan perbandingan dengan data yang merupakan

data testing data yang digunakan ada 50 data dimana data tersebut dilakukan pengklasifikasian

menggunakan rule ID3 dan C50 yang telah dibentuk Kemudian kelas yang terbentuk

dibandingkan dan dihitung nilai error ratenya

Setelah proses klasifikasi kemudian dihitung kinerja dari masing-masing algoritma yang

meliputi akurasi error rate precision dan recall Berikut tabel kinerja perbandingan

Tabel 4 Kinerja Perbandingan Algoritma

Kinerja

Skenario 1 Skenario 2 Skenario 3

ID3

15050

C50 Pre

Pruning

15050

C50

Post

Pruning

50100

C50

Post

Pruning

7575

C50

Post

Pruning

10050

ID3

100100

C50 Pre

Pruning

100100

C50 Post

Pruning

100100

Akurasi 86 94 94 94 90 93 93 95

Error Rate 14 6 6 6 10 7 7 5

Precision 8974 9487 9487 9487 9024 9342 9231 9474

Recall 9211 9737 9737 9737 9737 9726 9863 9863

Skenario 1

Pada Skenario 1 terdapat penilaian kinerja algoritma ID3 dan C50 pre pruning Penilaian

kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing Perbandingan skenario 1

ini digunakan untuk membandingkan kinerja dari kedua algoritma guna mengetahui algoritma

mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja diketahui algoritma C50 pre

pruning memiliki akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 pre

pruning sebesar 94 sedangkan ID3 sebesar 86

ID3 C50

prepruning

C50 post

pruning

Training 100 100 50

Testing 100 100 50

Test Pruning - - 100

Jumlah 200 200 50

10 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

Perbandingan pada skenario 1 dari kedua algoritma dapat digambarkan pada grafik berikut

Gambar 2 Grafik Skenario 1

Skenario 2

Pada Skenario 2 terdapat penilaian kinerja algoritma C50 post pruning Penilaian kinerja

diperoleh dari hasil klasifikasi rule algoritma c50 post pruning dengan 50 data testing Dalam

skenario 2 ini terdapat 3 partisi data yaitu 50100 adalah 50 training dan 100 test pruning 7575

adalah 75 training dan 75 test pruning 10050 adalah 100 training dan 50 test pruning

Perbandingan skenario 2 ini digunakan untuk membandingkan kinerja algoritma dari tiap partisi

guna mengetahui algoritma mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja

diketahui algoritma C50 post pruning 50100 dan 7575 memiliki akurasi yang sama dan lebih

baik dari pada C50 post pruning 10050 Ini terlihat dari nilai akurasi C50 post pruning 50100

dan 7575 sebesar 9388 sedangkan C50 post pruning 10050 sebesar 90

Perbandingan pada skenario 2 dari ketiga partisi data dari algoritma C50 post pruning dapat

digambarkan pada grafik berikut

Gambar 3 Grafik Skenario 2

Skenario 3

Pada Skenario 3 terdapat penilaian kinerja algoritma ID3 C50 pre pruning dan C50 post

pruning Penilaian kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing

Perbandingan skenario 3 ini digunakan untuk membandingkan kinerja dari kedua algoritma guna

mengetahui algoritma mana yang paling bagus kinerjanya selain itu untuk efektifitas dan efisiensi

dari algoritma tersebut Dari Hasil penilaian kinerja diketahui algoritma C50 post pruning memiliki

0

20

40

60

80

100

120

ID3 15050 C50 prepruning 15050

Precision

Recall

Akurasi

Error Rate

0

20

40

60

80

100

120

C50 post pruning 50100

C50 post pruning 7575

C50 post pruning 10050

Precision

Recall

Akurasi

Error Rate

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 11

akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 post pruning sebesar 95

sedangkan ID3 sebesar 93

Perbandingan pada skenario 3 dari kedua algoritma dapat digambarkan pada grafik berikut

Gambar 4 Grafik Skenario 3

KESIMPULAN DAN SARAN

Kesimpulan

Beberapa kesimpulan yang dapat diambil dari hasil penelitian ini adalah

1 Hasil ujicoba pengukuran kinerja kedua algoritma menggunkanan 3 skenario yang telah

dilakukan dapat disimpulkan bahwa pada skenario 3 merupakan ujicoba paling efektif karena

akurasi yang dihasilkan mencapai 95 pada algoritma C50 post pruning 100100

2 Algoritma pohon keputusan yang terbaik adalah algoritma C50 karena memiliki kinerja

(precision recall accuracy dan error rate) yang lebih baik dibandingkan algoritma ID3 Ini

terlihat dari nilai akurasi C50 post pruning 100100 sebesar 95 sedangkan untuk ID3

100100 sebesar 93

3 Hasil penilaian kinerja yang telah diketahui dapat disimpulkan juga bahwa semakin banyak

data testing yang digunakan semakin tinggi tingkat akurasi yang dihasilkan Ini terlihat dari

hasil skenario 1 menggunakan 50 data testng algoritma ID3 sebesar 86 dan C50 post

pruning sebesar 90 Sedangkan menggunakan 100 data testing hasil kinerjanya meningkat

pada algoritma ID3 sebesar 93 dan C50 post pruning sebesar 95

Saran

Saran-saran yang bisa disampaikan adalah sebagai berikut

1 Aplikasi ini masih bisa dikembangkan untuk algoritma pohon keputusan lainnya dan untuk

metode pruning yang digunakan juga masih bisa dikembangkan lagi

2 Algoritma C50 pada aplikasi ini tidak bisa mengklasifikasi data yang mengandung missing

value sehingga dapat lebih disempurnakan lagi

3 Tampilan dari aplikasi ini masih terlihat kaku sehingga dapat dibuat lebih menarik lagi

0

20

40

60

80

100

120

ID3 100100

C50 pre pruning 100100

C50 post pruning 100100

Precision

Recall

Akurasi

Error Rate

12 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

DAFTAR PUSTAKA

[1] Pramudiono I Pengantar Data Mining Menambang Permata Pengetahuan di Gunung

Data 2003 ltURLhttpikcdinusacidumumikoiko-dataminingzipgt diakses

tanggal 17 Oktober 2012

[2] Nugroho Fanuel Kristanto Harianto dan Oslan Yetli Validitas Suatu Alamat

menggunakan Pohon keputusan dengan Algoritma ID3 Jurnal Informatika Volume 3

Nomor 2 April 2007 1 2 2007

[3] Hardikar S Shrivastava A Choudhary V Comparison between ID3 and C45 in

Contrast to IDS VSRD-IJCSIT Vol 2 (7) 659-667 2012

[4] Humairah N Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C50

[Skripsi] UPN Veteran Jakarta 2009

[5] Nugroho MW Perbandingan kinerja pohon keputusan ID3 dan C45 dalam klasifikasi

kelayakan kredit sepeda motor (studi kasus Bussan Auto Finance) [Skripsi] Universitas

Trunojoyo Bangkalan 2012

[6] Wahyudin Metode Iterative Dichotomizer 3 (ID3) Untuk Penerimaan Mahasiswa Baru

Tanpa Tahun ltURLhttpfileupieduDirektoriFPMIPAPRODI_ILMU_

KOMPUTERWAHYUDINmetode_ID3_untuk_mhsbarupdfgt diakses tanggal 17 Oktober

2012

[7] Defianti S dan Pardede D L C Perbandingan Kinerja Algoritma ID3 dan C45 dalam

Klasifikasi SpamMail 2008 ltURLhttpopenstoragegunadarmaacid

~mwiryanaKOMMITper-artikel03-02-004-Perbandingan5BSofi5Dpdfgt diakses

tanggal 5 Oktober 2012

[8] Ernawati I Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C50 dan K-

Nearest Neighbor [Tesis] Institut Pertanian Bogor Bogor 2008

[9] Tanpa Nama Constructing Decision Trees Tanpa Tahun ltURLhttpnotes-

storecomNotesDecision-Tree1011pptgt diakses tanggal 3 Oktober 2012

Page 8: Perbandingan Algoritma Id3 Dan c5.0 Dalam Indentifikasi Penjurusan Siswa Sma

8 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

pruning skenario 2 digunakan untuk membandingkan algoritma post pruning dan skenario 3

digunakan untuk efektifitas dan efisiensi dari algoritma Pada penelitian ini data dipecah menjadi 3

yaitu data training digunakan untuk membentuk pohon keputusan data testing digunakan untuk

ujicoba pada pohon yang telah dibentuk guna menghitung nilai error rate dan data test pruning

digunakan untuk mengetes akurasi pada pohon yang telah dibentuk guna proses pemangkasan

pohon

Skenario 1

Skenario 1 digunakan untuk membandingkan algritma ID3 dan C50 pre pruning Pada

skenario 1 ini data yang digunakan yaitu 150 data training dan 50 data testing Data yang akan

digunakan dipecah menjadi 2 yaitu data training dan data testing yaitu

Berikut keterangan dari jumlah populasi data yaitu

Tabel 1 Data Skenario 1

Skenario 2

Skenario 2 digunakan untuk membandingkan algoritma post pruning Dalam algoritma post

pruning data yang digunakan dipecah menjadi 3 yaitu data training data testing dan data test

pruning Untuk membandingkan kinerjanya data post pruning dipecah menjadi 3 partisi yaitu

partisi 50100 adalah 50 data training 100 data test pruning partisi 7575 adalah 75 data training

75 data test pruning dan partisi 10050 adalah 100 data training 50 data test pruning Dari ketiga

partisi tersebut sama-sama menggunakan 50 data testing Berikut keterangan jumlah populasi data

Tabel 2 Data Skenario 2

Skenario 3

Skenario 3 digunakan untuk membandingkan algoritma ID3 C50 pre pruning dan C50 post

pruning guna untuk mengetahui efektifitas dan efisiensi dari algoritma tersebut

Berikut keterangan dari jumlah populasi data yaitu

ID3 C50

prepruning

Training 150 150

Testing 50 50

Jumlah 200 200

C50 Post Pruning

50100 7575 10050

Training 50 75 100

Test Pruning 100 75 50

Testing 50 50 50

Jumlah 200 200 200

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 9

Tabel 3 Data Skenario 3

Analisa Perbandingan Algoritma

Setelah pohon dibentuk selanjutnya dilakukan perbandingan dengan data yang merupakan

data testing data yang digunakan ada 50 data dimana data tersebut dilakukan pengklasifikasian

menggunakan rule ID3 dan C50 yang telah dibentuk Kemudian kelas yang terbentuk

dibandingkan dan dihitung nilai error ratenya

Setelah proses klasifikasi kemudian dihitung kinerja dari masing-masing algoritma yang

meliputi akurasi error rate precision dan recall Berikut tabel kinerja perbandingan

Tabel 4 Kinerja Perbandingan Algoritma

Kinerja

Skenario 1 Skenario 2 Skenario 3

ID3

15050

C50 Pre

Pruning

15050

C50

Post

Pruning

50100

C50

Post

Pruning

7575

C50

Post

Pruning

10050

ID3

100100

C50 Pre

Pruning

100100

C50 Post

Pruning

100100

Akurasi 86 94 94 94 90 93 93 95

Error Rate 14 6 6 6 10 7 7 5

Precision 8974 9487 9487 9487 9024 9342 9231 9474

Recall 9211 9737 9737 9737 9737 9726 9863 9863

Skenario 1

Pada Skenario 1 terdapat penilaian kinerja algoritma ID3 dan C50 pre pruning Penilaian

kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing Perbandingan skenario 1

ini digunakan untuk membandingkan kinerja dari kedua algoritma guna mengetahui algoritma

mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja diketahui algoritma C50 pre

pruning memiliki akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 pre

pruning sebesar 94 sedangkan ID3 sebesar 86

ID3 C50

prepruning

C50 post

pruning

Training 100 100 50

Testing 100 100 50

Test Pruning - - 100

Jumlah 200 200 50

10 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

Perbandingan pada skenario 1 dari kedua algoritma dapat digambarkan pada grafik berikut

Gambar 2 Grafik Skenario 1

Skenario 2

Pada Skenario 2 terdapat penilaian kinerja algoritma C50 post pruning Penilaian kinerja

diperoleh dari hasil klasifikasi rule algoritma c50 post pruning dengan 50 data testing Dalam

skenario 2 ini terdapat 3 partisi data yaitu 50100 adalah 50 training dan 100 test pruning 7575

adalah 75 training dan 75 test pruning 10050 adalah 100 training dan 50 test pruning

Perbandingan skenario 2 ini digunakan untuk membandingkan kinerja algoritma dari tiap partisi

guna mengetahui algoritma mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja

diketahui algoritma C50 post pruning 50100 dan 7575 memiliki akurasi yang sama dan lebih

baik dari pada C50 post pruning 10050 Ini terlihat dari nilai akurasi C50 post pruning 50100

dan 7575 sebesar 9388 sedangkan C50 post pruning 10050 sebesar 90

Perbandingan pada skenario 2 dari ketiga partisi data dari algoritma C50 post pruning dapat

digambarkan pada grafik berikut

Gambar 3 Grafik Skenario 2

Skenario 3

Pada Skenario 3 terdapat penilaian kinerja algoritma ID3 C50 pre pruning dan C50 post

pruning Penilaian kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing

Perbandingan skenario 3 ini digunakan untuk membandingkan kinerja dari kedua algoritma guna

mengetahui algoritma mana yang paling bagus kinerjanya selain itu untuk efektifitas dan efisiensi

dari algoritma tersebut Dari Hasil penilaian kinerja diketahui algoritma C50 post pruning memiliki

0

20

40

60

80

100

120

ID3 15050 C50 prepruning 15050

Precision

Recall

Akurasi

Error Rate

0

20

40

60

80

100

120

C50 post pruning 50100

C50 post pruning 7575

C50 post pruning 10050

Precision

Recall

Akurasi

Error Rate

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 11

akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 post pruning sebesar 95

sedangkan ID3 sebesar 93

Perbandingan pada skenario 3 dari kedua algoritma dapat digambarkan pada grafik berikut

Gambar 4 Grafik Skenario 3

KESIMPULAN DAN SARAN

Kesimpulan

Beberapa kesimpulan yang dapat diambil dari hasil penelitian ini adalah

1 Hasil ujicoba pengukuran kinerja kedua algoritma menggunkanan 3 skenario yang telah

dilakukan dapat disimpulkan bahwa pada skenario 3 merupakan ujicoba paling efektif karena

akurasi yang dihasilkan mencapai 95 pada algoritma C50 post pruning 100100

2 Algoritma pohon keputusan yang terbaik adalah algoritma C50 karena memiliki kinerja

(precision recall accuracy dan error rate) yang lebih baik dibandingkan algoritma ID3 Ini

terlihat dari nilai akurasi C50 post pruning 100100 sebesar 95 sedangkan untuk ID3

100100 sebesar 93

3 Hasil penilaian kinerja yang telah diketahui dapat disimpulkan juga bahwa semakin banyak

data testing yang digunakan semakin tinggi tingkat akurasi yang dihasilkan Ini terlihat dari

hasil skenario 1 menggunakan 50 data testng algoritma ID3 sebesar 86 dan C50 post

pruning sebesar 90 Sedangkan menggunakan 100 data testing hasil kinerjanya meningkat

pada algoritma ID3 sebesar 93 dan C50 post pruning sebesar 95

Saran

Saran-saran yang bisa disampaikan adalah sebagai berikut

1 Aplikasi ini masih bisa dikembangkan untuk algoritma pohon keputusan lainnya dan untuk

metode pruning yang digunakan juga masih bisa dikembangkan lagi

2 Algoritma C50 pada aplikasi ini tidak bisa mengklasifikasi data yang mengandung missing

value sehingga dapat lebih disempurnakan lagi

3 Tampilan dari aplikasi ini masih terlihat kaku sehingga dapat dibuat lebih menarik lagi

0

20

40

60

80

100

120

ID3 100100

C50 pre pruning 100100

C50 post pruning 100100

Precision

Recall

Akurasi

Error Rate

12 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

DAFTAR PUSTAKA

[1] Pramudiono I Pengantar Data Mining Menambang Permata Pengetahuan di Gunung

Data 2003 ltURLhttpikcdinusacidumumikoiko-dataminingzipgt diakses

tanggal 17 Oktober 2012

[2] Nugroho Fanuel Kristanto Harianto dan Oslan Yetli Validitas Suatu Alamat

menggunakan Pohon keputusan dengan Algoritma ID3 Jurnal Informatika Volume 3

Nomor 2 April 2007 1 2 2007

[3] Hardikar S Shrivastava A Choudhary V Comparison between ID3 and C45 in

Contrast to IDS VSRD-IJCSIT Vol 2 (7) 659-667 2012

[4] Humairah N Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C50

[Skripsi] UPN Veteran Jakarta 2009

[5] Nugroho MW Perbandingan kinerja pohon keputusan ID3 dan C45 dalam klasifikasi

kelayakan kredit sepeda motor (studi kasus Bussan Auto Finance) [Skripsi] Universitas

Trunojoyo Bangkalan 2012

[6] Wahyudin Metode Iterative Dichotomizer 3 (ID3) Untuk Penerimaan Mahasiswa Baru

Tanpa Tahun ltURLhttpfileupieduDirektoriFPMIPAPRODI_ILMU_

KOMPUTERWAHYUDINmetode_ID3_untuk_mhsbarupdfgt diakses tanggal 17 Oktober

2012

[7] Defianti S dan Pardede D L C Perbandingan Kinerja Algoritma ID3 dan C45 dalam

Klasifikasi SpamMail 2008 ltURLhttpopenstoragegunadarmaacid

~mwiryanaKOMMITper-artikel03-02-004-Perbandingan5BSofi5Dpdfgt diakses

tanggal 5 Oktober 2012

[8] Ernawati I Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C50 dan K-

Nearest Neighbor [Tesis] Institut Pertanian Bogor Bogor 2008

[9] Tanpa Nama Constructing Decision Trees Tanpa Tahun ltURLhttpnotes-

storecomNotesDecision-Tree1011pptgt diakses tanggal 3 Oktober 2012

Page 9: Perbandingan Algoritma Id3 Dan c5.0 Dalam Indentifikasi Penjurusan Siswa Sma

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 9

Tabel 3 Data Skenario 3

Analisa Perbandingan Algoritma

Setelah pohon dibentuk selanjutnya dilakukan perbandingan dengan data yang merupakan

data testing data yang digunakan ada 50 data dimana data tersebut dilakukan pengklasifikasian

menggunakan rule ID3 dan C50 yang telah dibentuk Kemudian kelas yang terbentuk

dibandingkan dan dihitung nilai error ratenya

Setelah proses klasifikasi kemudian dihitung kinerja dari masing-masing algoritma yang

meliputi akurasi error rate precision dan recall Berikut tabel kinerja perbandingan

Tabel 4 Kinerja Perbandingan Algoritma

Kinerja

Skenario 1 Skenario 2 Skenario 3

ID3

15050

C50 Pre

Pruning

15050

C50

Post

Pruning

50100

C50

Post

Pruning

7575

C50

Post

Pruning

10050

ID3

100100

C50 Pre

Pruning

100100

C50 Post

Pruning

100100

Akurasi 86 94 94 94 90 93 93 95

Error Rate 14 6 6 6 10 7 7 5

Precision 8974 9487 9487 9487 9024 9342 9231 9474

Recall 9211 9737 9737 9737 9737 9726 9863 9863

Skenario 1

Pada Skenario 1 terdapat penilaian kinerja algoritma ID3 dan C50 pre pruning Penilaian

kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing Perbandingan skenario 1

ini digunakan untuk membandingkan kinerja dari kedua algoritma guna mengetahui algoritma

mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja diketahui algoritma C50 pre

pruning memiliki akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 pre

pruning sebesar 94 sedangkan ID3 sebesar 86

ID3 C50

prepruning

C50 post

pruning

Training 100 100 50

Testing 100 100 50

Test Pruning - - 100

Jumlah 200 200 50

10 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

Perbandingan pada skenario 1 dari kedua algoritma dapat digambarkan pada grafik berikut

Gambar 2 Grafik Skenario 1

Skenario 2

Pada Skenario 2 terdapat penilaian kinerja algoritma C50 post pruning Penilaian kinerja

diperoleh dari hasil klasifikasi rule algoritma c50 post pruning dengan 50 data testing Dalam

skenario 2 ini terdapat 3 partisi data yaitu 50100 adalah 50 training dan 100 test pruning 7575

adalah 75 training dan 75 test pruning 10050 adalah 100 training dan 50 test pruning

Perbandingan skenario 2 ini digunakan untuk membandingkan kinerja algoritma dari tiap partisi

guna mengetahui algoritma mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja

diketahui algoritma C50 post pruning 50100 dan 7575 memiliki akurasi yang sama dan lebih

baik dari pada C50 post pruning 10050 Ini terlihat dari nilai akurasi C50 post pruning 50100

dan 7575 sebesar 9388 sedangkan C50 post pruning 10050 sebesar 90

Perbandingan pada skenario 2 dari ketiga partisi data dari algoritma C50 post pruning dapat

digambarkan pada grafik berikut

Gambar 3 Grafik Skenario 2

Skenario 3

Pada Skenario 3 terdapat penilaian kinerja algoritma ID3 C50 pre pruning dan C50 post

pruning Penilaian kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing

Perbandingan skenario 3 ini digunakan untuk membandingkan kinerja dari kedua algoritma guna

mengetahui algoritma mana yang paling bagus kinerjanya selain itu untuk efektifitas dan efisiensi

dari algoritma tersebut Dari Hasil penilaian kinerja diketahui algoritma C50 post pruning memiliki

0

20

40

60

80

100

120

ID3 15050 C50 prepruning 15050

Precision

Recall

Akurasi

Error Rate

0

20

40

60

80

100

120

C50 post pruning 50100

C50 post pruning 7575

C50 post pruning 10050

Precision

Recall

Akurasi

Error Rate

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 11

akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 post pruning sebesar 95

sedangkan ID3 sebesar 93

Perbandingan pada skenario 3 dari kedua algoritma dapat digambarkan pada grafik berikut

Gambar 4 Grafik Skenario 3

KESIMPULAN DAN SARAN

Kesimpulan

Beberapa kesimpulan yang dapat diambil dari hasil penelitian ini adalah

1 Hasil ujicoba pengukuran kinerja kedua algoritma menggunkanan 3 skenario yang telah

dilakukan dapat disimpulkan bahwa pada skenario 3 merupakan ujicoba paling efektif karena

akurasi yang dihasilkan mencapai 95 pada algoritma C50 post pruning 100100

2 Algoritma pohon keputusan yang terbaik adalah algoritma C50 karena memiliki kinerja

(precision recall accuracy dan error rate) yang lebih baik dibandingkan algoritma ID3 Ini

terlihat dari nilai akurasi C50 post pruning 100100 sebesar 95 sedangkan untuk ID3

100100 sebesar 93

3 Hasil penilaian kinerja yang telah diketahui dapat disimpulkan juga bahwa semakin banyak

data testing yang digunakan semakin tinggi tingkat akurasi yang dihasilkan Ini terlihat dari

hasil skenario 1 menggunakan 50 data testng algoritma ID3 sebesar 86 dan C50 post

pruning sebesar 90 Sedangkan menggunakan 100 data testing hasil kinerjanya meningkat

pada algoritma ID3 sebesar 93 dan C50 post pruning sebesar 95

Saran

Saran-saran yang bisa disampaikan adalah sebagai berikut

1 Aplikasi ini masih bisa dikembangkan untuk algoritma pohon keputusan lainnya dan untuk

metode pruning yang digunakan juga masih bisa dikembangkan lagi

2 Algoritma C50 pada aplikasi ini tidak bisa mengklasifikasi data yang mengandung missing

value sehingga dapat lebih disempurnakan lagi

3 Tampilan dari aplikasi ini masih terlihat kaku sehingga dapat dibuat lebih menarik lagi

0

20

40

60

80

100

120

ID3 100100

C50 pre pruning 100100

C50 post pruning 100100

Precision

Recall

Akurasi

Error Rate

12 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

DAFTAR PUSTAKA

[1] Pramudiono I Pengantar Data Mining Menambang Permata Pengetahuan di Gunung

Data 2003 ltURLhttpikcdinusacidumumikoiko-dataminingzipgt diakses

tanggal 17 Oktober 2012

[2] Nugroho Fanuel Kristanto Harianto dan Oslan Yetli Validitas Suatu Alamat

menggunakan Pohon keputusan dengan Algoritma ID3 Jurnal Informatika Volume 3

Nomor 2 April 2007 1 2 2007

[3] Hardikar S Shrivastava A Choudhary V Comparison between ID3 and C45 in

Contrast to IDS VSRD-IJCSIT Vol 2 (7) 659-667 2012

[4] Humairah N Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C50

[Skripsi] UPN Veteran Jakarta 2009

[5] Nugroho MW Perbandingan kinerja pohon keputusan ID3 dan C45 dalam klasifikasi

kelayakan kredit sepeda motor (studi kasus Bussan Auto Finance) [Skripsi] Universitas

Trunojoyo Bangkalan 2012

[6] Wahyudin Metode Iterative Dichotomizer 3 (ID3) Untuk Penerimaan Mahasiswa Baru

Tanpa Tahun ltURLhttpfileupieduDirektoriFPMIPAPRODI_ILMU_

KOMPUTERWAHYUDINmetode_ID3_untuk_mhsbarupdfgt diakses tanggal 17 Oktober

2012

[7] Defianti S dan Pardede D L C Perbandingan Kinerja Algoritma ID3 dan C45 dalam

Klasifikasi SpamMail 2008 ltURLhttpopenstoragegunadarmaacid

~mwiryanaKOMMITper-artikel03-02-004-Perbandingan5BSofi5Dpdfgt diakses

tanggal 5 Oktober 2012

[8] Ernawati I Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C50 dan K-

Nearest Neighbor [Tesis] Institut Pertanian Bogor Bogor 2008

[9] Tanpa Nama Constructing Decision Trees Tanpa Tahun ltURLhttpnotes-

storecomNotesDecision-Tree1011pptgt diakses tanggal 3 Oktober 2012

Page 10: Perbandingan Algoritma Id3 Dan c5.0 Dalam Indentifikasi Penjurusan Siswa Sma

10 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

Perbandingan pada skenario 1 dari kedua algoritma dapat digambarkan pada grafik berikut

Gambar 2 Grafik Skenario 1

Skenario 2

Pada Skenario 2 terdapat penilaian kinerja algoritma C50 post pruning Penilaian kinerja

diperoleh dari hasil klasifikasi rule algoritma c50 post pruning dengan 50 data testing Dalam

skenario 2 ini terdapat 3 partisi data yaitu 50100 adalah 50 training dan 100 test pruning 7575

adalah 75 training dan 75 test pruning 10050 adalah 100 training dan 50 test pruning

Perbandingan skenario 2 ini digunakan untuk membandingkan kinerja algoritma dari tiap partisi

guna mengetahui algoritma mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja

diketahui algoritma C50 post pruning 50100 dan 7575 memiliki akurasi yang sama dan lebih

baik dari pada C50 post pruning 10050 Ini terlihat dari nilai akurasi C50 post pruning 50100

dan 7575 sebesar 9388 sedangkan C50 post pruning 10050 sebesar 90

Perbandingan pada skenario 2 dari ketiga partisi data dari algoritma C50 post pruning dapat

digambarkan pada grafik berikut

Gambar 3 Grafik Skenario 2

Skenario 3

Pada Skenario 3 terdapat penilaian kinerja algoritma ID3 C50 pre pruning dan C50 post

pruning Penilaian kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing

Perbandingan skenario 3 ini digunakan untuk membandingkan kinerja dari kedua algoritma guna

mengetahui algoritma mana yang paling bagus kinerjanya selain itu untuk efektifitas dan efisiensi

dari algoritma tersebut Dari Hasil penilaian kinerja diketahui algoritma C50 post pruning memiliki

0

20

40

60

80

100

120

ID3 15050 C50 prepruning 15050

Precision

Recall

Akurasi

Error Rate

0

20

40

60

80

100

120

C50 post pruning 50100

C50 post pruning 7575

C50 post pruning 10050

Precision

Recall

Akurasi

Error Rate

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 11

akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 post pruning sebesar 95

sedangkan ID3 sebesar 93

Perbandingan pada skenario 3 dari kedua algoritma dapat digambarkan pada grafik berikut

Gambar 4 Grafik Skenario 3

KESIMPULAN DAN SARAN

Kesimpulan

Beberapa kesimpulan yang dapat diambil dari hasil penelitian ini adalah

1 Hasil ujicoba pengukuran kinerja kedua algoritma menggunkanan 3 skenario yang telah

dilakukan dapat disimpulkan bahwa pada skenario 3 merupakan ujicoba paling efektif karena

akurasi yang dihasilkan mencapai 95 pada algoritma C50 post pruning 100100

2 Algoritma pohon keputusan yang terbaik adalah algoritma C50 karena memiliki kinerja

(precision recall accuracy dan error rate) yang lebih baik dibandingkan algoritma ID3 Ini

terlihat dari nilai akurasi C50 post pruning 100100 sebesar 95 sedangkan untuk ID3

100100 sebesar 93

3 Hasil penilaian kinerja yang telah diketahui dapat disimpulkan juga bahwa semakin banyak

data testing yang digunakan semakin tinggi tingkat akurasi yang dihasilkan Ini terlihat dari

hasil skenario 1 menggunakan 50 data testng algoritma ID3 sebesar 86 dan C50 post

pruning sebesar 90 Sedangkan menggunakan 100 data testing hasil kinerjanya meningkat

pada algoritma ID3 sebesar 93 dan C50 post pruning sebesar 95

Saran

Saran-saran yang bisa disampaikan adalah sebagai berikut

1 Aplikasi ini masih bisa dikembangkan untuk algoritma pohon keputusan lainnya dan untuk

metode pruning yang digunakan juga masih bisa dikembangkan lagi

2 Algoritma C50 pada aplikasi ini tidak bisa mengklasifikasi data yang mengandung missing

value sehingga dapat lebih disempurnakan lagi

3 Tampilan dari aplikasi ini masih terlihat kaku sehingga dapat dibuat lebih menarik lagi

0

20

40

60

80

100

120

ID3 100100

C50 pre pruning 100100

C50 post pruning 100100

Precision

Recall

Akurasi

Error Rate

12 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

DAFTAR PUSTAKA

[1] Pramudiono I Pengantar Data Mining Menambang Permata Pengetahuan di Gunung

Data 2003 ltURLhttpikcdinusacidumumikoiko-dataminingzipgt diakses

tanggal 17 Oktober 2012

[2] Nugroho Fanuel Kristanto Harianto dan Oslan Yetli Validitas Suatu Alamat

menggunakan Pohon keputusan dengan Algoritma ID3 Jurnal Informatika Volume 3

Nomor 2 April 2007 1 2 2007

[3] Hardikar S Shrivastava A Choudhary V Comparison between ID3 and C45 in

Contrast to IDS VSRD-IJCSIT Vol 2 (7) 659-667 2012

[4] Humairah N Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C50

[Skripsi] UPN Veteran Jakarta 2009

[5] Nugroho MW Perbandingan kinerja pohon keputusan ID3 dan C45 dalam klasifikasi

kelayakan kredit sepeda motor (studi kasus Bussan Auto Finance) [Skripsi] Universitas

Trunojoyo Bangkalan 2012

[6] Wahyudin Metode Iterative Dichotomizer 3 (ID3) Untuk Penerimaan Mahasiswa Baru

Tanpa Tahun ltURLhttpfileupieduDirektoriFPMIPAPRODI_ILMU_

KOMPUTERWAHYUDINmetode_ID3_untuk_mhsbarupdfgt diakses tanggal 17 Oktober

2012

[7] Defianti S dan Pardede D L C Perbandingan Kinerja Algoritma ID3 dan C45 dalam

Klasifikasi SpamMail 2008 ltURLhttpopenstoragegunadarmaacid

~mwiryanaKOMMITper-artikel03-02-004-Perbandingan5BSofi5Dpdfgt diakses

tanggal 5 Oktober 2012

[8] Ernawati I Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C50 dan K-

Nearest Neighbor [Tesis] Institut Pertanian Bogor Bogor 2008

[9] Tanpa Nama Constructing Decision Trees Tanpa Tahun ltURLhttpnotes-

storecomNotesDecision-Tree1011pptgt diakses tanggal 3 Oktober 2012

Page 11: Perbandingan Algoritma Id3 Dan c5.0 Dalam Indentifikasi Penjurusan Siswa Sma

Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 11

akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 post pruning sebesar 95

sedangkan ID3 sebesar 93

Perbandingan pada skenario 3 dari kedua algoritma dapat digambarkan pada grafik berikut

Gambar 4 Grafik Skenario 3

KESIMPULAN DAN SARAN

Kesimpulan

Beberapa kesimpulan yang dapat diambil dari hasil penelitian ini adalah

1 Hasil ujicoba pengukuran kinerja kedua algoritma menggunkanan 3 skenario yang telah

dilakukan dapat disimpulkan bahwa pada skenario 3 merupakan ujicoba paling efektif karena

akurasi yang dihasilkan mencapai 95 pada algoritma C50 post pruning 100100

2 Algoritma pohon keputusan yang terbaik adalah algoritma C50 karena memiliki kinerja

(precision recall accuracy dan error rate) yang lebih baik dibandingkan algoritma ID3 Ini

terlihat dari nilai akurasi C50 post pruning 100100 sebesar 95 sedangkan untuk ID3

100100 sebesar 93

3 Hasil penilaian kinerja yang telah diketahui dapat disimpulkan juga bahwa semakin banyak

data testing yang digunakan semakin tinggi tingkat akurasi yang dihasilkan Ini terlihat dari

hasil skenario 1 menggunakan 50 data testng algoritma ID3 sebesar 86 dan C50 post

pruning sebesar 90 Sedangkan menggunakan 100 data testing hasil kinerjanya meningkat

pada algoritma ID3 sebesar 93 dan C50 post pruning sebesar 95

Saran

Saran-saran yang bisa disampaikan adalah sebagai berikut

1 Aplikasi ini masih bisa dikembangkan untuk algoritma pohon keputusan lainnya dan untuk

metode pruning yang digunakan juga masih bisa dikembangkan lagi

2 Algoritma C50 pada aplikasi ini tidak bisa mengklasifikasi data yang mengandung missing

value sehingga dapat lebih disempurnakan lagi

3 Tampilan dari aplikasi ini masih terlihat kaku sehingga dapat dibuat lebih menarik lagi

0

20

40

60

80

100

120

ID3 100100

C50 pre pruning 100100

C50 post pruning 100100

Precision

Recall

Akurasi

Error Rate

12 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

DAFTAR PUSTAKA

[1] Pramudiono I Pengantar Data Mining Menambang Permata Pengetahuan di Gunung

Data 2003 ltURLhttpikcdinusacidumumikoiko-dataminingzipgt diakses

tanggal 17 Oktober 2012

[2] Nugroho Fanuel Kristanto Harianto dan Oslan Yetli Validitas Suatu Alamat

menggunakan Pohon keputusan dengan Algoritma ID3 Jurnal Informatika Volume 3

Nomor 2 April 2007 1 2 2007

[3] Hardikar S Shrivastava A Choudhary V Comparison between ID3 and C45 in

Contrast to IDS VSRD-IJCSIT Vol 2 (7) 659-667 2012

[4] Humairah N Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C50

[Skripsi] UPN Veteran Jakarta 2009

[5] Nugroho MW Perbandingan kinerja pohon keputusan ID3 dan C45 dalam klasifikasi

kelayakan kredit sepeda motor (studi kasus Bussan Auto Finance) [Skripsi] Universitas

Trunojoyo Bangkalan 2012

[6] Wahyudin Metode Iterative Dichotomizer 3 (ID3) Untuk Penerimaan Mahasiswa Baru

Tanpa Tahun ltURLhttpfileupieduDirektoriFPMIPAPRODI_ILMU_

KOMPUTERWAHYUDINmetode_ID3_untuk_mhsbarupdfgt diakses tanggal 17 Oktober

2012

[7] Defianti S dan Pardede D L C Perbandingan Kinerja Algoritma ID3 dan C45 dalam

Klasifikasi SpamMail 2008 ltURLhttpopenstoragegunadarmaacid

~mwiryanaKOMMITper-artikel03-02-004-Perbandingan5BSofi5Dpdfgt diakses

tanggal 5 Oktober 2012

[8] Ernawati I Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C50 dan K-

Nearest Neighbor [Tesis] Institut Pertanian Bogor Bogor 2008

[9] Tanpa Nama Constructing Decision Trees Tanpa Tahun ltURLhttpnotes-

storecomNotesDecision-Tree1011pptgt diakses tanggal 3 Oktober 2012

Page 12: Perbandingan Algoritma Id3 Dan c5.0 Dalam Indentifikasi Penjurusan Siswa Sma

12 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12

DAFTAR PUSTAKA

[1] Pramudiono I Pengantar Data Mining Menambang Permata Pengetahuan di Gunung

Data 2003 ltURLhttpikcdinusacidumumikoiko-dataminingzipgt diakses

tanggal 17 Oktober 2012

[2] Nugroho Fanuel Kristanto Harianto dan Oslan Yetli Validitas Suatu Alamat

menggunakan Pohon keputusan dengan Algoritma ID3 Jurnal Informatika Volume 3

Nomor 2 April 2007 1 2 2007

[3] Hardikar S Shrivastava A Choudhary V Comparison between ID3 and C45 in

Contrast to IDS VSRD-IJCSIT Vol 2 (7) 659-667 2012

[4] Humairah N Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C50

[Skripsi] UPN Veteran Jakarta 2009

[5] Nugroho MW Perbandingan kinerja pohon keputusan ID3 dan C45 dalam klasifikasi

kelayakan kredit sepeda motor (studi kasus Bussan Auto Finance) [Skripsi] Universitas

Trunojoyo Bangkalan 2012

[6] Wahyudin Metode Iterative Dichotomizer 3 (ID3) Untuk Penerimaan Mahasiswa Baru

Tanpa Tahun ltURLhttpfileupieduDirektoriFPMIPAPRODI_ILMU_

KOMPUTERWAHYUDINmetode_ID3_untuk_mhsbarupdfgt diakses tanggal 17 Oktober

2012

[7] Defianti S dan Pardede D L C Perbandingan Kinerja Algoritma ID3 dan C45 dalam

Klasifikasi SpamMail 2008 ltURLhttpopenstoragegunadarmaacid

~mwiryanaKOMMITper-artikel03-02-004-Perbandingan5BSofi5Dpdfgt diakses

tanggal 5 Oktober 2012

[8] Ernawati I Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C50 dan K-

Nearest Neighbor [Tesis] Institut Pertanian Bogor Bogor 2008

[9] Tanpa Nama Constructing Decision Trees Tanpa Tahun ltURLhttpnotes-

storecomNotesDecision-Tree1011pptgt diakses tanggal 3 Oktober 2012