LAPORAN TUGAS AKHIR - dinus.ac.iddinus.ac.id/repository/docs/ajar/LAPTA.pdf · Judul Tugas Akhir :...

LAPORAN TUGAS AKHIR

KOMPARASI PEMODELAN DATA MENGGUNAKAN C4.5

DAN C4.5 BERBASIS PARTICLE SWARM OPTIMIZATION

UNTUK MEMPREDIKSI KELULUSAN MAHASISWA

Disusun Oleh :

Nama : Khoirul Muarif

NIM : A11.2009.05066

Program Studi : Teknik Informatika

FAKULTAS ILMU KOMPUTER

UNIVERSITAS DIAN NUSWANTORO

SEMARANG

2013

i

LAPORAN TUGAS AKHIR

KOMPARASI PEMODELAN DATA MENGGUNAKAN C4.5

DAN C4.5 BERBASIS PARTICLE SWARM OPTIMIZATION

UNTUK MEMPREDIKSI KELULUSAN MAHASISWA

Laporan ini disusun guna memenuhi salah satu syarat untuk menyelesaikan

program studi Teknik Informatika S-1 pada Fakultas Ilmu Komputer

Universitas Dian Nuswantoro

Disusun Oleh :


NIM : A11.2009.05066


FAKULTAS ILMU KOMPUTER

UNIVERSITAS DIAN NUSWANTORO

SEMARANG

2013

ii

PERSETUJUAN LAPORAN TUGAS AKHIR

Nama Pelaksana : Khoirul Muarif

NIM : A11.2009.05066


Fakultas : Ilmu Komputer

Judul Tugas Akhir : Komparasi Pemodelan Data Menggunakan C4.5 dan C4.5

Berbasis Particle Swarm Optimization Untuk

Memprediksi Kelulusan Mahasiswa

Tugas Akhir ini telah diperiksa dan disetujui,

Semarang, 24 Juli 2013

Menyetujui :

Pembimbing

L. Budi Handoko, M.Kom.

Mengetahui :

Dekan Fakultas Ilmu Komputer

Dr. Abdul Syukur

iii

PENGESAHAN DEWAN PENGUJI

Nama Pelaksana : Khoirul Muarif

NIM : A11.2009.05066


Fakultas : Ilmu Komputer

Judul Tugas Akhir : Komparasi Pemodelan Data Menggunakan C4.5 dan C4.5

Berbasis Particle Swarm Optimization Untuk

Memprediksi Kelulusan Mahasiswa

Tugas akhir ini telah diujikan dan dipertahankan dihadapan Dewan Penguji pada

Sidang tugas akhir tanggal 18 Juli 2013. Menurut pandangan kami, tugas akhir ini

memadai dari segi kualitas maupun kuantitas untuk tujuan penganugrahan gelar

Sarjana Komputer (S.Kom.)


Dewan Penguji:

Erna Zuni Astuti, M.Kom Sendi Novianto, S.Kom, MT

Anggota Anggota

Noor Ageng Setiyanto, M.Kom

Ketua Penguji

iv

PERNYATAAN KEASLIAN TUGAS AKHIR

Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah

ini, saya:


NIM : A11.2009.05066

Menyatakan bahwa karya ilmiah saya yang berjudul:

KOMPARASI PEMODELAN DATA MENGGUNAKAN C4.5 DAN C4.5

BERBASIS PARTICLE SWARM OPTIMIZATION UNTUK

MEMPREDIKSI KELULUSAN MAHASISWA

merupakan karya asli saya (kecuali cuplikan dan ringkasan yang masing-masing

telah saya jelaskan sumbernya dan perangkat pendukung seperti web cam dll).

Apabila di kemudian hari, karya saya disinyalir bukan merupakan karya asli saya,

yang disertai dengan bukti-bukti yang cukup, maka saya bersedia untuk dibatalkan

gelar saya beserta hak dan kewajiban yang melekat pada gelar tersebut. Demikian

surat pernyataan ini saya buat dengan sebenarnya.

Dibuat di : Semarang

Pada tanggal : 18 Juli 2013

Yang menyatakan,

(Khoirul Muarif)

v

PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH

UNTUK KEPENTINGAN AKADEMIS

Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah

ini, saya:


NIM : A11.2009.05066

demi mengembangkan Ilmu Pengetahuan, menyetujui untuk memberikan kepada

Universitas Dian Nuswantoro Hak Bebas Royalti Non-Ekskusif (Non-exclusive

Royalty-Free Right) atas karya ilmiah saya yang berjudul:

KOMPARASI PEMODELAN DATA MENGGUNAKAN C4.5 DAN C4.5

BERBASIS PARTICLE SWARM OPTIMIZATION UNTUK

MEMPREDIKSI KELULUSAN MAHASISWA

beserta perangkat yang diperlukan (bila ada). Dengan Hak Bebas Royalti Non-

Eksklusif ini Universitas Dian Nuswantoro berhak untuk menyimpan, mengcopy

ulang (memperbanyak), menggunakan, mengelolanya dalam bentuk pangkalan

data (database), mendistribusikannya dan menampilkan/mempublikasikannya di

internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari

saya selama tetap mencantumkan nama saya sebagai penulis/pencipta.

Saya bersedia untuk menanggung secara pribadi, tanpa melibatkan pihak

Universitas Dian Nuswantoro, segala bentuk tuntutan hukum yang timbul atas

pelanggaran Hak Cipta dalam karya ilmiah saya ini.

Demikian surat pernyataan ini saya buat dengan sebenarnya.

Dibuat di : Semarang

Pada tanggal : 12 Juli 2013

Yang menyatakan,

(Khoirul Muarif)

vi

KATA PENGANTAR

Alhamdulilah, puji syukur kehadirat Allah SWT atas kekuatan, rahmat dan

hidayah-Nya sehingga laporan tugas akhir dengan judul “KOMPARASI

PEMODELAN DATA MENGGUNAKAN C4.5 DAN C4.5 BERBASIS

PARTICLE SWARM OPTIMIZATION UNTUK MEMPREDIKSI

KELULUSAN MAHASISWA” dapat terselesaikan tepat waktu. Terimakasih

kepada :

1. Dr.Ir. Edi Noersasongko,M.Kom, selaku Rektor Universitas Dian Nuswantoro

Semarang.

2. Dr. Abdul Syukur selaku Dekan Fasilkom.

3. Dr. Heru Agus Santoso,M.Kom, selaku Ka.Progdi Teknik Informatika.

4. L. Budi Handoko, M.Kom, selaku pembimbing tugas akhir yang memberikan

bimbingan yang berkaitan dengan penelitian penulis.

5. Ardhyta Luthfiarta, M.Kom.,M.Cs, yang memberikan masukan dan saran

kepada penulis.

6. Amalia Hilda, yang memberikan lampiran berupa data kelulusan mahasiswa

dalam thesisnya sebagai dasar obyek penelitian bagi penulis.

7. Dosen-dosen Fasilkom Universitas Dian Nuswantoro Semarang yang telah

memberikan ilmu sehingga penulis dapat mengimplementasikan ilmu yang

telah disampaikan.

8. Keluarga dan rekan-rekan mahasiswa Fasilkom Universitas Dian Nuswantoro

yang telah memberikan dukungan material dan moral kepada penulis.

Semoga Tuhan yang Maha Esa memberikan balasan yang lebih besar kepada

beliau-beliau, dan pada akhirnya penulis berharap bahwa penulisan laporan tugas

akhir ini dapat bermanfaat dan berguna sebagaimana fungsinya.


Penulis

vii

ABSTRAK

Perguruan tinggi merupakan tempat bagi mahasiswa untuk mendapat pengetahuan

sebelum terjun bersaing dalam dunia kerja. Perguruan tinggi menjadi sangat

berperan untuk menciptakan lulusan terbaik bagi kebutuhan dunia kerja. Jumlah

kelulusan mahasiswa akan menjadi salah satu indikator keberhasilan suatu

perguruan tinggi yang berdampak pada akreditasi pemerintah dan penilaian

masyarakat. Penelitian tentang prediksi kelulusan mahasiswa telah banyak

dilakukan untuk mengetahui lulus tepat waktu atau terlambat. Berdasarkan

kondisi tersebut teknik data mining yang tepat digunakan adalah klasifikasi. Salah

satu teknik klasifikasi data mining adalah C4.5. Dalam penelitian ini,

membandingkan algoritma C4.5 dengan C4.5 berbasis PSO(Particle Swarm

Optimization) yang diterapkan pada data kelulusan mahasiswa. Dari hasil

pengujian digunakan tes cross validation, confusion matrix dan kurva ROC,

diketahui bahwa C4.5 berbasis PSO terbukti dapat meningkat akurasi dari prediksi

dengan 86.09% dan peforma yang ditunjukkan nilai AUC adalah 0.883 sedangkan

C4.5 memiliki akurasi prediksi 84.13% dan nilai AUC 0.837. Dari penelitian ini,

terbukti bahwa PSO dapat meningkatkan akurasi dan performa AUC.

Kata kunci : kelulusan mahasiswa, data mining, teknik klasifikasi data mining,

C4.5, C4.5 berbasis PSO.

xiii + 70 halaman; 28 gambar; 17 tabel

Daftar acuan: 24 (1995 – 2012)

viii

ABSTRACT

College is a place for students to gain knowledge before plunging to compete in

the working world. College became a very important role to create the best

graduates for the needs of the workforce. The minimum number of students would

be one indicator of the success of a college accreditation impact on government

and community assessment. Research on student graduation predictions have been

carried out to determine graduate on time or late. Under these conditions the exact

data mining techniques used are classification. One of the classification

techniques of data mining is C4.5. In this study, compared with C4.5 C4.5

algorithm based on PSO (Particle Swarm Optimization) is applied to the data

graduation. From the test results used cross validation test, confusion matrix and

ROC curves, it is known that the PSO-based C4.5 proven to increase the accuracy

of prediction by 86.09% and AUC values Performance shown is 0.883 while the

C4.5 has a 84.13% prediction accuracy and AUC values 0837. From this study, it

is evident that the PSO can improve the accuracy and performance of AUC.

Keywords: graduation, data mining, data mining classification techniques, C4.5,

C4.5 based PSO.

ix

DAFTAR ISI

Halaman

Halaman Sampul Dalam i

Halaman Persetujuan ii

Halaman Pengesahan iii

Halaman Pernyataan Keaslian Tugas Akhir iv

Halaman Pernyataan Persetujuan Publikasi v

Halaman Kata Pengantar vi

Halaman Abstrak vii

Halaman Daftar Isi ix

Halaman Daftar Tabel xi

Halaman Daftar Gambar xii

BAB I PENDAHULUAN 1

1.1 Latar belakang 1

1.2 Rumusan masalah 5

1.3 Batasan masalah 6

1.4 Tujuan 6

1.5 Manfaat 7

BAB II TINJAUAN PUSTAKA 8

2.1 Tinjauan studi. 8

2.2 Landasan teori 12

2.2.1 Kelulusan Mahasiswa 12

2.2.2 Data mining 12

2.2.3 CRISP-DM 13

2.2.4 Pembobotan atribut 15

2.2.5 Algoritma C4.5 15

2.2.5.1 Pruning dalam pohon keputusan 18

2.2.6 Particle Swarm Optimization (PSO) 20

2.2.7 Cross validation 21

x

2.2.8 Confusion matrix 22

2.2.9 Kurva ROC 23

2.2.10 Kerangka pemikiran 23

BAB III METODE PENELITIAN 25

3.1 Desain penelitian 25

3.1.1 Pengumpulan data 25

3.1.1.1 Pemahaman bisnis 25

3.1.1.2 Pemahaman data 26

3.1.2 Pengolahan data 27

3.1.3 Pemodelan 28

3.1.3.1 Model C4.5 30

3.1.3.2 Model C4.5 dioptimasi PSO 35

3.1.4 Validasi dan evaluasi 39

3.1.5 Penyebaran 39

3.2 Alat penelitian 40

BAB IV HASIL PENELITIAN DAN PEMBAHASAN 41

4.4 Validasi dan evaluasi 41

4.4 Hasil percobaan dan pengujian metode 44

4.2.1 C4.5 44

4.2.2 C4.5 berbasis PSO 45

4.4 Pembahasan 50

4.4 Hasil pemodelan pohon keputusan dan Ruleₐ 51

4.4.1 Model C4.5 berbasis PSO 51

4.4.2 Model C4.5 59

BAB V PENUTUP 67

5.1 Kesimpulan 67

5.2 Saran 67

DAFTAR PUSTAKA 69

xi

DAFTAR TABEL

Halaman

Tabel 2.1 State of the art 9

Tabel 2.2 Contoh confusion matrix. 22

Tabel 3.1 Kedudukan atribut yang akan digunakan 27

Tabel 3.2 Ilustrasi Missing Data dan atribut yang akan digunakan untuk

pemodelan dalam bentuk excel 28

Tabel 3.3 Contoh Data Traning yang telah di replace missing value 28

Tabel 3.4 Jumlah kasus dari tiap atribut 30

Tabel 3.5 Hasil perhitungan gain untuk menentukan node tertinggi 33

Tabel 3.6 Jumlah kasus yang terjadi pada subset atribut bersifat kontinu 33

Tabel 3.7 Split point yang digunakan 35

Tabel 3.8 Hasil perhitungan bobot dari iterasi ke-1 sampai itersasi ke-25 35

Tabel 3.9 Split point berdasar weight yang digunakan 38

Tabel 3.10 Confusion matrik C4.5 39

Tabel 3.11 Spesifikasi Software dan Hardware 40

Tabel 4.1 Hasil akurasi dan AUC dari C4.5 45

Tabel 4.2 Hasil percobaan menggunakan population size dan maximum

number of generation secara berbeda 45

Tabel 4.3 Hasil komparasi C4.5 dan C4.5-PSO 48

Tabel 4.4 Hasil pembobotan atribut 50

xii

DAFTAR GAMBAR

Halaman

Gambar 2.1 Siklus CRISP-DM .................................................................... 14

Gambar 2.2 Contoh pohon keputusan yang terbentuk .................................. 16

Gambar 2.3 Pohon keputusan dengan cabang A5 tidak konsisten ................ 19

Gambar 2.4 Pohon keputusan setelah di pruning .......................................... 20

Gambar 2.5 Ilustrasi tenfold cross validation ............................................... 21

Gambar 2.6 Confusion matrix untuk 2 model kelas ...................................... 22

Gambar 2.7 Kerangka pemikiran .................................................................. 24

Gambar 3.1 Data yang dilampirkan oleh Hilda ............................................. 26

Gambar 3.2 Data set dalam bentuk excel ...................................................... 27

Gambar 3.3 Model yang di usulkan .............................................................. 29

Gambar 3.4 Model proses yang di usulkan ................................................... 29

Gambar 4.1 Setting parameter pada rapidminer ............................................ 41

Gambar 4.2 Desain model validasi C4.5 ....................................................... 42

Gambar 4.3 Desain model validasi C4.5 berbasis PSO ................................ 43

Gambar 4.4 Hasil perhitungan nilai akurasi dari C4.5 yang ditampilkan

oleh RapidMiner ........................................................................ 44

Gambar 4.5 Hasil peforma AUC dari C4.5 yang ditampilkan oleh

RapidMiner ................................................................................ 44

Gambar 4.6 Grafik perbedaan tingkat akurasi C4.5-PSO berdasar pada

population size dan maximum number of generation ................ 46

Gambar 4.7 Grafik perbedaan peforma AUC C4.5-PSO berdasar pada

population size dan maximum number of generation ................ 46

xiii

Gambar 4.8 Hasil perhitungan akurasi dari C4.5-PSO yang ditampilkan

oleh RapidMiner berdasar pada population size bernilai 15

dan maximum number of generation bernilai 40 ....................... 47

Gambar 4.9 Hasil peforma AUC dari C4.5-PSO yang ditampilkan oleh

RapidMiner berdasar pada population size bernilai 15 dan

maximum number of generation bernilai 40 ............................. 48

Gambar 4.10 Grafik perbedaan tingkat akurasi antara C4.5 dengan

C4.5-PSO .................................................................................. 49

Gambar 4.11 Grafik perbedaan peforma AUC antara C4.5 dengan

C4.5-PSO .................................................................................. 49

Gambar 4.12 Hasil pemodelan tree C4.5-PSO bagian 1(kiri) ........................ 51

Gambar 4.13 Hasil pemodelan tree C4.5-PSO bagian 2(tengah) ................... 52

Gambar 4.14 Hasil pemodelan tree C4.5-PSO bagian 3(kanan) ..................... 53

Gambar 4.15 Hasil pemodelan tree C4.5 bagian 1(kiri) .................................. 59

Gambar 4.16 Hasil pemodelan tree C4.5 bagian 2(tengah) ........................... 60

Gambar 4.17 Hasil pemodelan tree C4.5 bagian 3(kanan) ............................. 61

1

BAB I

PENDAHULUAN

1. Latar Belakang Masalah

Mahasiswa merupakan salah satu kelompok masyarakat elite yang

memiliki ciri intelektualitas lebih kompleks dibandingkan dengan kelompok

lain yang bukan mahasiswa seusia ataupun dibawah usia mereka. Kemampuan

untuk menghadapi kemudian mencari pemecahan, menyelesaikan masalah yang

mereka hadapi secara lebih sitematis merupakan ciri dari intelektualitas tersebut

(Hilda, 2012). Dalam masa kehidupan mahasiswanya, mereka berkembang

untuk mematangkan intelektualnya sebagai persiapan dalam bersaing di dunia

kerja nantinya dan lingkungan masyarakat.

Perguruan tinggi sekarang ini dituntut untuk mempunyai keunggulan

daya saing dengan memanfaatkan dan memaksimalkan semua sumber daya

yang dimiliki. Salah satunya adalah sistem informasi yang digunakan untuk

meningkatkan daya saing dan juga dapat digunakan dalam pengolahan data

menjadi informasi yang bernilai sebagai alat penunjang untuk kegiatan

pengambilan keputusan strategis. Ini sesuai dengan dasar bahwa perguruan

tinggi merupakan satuan pendidikan yang menjadi terminal terakhir bagi

seseorang yang berpeluang belajar setinggi-tingginya melalui jalur pendidikan

sekolah.(Hilda, 2012).

Dalam lingkungan yang sangat kompetitif dan tujuan untuk

mendapatkan keuntungan yang lebih dari bisnis maka organisasi pendidikan

tinggi harus mampu meningkatkan kualitas layanan dan dapat memuaskan

pelangan mereka. Mereka menganggap bahwa dosen dan mahasiswa merupakan

aset utama, dengan menggunakan aset secara efektif dan efisien maka mereka

berusaha untuk meningkatkan indikator – indikator kunci mereka.(Quadri &

2

Kalyankar, 2010). Dalam dunia pendidikan, mahasiswa merupakan aset yang

penting di institusi pendidikan, maka harus diperhatikan tingkat kelulusan tepat

waktunya.

Berbagai perguruan tinggi bersaing untuk meningkatkan tingkat

kelulusan sesuai dengan misi masing-masing pergururuan tinggi dalam

mendidik mahasiswa (yaitu menghasilkan lulusan) yang akan menjadi anggota

produktif masyarakat dan berkontribusi terhadap kesejahteraan ekonomi bangsa.

Selain itu, masing-masing perguruan tinggi mengetahui bahwa jumlah siswa

yang putus diterjemahkan sebagai hilangnya pendapatan bagi lembaga

pendidikan tersebut (Karamouiz & Vrettos, 2008). Penilaian publik biasanya

berdasar pada ketepatan lulus dari mahasiswa atau siswa sebuah institusi

pendidikan maka ini berpengaruh pada tingkat kredibilitas dan eksisnya institusi

tersebut.

Quadri et al(Quadri & Kalyankar, 2010) berpendapat bahwa wisuda

yang tepat waktu merupakan isu yang penting karena tingkat kelulusan sebagai

dasar efektifnya suatu kelembagaan. Jika terjadi penurunan tingkat kelulusan

secara signifikan dan terus berkembang maka akan menjadi permasalahan yang

serius. Bahkan dapat mempengaruhi akreditasi perguruan tinggi tersebut. Untuk

itu pemantauan dan evaluasi secara berkala terhadap kecenderungan tingkat

kelulusan mahasiswa diperlukan.

Berdasar pada peraturan yang disampaikan dalam buku II standard dan

prosedur tentang akreditasi institusi perguruan tinggi oleh BAN-PT(Badan

Akreditasi Nasional Perguruan Tinggi) tahun 2011 menyatakan bahwa salah

satu aspek penilaian akreditasi adalah mahasiswa dan lulusan(BAN-PT, 2011).

Jadi, tingkat kelulusan dan jumlah mahasiswa akan perpengaruh dalam proses

akreditasi yang dilakukan oleh pemerintah. Setelah diberikan akreditasi

terhadap komponen perguruan tinggi tersebut maka masyarakat umum akan

mengetahui informasi akreditasi tersebut. Ketika akreditasi terhadap komponen

3

perguruan tinggi tersebut rendah maka akan berpengaruh terhadap penilaian

masyarakat yang cinderung buruk dan penilaian buruk ini juga mempengaruhi

minat masyarakat untuk mendaftarkan diri sebagai calon mahasiswa pada

perguruan tinggi tersebut. Seperti yang tercantum pada berita replubika.co.id

tanggal 24 Maret 2013 bahwa dalam lima tahun terakhir 11 Perguruan Tinggi

Swasta(PTS) di Yogya tutup dikarenakan sepi peminat untuk menjadi calon

mahasiswa di PTS tersebut(replubika, 2013). Oleh karena itu, analisa prediksi

kelulusan mahasiswa diperlukan untuk memberikan informasi bagi civitas

akademik mengenai mahasiswa yang dimungkinkan lulus terlambat.

Dewasa ini pendekatan data mining berkembang untuk mengatasi

berbagai permasalahan menyangkut tentang pengolahan data. Beberapa peneliti

menggunakan teknik data mining untuk menyelesaikan permasalahan prediksi

kelulusan mahasiswa(Hilda, 2012), (Suhartina & Ernastuti, 2010).

Data mining adalah suatu cara yang bertujuan dalam penemuan pola

secara otomatis atau semi otomatis dari data yang sudah ada di dalam database

atau sumber data lain yang dimanfaatkan untuk menyelesaikan suatu masalah

melalui berbagai aturan proses(Witten, I.H, 2011 ). Data mining memiliki

beberapa teknik, diantaranya klasifikasi dan clustering. Teknik klasifikasi

adalah teknik pembelajaran yang digunakan untuk memprediksi nilai dari

atribut kategori target (Vercellis, 2009). Klasifikasi bertujuan untuk membagi

objek yang ditugaskan hanya ke salah satu nomor kategori yang disebut kelas (

Max Bramer, 2007). Clustering merupakan pengelompokkan objek atau data

berdasarkan kemiripan antar data, sehingga anggota dalam satu kelompok

memiliki banyak kemiripan dibandingkan dengan kelompok lain (Gorunescu,

2011). Untuk memprediksikan kelulusan mahasiswa, maka hasil pengolahan

data akan diklasifikasikan menjadi dua kelas, yaitu tepat dan terlambat.

Sehingga teknik klasifikasi paling tepat untuk digunakan dalam data mining ini.

Metode yang paling populer digunakan untuk teknik klasifikasi adalah Decision

4

Trees, Naïve Bayes Classifiers (NBC), Statistical analysis, dan lain lain

(Gorunescu, 2011).

Beberapa penelitian mengenai analisis prediksi kelulusan mahasiswa

dengan metode klasifikasi data mining telah banyak dilakukan diantaranya

adalah yang dilakukan oleh Hilda Amalia pada tahun 2012 yaitu

mengkomparasi algoritma C4.5, naïve bayes, dan neural network. Dalam

penelitian tersebut diketahui bahwa algoritma Nilai akurasi dan AUC tertinggi

adalah neural network dan ternyata C4.5 masih tergolong fair classifacition.

Dalam penelitian yang dilakukan Hilda belum ada optimasi dari algoritma yang

digunakan, maka dimungkinkan untuk menggabungkan teknik algoritma lain

dalam upaya meningkatkan akurasi dan AUC dari C4.5.

Decision tree memang populer dan sering digunakan dalam klasifikasi

karena memiliki hasil yang cukup baik jika dibanding algoritma lainnya. C4.5

juga dalam membentuk suatu model pembelajaran dari data tergolong cepat,

selain itu karena model digambarkan dalam bentuk diagram pohon maka

mudah dipahami. Namun, jika ada data yang tidak relevan dapat menurunkan

akurasi C4.5 (Tsai & Chen, 2009). Di C4.5 seluruh atribut diseleksi untuk

kemudian dibagi menjadi himpunan bagian yang lebih kecil (wu, 2009).

Dengan jumlah data yang terlalu banyak, model yang terbentuk menjadi sulit

dibaca seperti terbentuknya node yang redundant. Data yang akan diolah

sebaiknya dilakukan proses pre-prosesing data.

Dibawah ini merupakan beberapa kelebihan dari pohon keputusan

(Gorunescu, 2011):

a. Hasil analisa berupa diagram pohon yang sangat mudah dimengerti.

b. Mudah untuk dibangun, serta membutuhkan data percobaan yang

lebih sedikit dibandingkan algoritma klasifikasi lainnya.

c. Mampu mengolah data nominal dan kontinyu.

5

d. Model yang dihasilkan dapat dengan mudah dimengeri, berbeda

dengan teknik klasifikasi yang lain seperti neural network yang

menyajikan model dengan informasi logis yang tersirat.

e. Menggunakan teknik statistik sehingga dapat divalidasikan.

f. Waktu komputasi relative lebih cepat dibandingkan teknik klasifikasi

yang lain.

g. Akurasi yang dihasilkan mampu menandingi teknik klasifikasi yang

lainnya.

Salah satu algoritma optimasi yang cukup populer adalah PSO (Particle

Swarm Optimization). PSO banyak digunakan untuk memecahkan masalah

optimasi, serta sebagai masalah seleksi fitur (Liu, Wang, Chen, Dong, Zhu, &

Wang, 2011). Algoritma PSO terinspirasi dari sekelompok burung yang

bergerak secara dinamis kemudian dapat bersinergi serta dapat terorganisir.

Ketika diterapkan dalam beberapa kasus untuk mengoptimalisasi algoritma

klasifikasi, mampu meningkatkan akurasi lebih baik daripada Genetic

Algorithm adalah PSO(Sousa, Silva, & Neves, 2004, p. 768).

2. Rumusan Masalah

Prediksi kelulusan mahasiswa menjadi sangat penting untuk diketahui

bagi civitas akademik sebagai model pertimbangan dalam menentukan

kebijakan terkait kemudian memberikan treatment atau rangsangan terhadap

mahasiswa diperkirakan terlambat lulus. Berdasarkan latar belakang

permasalahan yang ada, penelitian yang menggunakan algoritma C4.5 untuk

prediksi kelulusan mahasiswa masih kurang akurat. Diperlukan algoritma

optimasi yang diterapkan untuk pembobotan atribut pada algoritma Particle

Swarm Optimization (PSO) agar nilai akurasi lebih tinggi. Kemudian hasil

6

pengolahan data dapat digunakan sebagai salahsatu dasar pertimbangan untuk

membuat suatu sistem pendukung keputusan dan dimanfaatkan oleh civitas

akademik perguruan tinggi.

3. Batasan Masalah

Penelitian ini dibatasi pada perbandingan metode klasifikasi data mining

yang menggunakan algoritma C4.5 dengan algoritma C4.5 berbasis PSO pada

pembobotan atribut dalam prediksi kelulusan mahasiswa kemudian

mengevaluasi hasil perbandingan untuk mengetahui dampak dari optimalisasi

PSO. Data diperoleh dari kelulusan mahasiswa sebuah perguruan tinggi.

Batasan masalah lebih rinci adalah sebagai berikut :

1. Teknik yang digunakan merupakan teknik klasifikasi data mining.

2. Algoritma yang dipakai adalah decision tree khususnya C4.5 berdasar

pada information gain.

3. Teknik optimasi yang dipakai adalah Particle Swarm Optimization

(PSO).

4. Tujuan Penelitian

Tujuan dari penelitian ini adalah membuktikan bahwa optimalisasi

dengan berdasar algoritma PSO yang digunakan untuk memilih dan memberi

bobot atribut dari dataset pada algoritma C4.5 dapat meningkatan akurasi

analisa kelulusan mahasiswa dibanding akurasi analisa yang hanya

menggunakan algoritma C4.5.

7

5. Manfaat Penelitian

a. Bagi Akademik

Hasil dari penelitian ini dapat dimanfaatkan sebagai berikut :

a. Memberikan informasi untuk menganalisa kelulusan

mahasiswa yang dimungkinkan akan lulus tepat atau terlambat

dan dapat membantu civitas akademik perguruan tinggi untuk

memberikan peringatan dini dan pembimbingan awal bagi

mahasiswa yang kemungkinan tidak lulus tepat waktu.

b. Membantu perguruan tinggi dalam membuat kebijakan untuk

bisa meningkatkan kelulusan mahasiswa.

b. Bagi Masyarakat dan Ilmu Pengetahuan

Hasil dari penelitian ini dapat dimanfaatkan sebagai berikut :

a. Memberikan pertimbangan bahwa teknik atau model

klasifikasi yang digunakan pada penelitian ini dapat

dimanfaatkan tidak hanya fokus pada masalah dunia

pendidikan, seperti bank, penjualan, kasus bisnis lain.

c. Bagi Peneliti

Manfaat yang dapat di ambil dari penelitian ini adalah :

a. Memberikan kontribusi keilmuan pada penelitian bidang

klasifikasi data mining khususnya untuk prediksi kelulusan

mahasiswa.

b. Dapat mengetahui perbandingan tingkat akurasi dan error

terhadap algoritma yang digunakan.

c. Memberikan prediksi digunakan untuk rujukan penelitian

selanjutnya dengan metode yang sama ataupun pengoptimalan

dengan algoritma lain.

8

BAB II

TINJAUAN PUSTAKA

Penelitian TA ini menggunakan beberapa referensi media sebagai landasan

teori diantaranya buku, jurnal baik jurnal nasional maupun internasional serta

prosiding sebagai referensi.

2.1 Tinjauan studi

Beberapa jurnal dan artikel penelitian yang berhubungan dengan

teknik klasifikasi algoritma data mining yang memiliki keterkaitan dalam

topik penelitian yaitu :

1. Analisa dan Komparasi Metode Klasifikasi Data Mining untuk Prediksi

Kelulusan Mahasiswa.(Hilda Amalia, 2012)

Membuat penelitian model dengan menggunakan tiga algoritma

yaitu C4.5, neural network dan naïve bayes dan membandingkannya

untuk menemukan algoritma terbaik dalam menyelesaikan masalah

prediksi kelulusan mahasiswa menggunakan variabel fakultas,

IPS(Indeks Prestasi Semester), umur dan jenis kelamin.

2. Drop Out Feature of Student Data for Academic Using Decision Tree

Techniques (Quadri & Kaylanyar, 2010)

Melakukan penelitian dengan menggunakan algoritma J4.8 dan

nantinya akan menggunakan C4.5 untuk memodelkan prestasi akademik

siswa sangat penting bagi lembaga pendidikan untuk menyusun rencana

strategis menghasilkan pohon keputusan.

3. Graduation Prediction of Gunadarma Student Using Naïve Bayes and

Decision Tree (Suhartina & Ernastuti, 2010)

Penelitian ini membandingkan keakuratan antara algoritma native

bayes dengan C4.5 berdasar pada variabel ips(indek prestasi semester)

dan gaji orang tua.

9

4. Prediksi Loyalitas Pelanggan Pada Perusahaan Penyedia Layanan

Multimedia Dengan Algoritma C4.5 Berbasis Particle Swarm

Optimization(Desiyanna Lasut, 2012)

Penelitian yang dilakukan adalah memaksimalkan algoritma C4.5

dengan PSO dan membandingkan hasil keakurasian yang diperoleh

untuk memprediksikan kemungkinan loyal atau tidak.

Tabel 2.1 State of the art

n

o Peneliti

t

a

h

u

n

Judul metode Hasil Catatan

1 Desiyan

na Lasut

2

0

1

2

Prediksi Loyalitas

Pelanggan Pada

Perusahaan

Penyedia Layanan

Multimedia

Dengan Algoritma

C4.5 Berbasis

Particle Swarm

Optimization

C4.5 dan

C4.5

optimasi

dengan

PSO

Penggunaan PSO dalam

pembobotan attribut

dapat mengolah data

numerik sehingga

meningkatkan akurasi

model yang digunakan.

Dengan akurasi dari

78.40 menjadi 80.90

dan

AUC dari 0.794 menjadi

0.841

1. attribut yang diolah sebaiknya

diproses terlabih dahulu, proses

diskretisasi, pengelompokkan

nilai attribut dapat secara efektif

meningkatkan akurasi dari

algoritma C4.5, 2. atribut numerik

yang diolah dapat ditingkatkan,

dengan begitu optimasi bobot

oleh algoritma PSO dapat lebih

efektif.

2 Hilda

2

0

1

2

ANALISA DAN

KOMPARASI

METODE

KLASIFIKASI DATA

MINING UNTUK

PREDIKSI

KELULUSAN

MAHASISWA

C4.5,

neural

network

dan

naïve

bayes

1. Algoritma C4.5

menghasilkan nilai

akurasi yaitu 74.33%

dan nilai AUC yaitu

0.787, 2. Naïve Bayes

menghasilkan nilai

akurasi yaitu 69.72%

dan nilai AUC yaitu

0.829, 3. Neural

Network menghasilkan

nilai akurasi yaitu

78.29% dan nilai AUC

yaitu 0.848, 4. Nilai

akurasi dan AUC

tertinggi adalah metode

Neural Network

1. Atribut jenis kelamin tidak

berpengaruh pada hasil pohon

keputusan, sehingga perlu

dilakukan penyeleksian atribut

seperti penggunaan Chi-Square,

2. Nilai akurasi yang dihasilkan

dari setiap metode berada pada

nilai 60-70 % saja, sehingga masih

bisa di tingkatkan dengan

menggunakan metode optimasi

seperti AdaBoost, PSO atau yang

lainnya, 3. Nilai akurasi dan AUC

tertinggi untuk penelitian ini

diperoleh oleh metode neural

network dengan nilai 78.13% dan

0.848, yang termasuk kategori

baik namun belum sangat baik,

sehingga dapat dilakukan

perbandingan lagi dengan

metode klasifikasi data mining

lainnya

10

3 Susanto

2

0

1

2

Segmentasi dan

Klasifikasi Perilaku

Pembayaran

Pelanggan pada

Perusahaan

Penyedia Layanan

Multimedia

dengan Algoritma

K-Means dan C4.5

C4.5 dan

C4.5

optimasi

dengan

K-Means

1. Dengan

menggunakan k-means,

tingkat potensial

pelanggan dapat diukur,

selain itu dapat

membentuk atribut

yang handal untuk

proses klasifikasi, 2.

Peningkatan model

yang terbentuk cukup

signifikan peningkatan.

Hasil Akurasi dari

59.02% menjadi 77.31%

dan AUC dari 0.537

menjadi 0.836

1. Karena data yang dimiliki

sebagian besar terdiri dari nilai

numerik, dapat dilakukan

diskretisasi. 2. Dapat menerapkan

algoritma optimasi untuk

pemilihan atribut, atau

penyesuaian nilai parameter.

Menggunakan algoritma lain yang

lebih cocok dalam pengolahan

data numerik seperti chi square

agar didapat titik perpecahan

yang lebih beragam

4

Kahfi

Heryandi

Suradiraj

a

2

0

1

2

DETEKSI

TRANSAKSI

PENCUCIAN UANG

DENGAN

ALGORITMA

KLASIFIKASI C4.5

C4.5

1. algoritma klasifikasi

C4.5 pada data

transaksi perbankan

yang memiliki akurasi

terbaik untuk C4.5

adalah menggunakan

Pre-Pruning dan

Pruning yakni dengan

nilai AUC 0.936

(Excelent Classification).

2. Pengaruh penerapan

Pruning dan Pre-

Pruning keduanya

sebagai parameter

dapat meningkatkan

akurasi algoritma

decision tree, pada

information gain atau

ID3 memiliki nilai 0.865,

pada gini index memiliki

nilai AUC 0.907 dan

pada C4.5 memiliki nilai

AUC terbaik 0.936.

1. Membandingkan tingkat

akurasinya dengan model

algoritma lain seperti Naive Bayes

atau Support Vector Machine. 2.

Membandingkan hasil akurasinya

dengan data yang bukan

imbalance. 3. Membandingkan

pengukuran akurasi dengan

model evaluasi lain seperti

Precission and Recall atau Cost-

sensitive Measure

5 Firmansy

ah

2

0

1

1

Penerapan

Algoritma

Klasifikasi C4.5

untuk Penentuan

Kelayakan

Pemberian Kredit

Koperasi

C4.5

algoritma klasifikasi

C4.5 akurat diterapkan

untuk penentuan

kelayakan kredit

koperasi, dengan

tingkat keakuratan 90%

1.Melakukan pruning sehingga

pohon yang terbentuk tidak

terlalu besar, untuk

mengefisienkan kinerja dari

pohon keputusan tanpa

mengurangi keakuratannnya

2.Untuk menambah keakuratan,

algoritma C4.5 dapat

digabungkan dengan metode lain

seperti naive bayes atau support

vector machine 3.Penelitian

dapat dikembangkan dengan

menggunakan metode seleksi

atribut yang lain seperti chi-

square, gini index dan sebagainya

untuk ketepatan penyeleksian

atribut

11

6 Henilei

2

0

1

1

Komparasi

Algoritma

Klasifikasi Data

Mining untuk

Penentuan

Kelayakan

Pembiayaan

Konsumen Kredit

Kendaraan

Bermotor

C4.5,

naïve

bayes

dan

neural

network

•metode pengujian

Cross Validation,

Confusion Matrix dan

Kurva ROC, diketahui

bahwa algoritma C4.5

memiliki nilai accuracy

dan AUC paling tinggi,

diikuti oleh metode

neural network, dan

yang paling rendah

metode naïve bayes

•Metode C4.5 dan

neural network

termasuk kelompok

klasifikasi sangat baik

karena nilai AUC-nya

antara 0.90-1.00

sedangkan nilai AUC

metode naïve bayes

termasuk kelompok

klasifikasi baik karena

nilai AUC-nya antara

0.80-0.90.

•Agar hasil penelitiannya lebih

bisa digeneralisasi secara luas,

untuk penelitian selanjutnya,

dapat dilakukan penelitian

dengan data yang berasal dari

banyak perusahaan leasing.

7

Siti

Masripa

h

2

0

1

1

Algoritma

Klasifikasi C4.5

berbasis PSO

(Particle Swarm

Optimization)

untuk Evaluasi

Penentuan

Kelayakan

Pemberian Kredit

Koperasi Syariah

C4.5 dan

C4.5

optimasi

dengan

PSO

1. Nilai akurasi untuk

algoritma klasifikasi

C4.5 senilai 88%

sedangkan untuk nilai

akurasi algoritma C4.5

berbasis PSO (Particle

Swarm Optimization)

senilai 94%, 2. Nilai AUC

untuk algoritma C4.5

senilai 0,898 dengan

diagnosa Good

Classification.

Sedangkan nilai AUC

untuk algoritma C4.5

berbasis PSO (Particle

Swarm Optimization)

senilai 0.955 dengan

diagnosa Excellent

Classification

N.A

8

M. N.

Quadri

and N.V.

Kalyanka

r

2

0

1

0

Drop Out Feature

of Student Data

for Academic

Performance

Using Decision

Tree Techniques

decision

tree J48 N.A N.A

9

Marselin

a Silvia

Suhartin

ah,

Ernastuti

2

0

1

0

GRADUATION

PREDICTION OF

GUNADARMA

UNIVERSITY

STUDENTS USING

ALGORITHM AND

NAIVE BAYES C4.5

ALGORITHM

Naive

Bayes,

C4.5

prediksi ketepatan

dengan algoritma C4.5

85,7% dan error 14,3%,

sedangkan algoritma

naïve bayes 80,85% dan

error 19,05%

Pada penelitian kali ini data

training yang digunakan terbatas

yaitu sebanyak 65 record data

dan ketidaklengkapan data yang

diperoleh . Untuk

melihat kinerja yang lebih baik

dalam hasil akurasi masing-

masing algoritma maka jumlah

record data yang digunakan

untuk proses training sebaiknya

ditingkatkan mendekati jumlah

data sesungguhnya

12

Berdasarkan tinjauan studi diatas ada beberapa peneliti yang sudah

menggunakan C4.5 dan PSO dalam berbagai kasus. Sesuai tabel performa

terbukti menjadi lebih baik jika dikombinasikan dengan algoritma lain pada

seleksi atribut. PSO yang diterapkan pada seleksi atribut terbukti berhasil

meningkatkan akurasi pada C4.5. Penelitian ini menggunakan PSO untuk

menentukan fitur terbaik pada bobot atribut yang sesuai dan optimal pada

C4.5 sehingga hasil prediksi lebih akurat.

2.2 Landasan teori

Penulis meninjau beberapa buku dan jurnal sebagai landasan untuk

menjelaskan berbagai hal yang berhubungan dengan topik penelitian.

2.2.1 Kelulusan Mahasiswa

Mahasiswa merupakan salah satu kelompok masyarakat elite

yang memiliki ciri intelektualitas lebih kompleks dibandingkan dengan

kelompok lain yang bukan mahasiswa seusia ataupun dibawah usia

mereka. Kemampuan untuk menghadapi kemudian mencari

pemecahan, menyelesaikan masalah yang mereka hadapi secara lebih

sitematis merupakan ciri dari intelektualitas tersebut (Hilda, 2012).

Kelulusan mahasiwa merupakan hal yang penting untuk diperhatikan,

karena penurunan jumlah kelulusan akan menghilangkan jumlah

pendapatan institusi dan juga akan berpengaruh pada penilaian

pemerintah dengan bentuk status akreditasi institusi (Karamouiz &

Vrettos, 2008). Beberapa faktor yang dapat mempengaruhi kelulusan

mahasiswa antara lain adalah nilai akhir SMA, Indeks Prestasi

Semester (IPS), gaji orang tua dan pekerjaan orang tua (Suhartinah &

Ernastuti, 2010).

2.2.2 Data Mining

Data mining adalah suatu proses untuk menemukan hubungan

baru dengan cara memilah-milah data yang sudah ada di dalam

13

database menggunakan teknologi pengenalan pola dan statistik

(Larose, 2005). Data mining adalah proses menggali informasi atau

pola dalam data berukuran besar yang sudah ada dalam database untuk

keperluan tertentu. Salah satu teknik dari data mining adalah

klasifikasi yang tujuannya membagi objek untuk ditugaskan hanya ke

salah satu nomor kategori yang disebut kelas (Max Bramer, 2007).

Variable target dari klasifikasi adalah variable kategori (Larose, 2005).

Klasifikasi adalah suatu proses pencarian untuk memprediksi kelas

dari suatu obyek yang belum diketahui kelasnya.

2.2.3 CRIPS-DM

Cross-Industry Standart Proses for Data Mining (CRIPS-DM)

dikembangkan pada tahun 1996 oleh analis dari beberapa industri.

CRIPS-DM menyediakan standart proses data mining sebagai

pemecahan masalah secara umum dari bisnis atau unit penelitian.

CRIPS-DM memiliki siklus hidup yang terbagi dalam enam fase, yaitu

(Larose, 2005) :

14

Gambar 2.1 Siklus CRISP-DM (Larose, 2005)

a. Pemahaman Bisnis(Business Understanding)

Merupakan tahap awal yaitu pemahaman penelitian,

penentuan tujuan dan rumusan masalah data mining.

b. Pemahaman Data(Data Understanding)

Dalam tahap ini dilakukan pengumpulan data, mengenali

lebih lanjut data yang akan digunakan.

c. Pengolahan Data(Data Preparation)

Tahap ini adalah pekerjaan berat yang perlu dilaksanakan

secara intensif. Memilih kasus atau variable yang ingin dianalisis,

melakukan perubahan pada beberapa variable jika diperlukan

sehingga data siap untuk dimodelkan.

15

d. Pemodelan(Modeling)

Memilih teknik pemodelan yang sesuai dan sesuaikan

aturan model untuk hasil yang maksimal. Dapat kembali ke tahap

pengolahan untuk menjadikan data ke dalam bentuk yang sesuai

dengan model tertentu.

e. Evaluasi (Evaluation)

Mengevaluasi satu atau model yang digunakan dan

menetapkan apakah terdapat model yang memenuhi tujuan pada

tahap awal. Kemudian menentukan apakah ada permasalahan yang

tidak dapat tertangani dengan baik serta mengambil keputusan

hasil penelitian.

f. Penyebaran (Deployment)

Menggunakan model yang dihasilkan seperti pembuatan

laporan atau penerapan proses data mining pada institusi lain.

2.2.4 Pembobotan atribut

Tidak semua atribut memiliki peranan penting dalam akurasi.

Pembobotan atribut adalah proses pemberian nilai pada setiap atribut

dengan metode tertentu berdasarkan tingkat pengaruhnya terhadap

nilai akurasi (Witten, 2011). Pembobotan atribut pada penelitian ini

menggunakan metode Particle Swarm Optimization (PSO).

2.2.5 Algoritma C4.5

Disebut juga dengan Desicion Tree adalah pengklasifikasian

statistik yang didasarkan pada Desicion Tree yang dapat digunakan

untuk memprediksi probabilitas keanggotaan suatu kelas. Desicion

Tree terbukti memiliki akurasi dan kecepatan yang tinggi saat

diaplikasikan ke dalam database yang besar (Kusrini, 2009).

16

Desicion Tree menyerupai struktur flowchart, yang masing-

masing internal node-nya dinyatakan sebagai atribut pengujian, setiap

cabang mewakili output dari pengujian, dan setiap node daun (terminal

node) menentukan label class. Node paling atas dari sebuah pohon

adalah node akar (Han & Kamber, 2007). Salah satu metode klasifikasi

yang menarik melibatkan konstruksi pohon keputusan, koleksi node

keputusan, terhubung oleh cabang-cabang, memperpanjang bawah dari

simpul akar sampai berakhir di node daun. Dimulai di node root, yang

oleh konvensi ditempatkan di bagian atas dari diagram pohon

keputusan, atribut diuji pada node keputusan, dengan setiap hasil yang

mungkin dihasilkan dalam suatu cabang. Setiap cabang kemudian

mengarah baik ke node lain keputusan atau ke node daun untuk

mengakhiri (Larose, 2005).

Gambar 2.2 Contoh pohon keputusan yang terbentuk (Santosa, 2007)

Beberapa tahap dalam membuat sebuah pohon keputusan dengan

algoritma C4.5 (kusrini & Lutfi, 2009), yaitu:

1. Menyiapkan data training. Data training biasanya diambil dari

data histori yang pernah terjadi sebelumnya dan sudah

dikelompokan ke dalam kelas kelas tertentu.

2. Menentukan akar dari pohon. Akar akan diambil dari atribut

yang terpilih, dengan cara menghitung nilai gain dari masing-

17

masing atribut, nilai gain yang paling tinggi yang akan menjadi

akar pertama. Sebelum menghitung gain dari atribut, hitung

dahulu nilai entropy yaitu:

(2.1)

Keterangan:

S : himpunan kasus

A : atribut

N : jumlah partisi S

Pi : proporsi dari Si terhadap S

3. Kemudian hitung nilai gain dengan metode informasi gain:

(2.2)

4. Ulangi langkah ke-2 hingga semua tupel terpartisi.

5. Proses partisi pohon keputusan akan berhenti saat:

a. Semua tupel dalam node N mendapat kelas yang sama.

b. Tidak ada atribut di dalam tupel yang dipartisi lagi.

c. Tidak ada tupel di dalam cabang yang kosong.

Langkah-langkah diatas digunakan untuk menangani atribut

nominal. Perhitungan dengan metode Entropy Based Discretization di

gunakan untuk menangani atribut yang bersifat kontinu. Metode ini

menggunakan entropy sebagai bagian dari proses pemisahan selang

data selang kontinu(Jiawei Han, 2001). Untuk menemukan nilai

pemisah yang terbaik maka harus dihitung nilai split ploint, nilai

informasi dari entropi antara 2 sample dengan rumus :

18

1. Urutkan data subset dari yang terkecil sampai yang terbesar.

2. Hitung rataan nilai per 2 data yang bersebelahan yang

digunakan untuk split point dengan formula 2.3. Setiap nilai

rata-rata merupakan titik nilai yang mungkin menjadi titik

perpecahan (split_point) untuk memilih titik terbaik, data akan

dipecah menurut titik yang diuji.

3. Hitung nilai informasi dari kedua sampel(Sₐ) dengan formula

2.5. Kemudian T(split point) yang memilki nilai informasi

terkecil diambil sebagai batas node.

(2.3)

(2.4)

(2.5)

Dimana, T merupakan nilai batas (split point)

2.2.5.1 Pruning dalam pohon keputusan

Untuk mendapatkan data yang benar benar sejenis, maka

akan terbentuk banyak sekali cabang dalam pohon keputusan.

Data yang terlalu beragam ataupun data acak akan membuat

struktur pohon keputusan menjadi terlalu rumit (Alpaydın,

2010). Di dalam pohon keputusan dikenal istilah pruning yaitu

memangkas cabang yang tidak terlalu besar pengaruhnya agar

diagram dihasilkan lebih akurat dan simple.

19

Ada dua pendekatan pruning yang digunakan :

a. Prepruning menghentikan proses pembuatan cabang pada

titik tertentu. Semakin besar perulangan pembuatan cabang

yang diperbolehkan, semakin besar pula kompleksitas dari

pohon keputusan yang didapat jika data beragam, namun

jika jumlah perulangan terlalu kecil, diagram pohon yang

dihasilkan menjadi kurang akurat.

b. Postpruning memotong cabang pohon yang kurang

mereprensentasikan data setelah sebuah pohon keputusan

terbentuk. Kelas yang diberikan akan diukur dari jumlah

persebaran label yang ada pada cabang tersebut.

Algoritma C4.5 menggunakan pessimistic pruning yang

mampu mengkalkulasi tingkat error yang digunakan sebagai

acuan dalam pemangkasan cabang pohon keputusan. Baik

postpruning dan prepruning dapat dikombinasikan karena

tidakada teknik yang lebih baik antara keduanya. Walaupun

pohonkeputusan yang muncul setelah pruning akan lebih

singkat, namun terkadang masih muncul repetisi dan replikasi

cabang.

Gambar 2.3 Pohon keputusan dengan cabang A5 tidak

konsisten(Desiyana, 2012)

20

Gambar 2.4 Pohon keputusan setelah di pruning(Desiyana, 2012)

2.2.6 Particle Swarm Optimization (PSO)

PSO adalah algoritma pencarian berbasis populasi yang

diinisialisasi dengan populasi solusi acak dan digunakan untuk

memecahkan masalah optimasi (Abraham, Grosan, & Ramos, 2006).

PSO adalah metode optimasi heuristic global yang diperkenalkan oleh

Dokter Kennedy dan Eberhart pada tahun 1995 berdasarkan penelitian

terhadap perilaku kawanan burung dan ikan (Bai, 2010).

Setiap partikel dalam PSO juga dikaitkan dengan kecepatan

partikel terbang melalui ruang pencarian dengan kecepatan yang

dinamis disesuaikan untuk perilaku historis mereka. Oleh karena itu,

partikel memiliki kecenderungan untuk terbang menuju daerah

pencarian yang lebih baik dan lebih baik selama proses pencarian

(Abraham, Grosan, & Ramos, 2006).

Rumus untuk menghitung perpindahan posisi dan kecepatan

partikel yaitu :

(2.6)

(2.7)

21

Dimana :

· Vi (t) = kecepatan partikel i saat iterasi t

· Xi (t) = posisi partikel i saat iterasi t

· c1 dan c2 = learning rates untuk kemampuan individu (cognitive)

dan pengaruh sosial (group)

· r1 dan r2 = bilangan random yang berdistribusi uniformal dalam

interval 0 dan 1

· XPbesti = posisi terbaik partikel i

· XGbest = posisi terbaik global

2.2.7 Cross validation

Cross validation adalah teknik pengambilan sampel secara

random yang menjamin setiap jumlah kemunculan data yang diamati

dama dengan jumlah data training dan hanya sekali pada data testing

(Vercellis, 2009). Dalam cross validation kita harus menetapkan

jumlah partisi atau fold, standar yang biasa digunakan untuk

memperoleh estimasi kesalahan terbaik adalah 10 kali partisi atau

tenfold cross-validation (Gorunescu, 2011). Data dibagi secara random

menjadi 10 bagian dengan perbandingan yang sama kemudian error

rate dihitung bagian demi bagian, selanjutnya error rate secara

keseluruhan diperoleh dari menghitung rata-rata error rate dari 10

bagian

.

Gambar 2.5 Ilustrasi tenfold cross validation

22

2.2.8 Confusion matrix

Untuk melakukan evaluasi terhadap model klasifikasi

berdasarkan perhitungan objek testing mana yang diprediksi benar dan

tidak benar. Perhitungan ini ditabulasikan kedalam tabel yang disebut

confusion matrix (Gorunescu, 2011). Confusion matrix merupakan

data set hanya memiliki dua kelas, kelas yang satu sebagai positif dan

kelas yang lain sebagai negatif. Terdiri dari empat sel yaitu True

Positives (TP), False Positives (FP), True Negatives (TN) dan False

Negatives (FN) (Max Bramer, 2007).

Gambar 2.6 Confusion matrix untuk 2 model kelas (Gorunescu, 2011)

Untuk menghitung akurasi menggunakan rumus (Gorunescu,

2011):

(2.8)

Tabel 2.2 Contoh confusion matrix

Model C4.5 Kelas yang prediksi

Kelas yang di amati 250 45

5 200

Dari table di atas dapat dilakukan pengukuran akurasi model

C4.5 sebagai berikut :

23

2.2.9 Kurva ROC

Kurva ROC menunjukan visualisasi dari akurasi model dan

perbandingkan perbedaan antar model klasifikasi. ROC

mengekspresikan confusion matrix (Vercellis, 2009). ROC adalah

grafik dua dimensi dengan false positives sebagai garis horizontal dan

true positives untuk mengukur perbedaaan performasi metode yang

digunakan. Kurva ROC adalah teknik untuk memvisualisasi dan

menguji kinerja pengklasifikasian berdasarkan performanya

(Gorunescu, 2011). Model klasifikasi yang lebih baik adalah yang

mempunyai kurva ROC lebih besar (Vercellis, 2009). Performa

keakurasian AUC dapat diklasifikasikan menjadi lima kelompok yaitu

(Gorunescu, 2011):

a. 0.90 – 1.00 = Unggul

b. 0.80 – 0.90 = Baik

c. 0.70 – 0.80 = Cukup

d. 0.60 – 0.70 = Kurang

e. 0.50 – 0.60 = Gagal

2.2.10 Kerangka pemikiran

Masalah yang ditemui pada penelitian ini adalah kurang

akuratnya algoritma C4.5 untuk memprediksikan kelulusan

mahasiswa. Maka digunakan model algoritma Particle Swarm

Optimization (PSO) dalam seleksi atribut pada algoritma C4.5 untuk

meningkatkan akurasi. Desain penelitian ini menggunakan CRISP-DM

dan RapidMiner digunakan sebagi aplikasi model untuk

pengembangannya. Kemudian dilakukan pengujian hasil terhadap

24

kinerja dari algoritma C4.5 dan algoritma C4.5 berbasis PSO dengan

menggunakan metode Cross Validation, tingkat akurasi algoritma

diukur dengan Confusion Matrix dan AUC dengan kurva ROC. Dari

hasil perbandingan nilai akurasi maka akan diketahui dampak

penerapan PSO di algoritma C4.5.

Gambar 2.7 Kerangka pemikiran

Pengujiaan

confusion matrix

dan AUC

Penerapan CRISP-

DMPengembanganmetodemasalah

Kurang akuratnya

algoritma C4.5 untuk

memprediksikan

kelulusan mahasiswa

Algoritma C4.5Rapid miner

framework

Data set mahasiswa

lulus tepat waktu dan

terlambatakurasi

Algoritma C4.5

berbasis PSO pada

seleksi atribut dan

bobot

Rapid miner

framework

Data set mahasiswa

lulus tepat waktu dan

terlambat

akurasi

25

BAB III

METODE PENELITIAN

3.1 Desain penelitian

Metode yang digunakan dalam penelitian ini adalah model CRISP-

DM, dengan langkah-langkah sebagai berikut :

3.1.1 Pengumpulan data

3.1.1.1 Pemahaman bisnis (Bussiness understanding)

Berbagai perguruan tinggi bersaing untuk

meningkatkan tingkat kelulusan sesuai dengan misi masing-

masing pergururuan tinggi dalam mendidik mahasiswa (yaitu

menghasilkan lulusan) yang akan menjadi anggota produktif

masyarakat dan berkontribusi terhadap kesejahteraan

ekonomi bangsa. Selain itu, masing-masing perguruan tinggi

mengetahui bahwa jumlah siswa yang putus diterjemahkan

sebagai hilangnya pendapatan bagi lembaga pendidikan

tersebut (Karamouiz & Vrettos, 2008). Penilaian publik

biasanya berdasar pada ketepatan lulus dari mahasiswa atau

siswa sebuah institusi pendidikan maka ini berpengaruh pada

tingkat kredibilitas dan eksisnya institusi tersebut.

Quadri et al(Quadri & Kalyankar, 2010) berpendapat

bahwa wisuda yang tepat waktu merupakan isu yang penting

karena tingkat kelulusan sebagai dasar efektifnya suatu

kelembagaan. Jika terjadi penurunan tingkat kelulusan secara

signifikan dan terus berkembang maka akan menjadi

permasalahan yang serius. Bahkan dapat mempengaruhi

akreditasi perguruan tinggi tersebut. Untuk itu pemantauan

dan evaluasi secara berkala terhadap kecenderungan tingkat

kelulusan mahasiswa diperlukan. Jadi, prediksi untuk

26

kelulusan sangat diperlukan untuk dapat memberikan

pertimbangan kebijakan yang akan diambil oleh lembaga

pendidikan setelah mengetahui kemungkinan aset mereka

berupa mahasiswa akan telat untuk kelulusannya.

3.1.1.2 Pemahaman data (Data understanding)

Data yang digunakan pada penelitian ini berasal dari

penelitian Hilda tahun 2012 level thesis STIMIK NUSA

MANDIRI JAKARTA yang berupa lampiran data kelulusan

mahasiswa berjumlah 1632 record dan terdiri dari 14 atribut,

dengan 9 atribut bertipe numerik dan 5 bertipe kategorikal.

Data tersebut digunakan oleh Hilda untuk dilakukan prediksi

kelulusan mahasiswa(Hilda, 2012).

Gambar 3.1 Data yang dilampirkan oleh Hilda (kolom status

terpotong)

27

Setelah data tersebut dilakukan penulisan kembali

dalam bentuk yang sama disimpan dengan ekstensi excel maka

tampilan data seperti dibawah ini :

Gambar 3.2 Data set dalam bentuk excel

3.1.2 Pengolahan Data (Data preparation)

Dalam tahap ini, data yang akan dipergunakan adalah

sebagai berikut :

Table 3.1 Kedudukan atribut yang akan digunakan

Atribut Kegunaan

NIP √ ID

NAMA X No

FALKULTAS √ regular(nilai model)

Jeniskelamin √ regular(nilai model)

Umur √ regular(nilai model)

IPS1 √ regular(nilai model)




IPS5 X No

IPS6 X No

IPS7 X No

IPS8 X No

STATUS √ Label (hasil)

28

Tabel 3.2 Ilustrasi Missing Data dan atribut yang akan

digunakan untuk pemodelan dalam bentuk excel

NIP FALKULTAS jeniskelamin umur IPS1 IPS2 IPS3 IPS4 STATUS

76183 ILMUPENDIDIKAN PEREMPUAN 21 3.44 3.43 3.91 3.45 TEPAT

70029 ILMUPENDIDIKAN PEREMPUAN 21 4 3.13 3.43 3.55 TEPAT

76152 ILMUPENDIDIKAN PEREMPUAN 0 2.9 3 3.03 TEPAT


Kemudian dari data diatas maka langkah berikutnya dilakukan

replace missing value berdasar pada model average yaitu

menggantikan nilai yang kosong dengan nilai rataan yang akan

muncul pada data traning tersebut.

Tabel 3.3 Contoh Data Traning yang telah di replace missing

value

NIP FALKULTAS jeniskelamin umur IPS1 IPS2 IPS3 IPS4 STATUS

76049 ILMUPENDIDIKAN LAKI-LAKI 27 0 0 2.76 2.99 TEPAT

76050 ILMUPENDIDIKAN PEREMPUAN 26 0 0 3 2.9 TEPAT


76149 ILMUPENDIDIKAN LAKI-LAKI 22 3.33 3.52 4 3.55 TEPAT


76152 ILMUPENDIDIKAN PEREMPUAN 24 0 2.9 3 3.03 TEPAT




3.1.3 Pemodelan (Modelling)

Terdapat dua metode yang digunakan yaitu algoritma C4.5

dan algoritma C4.5 yang dikombinasikan dengan algoritma PSO

pada seleksi atribut. Untuk membandingkan atau mengkomparasi

dalam penelitian ini akan menggunakan framework RapidMiner versi

5.3 sehingga akan ditemukan algoritma mana yang paling akurat.

29

act Gambaran umum data proses

start

replace missing v alue pada dataset

dengan model av erage

menghitung nilai ENTROPY dari total

data traning berdasar jumlah kasus

merujuk ke label/hasil

perhitungan

dikelompokkan per atribut

dari subset atribut yang

ada didalamnya

menghitung nilai

INFORMATION GAIN

data bersifat kontinyu ?

subset data dari atribut

diurutkan dari yang

terkecil ke yang terbesar

menghitung rata-rata nilai

dari tiap subset data yang

bersebelahan per 2 data

(MEAN)sebagai split point

menghitung nilai entropi

tersendiri untuk nilai

rataan/split point berdasar

nilai entropy yang

mengapitnya

menentukan nilai split

point yang diambil

berdasar information gain

atribut- entropi tersendiri

diambi split info nilainya

ter kecil

menghitung information

gain atribut tersebut

menetukan information

gain terbesar untuk

dijadikan node/tupel

tertinggi

menentukan simpul

berikutnya/node

dibawahnya

proses selesai ?

node terpil ih berupa nilai kontinyufinish

nilai / range nilai node diatasnya

sebagai batas dan tidak bisa

muncul di node bawahnya

menghitung nilai ENTROPY tiap

atribut yang memiliki subset

berdasar jumlah kasus merujuk ke

label/hasil

optimasi pso ?Pemberian bobot pada tiap

atribut

menghitung nilai entropy

tiap atribut dikalikan bobot

menghitung nilai

information gain dari

entropy

data bersifat kontinu ?

Setiap

perhitungan

information

gain, entropi

berdasar

nilai bobot

untuk

menentukan

split point menghitung information

gain berdasar bobot

node subset atribut

sebagai batas untuk

perhitungan node

dibawahnya[tidak]

[ya]

[tidak]

[tidak]

[ya]

[ya]

[tidak]

[ya]

[tidak]

[ya]

Modelling

C4.5

Modelling

C4.5 + PSO

Data set

Preprocesing

Replace Missing value

New data set

Traning Data

Traning Data

Evaluation

Confusion Matrix

Kurva ROC

Data testing Data testing

Compare

- Accuracy

- AUC Perform

Gambar 3.3 Model yang di usulkan

Gambar 3.4 Model proses yang di usulkan

30

Setelah memodelkan alur proses yang akan dilakukan, maka akan

ilakukan pembentukan pohon keputusan. Perhitungan secara manual

diberikan berdasar model C4.5 dan C4.5+PSO pada sub-bab dibawah ini.

3.1.3.1 Model C4.5

Beberapa tahap dalam membuat sebuah pohon keputusan

dengan algoritma C4.5 (kusrini & Lutfi, 2009), yaitu:

1. Menyiapkan data training. Data training biasanya

diambil dari data histori yang pernah terjadi

sebelumnya dan sudah dikelompokan ke dalam kelas

kelas tertentu.

2. Menentukan akar dari pohon. Akar akan diambil dari

atribut yang terpilih, dengan cara menghitung nilai gain

dari masing-masing atribut, nilai gain yang paling tinggi

yang akan menjadi akar pertama. Sebelum menghitung

gain dari atribut, hitung dahulu nilai entropy yaitu:

Table 3.4 Jumlah kasus dari tiap atribut

Simpul Kasus Tepat Terlambat

Jumlahkasus 1632 684 948

fakultas

bahasa dan seni 267 167 100

ekonomi 290 187 103

ilmu keolahragaan 91 3 88

ilmu pendidikan 377 137 240

ilmu sosial 228 100 128

matematika dan ipa 208 46 162

teknik 171 44 127

jenis kelamin

laki-laki 517 155 362

perempuan 1115 529 586

Dst

31

(3.1)

Etotalkasus(684,948) = - (684/1632)*log2(684/1632)-

(948/1632)*log2(948/1632)

= 0.981

Dengan perhitungan yang sama dilakukan terhadap tiap

atribut dengan berdasar pada pengelompokan jumlah kasus

pada tiap atribut dan subset atribut didalamnya.

3. Kemudian hitung nilai gain dengan metode informasi

gain:

(3.2)

Contoh perhitungan gain pada atribut fakultas berdasar

jumlah kasus per subset atribut yaitu:

Ebahasa&seni(167,100)= -(167/267)*log2(167/267)-

(100/267)*log2(100/267)

= 0.954

Eekonomi(187,103) = - (187/290)*log2(187/290)-

(103/290)*log2(103/290)

= 0.939

Eilmuolahraga(3,88) = - (3/91)*log2(3/91)-

(88/91)*log2(88/91)

= 0.209

32

Eilmpendidikn(137,240) = - (137/377)*log2(137/377)-

(240/377)*log2(240/377)

= 0.945

Eilmusosial(100,128) = - (100/228)*log2(100/228)-

(128/228)*log2(128/228)

= 0.989

Emtk&ipa(46,162) = - (46/208)*log2(46/208)-

(162/208)*log2(162/208)

= 0.762

Eteknik(44,127) = - (44/171)*log2(44/171)-

(127/171)*log2(127/171)

= 0.823

Setelah perhitungan subset atribut diatas, maka

lanjutkan menghitung information gain yaitu :

Gain = 0.981-( (267/1632 * 0.954 )+(290/1632*0.939)+

(91/1632*0.209)+(377/1632*945)+(228/1632*98

9)+(208/1632*0.762)+(171/1632*0.823) )

= 0.107

4. Ulangi langkah ke-2 hingga semua tupel terpartisi.

5. Proses partisi pohon keputusan akan berhenti saat:

a. Semua tupel dalam node N mendapat kelas yang sama.

b. Tidak ada atribut di dalam tupel yang dipartisi lagi.

c. Tidak ada tupel di dalam cabang yang kosong.

33

Perhitungan gain selengkapnya akan ditampilkan pada

table berikut ini :

Tabel 3.5 Hasil perhitungan gain untuk menentukan

node tertinggi

Simpul Kasus Tepat Terlambat entropi S/Stotal*E Gain

Jumlahkasus 1632 684 948 0.981041

Fakultas

bahasa dan seni 267 167 100 0.954088 0.156092 0.106567

Ekonomi 290 187 103 0.938603 0.166786

ilmu keolahragaan 91 3 88 0.20906 0.011657

ilmu pendidikan 377 137 240 0.945465 0.218407

ilmu social 228 100 128 0.989093 0.138182

matematika dan ipa 208 46 162 0.762269 0.097152

Teknik 171 44 127 0.82266 0.086198

jenis kelamin

laki-laki 517 155 362 0.881054 0.279109 0.02001

Perempuan 1115 529 586 0.998114 0.681922

Umur

<= 22.5 532 468 64 0.530225 0.172843 0.326546

>22.5 1100 216 884 0.714595 0.481651

IP1 0.805966 0.175075

IP2 0.869968 0.111073

IP3 0.893624 0.087416

IP4 0.874877 0.106164

Perhitungan dengan metode Entropy Based Discretization di

gunakan untuk menangani atribut yang bersifat kontinu. Metode ini

menggunakan entropy sebagai bagian dari proses pemisahan selang

data selang kontinu(Jiawei Han, 2001). Untuk menemukan nilai

pemisah yang terbaik maka harus dihitung nilai split ploint, nilai

informasi dari entropi antara 2 sample dengan rumus :

Table 3.6 Jumlah kasus yang terjadi pada subset atribut bersifat

kontinu

umur jumlah kasus tepat Terlambat

1632 684 948

20 1 1 0

21 67 67 0

22 464 400 64

23 487 125 362

24 267 59 208

25 151 14 137

26 70 6 64

27 40 2 38

Dst

34

1. Urutkan data subset dari yang terkecil sampai yang terbesar.

Contoh perhitungan pada atribut umur sebagai berikut :

2. Hitung rataan nilai per 2 data yang bersebelahan yang

digunakan untuk split point . Setiap nilai rata-rata merupakan

titik nilai yang mungkin menjadi titik perpecahan (split_point)

untuk memilih titik terbaik, data akan dipecah menurut titik

yang diuji.

(3.3)

3. Hitung nilai informasi dari kedua sampel(Sₐ). Kemudian T(split

point) yang memilki nilai informasi terkecil diambil sebagai

batas node. Rumus yang digunakan :

(3.4)

(3.5)

Dimana, T merupakan nilai batas (split point)

Dari perhitungan diatas, maka diperoleh nilai informasi

terkecil ialah split point pada 22.5 dengan nilai informasinya

adalah –0.04585.

35

Table 3.7 Split point yang digunakan

pemilihan split terbaik Status

Split point Nilai informasi

20.5 0.363902 no

21.5 0.199343 no

22.5 -0.04585 yes

23.5 -0.00595 no

24.5 0.198029 no

25.5 0.304585 no

Dst

3.1.3.2 Model C4.5 dioptimasi PSO

Simulasi pembobotan atribut dengan PSO dihitung

berdasar rumus :

(3.6)

(3.7)

Akan ditampilkan seperti tabel dibawah ini dengan

pemisalan menggunakan 15 sampel subset data dalam

atribut yang dipilih secara acak dan iterasi sebanyak 25 kali

untuk menemukan nilai bobot yang terbaik untuk tiap

atribut yaitu minimal dengan nilai 0 atau maksimal dengan

nilai 1.

Tabel 3.8 Hasil perhitungan bobot dari iterasi ke-1 sampai

itersasi ke-25

iterasi fakultas jenis

kelamin umur IPS1 IPS2 IPS3 IPS4

1 0.865 0.244 0.974 0.883 0.487 0.866 0.679

2 0.865 0.244 0.974 0.883 0.487 0.866 0.679

3 0.660 0 1 1 0.402 1 0.674

4 0.417 0.305 0.768 1 0.195 1 1

5 0.349 0.343 0.767 1 0.200 1 0.970

6 0.307 0.363 0.770 1 0.204 1 0.912

36

7 0.279 0.375 0.774 1 0.207 1 0.870

8 0.259 0.383 0.778 0.209 1 0.837

9 0.243 0.388 0.781 1 0.211 1 0.811

10 0.231 0.392 0.785 1 0.213 1 0.791

11 0.221 0.395 0.788 1 0.214 1 0.773

12 0.214 0.397 0.791 1 0.215 1 0.759

13 0.207 0.398 0.793 1 0.216 1 0.747

14 0.201 0.399 0.795 1 0.216 1 0.736

15 0.197 0.400 0.797 1 0.217 1 0.727

16 0.193 0.401 0.799 1 0.218 1 0.719

17 0.189 0.402 0.801 1 0.218 1 0.712

18 0.186 0.402 0.802 1 0.218 1 0.706

19 0.183 0.403 0.804 1 0.219 1 0.700

20 0.322 0 0.747 1 0 1 0

21 0.324 0 0.737 1 0 1 0

22 0.868 0.565 0.969 1 0 1 0

23 0.869 0.574 0.937 1 0 1 0

24 0.873 0.352 0.890 1 0 1 0.694

25 0.875 0.358 0.862 1 0 1 0.733

Berdasar perhitungan diatas, maka bobot memiliki

kecenderungan untuk mendekati nilai minimum dan

maksimum nilai ketika bobot tersebut mendekati nilai 0

lebih banyak daripada nilai 1 dalam rangkaian iterasi maka

dimungkinkan untuk iterasi selanjutnya bobotnya keluar

nilai 0, ketika nilai bobot tersebut mendekati nilai 1 lebih

banyak daripada nilai 0 dalam rangkaian iterasi maka

dimungkinkan untuk iterasi selanjutnya bobotnya keluar

nilai 1, dan jika nilai bobot tersebut bernilai antara 0 dan 1

maka kecenderungan nilai bobot akan menuju ke nilai

maksimum.

Langkah-langkah perhitungan weighting PSO pada

C4.5 seperti dibawah ini :

37

1. Setelah nilai weighting/bobot di peroleh untuk

tiap atribut. Kemudian dilakukan perkalian

bobot dengan probabilitas atribut atau subset

atribut (ping yau, 2009) merujuk pada (kai ming

ting, 2002). Dengan perhitungan sebagai

berikut:

Jika nilai bobot belum terpenuhi penerapan pada

C4.5.

a. Perhitungan probabilitas

(3.8)

b. Perhitungan bobot untuk tiap atribut

(3.9)

c. Perhitungan bobot untuk subset atribut

(3.10)

Keterangan :

p(j|t) : probabilitas

sampel

n(j)ᵗ : banyak sampel

∑n(i)ᵗ : total sampel

∑niʷ(t) : total sampel

yang memiliki bobot

pw(j|t) : prob. Bobot

w(j) : bobot atribut

njʷ(t) : nilai atribut

yang memiliki bobot

2. Bobot dikalikan dengan probabilitas sampel,

kemudian menghitung nilai entropi untuk tiap

sampel kasus menggunakan formula 3.1.

38

3. Menghitung nilai information gain dari entropi

yang telah ditentukan dilangkah kedua sesuai

formula 3.2.

4. Menghitung nilai split info berdasar formula 3.3.

5. Setelah ditemukan nilai information gain dan

nilai info, maka dihitung nilai informasi split

point dan diambil split point yang memiliki nilai

terkecil.

(3.11)

Keterangan :

Gainweight : nilai information gain dari

perhitungan entropi yang telah

dikalikan bobot.

Eweight(E,S): total entropi dari dua sampel

yang bersebelahan sesuai

entropi yang telah diberi bobot.

Dari perhitungan diatas yang berdasar pada weight, maka

diperoleh nilai informasi terkecil ialah split point pada 22.5

dengan nilai informasinya adalah 0.521718.

Table 3.9 Split point berdasar weight yang digunakan

pemilihan split terbaik

Status Split point Nilai informasi

20.5 0.699577 No

21.5 0.615132 No

22.5 0.521718 yes

23.5 0.555593 No

24.5 0.62234 No

25.5 0.660614 No

Dst

39

3.1.4 Validasi dan evaluasi

Dalam tahap ini dilakukan validasi dan pengukuran

keakuratan hasil yang dicapai oleh model menggunakan beberapa

teknik yang terdapat dalam framework RapidMiner versi 5.3 yaitu

confusion matrix dan kurva ROC untuk pengukuran akurasi model,

dan cross-validation untuk validasi.

Tabel 3.10 Confusion matrik C4.5

C4.5 true TEPAT true TERLAMBAT

pred. TEPAT 507 82

pred. TERLAMBAT 177 866

Dari table tersebut dapat dihitung akurasinya sebagai berikut :

3.1.5 Penyebaran (Deployment)

Hasil penelitian ini adalah analisa yang mengarah ke

Decission Suport System (DSS) dapat digunakan oleh institusi

pendidikan setingkat perguruan tinggi untuk memberikan

pertimbangan dalam penentuan langkah selanjutnya menangani

masalah keterlambatan kelulusan dari mahasiswa yang

mempengaruhi akreditasi perguruan tinggi, penilaian sosial

masyarakat, dan juga dapat digunakan untuk rujukan penelitian

berikutnya serta dapat digunakan sebagai dasar perancangan sebuah

sistem.

40

3.2 Alat penelitian

Dalam penelitian ini penulis menggunakan spesifikasi software dan

hardware sebagai alat bantu dalam penelitian yang tercantum pada tabel 3.11

dibawah ini.

Software Hardware

Sistem operasi : Windows 7

Ultimate

Prosesor : Intel(R) Core(TM)2Duo

CPU P7570 @2.26Ghz

2.26Ghz

Data mining : RapidMiner versi

5.3.008

RAM : 2.00 GB

41

BAB IV

HASIL DAN PEMBAHASAN

4.1 Validasi dan Evaluasi

Tujuan utama penelitian ini adalah untuk mengetahui nilai akurasi

dari algoritma C4.5 dan C4.5 berbasis PSO pada pembobotan atribut yang

digunakan akan berpengaruh pada hasil pohon keputusan yang terbentuk.

Kemudian, berdasar tingkat akurasi dan kurva AUC digunakan untuk

membandingkan kedua algoritma tersebut sehingga dapat diperoleh salah

satu algoritma yang terbaik.

Penggunaan parameter berpengaruh pada hasil akurasi dan model

yang akan dihasilkan oleh algoritma C4.5. Sesuai perhitungan sebelumnya

menggunakan information gain, maka setting parameter yang digunakan

adalah sebagai berikut :

Gambar 4.1 Setting parameter pada rapidminer

Untuk menentukan akurasi dari setiap algoritma, penelitian ini

menggunakan metode validasi tenfold cross-validation. Desain model C4.5

yang terdapat pada RapidMiner seperti gambar 4.2.

42

Gambar 4.2 Desain model validasi C4.5

Retrieve berfungsi untuk memasukan data set ke dalam RapidMiner.

Model C4.5 ini menggunakan Entropy by Dizcretization yaitu transformasi

atribut menciptakan kelompok nilai batas rentang terbaik sehingga jumlah

nilai yang unik dalam kelompok rentang hampir sama. Validation

menggunakan tenfold cross-validation. Didalam validation terdapat dua

kolom, training dan testing. Didalam kolom training terdapat algoritma

klasjikaikasi yang diterapkan yaitu C4.5, sedangkan di dalam kolom testing

terdapat Apply Model untuk menjalankan algoritma/model C4.5 dan

Performance untuk mengukur performa dari model C4.5 tersebut.

43

Sedangkan desain model C4.5 berbasis PSO pada pembobotan

atribut pada Rapidminer dapat dilihat pada gambar 4.3.

Gambar 4.3 Desain model validasi C4.5 berbasis PSO

Optimize Weights (PSO) untuk menerapkan algoritma PSO pada

pembobotan atribut. Didalam Optimize Weights (PSO) terdapat Validation

yang menggunakan tenfold cross-validation. Didalam validation terdapat

dua kolom, training dan testing. Didalam kolom training terdapat algoritma

klasjikaikasi yang diterapkan yaitu C4.5, sedangkan di dalam kolom testing

terdapat Apply Model untuk menjalankan algoritma/model C4.5 dan

Performance untuk mengukur performa dari model C4.5 tersebut.

44

4.2 Hasil percobaan dan pengujian metode

4.2.1 C4.5

Hasil pemodelan yang telah diproses oleh tools RapidMiner

adalah sebagai berikut :

Gambar 4.4 Hasil perhitungan nilai akurasi dari C4.5 yang

ditampilkan oleh RapidMiner

Gambar 4.5 Hasil peforma AUC dari C4.5 yang ditampilkan oleh

RapidMiner

45

Tabel 4.1 Hasil akurasi dan AUC dari C4.5

Percobaaan C4.5 lama

waktu

eksekusi Akurasi performa AUC

1 84.13% 0.837 3 s

2 84.13% 0.837 3 s

Hasil di atas menunjukan algoritma C4.5 yang diterapkan

pada data set kelulusan mahasiswa (Hilda, 2012) data menghasilkan

nilai akurasi confusion matrix sebesar 84.13% dan akurasi AUC

0,837 dalam selang waktu 3 detik.

4.2.2 C4.5 berbasis PSO

Pertama, dilakukan uji coba dengan memberi nilai pada

parameter population size dan maximum number of generation

bernilai default yaitu 5 dan 30.

Table 4.2 Hasil percobaan menggunakan population size dan

maximum number of generation secara berbeda

C4.5+pso lama waktu

eksekusi parameter pso akurasi performa AUC

85.54% 0.865 4 m 30 s default

85.54% 0.865 4 m 53 s default

85.79% 0.868 10 m 05 s posize=10,generate=30





85.90% 0.870 37 m posize=25,generate=50


46

Gambar 4.6 Grafik perbedaan tingkat akurasi C4.5-PSO berdasar

pada population size dan maximum number of generation

Gambar 4.7 Grafik perbedaan peforma AUC C4.5-PSO berdasar

pada population size dan maximum number of generation

85.17%

85.17%

85.79%

85.79%

86.09%

85.85%

86.09%

85.90%

85.97%

84.60%

84.80%

85.00%

85.20%

85.40%

85.60%

85.80%

86.00%

86.20%

Tingkat akurasi

0.896

0.8960.868

0.868

0.883

0.865

0.883

0.87

0.875

0.8450.85

0.8550.86

0.8650.87

0.8750.88

0.8850.89

0.8950.9

Kurva AUC

47

Dari table diatas menunjukkan hasil akurasi dari maximum

number of generation 15 sampai 40 sudah konvergen. Atrinya hasil

akurasi sudah maksimal, jika dilakukan percobaan lagi dengan

maximum number of generation lebih dari 40 maka akan terjadi

overfiting (kelebihan iterasi) yang berdampak pada meningkatnya

waktu eksekusi sedangkan hasil akurasi tidak meningkat. Dengan

demikian diketahui bahwa algoritma C4.5-PSO menghasilkan nilai

akurasi terbaik pada saat population size bernilai 15 dan maximum

number of generation bernilai 40 yaitu akurasi bernilai 86,09 % dan

AUC 0,883 dengan waktu eksekusi 20 menit 23 detik.

Gambar 4.8 Hasil perhitungan akurasi dari C4.5-PSO yang

ditampilkan oleh RapidMiner berdasar pada population size

bernilai 15 dan maximum number of generation bernilai 40

48

Gambar 4.9 Hasil peforma AUC dari C4.5-PSO yang ditampilkan

oleh RapidMiner berdasar pada population size bernilai 15 dan

maximum number of generation bernilai 40

Setelah melakukan pemodelan dan perhitungan berdasar

kedua algoritma diatas, kemudian dilakukan perbandingan hasil yang

berupa nilai akurasi dan peforma AUC. Maka diperoleh data

perbandingan sebagai berikut :

Tabel 4.3 Hasil komparasi C4.5 dan C4.5-PSO

Perbandingan C4.5 C4.5-PSO

Akurasi confusion matrix (%) 84.13% 86.09%

performa AUC 0.837 0.883

Waktu eksekusi 3 s 20 m 23 s

Table 4.3 merupakan hasil akhir percobaan. Memperlihatkan

perbandingan akurasi dan AUC antara algoritma C4.5 dan

algoritma C4.5-PSO.

49

Gambar 4.10 Grafik perbedaan tingkat akurasi antara C4.5

dengan C4.5-PSO

Gambar 4.11 Grafik perbedaan peforma AUC antara C4.5

dengan C4.5-PSO

Pembobotan atribut diperlukan karena tidak semua atribut

mempunyai pengaruh terhadap hasil akurasi. Hasil dari pembobotan

atribut oleh PSO pada saat hasil akurasi terbaik dapat dilihat pada

tabel 4.4.

81.00%

82.00%

83.00%

84.00%

85.00%

86.00%

87.00%

C4.5 C4.5+PSO

84.13%

86.09%

Perbedaan Akurasi

0.837

0.883

0.81

0.82

0.83

0.84

0.85

0.86

0.87

0.88

0.89

C4.5 C4.5+PSO

Perbedaan kurva AUC

peforma

50

Table 4.4 Hasil pembobotan atribut

Atribut Bobot

FALKULTAS 1

jeniskelamin 0

umur 1

IPS1 1

IPS2 0

IPS3 1

IPS4 0

Terdapat 7 atribut yang digunakan, dan 3 atribut bobotnya

bernilai 0 atau tidak berpengaruh terhadap akurasi yaitu jenis

kelamin, IPS2, IPS4. Beberapa atribut tersebut jika dihilangkan

dimungkinkan tidak akan mempengarui hasil akurasi.

Bobot dari atribut yang bernilai 1 dapat dimungkinkan

mempengaruhi hasil akurasi secara signjikaikan. Terdapat 4 atribut

yang bobotnya 1 yaitu fakultas, umur, IPS1, IPS3.

4.3 Pembahasan

Percobaan pada penelitian ini menggunakan RapidMiner 5.3.008.

Algoritma yang digunakan adalah C4.5 dan C4.5-PSO untuk pembobotan

atribut. Validasinya menggunakan tenfold cross-validation, sedangkan

pengukuran performanya menggunakan confusion matrix dan kurva ROC.

Nilai dari population size dan maximum number of generation pada

PSO diubah-ubah untuk meningkatkan kinerja PSO yang berdampak pada

peningkatan akurasi.

Berdasarkan hasil percobaan, diperoleh akurasi C4.5-PSO tertinggi

terjadi pada saat population size bernilai 15 dan maximum number of

generation bernilai 40. Akurasi C4.5-PSO 86,09%, dan AUC 0,883

sedangkan akurasi C4.5 hanya 84.13% dan AUC 0.837.

51

Hal tersebut membuktikan bahwa PSO yang diterapkan pada

pembobotan atribut meningkatkan akurasi C4.5. Akurasi meningkat 1,96%

sedangkat AUC meningkat 0,046. Dengan hasil pembobotan atribut yaitu 3

atribut mempunyai bobot 0, dan 4 atribut mempunyai bobot 1.

4.4 Hasil pemodelan pohon keputusan dan Ruleₐ

4.4.1 Model C4.5 berbasis PSO

Gambar 4.12 Hasil pemodelan tree C4.5-PSO bagian 1(kiri)

52

Gambar 4.13 Hasil pemodelan tree C4.5-PSO bagian 2(tengah)

53

Gambar 4.14 Hasil pemodelan tree C4.5-PSO bagian 3(kanan)

54

Rule yang tercipta dari gambar hasil pemodelan diatas adalah

sebagai berikut R₍n₊₊), n=1 :

1) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =

BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 > 3.865 MAKA

TERLAMBAT


BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur > 23.500

DAN umur > 25.500 MAKA TEPAT



DAN umur ≤ 25.500 DAN IPS4 > 3.230 DAN IPS4 > 3.475 DAN IPS4 > 3.570

MAKA TEPAT



DAN umur ≤ 25.500 DAN IPS4 > 3.230 DAN IPS4 > 3.475 DAN IPS4 ≤ 3.570

MAKA TERLAMBAT



DAN umur ≤ 25.500 DAN IPS4 > 3.230 AND IPS4 ≤ 3.475 MAKA TEPAT



DAN umur ≤ 25.500 AND IPS4 ≤ 3.230 MAKA TERLAMBAT


BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur ≤ 23.500

MAKA TEPAT


BAHASADANSENI DAN IPS3 ≤ 2.975 DAN IPS2 > 3.170 MAKA

TERLAMBAT


BAHASADANSENI DAN IPS3 ≤ 2.975 DAN IPS2 ≤ 3.170 DAN jeniskelamin

= LAKI-LAKI MAKA TERLAMBAT


BAHASADANSENI DAN IPS3 ≤ 2.975 DAN IPS2 ≤ 3.170 DAN jeniskelamin =

PEREMPUAN MAKA TEPAT

55

11) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = EKONOMI

MAKA TEPAT


ILMUKEOLAHRAGAAN MAKA TERLAMBAT


ILMUPENDIDIKAN MAKA TERLAMBAT

14) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = ILMUSOSIAL

MAKA TERLAMBAT


MATEMATIKADANIPA DAN umur > 23.500 MAKA TERLAMBAT


MATEMATIKADANIPA DAN umur ≤ 23.500 DAN IPS3 > 2.905 MAKA

TEPAT


MATEMATIKADANIPA DAN umur ≤ 23.500 DAN IPS3 ≤ 2.905 MAKA

TERLAMBAT

18) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = TEKNIK DAN

umur > 24.500 DAN IPS1 > 3.395 MAKA TERLAMBAT


umur > 24.500 DAN IPS1 ≤ 3.395 MAKA TEPAT


umur ≤ 24.500 MAKA TERLAMBAT

21) JIKA umur > 22.500 DAN IPS1 ≤ 3.235 MAKA TERLAMBAT

22) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =

BAHASADANSENI MAKA TEPAT

23) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = EKONOMI DAN

IPS1 > 3.205 MAKA TEPAT


IPS1 ≤ 3.205 DAN IPS3 > 3.095 DAN IPS1 > 2.900 MAKA TEPAT


IPS1 ≤ 3.205 DAN IPS3 > 3.095 DAN IPS1 ≤ 2.900 MAKA TERLAMBAT


IPS1 ≤ 3.205 DAN IPS3 ≤ 3.095 MAKA TEPAT


ILMUKEOLAHRAGAAN DAN IPS1 > 3.270 MAKA TEPAT

56


ILMUKEOLAHRAGAAN DAN IPS1 ≤ 3.270 MAKA TERLAMBAT


ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 > 3.400

MAKA TEPAT


ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400

DAN IPS4 > 3.610 DAN IPS2 > 3.245 MAKA TEPAT



DAN IPS4 > 3.610 DAN IPS2 ≤ 3.245 MAKA TERLAMBAT



DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 > 3.310 DAN IPS4 > 3.300

DAN IPS3 > 3.740 MAKA TEPAT



DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 > 3.310 DAN IPS4 > 3.300

DAN IPS3 ≤ 3.740 MAKA TERLAMBAT



DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 > 3.310 DAN IPS4 ≤ 3.300

MAKA TEPAT



DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 ≤ 3.310 MAKA TEPAT



DAN IPS4 ≤ 3.610 DAN IPS3 ≤ 3.425 MAKA TEPAT


ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 ≤ 2.950 DAN IPS2 > 3.045

DAN IPS4 > 3.050 MAKA TERLAMBAT



DAN IPS4 ≤ 3.050 MAKA TEPAT

57


ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 ≤ 2.950 DAN IPS2 ≤ 3.045

MAKA TEPAT


ILMUPENDIDIKAN DAN IPS1 ≤ 3.080 DAN IPS4 > 3.275 MAKA

TERLAMBAT


ILMUPENDIDIKAN DAN IPS1 ≤ 3.080 DAN IPS4 ≤ 3.275 DAN IPS2 > 3.070

MAKA TERLAMBAT


ILMUPENDIDIKAN DAN IPS1 ≤ 3.080 DAN IPS4 ≤ 3.275 DAN IPS2 ≤ 3.070

MAKA TEPAT

43) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUSOSIAL

DAN IPS2 > 2.740 DAN IPS1 > 3.780 MAKA TERLAMBAT


DAN IPS2 > 2.740 DAN IPS1 ≤ 3.780 MAKA TEPAT


DAN IPS2 ≤ 2.740 DAN IPS2 > 2.610 MAKA TEPAT


DAN IPS2 ≤ 2.740 DAN IPS2 ≤ 2.610 MAKA TERLAMBAT


MATEMATIKADANIPA DAN IPS4 > 2.900 MAKA TEPAT


MATEMATIKADANIPA DAN IPS4 ≤ 2.900 DAN IPS2 > 3.165 MAKA TEPAT


MATEMATIKADANIPA DAN IPS4 ≤ 2.900 DAN IPS2 ≤ 3.165 MAKA

TERLAMBAT

50) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = TEKNIK DAN

IPS1 > 3.075 DAN IPS2 > 3.525 MAKA TEPAT


IPS1 > 3.075 DAN IPS2 ≤ 3.525 DAN IPS1 > 3.235 MAKA TEPAT


IPS1 > 3.075 DAN IPS2 ≤ 3.525 DAN IPS1 ≤ 3.235 MAKA TERLAMBAT


IPS1 ≤ 3.075 MAKA TEPAT

54) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS =

BAHASADANSENI DAN IPS1 > 2.590 MAKA TEPAT

58



TERLAMBAT


BAHASADANSENI DAN IPS1 ≤ 2.590 DAN IPS1 ≤ 2.435 MAKA TEPAT

57) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = EKONOMI

MAKA TEPAT





60) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = ILMUSOSIAL





MATEMATIKADANIPA DAN IPS3 > 2.545 DAN IPS4 > 3.205 MAKA

TERLAMBAT


MATEMATIKADANIPA DAN IPS3 > 2.545 DAN IPS4 ≤ 3.205 MAKA TEPAT


MATEMATIKADANIPA DAN IPS3 ≤ 2.545 MAKA TERLAMBAT

65) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = TEKNIK DAN

IPS2 > 2.550 MAKA TERLAMBAT



59

4.4.2 Model C4.5

Gambar 4.15 Hasil pemodelan tree C4.5 bagian 1(kiri)

60

Gambar 4.16 Hasil pemodelan tree C4.5 bagian 2(tengah)

61

Gambar 4.17 Hasil pemodelan tree C4.5 bagian 3(kanan)

62

Rule yang tercipta dari gambar hasil pemodelan diatas adalah

sebagai berikut R₍n₊₊), n=1 :


BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 > 3.865 MAKA

TERLAMBAT


BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur >

23.500 DAN umur > 25.500 MAKA TEPAT



23.500 DAN umur ≤ 25.500 DAN IPS4 > 3.230 DAN IPS4 > 3.475 DAN IPS4

> 3.570 MAKA TEPAT



23.500 DAN umur ≤ 25.500 DAN IPS4 > 3.230 DAN IPS4 > 3.475 DAN IPS4

≤ 3.570 MAKA TERLAMBAT



23.500 DAN umur ≤ 25.500 DAN IPS4 > 3.230 AND IPS4 ≤ 3.475 MAKA

TEPAT



23.500 DAN umur ≤ 25.500 AND IPS4 ≤ 3.230 MAKA TERLAMBAT


BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur ≤

23.500 MAKA TEPAT {TEPAT=24, TERLAMBAT=2}



TERLAMBAT


BAHASADANSENI DAN IPS3 ≤ 2.975 DAN IPS2 ≤ 3.170 DAN

jeniskelamin = LAKI-LAKI MAKA TERLAMBAT

63


BAHASADANSENI DAN IPS3 ≤ 2.975 DAN IPS2 ≤ 3.170 DAN jeniskelamin

= PEREMPUAN MAKA TEPAT

11) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = EKONOMI

MAKA TEPAT





14) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = ILMUSOSIAL

MAKA TERLAMBAT


MATEMATIKADANIPA DAN umur > 23.500 MAKA TERLAMBAT


MATEMATIKADANIPA DAN umur ≤ 23.500 DAN IPS3 > 2.905 MAKA

TEPAT


MATEMATIKADANIPA DAN umur ≤ 23.500 DAN IPS3 ≤ 2.905 MAKA

TERLAMBAT


umur > 24.500 DAN IPS1 > 3.395 MAKA TERLAMBAT


umur > 24.500 DAN IPS1 ≤ 3.395 MAKA TEPAT


umur ≤ 24.500 MAKA TERLAMBAT

21) JIKA umur > 22.500 DAN IPS1 ≤ 3.235 MAKA TERLAMBAT


BAHASADANSENI MAKA TEPAT

23) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = EKONOMI



DAN IPS1 ≤ 3.205 DAN IPS3 > 3.095 DAN IPS1 > 2.900 MAKA TEPAT


DAN IPS1 ≤ 3.205 DAN IPS3 > 3.095 DAN IPS1 ≤ 2.900 MAKA

TERLAMBAT

64


DAN IPS1 ≤ 3.205 DAN IPS3 ≤ 3.095 MAKA TEPAT


ILMUKEOLAHRAGAAN DAN IPS1 > 3.270 MAKA TEPAT


ILMUKEOLAHRAGAAN DAN IPS1 ≤ 3.270 MAKA TERLAMBAT


ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 >

3.400 MAKA TEPAT


ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤

3.400 DAN IPS4 > 3.610 DAN IPS2 > 3.245 MAKA TEPAT



3.400 DAN IPS4 > 3.610 DAN IPS2 ≤ 3.245 MAKA TERLAMBAT



3.400 DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 > 3.310 DAN IPS4 >

3.300 DAN IPS3 > 3.740 MAKA TEPAT



3.400 DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 > 3.310 DAN IPS4 >

3.300 DAN IPS3 ≤ 3.740 MAKA TERLAMBAT



3.400 DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 > 3.310 DAN IPS4 ≤

3.300 MAKA TEPAT



3.400 DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 ≤ 3.310 MAKA

TEPAT



3.400 DAN IPS4 ≤ 3.610 DAN IPS3 ≤ 3.425 MAKA TEPAT



DAN IPS4 > 3.050 MAKA TERLAMBAT

65



DAN IPS4 ≤ 3.050 MAKA TEPAT


ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 ≤ 2.950 DAN IPS2 ≤ 3.045

MAKA TEPAT


ILMUPENDIDIKAN DAN IPS1 ≤ 3.080 DAN IPS4 > 3.275 MAKA

TERLAMBAT


ILMUPENDIDIKAN DAN IPS1 ≤ 3.080 DAN IPS4 ≤ 3.275 DAN IPS2 > 3.070

MAKA TERLAMBAT


ILMUPENDIDIKAN DAN IPS1 ≤ 3.080 DAN IPS4 ≤ 3.275 DAN IPS2 ≤ 3.070

MAKA TEPAT


DAN IPS2 > 2.740 DAN IPS1 > 3.780 MAKA TERLAMBAT


DAN IPS2 > 2.740 DAN IPS1 ≤ 3.780 MAKA TEPAT


DAN IPS2 ≤ 2.740 DAN IPS2 > 2.610 MAKA TEPAT


DAN IPS2 ≤ 2.740 DAN IPS2 ≤ 2.610 MAKA TERLAMBAT


MATEMATIKADANIPA DAN IPS4 > 2.900 MAKA TEPAT


MATEMATIKADANIPA DAN IPS4 ≤ 2.900 DAN IPS2 > 3.165 MAKA

TEPAT


MATEMATIKADANIPA DAN IPS4 ≤ 2.900 DAN IPS2 ≤ 3.165 MAKA

TERLAMBAT


IPS1 > 3.075 DAN IPS2 > 3.525 MAKA TEPAT


IPS1 > 3.075 DAN IPS2 ≤ 3.525 DAN IPS1 > 3.235 MAKA TEPAT


IPS1 > 3.075 DAN IPS2 ≤ 3.525 DAN IPS1 ≤ 3.235 MAKA TERLAMBAT

66




BAHASADANSENI DAN IPS1 > 2.590 MAKA TEPAT



TERLAMBAT


BAHASADANSENI DAN IPS1 ≤ 2.590 DAN IPS1 ≤ 2.435 MAKA TEPAT

57) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = EKONOMI

MAKA TEPAT










MATEMATIKADANIPA DAN IPS3 > 2.545 DAN IPS4 > 3.205 MAKA

TERLAMBAT


MATEMATIKADANIPA DAN IPS3 > 2.545 DAN IPS4 ≤ 3.205 MAKA

TEPAT


MATEMATIKADANIPA DAN IPS3 ≤ 2.545 MAKA TERLAMBAT


IPS2 > 2.550 MAKA TERLAMBAT



67

BAB V

PENUTUP

5.1 Kesimpulan

Pada penelitian ini dilakukan pemodelan menggunakan algoritma

C4.5 dan C4.5-PSO dengan menggunakan data yang dilampirkan oleh Hilda

dalam thesisnya. Fokus penelitian ini adalah penerapan algoritma PSO pada

pembobotan atribut teknik klasifikasi data mining C4.5. Validasi model

menggunakan 10fold cross-validation dan evaluasi model menggunakan

confusion matrix dan kurva ROC.

Hasil penelitian menunjukan bahwa model C4.5-PSO memiliki

akurasi yang lebih baik yaitu 86,09 % dibandingkan dengan model C4.5

yang akurasinya 84,13 %. Namun waktu eksekusi C4.5-PSO lebih lama

dengan 20 menit 23 detik, sedangkan C4.5 hanya 3 detik.

Dengan demikian, terbukti bahwa PSO yang diterapkan pada

pembobotan atribut C4.5 meningkatkan nilai akurasi. Hal ini menjadikan

C4.5-PSO menjadi alternatif lain untuk model optimasi yang dapat

diterapkan pada kasus lain seperti penentuan pemberian kredit, analisa pasar.

5.2 Saran

Proses penelitian ini mendapatkan banyak hambatan seperti

terbatasnya data penelitian dan perangkat keras yang digunakan, untuk

penelitian selanjutnya terdapat beberapa saran sebagai berikut :

1. Untuk mempercepat waktu eksekusi model dapat menggunakan

perangkat keras dengan spesifikasi hardware yang lebih baik seperti

processor core i7 dengan RAM 4Gb atau spesifikasi yang lebih tinggi.

68

2. Penelitian ini mengkomparasikan algoritma C4.5 dan C4.5 yang

dikombinasikan dengan PSO untuk pembobotan atribut, untuk

penelitian selanjutnya dapat dikembangkan dengan menggunakan

algoritma klasifikasi lain seperti Suport Vector Machine (SVM),

Neural Network yang dikombinasikan dengan algoritma PSO atau

algoritma optimasi lain seperti Ant Colony Optimization (ACO),

Genetic Algorithm (GA), Adaboost, atau algoritma optimasi lainnya.

3. Penelitian ini menggunakan data set yang dilampirkan oleh Hilda

dalam thesisnya, data set tersebut merupakan data kelulusan

mahasiswa perguruan tinggi yang erat kaitannya dengan dunia

pendidikan, untuk penelitian selanjutnya dapat dikembangkan dengan

menggunakan data set lain yang memiliki atribut tambahan seperti

status pernikahan, status pekerjaan, pendapatan per bulan keluarga

sebagai inputan nilai model yang dapat mempengaruhi tingkat

akurasinya.

4. Penelitian ini menggunakan data set yang dilampirkan oleh Hilda

dalam thesisnya dan data set tersebut terkait dengan dunia pendidikan,

kemudian data set tersebut dimodelkan berdasar pada algoritma C4.5

dengan C4.5 berbasis PSO untuk membandingkan tingkat akurasi dari

keduanya. Dalam penelitian selanjutnya, model yang digunakan pada

penelitian ini dapat diterapkan pada data set lain yang berbeda seperti

data perbankan terkait analisa penentuan kredit, data pemasaran

produk-produk tertentu untuk menguji kehandalan model yang

diusulkan.

69

DAFTAR PUSTAKA

[1] Abraham, A., Grosan, C., & Ramos, V. (2006). Swarm Intelligence In Data Mining.

Verlag Berlin Heidelberg: Springer.

[2] Alpaydın, E. (2010). Introduction to Machine Learning (Second Edition ed.).

London: The MIT Press.

[3] Amalia, Hilda. (2012). Komparasi Metode Klasifikasi Data Mining Untuk Prediksi

Ketepatan Kelulusan Mahasiswa. Jakarta :STIMIK Nusa Mandiri.

[4] Bai, Q. (2010). Analysis of Particle Swarm Optimization Algorithm. Computer dan

Informasi Science. Vol. 3, No. 1, February 2012. College of Computer Science and

Technology Inner Mongolia University for Nationalities.

[5] Bramer, Max. (2007). Principles of Data Mining. London: Springer.

[6] Gorunescu, Florin. (2011). Data Mining: Concepts and Techniques. Verlag berlin

Heidelberg: Springer.

[7] Han, J., & Kamber, M. (2007). Data Mining Concepts and Techniques. San

Fransisco: Mofgan Kaufan Publisher.

[8] http://ban-pt.kemdiknas.go.id/Instrumen%20AIPT%20(02-12-

2011)/2%20BUKU%202%20STANDAR%20DAN%20PROSEDUR%20AIPT%20

2011.docx. diakses 18 Juli 2013

[9] http://www.republika.co.id/berita/pendidikan/dunia-kampus/13/03/24/mk53wr-

lima-tahun-terakhir-11-pts-di-yogya-tutup. diakses 18 Juli 2013

[10] Karamouzis, T. S., & Vrettos, A. (2008). An Artificial Neural Network for

Predicting Student Graduation Outcomes. Preceeding of World Congress on

Engineering and Computer Science, 978-988-98671-02.

[11] Kusrini,&Luthfi, E. T. (2009). Algoritma Data Mining. Yogyakarta: Andi

Publishing

[12] Larose, D. T. (2005).Discovering Knowledge in Data. New Jersey: John Willey &

Sons, Inc.

70

[13] Lasut, Desiyana. (2012). Prediksi Loyalitas Pelanggan pada Perusahaan Penyedia

Layanan Multimedia dengan Algoritma C4.5 Berbasis Particle Swarm

Optimization. Jakarta: STIMIK Eresha.

[14] Liu, Y., Wang, G., Chen, H., Dong, H., Zhu, X., & Wang, S. (2011). An Improved

Particle Swarm Optimization for Feature Selection. Journal of Bionic Engineering

Vol 8 , 1-10.

[15] Ming, Kai Ting. (2002). An instance-weighting method to induce cost-sensitive.

IEEE transactions on knowledge and data engineering, vol. 14, no. 3.

[16] Quadri, M. N., & Kalyankar, N. V. (2010). Drop Out Feature of Student Data for

Academic Performance Using Decision Tree techniques. Global Journal of

Computer Science and Technology , 2-4.

[17] Santosa, B. (2007). Data Mining Teknik Pemanfaat Data Untuk Keperluan Bisnis.

Yogyakarta: Graha Ilmu.

[18] Sousa, T., Silva, A., & Neves, A. (2004). Particle Swarm Based Data Mining

Algorithms for Classification Tasks. Parallel Computing , 30, 767-783.

[19] Suhartina & Ernastuti. (2010). Graduation Prediction of Gunadarma Student Using

Naïve Bayes and Decision Tree. Jakarta: Universitas Gunadarma.

[20] Tsai, C. F., & Chen, M. Y. (2009). Variable Selection by Association Rules for

Customer Churn Prediction of Multimedia on Demand. Expert Systems with

Applications.

[21] Vercellis, Carlo (2009). Business Intelligent: Data Mining and Optimization for

Decision Making. Southern Gate, Chichester, West Sussex: John Willey & Sons,

Ltd.

[22] Witten, H. I., Eibe, F., & Hall, A. M. (2011). Data Mining Machine Learning Tools

and Techiques. Burlington: Morgan Kaufmann Publisher.

[23] Wu, X., & Kumar, V. (2009). The Top Ten Algorithms in Data Mining. Taylor &

Francis Group, LLC.

[24] Yao, Ping. (2009). Comparative Study on Class Imbalance Learning for Credit

Scoring. Ninth International Conference on Hybrid Intelligent Systems.

Heilongjiang Institute of Science and Technology, Harbin, 150027, China.

LAPORAN TUGAS AKHIR - dinus.ac.iddinus.ac.id/repository/docs/ajar/LAPTA.pdf · Judul Tugas Akhir :...

Documents

Transcript of LAPORAN TUGAS AKHIR - dinus.ac.iddinus.ac.id/repository/docs/ajar/LAPTA.pdf · Judul Tugas Akhir :...