LAPORAN TUGAS AKHIR - dinus.ac.iddinus.ac.id/repository/docs/ajar/LAPTA.pdf · Judul Tugas Akhir :...
Transcript of LAPORAN TUGAS AKHIR - dinus.ac.iddinus.ac.id/repository/docs/ajar/LAPTA.pdf · Judul Tugas Akhir :...
LAPORAN TUGAS AKHIR
KOMPARASI PEMODELAN DATA MENGGUNAKAN C4.5
DAN C4.5 BERBASIS PARTICLE SWARM OPTIMIZATION
UNTUK MEMPREDIKSI KELULUSAN MAHASISWA
Disusun Oleh :
Nama : Khoirul Muarif
NIM : A11.2009.05066
Program Studi : Teknik Informatika
FAKULTAS ILMU KOMPUTER
UNIVERSITAS DIAN NUSWANTORO
SEMARANG
2013
i
LAPORAN TUGAS AKHIR
KOMPARASI PEMODELAN DATA MENGGUNAKAN C4.5
DAN C4.5 BERBASIS PARTICLE SWARM OPTIMIZATION
UNTUK MEMPREDIKSI KELULUSAN MAHASISWA
Laporan ini disusun guna memenuhi salah satu syarat untuk menyelesaikan
program studi Teknik Informatika S-1 pada Fakultas Ilmu Komputer
Universitas Dian Nuswantoro
Disusun Oleh :
Nama : Khoirul Muarif
NIM : A11.2009.05066
Program Studi : Teknik Informatika
FAKULTAS ILMU KOMPUTER
UNIVERSITAS DIAN NUSWANTORO
SEMARANG
2013
ii
PERSETUJUAN LAPORAN TUGAS AKHIR
Nama Pelaksana : Khoirul Muarif
NIM : A11.2009.05066
Program Studi : Teknik Informatika
Fakultas : Ilmu Komputer
Judul Tugas Akhir : Komparasi Pemodelan Data Menggunakan C4.5 dan C4.5
Berbasis Particle Swarm Optimization Untuk
Memprediksi Kelulusan Mahasiswa
Tugas Akhir ini telah diperiksa dan disetujui,
Semarang, 24 Juli 2013
Menyetujui :
Pembimbing
L. Budi Handoko, M.Kom.
Mengetahui :
Dekan Fakultas Ilmu Komputer
Dr. Abdul Syukur
iii
PENGESAHAN DEWAN PENGUJI
Nama Pelaksana : Khoirul Muarif
NIM : A11.2009.05066
Program Studi : Teknik Informatika
Fakultas : Ilmu Komputer
Judul Tugas Akhir : Komparasi Pemodelan Data Menggunakan C4.5 dan C4.5
Berbasis Particle Swarm Optimization Untuk
Memprediksi Kelulusan Mahasiswa
Tugas akhir ini telah diujikan dan dipertahankan dihadapan Dewan Penguji pada
Sidang tugas akhir tanggal 18 Juli 2013. Menurut pandangan kami, tugas akhir ini
memadai dari segi kualitas maupun kuantitas untuk tujuan penganugrahan gelar
Sarjana Komputer (S.Kom.)
Semarang, 18 Juli 2013
Dewan Penguji:
Erna Zuni Astuti, M.Kom Sendi Novianto, S.Kom, MT
Anggota Anggota
Noor Ageng Setiyanto, M.Kom
Ketua Penguji
iv
PERNYATAAN KEASLIAN TUGAS AKHIR
Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah
ini, saya:
Nama : Khoirul Muarif
NIM : A11.2009.05066
Menyatakan bahwa karya ilmiah saya yang berjudul:
KOMPARASI PEMODELAN DATA MENGGUNAKAN C4.5 DAN C4.5
BERBASIS PARTICLE SWARM OPTIMIZATION UNTUK
MEMPREDIKSI KELULUSAN MAHASISWA
merupakan karya asli saya (kecuali cuplikan dan ringkasan yang masing-masing
telah saya jelaskan sumbernya dan perangkat pendukung seperti web cam dll).
Apabila di kemudian hari, karya saya disinyalir bukan merupakan karya asli saya,
yang disertai dengan bukti-bukti yang cukup, maka saya bersedia untuk dibatalkan
gelar saya beserta hak dan kewajiban yang melekat pada gelar tersebut. Demikian
surat pernyataan ini saya buat dengan sebenarnya.
Dibuat di : Semarang
Pada tanggal : 18 Juli 2013
Yang menyatakan,
(Khoirul Muarif)
v
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH
UNTUK KEPENTINGAN AKADEMIS
Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah
ini, saya:
Nama : Khoirul Muarif
NIM : A11.2009.05066
demi mengembangkan Ilmu Pengetahuan, menyetujui untuk memberikan kepada
Universitas Dian Nuswantoro Hak Bebas Royalti Non-Ekskusif (Non-exclusive
Royalty-Free Right) atas karya ilmiah saya yang berjudul:
KOMPARASI PEMODELAN DATA MENGGUNAKAN C4.5 DAN C4.5
BERBASIS PARTICLE SWARM OPTIMIZATION UNTUK
MEMPREDIKSI KELULUSAN MAHASISWA
beserta perangkat yang diperlukan (bila ada). Dengan Hak Bebas Royalti Non-
Eksklusif ini Universitas Dian Nuswantoro berhak untuk menyimpan, mengcopy
ulang (memperbanyak), menggunakan, mengelolanya dalam bentuk pangkalan
data (database), mendistribusikannya dan menampilkan/mempublikasikannya di
internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari
saya selama tetap mencantumkan nama saya sebagai penulis/pencipta.
Saya bersedia untuk menanggung secara pribadi, tanpa melibatkan pihak
Universitas Dian Nuswantoro, segala bentuk tuntutan hukum yang timbul atas
pelanggaran Hak Cipta dalam karya ilmiah saya ini.
Demikian surat pernyataan ini saya buat dengan sebenarnya.
Dibuat di : Semarang
Pada tanggal : 12 Juli 2013
Yang menyatakan,
(Khoirul Muarif)
vi
KATA PENGANTAR
Alhamdulilah, puji syukur kehadirat Allah SWT atas kekuatan, rahmat dan
hidayah-Nya sehingga laporan tugas akhir dengan judul “KOMPARASI
PEMODELAN DATA MENGGUNAKAN C4.5 DAN C4.5 BERBASIS
PARTICLE SWARM OPTIMIZATION UNTUK MEMPREDIKSI
KELULUSAN MAHASISWA” dapat terselesaikan tepat waktu. Terimakasih
kepada :
1. Dr.Ir. Edi Noersasongko,M.Kom, selaku Rektor Universitas Dian Nuswantoro
Semarang.
2. Dr. Abdul Syukur selaku Dekan Fasilkom.
3. Dr. Heru Agus Santoso,M.Kom, selaku Ka.Progdi Teknik Informatika.
4. L. Budi Handoko, M.Kom, selaku pembimbing tugas akhir yang memberikan
bimbingan yang berkaitan dengan penelitian penulis.
5. Ardhyta Luthfiarta, M.Kom.,M.Cs, yang memberikan masukan dan saran
kepada penulis.
6. Amalia Hilda, yang memberikan lampiran berupa data kelulusan mahasiswa
dalam thesisnya sebagai dasar obyek penelitian bagi penulis.
7. Dosen-dosen Fasilkom Universitas Dian Nuswantoro Semarang yang telah
memberikan ilmu sehingga penulis dapat mengimplementasikan ilmu yang
telah disampaikan.
8. Keluarga dan rekan-rekan mahasiswa Fasilkom Universitas Dian Nuswantoro
yang telah memberikan dukungan material dan moral kepada penulis.
Semoga Tuhan yang Maha Esa memberikan balasan yang lebih besar kepada
beliau-beliau, dan pada akhirnya penulis berharap bahwa penulisan laporan tugas
akhir ini dapat bermanfaat dan berguna sebagaimana fungsinya.
Semarang, 12 Juli 2013
Penulis
vii
ABSTRAK
Perguruan tinggi merupakan tempat bagi mahasiswa untuk mendapat pengetahuan
sebelum terjun bersaing dalam dunia kerja. Perguruan tinggi menjadi sangat
berperan untuk menciptakan lulusan terbaik bagi kebutuhan dunia kerja. Jumlah
kelulusan mahasiswa akan menjadi salah satu indikator keberhasilan suatu
perguruan tinggi yang berdampak pada akreditasi pemerintah dan penilaian
masyarakat. Penelitian tentang prediksi kelulusan mahasiswa telah banyak
dilakukan untuk mengetahui lulus tepat waktu atau terlambat. Berdasarkan
kondisi tersebut teknik data mining yang tepat digunakan adalah klasifikasi. Salah
satu teknik klasifikasi data mining adalah C4.5. Dalam penelitian ini,
membandingkan algoritma C4.5 dengan C4.5 berbasis PSO(Particle Swarm
Optimization) yang diterapkan pada data kelulusan mahasiswa. Dari hasil
pengujian digunakan tes cross validation, confusion matrix dan kurva ROC,
diketahui bahwa C4.5 berbasis PSO terbukti dapat meningkat akurasi dari prediksi
dengan 86.09% dan peforma yang ditunjukkan nilai AUC adalah 0.883 sedangkan
C4.5 memiliki akurasi prediksi 84.13% dan nilai AUC 0.837. Dari penelitian ini,
terbukti bahwa PSO dapat meningkatkan akurasi dan performa AUC.
Kata kunci : kelulusan mahasiswa, data mining, teknik klasifikasi data mining,
C4.5, C4.5 berbasis PSO.
xiii + 70 halaman; 28 gambar; 17 tabel
Daftar acuan: 24 (1995 – 2012)
viii
ABSTRACT
College is a place for students to gain knowledge before plunging to compete in
the working world. College became a very important role to create the best
graduates for the needs of the workforce. The minimum number of students would
be one indicator of the success of a college accreditation impact on government
and community assessment. Research on student graduation predictions have been
carried out to determine graduate on time or late. Under these conditions the exact
data mining techniques used are classification. One of the classification
techniques of data mining is C4.5. In this study, compared with C4.5 C4.5
algorithm based on PSO (Particle Swarm Optimization) is applied to the data
graduation. From the test results used cross validation test, confusion matrix and
ROC curves, it is known that the PSO-based C4.5 proven to increase the accuracy
of prediction by 86.09% and AUC values Performance shown is 0.883 while the
C4.5 has a 84.13% prediction accuracy and AUC values 0837. From this study, it
is evident that the PSO can improve the accuracy and performance of AUC.
Keywords: graduation, data mining, data mining classification techniques, C4.5,
C4.5 based PSO.
ix
DAFTAR ISI
Halaman
Halaman Sampul Dalam i
Halaman Persetujuan ii
Halaman Pengesahan iii
Halaman Pernyataan Keaslian Tugas Akhir iv
Halaman Pernyataan Persetujuan Publikasi v
Halaman Kata Pengantar vi
Halaman Abstrak vii
Halaman Daftar Isi ix
Halaman Daftar Tabel xi
Halaman Daftar Gambar xii
BAB I PENDAHULUAN 1
1.1 Latar belakang 1
1.2 Rumusan masalah 5
1.3 Batasan masalah 6
1.4 Tujuan 6
1.5 Manfaat 7
BAB II TINJAUAN PUSTAKA 8
2.1 Tinjauan studi. 8
2.2 Landasan teori 12
2.2.1 Kelulusan Mahasiswa 12
2.2.2 Data mining 12
2.2.3 CRISP-DM 13
2.2.4 Pembobotan atribut 15
2.2.5 Algoritma C4.5 15
2.2.5.1 Pruning dalam pohon keputusan 18
2.2.6 Particle Swarm Optimization (PSO) 20
2.2.7 Cross validation 21
x
2.2.8 Confusion matrix 22
2.2.9 Kurva ROC 23
2.2.10 Kerangka pemikiran 23
BAB III METODE PENELITIAN 25
3.1 Desain penelitian 25
3.1.1 Pengumpulan data 25
3.1.1.1 Pemahaman bisnis 25
3.1.1.2 Pemahaman data 26
3.1.2 Pengolahan data 27
3.1.3 Pemodelan 28
3.1.3.1 Model C4.5 30
3.1.3.2 Model C4.5 dioptimasi PSO 35
3.1.4 Validasi dan evaluasi 39
3.1.5 Penyebaran 39
3.2 Alat penelitian 40
BAB IV HASIL PENELITIAN DAN PEMBAHASAN 41
4.4 Validasi dan evaluasi 41
4.4 Hasil percobaan dan pengujian metode 44
4.2.1 C4.5 44
4.2.2 C4.5 berbasis PSO 45
4.4 Pembahasan 50
4.4 Hasil pemodelan pohon keputusan dan Ruleₐ 51
4.4.1 Model C4.5 berbasis PSO 51
4.4.2 Model C4.5 59
BAB V PENUTUP 67
5.1 Kesimpulan 67
5.2 Saran 67
DAFTAR PUSTAKA 69
xi
DAFTAR TABEL
Halaman
Tabel 2.1 State of the art 9
Tabel 2.2 Contoh confusion matrix. 22
Tabel 3.1 Kedudukan atribut yang akan digunakan 27
Tabel 3.2 Ilustrasi Missing Data dan atribut yang akan digunakan untuk
pemodelan dalam bentuk excel 28
Tabel 3.3 Contoh Data Traning yang telah di replace missing value 28
Tabel 3.4 Jumlah kasus dari tiap atribut 30
Tabel 3.5 Hasil perhitungan gain untuk menentukan node tertinggi 33
Tabel 3.6 Jumlah kasus yang terjadi pada subset atribut bersifat kontinu 33
Tabel 3.7 Split point yang digunakan 35
Tabel 3.8 Hasil perhitungan bobot dari iterasi ke-1 sampai itersasi ke-25 35
Tabel 3.9 Split point berdasar weight yang digunakan 38
Tabel 3.10 Confusion matrik C4.5 39
Tabel 3.11 Spesifikasi Software dan Hardware 40
Tabel 4.1 Hasil akurasi dan AUC dari C4.5 45
Tabel 4.2 Hasil percobaan menggunakan population size dan maximum
number of generation secara berbeda 45
Tabel 4.3 Hasil komparasi C4.5 dan C4.5-PSO 48
Tabel 4.4 Hasil pembobotan atribut 50
xii
DAFTAR GAMBAR
Halaman
Gambar 2.1 Siklus CRISP-DM .................................................................... 14
Gambar 2.2 Contoh pohon keputusan yang terbentuk .................................. 16
Gambar 2.3 Pohon keputusan dengan cabang A5 tidak konsisten ................ 19
Gambar 2.4 Pohon keputusan setelah di pruning .......................................... 20
Gambar 2.5 Ilustrasi tenfold cross validation ............................................... 21
Gambar 2.6 Confusion matrix untuk 2 model kelas ...................................... 22
Gambar 2.7 Kerangka pemikiran .................................................................. 24
Gambar 3.1 Data yang dilampirkan oleh Hilda ............................................. 26
Gambar 3.2 Data set dalam bentuk excel ...................................................... 27
Gambar 3.3 Model yang di usulkan .............................................................. 29
Gambar 3.4 Model proses yang di usulkan ................................................... 29
Gambar 4.1 Setting parameter pada rapidminer ............................................ 41
Gambar 4.2 Desain model validasi C4.5 ....................................................... 42
Gambar 4.3 Desain model validasi C4.5 berbasis PSO ................................ 43
Gambar 4.4 Hasil perhitungan nilai akurasi dari C4.5 yang ditampilkan
oleh RapidMiner ........................................................................ 44
Gambar 4.5 Hasil peforma AUC dari C4.5 yang ditampilkan oleh
RapidMiner ................................................................................ 44
Gambar 4.6 Grafik perbedaan tingkat akurasi C4.5-PSO berdasar pada
population size dan maximum number of generation ................ 46
Gambar 4.7 Grafik perbedaan peforma AUC C4.5-PSO berdasar pada
population size dan maximum number of generation ................ 46
xiii
Gambar 4.8 Hasil perhitungan akurasi dari C4.5-PSO yang ditampilkan
oleh RapidMiner berdasar pada population size bernilai 15
dan maximum number of generation bernilai 40 ....................... 47
Gambar 4.9 Hasil peforma AUC dari C4.5-PSO yang ditampilkan oleh
RapidMiner berdasar pada population size bernilai 15 dan
maximum number of generation bernilai 40 ............................. 48
Gambar 4.10 Grafik perbedaan tingkat akurasi antara C4.5 dengan
C4.5-PSO .................................................................................. 49
Gambar 4.11 Grafik perbedaan peforma AUC antara C4.5 dengan
C4.5-PSO .................................................................................. 49
Gambar 4.12 Hasil pemodelan tree C4.5-PSO bagian 1(kiri) ........................ 51
Gambar 4.13 Hasil pemodelan tree C4.5-PSO bagian 2(tengah) ................... 52
Gambar 4.14 Hasil pemodelan tree C4.5-PSO bagian 3(kanan) ..................... 53
Gambar 4.15 Hasil pemodelan tree C4.5 bagian 1(kiri) .................................. 59
Gambar 4.16 Hasil pemodelan tree C4.5 bagian 2(tengah) ........................... 60
Gambar 4.17 Hasil pemodelan tree C4.5 bagian 3(kanan) ............................. 61
1
BAB I
PENDAHULUAN
1. Latar Belakang Masalah
Mahasiswa merupakan salah satu kelompok masyarakat elite yang
memiliki ciri intelektualitas lebih kompleks dibandingkan dengan kelompok
lain yang bukan mahasiswa seusia ataupun dibawah usia mereka. Kemampuan
untuk menghadapi kemudian mencari pemecahan, menyelesaikan masalah yang
mereka hadapi secara lebih sitematis merupakan ciri dari intelektualitas tersebut
(Hilda, 2012). Dalam masa kehidupan mahasiswanya, mereka berkembang
untuk mematangkan intelektualnya sebagai persiapan dalam bersaing di dunia
kerja nantinya dan lingkungan masyarakat.
Perguruan tinggi sekarang ini dituntut untuk mempunyai keunggulan
daya saing dengan memanfaatkan dan memaksimalkan semua sumber daya
yang dimiliki. Salah satunya adalah sistem informasi yang digunakan untuk
meningkatkan daya saing dan juga dapat digunakan dalam pengolahan data
menjadi informasi yang bernilai sebagai alat penunjang untuk kegiatan
pengambilan keputusan strategis. Ini sesuai dengan dasar bahwa perguruan
tinggi merupakan satuan pendidikan yang menjadi terminal terakhir bagi
seseorang yang berpeluang belajar setinggi-tingginya melalui jalur pendidikan
sekolah.(Hilda, 2012).
Dalam lingkungan yang sangat kompetitif dan tujuan untuk
mendapatkan keuntungan yang lebih dari bisnis maka organisasi pendidikan
tinggi harus mampu meningkatkan kualitas layanan dan dapat memuaskan
pelangan mereka. Mereka menganggap bahwa dosen dan mahasiswa merupakan
aset utama, dengan menggunakan aset secara efektif dan efisien maka mereka
berusaha untuk meningkatkan indikator – indikator kunci mereka.(Quadri &
2
Kalyankar, 2010). Dalam dunia pendidikan, mahasiswa merupakan aset yang
penting di institusi pendidikan, maka harus diperhatikan tingkat kelulusan tepat
waktunya.
Berbagai perguruan tinggi bersaing untuk meningkatkan tingkat
kelulusan sesuai dengan misi masing-masing pergururuan tinggi dalam
mendidik mahasiswa (yaitu menghasilkan lulusan) yang akan menjadi anggota
produktif masyarakat dan berkontribusi terhadap kesejahteraan ekonomi bangsa.
Selain itu, masing-masing perguruan tinggi mengetahui bahwa jumlah siswa
yang putus diterjemahkan sebagai hilangnya pendapatan bagi lembaga
pendidikan tersebut (Karamouiz & Vrettos, 2008). Penilaian publik biasanya
berdasar pada ketepatan lulus dari mahasiswa atau siswa sebuah institusi
pendidikan maka ini berpengaruh pada tingkat kredibilitas dan eksisnya institusi
tersebut.
Quadri et al(Quadri & Kalyankar, 2010) berpendapat bahwa wisuda
yang tepat waktu merupakan isu yang penting karena tingkat kelulusan sebagai
dasar efektifnya suatu kelembagaan. Jika terjadi penurunan tingkat kelulusan
secara signifikan dan terus berkembang maka akan menjadi permasalahan yang
serius. Bahkan dapat mempengaruhi akreditasi perguruan tinggi tersebut. Untuk
itu pemantauan dan evaluasi secara berkala terhadap kecenderungan tingkat
kelulusan mahasiswa diperlukan.
Berdasar pada peraturan yang disampaikan dalam buku II standard dan
prosedur tentang akreditasi institusi perguruan tinggi oleh BAN-PT(Badan
Akreditasi Nasional Perguruan Tinggi) tahun 2011 menyatakan bahwa salah
satu aspek penilaian akreditasi adalah mahasiswa dan lulusan(BAN-PT, 2011).
Jadi, tingkat kelulusan dan jumlah mahasiswa akan perpengaruh dalam proses
akreditasi yang dilakukan oleh pemerintah. Setelah diberikan akreditasi
terhadap komponen perguruan tinggi tersebut maka masyarakat umum akan
mengetahui informasi akreditasi tersebut. Ketika akreditasi terhadap komponen
3
perguruan tinggi tersebut rendah maka akan berpengaruh terhadap penilaian
masyarakat yang cinderung buruk dan penilaian buruk ini juga mempengaruhi
minat masyarakat untuk mendaftarkan diri sebagai calon mahasiswa pada
perguruan tinggi tersebut. Seperti yang tercantum pada berita replubika.co.id
tanggal 24 Maret 2013 bahwa dalam lima tahun terakhir 11 Perguruan Tinggi
Swasta(PTS) di Yogya tutup dikarenakan sepi peminat untuk menjadi calon
mahasiswa di PTS tersebut(replubika, 2013). Oleh karena itu, analisa prediksi
kelulusan mahasiswa diperlukan untuk memberikan informasi bagi civitas
akademik mengenai mahasiswa yang dimungkinkan lulus terlambat.
Dewasa ini pendekatan data mining berkembang untuk mengatasi
berbagai permasalahan menyangkut tentang pengolahan data. Beberapa peneliti
menggunakan teknik data mining untuk menyelesaikan permasalahan prediksi
kelulusan mahasiswa(Hilda, 2012), (Suhartina & Ernastuti, 2010).
Data mining adalah suatu cara yang bertujuan dalam penemuan pola
secara otomatis atau semi otomatis dari data yang sudah ada di dalam database
atau sumber data lain yang dimanfaatkan untuk menyelesaikan suatu masalah
melalui berbagai aturan proses(Witten, I.H, 2011 ). Data mining memiliki
beberapa teknik, diantaranya klasifikasi dan clustering. Teknik klasifikasi
adalah teknik pembelajaran yang digunakan untuk memprediksi nilai dari
atribut kategori target (Vercellis, 2009). Klasifikasi bertujuan untuk membagi
objek yang ditugaskan hanya ke salah satu nomor kategori yang disebut kelas (
Max Bramer, 2007). Clustering merupakan pengelompokkan objek atau data
berdasarkan kemiripan antar data, sehingga anggota dalam satu kelompok
memiliki banyak kemiripan dibandingkan dengan kelompok lain (Gorunescu,
2011). Untuk memprediksikan kelulusan mahasiswa, maka hasil pengolahan
data akan diklasifikasikan menjadi dua kelas, yaitu tepat dan terlambat.
Sehingga teknik klasifikasi paling tepat untuk digunakan dalam data mining ini.
Metode yang paling populer digunakan untuk teknik klasifikasi adalah Decision
4
Trees, Naïve Bayes Classifiers (NBC), Statistical analysis, dan lain lain
(Gorunescu, 2011).
Beberapa penelitian mengenai analisis prediksi kelulusan mahasiswa
dengan metode klasifikasi data mining telah banyak dilakukan diantaranya
adalah yang dilakukan oleh Hilda Amalia pada tahun 2012 yaitu
mengkomparasi algoritma C4.5, naïve bayes, dan neural network. Dalam
penelitian tersebut diketahui bahwa algoritma Nilai akurasi dan AUC tertinggi
adalah neural network dan ternyata C4.5 masih tergolong fair classifacition.
Dalam penelitian yang dilakukan Hilda belum ada optimasi dari algoritma yang
digunakan, maka dimungkinkan untuk menggabungkan teknik algoritma lain
dalam upaya meningkatkan akurasi dan AUC dari C4.5.
Decision tree memang populer dan sering digunakan dalam klasifikasi
karena memiliki hasil yang cukup baik jika dibanding algoritma lainnya. C4.5
juga dalam membentuk suatu model pembelajaran dari data tergolong cepat,
selain itu karena model digambarkan dalam bentuk diagram pohon maka
mudah dipahami. Namun, jika ada data yang tidak relevan dapat menurunkan
akurasi C4.5 (Tsai & Chen, 2009). Di C4.5 seluruh atribut diseleksi untuk
kemudian dibagi menjadi himpunan bagian yang lebih kecil (wu, 2009).
Dengan jumlah data yang terlalu banyak, model yang terbentuk menjadi sulit
dibaca seperti terbentuknya node yang redundant. Data yang akan diolah
sebaiknya dilakukan proses pre-prosesing data.
Dibawah ini merupakan beberapa kelebihan dari pohon keputusan
(Gorunescu, 2011):
a. Hasil analisa berupa diagram pohon yang sangat mudah dimengerti.
b. Mudah untuk dibangun, serta membutuhkan data percobaan yang
lebih sedikit dibandingkan algoritma klasifikasi lainnya.
c. Mampu mengolah data nominal dan kontinyu.
5
d. Model yang dihasilkan dapat dengan mudah dimengeri, berbeda
dengan teknik klasifikasi yang lain seperti neural network yang
menyajikan model dengan informasi logis yang tersirat.
e. Menggunakan teknik statistik sehingga dapat divalidasikan.
f. Waktu komputasi relative lebih cepat dibandingkan teknik klasifikasi
yang lain.
g. Akurasi yang dihasilkan mampu menandingi teknik klasifikasi yang
lainnya.
Salah satu algoritma optimasi yang cukup populer adalah PSO (Particle
Swarm Optimization). PSO banyak digunakan untuk memecahkan masalah
optimasi, serta sebagai masalah seleksi fitur (Liu, Wang, Chen, Dong, Zhu, &
Wang, 2011). Algoritma PSO terinspirasi dari sekelompok burung yang
bergerak secara dinamis kemudian dapat bersinergi serta dapat terorganisir.
Ketika diterapkan dalam beberapa kasus untuk mengoptimalisasi algoritma
klasifikasi, mampu meningkatkan akurasi lebih baik daripada Genetic
Algorithm adalah PSO(Sousa, Silva, & Neves, 2004, p. 768).
2. Rumusan Masalah
Prediksi kelulusan mahasiswa menjadi sangat penting untuk diketahui
bagi civitas akademik sebagai model pertimbangan dalam menentukan
kebijakan terkait kemudian memberikan treatment atau rangsangan terhadap
mahasiswa diperkirakan terlambat lulus. Berdasarkan latar belakang
permasalahan yang ada, penelitian yang menggunakan algoritma C4.5 untuk
prediksi kelulusan mahasiswa masih kurang akurat. Diperlukan algoritma
optimasi yang diterapkan untuk pembobotan atribut pada algoritma Particle
Swarm Optimization (PSO) agar nilai akurasi lebih tinggi. Kemudian hasil
6
pengolahan data dapat digunakan sebagai salahsatu dasar pertimbangan untuk
membuat suatu sistem pendukung keputusan dan dimanfaatkan oleh civitas
akademik perguruan tinggi.
3. Batasan Masalah
Penelitian ini dibatasi pada perbandingan metode klasifikasi data mining
yang menggunakan algoritma C4.5 dengan algoritma C4.5 berbasis PSO pada
pembobotan atribut dalam prediksi kelulusan mahasiswa kemudian
mengevaluasi hasil perbandingan untuk mengetahui dampak dari optimalisasi
PSO. Data diperoleh dari kelulusan mahasiswa sebuah perguruan tinggi.
Batasan masalah lebih rinci adalah sebagai berikut :
1. Teknik yang digunakan merupakan teknik klasifikasi data mining.
2. Algoritma yang dipakai adalah decision tree khususnya C4.5 berdasar
pada information gain.
3. Teknik optimasi yang dipakai adalah Particle Swarm Optimization
(PSO).
4. Tujuan Penelitian
Tujuan dari penelitian ini adalah membuktikan bahwa optimalisasi
dengan berdasar algoritma PSO yang digunakan untuk memilih dan memberi
bobot atribut dari dataset pada algoritma C4.5 dapat meningkatan akurasi
analisa kelulusan mahasiswa dibanding akurasi analisa yang hanya
menggunakan algoritma C4.5.
7
5. Manfaat Penelitian
a. Bagi Akademik
Hasil dari penelitian ini dapat dimanfaatkan sebagai berikut :
a. Memberikan informasi untuk menganalisa kelulusan
mahasiswa yang dimungkinkan akan lulus tepat atau terlambat
dan dapat membantu civitas akademik perguruan tinggi untuk
memberikan peringatan dini dan pembimbingan awal bagi
mahasiswa yang kemungkinan tidak lulus tepat waktu.
b. Membantu perguruan tinggi dalam membuat kebijakan untuk
bisa meningkatkan kelulusan mahasiswa.
b. Bagi Masyarakat dan Ilmu Pengetahuan
Hasil dari penelitian ini dapat dimanfaatkan sebagai berikut :
a. Memberikan pertimbangan bahwa teknik atau model
klasifikasi yang digunakan pada penelitian ini dapat
dimanfaatkan tidak hanya fokus pada masalah dunia
pendidikan, seperti bank, penjualan, kasus bisnis lain.
c. Bagi Peneliti
Manfaat yang dapat di ambil dari penelitian ini adalah :
a. Memberikan kontribusi keilmuan pada penelitian bidang
klasifikasi data mining khususnya untuk prediksi kelulusan
mahasiswa.
b. Dapat mengetahui perbandingan tingkat akurasi dan error
terhadap algoritma yang digunakan.
c. Memberikan prediksi digunakan untuk rujukan penelitian
selanjutnya dengan metode yang sama ataupun pengoptimalan
dengan algoritma lain.
8
BAB II
TINJAUAN PUSTAKA
Penelitian TA ini menggunakan beberapa referensi media sebagai landasan
teori diantaranya buku, jurnal baik jurnal nasional maupun internasional serta
prosiding sebagai referensi.
2.1 Tinjauan studi
Beberapa jurnal dan artikel penelitian yang berhubungan dengan
teknik klasifikasi algoritma data mining yang memiliki keterkaitan dalam
topik penelitian yaitu :
1. Analisa dan Komparasi Metode Klasifikasi Data Mining untuk Prediksi
Kelulusan Mahasiswa.(Hilda Amalia, 2012)
Membuat penelitian model dengan menggunakan tiga algoritma
yaitu C4.5, neural network dan naïve bayes dan membandingkannya
untuk menemukan algoritma terbaik dalam menyelesaikan masalah
prediksi kelulusan mahasiswa menggunakan variabel fakultas,
IPS(Indeks Prestasi Semester), umur dan jenis kelamin.
2. Drop Out Feature of Student Data for Academic Using Decision Tree
Techniques (Quadri & Kaylanyar, 2010)
Melakukan penelitian dengan menggunakan algoritma J4.8 dan
nantinya akan menggunakan C4.5 untuk memodelkan prestasi akademik
siswa sangat penting bagi lembaga pendidikan untuk menyusun rencana
strategis menghasilkan pohon keputusan.
3. Graduation Prediction of Gunadarma Student Using Naïve Bayes and
Decision Tree (Suhartina & Ernastuti, 2010)
Penelitian ini membandingkan keakuratan antara algoritma native
bayes dengan C4.5 berdasar pada variabel ips(indek prestasi semester)
dan gaji orang tua.
9
4. Prediksi Loyalitas Pelanggan Pada Perusahaan Penyedia Layanan
Multimedia Dengan Algoritma C4.5 Berbasis Particle Swarm
Optimization(Desiyanna Lasut, 2012)
Penelitian yang dilakukan adalah memaksimalkan algoritma C4.5
dengan PSO dan membandingkan hasil keakurasian yang diperoleh
untuk memprediksikan kemungkinan loyal atau tidak.
Tabel 2.1 State of the art
n
o Peneliti
t
a
h
u
n
Judul metode Hasil Catatan
1 Desiyan
na Lasut
2
0
1
2
Prediksi Loyalitas
Pelanggan Pada
Perusahaan
Penyedia Layanan
Multimedia
Dengan Algoritma
C4.5 Berbasis
Particle Swarm
Optimization
C4.5 dan
C4.5
optimasi
dengan
PSO
Penggunaan PSO dalam
pembobotan attribut
dapat mengolah data
numerik sehingga
meningkatkan akurasi
model yang digunakan.
Dengan akurasi dari
78.40 menjadi 80.90
dan
AUC dari 0.794 menjadi
0.841
1. attribut yang diolah sebaiknya
diproses terlabih dahulu, proses
diskretisasi, pengelompokkan
nilai attribut dapat secara efektif
meningkatkan akurasi dari
algoritma C4.5, 2. atribut numerik
yang diolah dapat ditingkatkan,
dengan begitu optimasi bobot
oleh algoritma PSO dapat lebih
efektif.
2 Hilda
2
0
1
2
ANALISA DAN
KOMPARASI
METODE
KLASIFIKASI DATA
MINING UNTUK
PREDIKSI
KELULUSAN
MAHASISWA
C4.5,
neural
network
dan
naïve
bayes
1. Algoritma C4.5
menghasilkan nilai
akurasi yaitu 74.33%
dan nilai AUC yaitu
0.787, 2. Naïve Bayes
menghasilkan nilai
akurasi yaitu 69.72%
dan nilai AUC yaitu
0.829, 3. Neural
Network menghasilkan
nilai akurasi yaitu
78.29% dan nilai AUC
yaitu 0.848, 4. Nilai
akurasi dan AUC
tertinggi adalah metode
Neural Network
1. Atribut jenis kelamin tidak
berpengaruh pada hasil pohon
keputusan, sehingga perlu
dilakukan penyeleksian atribut
seperti penggunaan Chi-Square,
2. Nilai akurasi yang dihasilkan
dari setiap metode berada pada
nilai 60-70 % saja, sehingga masih
bisa di tingkatkan dengan
menggunakan metode optimasi
seperti AdaBoost, PSO atau yang
lainnya, 3. Nilai akurasi dan AUC
tertinggi untuk penelitian ini
diperoleh oleh metode neural
network dengan nilai 78.13% dan
0.848, yang termasuk kategori
baik namun belum sangat baik,
sehingga dapat dilakukan
perbandingan lagi dengan
metode klasifikasi data mining
lainnya
10
3 Susanto
2
0
1
2
Segmentasi dan
Klasifikasi Perilaku
Pembayaran
Pelanggan pada
Perusahaan
Penyedia Layanan
Multimedia
dengan Algoritma
K-Means dan C4.5
C4.5 dan
C4.5
optimasi
dengan
K-Means
1. Dengan
menggunakan k-means,
tingkat potensial
pelanggan dapat diukur,
selain itu dapat
membentuk atribut
yang handal untuk
proses klasifikasi, 2.
Peningkatan model
yang terbentuk cukup
signifikan peningkatan.
Hasil Akurasi dari
59.02% menjadi 77.31%
dan AUC dari 0.537
menjadi 0.836
1. Karena data yang dimiliki
sebagian besar terdiri dari nilai
numerik, dapat dilakukan
diskretisasi. 2. Dapat menerapkan
algoritma optimasi untuk
pemilihan atribut, atau
penyesuaian nilai parameter.
Menggunakan algoritma lain yang
lebih cocok dalam pengolahan
data numerik seperti chi square
agar didapat titik perpecahan
yang lebih beragam
4
Kahfi
Heryandi
Suradiraj
a
2
0
1
2
DETEKSI
TRANSAKSI
PENCUCIAN UANG
DENGAN
ALGORITMA
KLASIFIKASI C4.5
C4.5
1. algoritma klasifikasi
C4.5 pada data
transaksi perbankan
yang memiliki akurasi
terbaik untuk C4.5
adalah menggunakan
Pre-Pruning dan
Pruning yakni dengan
nilai AUC 0.936
(Excelent Classification).
2. Pengaruh penerapan
Pruning dan Pre-
Pruning keduanya
sebagai parameter
dapat meningkatkan
akurasi algoritma
decision tree, pada
information gain atau
ID3 memiliki nilai 0.865,
pada gini index memiliki
nilai AUC 0.907 dan
pada C4.5 memiliki nilai
AUC terbaik 0.936.
1. Membandingkan tingkat
akurasinya dengan model
algoritma lain seperti Naive Bayes
atau Support Vector Machine. 2.
Membandingkan hasil akurasinya
dengan data yang bukan
imbalance. 3. Membandingkan
pengukuran akurasi dengan
model evaluasi lain seperti
Precission and Recall atau Cost-
sensitive Measure
5 Firmansy
ah
2
0
1
1
Penerapan
Algoritma
Klasifikasi C4.5
untuk Penentuan
Kelayakan
Pemberian Kredit
Koperasi
C4.5
algoritma klasifikasi
C4.5 akurat diterapkan
untuk penentuan
kelayakan kredit
koperasi, dengan
tingkat keakuratan 90%
1.Melakukan pruning sehingga
pohon yang terbentuk tidak
terlalu besar, untuk
mengefisienkan kinerja dari
pohon keputusan tanpa
mengurangi keakuratannnya
2.Untuk menambah keakuratan,
algoritma C4.5 dapat
digabungkan dengan metode lain
seperti naive bayes atau support
vector machine 3.Penelitian
dapat dikembangkan dengan
menggunakan metode seleksi
atribut yang lain seperti chi-
square, gini index dan sebagainya
untuk ketepatan penyeleksian
atribut
11
6 Henilei
2
0
1
1
Komparasi
Algoritma
Klasifikasi Data
Mining untuk
Penentuan
Kelayakan
Pembiayaan
Konsumen Kredit
Kendaraan
Bermotor
C4.5,
naïve
bayes
dan
neural
network
•metode pengujian
Cross Validation,
Confusion Matrix dan
Kurva ROC, diketahui
bahwa algoritma C4.5
memiliki nilai accuracy
dan AUC paling tinggi,
diikuti oleh metode
neural network, dan
yang paling rendah
metode naïve bayes
•Metode C4.5 dan
neural network
termasuk kelompok
klasifikasi sangat baik
karena nilai AUC-nya
antara 0.90-1.00
sedangkan nilai AUC
metode naïve bayes
termasuk kelompok
klasifikasi baik karena
nilai AUC-nya antara
0.80-0.90.
•Agar hasil penelitiannya lebih
bisa digeneralisasi secara luas,
untuk penelitian selanjutnya,
dapat dilakukan penelitian
dengan data yang berasal dari
banyak perusahaan leasing.
7
Siti
Masripa
h
2
0
1
1
Algoritma
Klasifikasi C4.5
berbasis PSO
(Particle Swarm
Optimization)
untuk Evaluasi
Penentuan
Kelayakan
Pemberian Kredit
Koperasi Syariah
C4.5 dan
C4.5
optimasi
dengan
PSO
1. Nilai akurasi untuk
algoritma klasifikasi
C4.5 senilai 88%
sedangkan untuk nilai
akurasi algoritma C4.5
berbasis PSO (Particle
Swarm Optimization)
senilai 94%, 2. Nilai AUC
untuk algoritma C4.5
senilai 0,898 dengan
diagnosa Good
Classification.
Sedangkan nilai AUC
untuk algoritma C4.5
berbasis PSO (Particle
Swarm Optimization)
senilai 0.955 dengan
diagnosa Excellent
Classification
N.A
8
M. N.
Quadri
and N.V.
Kalyanka
r
2
0
1
0
Drop Out Feature
of Student Data
for Academic
Performance
Using Decision
Tree Techniques
decision
tree J48 N.A N.A
9
Marselin
a Silvia
Suhartin
ah,
Ernastuti
2
0
1
0
GRADUATION
PREDICTION OF
GUNADARMA
UNIVERSITY
STUDENTS USING
ALGORITHM AND
NAIVE BAYES C4.5
ALGORITHM
Naive
Bayes,
C4.5
prediksi ketepatan
dengan algoritma C4.5
85,7% dan error 14,3%,
sedangkan algoritma
naïve bayes 80,85% dan
error 19,05%
Pada penelitian kali ini data
training yang digunakan terbatas
yaitu sebanyak 65 record data
dan ketidaklengkapan data yang
diperoleh . Untuk
melihat kinerja yang lebih baik
dalam hasil akurasi masing-
masing algoritma maka jumlah
record data yang digunakan
untuk proses training sebaiknya
ditingkatkan mendekati jumlah
data sesungguhnya
12
Berdasarkan tinjauan studi diatas ada beberapa peneliti yang sudah
menggunakan C4.5 dan PSO dalam berbagai kasus. Sesuai tabel performa
terbukti menjadi lebih baik jika dikombinasikan dengan algoritma lain pada
seleksi atribut. PSO yang diterapkan pada seleksi atribut terbukti berhasil
meningkatkan akurasi pada C4.5. Penelitian ini menggunakan PSO untuk
menentukan fitur terbaik pada bobot atribut yang sesuai dan optimal pada
C4.5 sehingga hasil prediksi lebih akurat.
2.2 Landasan teori
Penulis meninjau beberapa buku dan jurnal sebagai landasan untuk
menjelaskan berbagai hal yang berhubungan dengan topik penelitian.
2.2.1 Kelulusan Mahasiswa
Mahasiswa merupakan salah satu kelompok masyarakat elite
yang memiliki ciri intelektualitas lebih kompleks dibandingkan dengan
kelompok lain yang bukan mahasiswa seusia ataupun dibawah usia
mereka. Kemampuan untuk menghadapi kemudian mencari
pemecahan, menyelesaikan masalah yang mereka hadapi secara lebih
sitematis merupakan ciri dari intelektualitas tersebut (Hilda, 2012).
Kelulusan mahasiwa merupakan hal yang penting untuk diperhatikan,
karena penurunan jumlah kelulusan akan menghilangkan jumlah
pendapatan institusi dan juga akan berpengaruh pada penilaian
pemerintah dengan bentuk status akreditasi institusi (Karamouiz &
Vrettos, 2008). Beberapa faktor yang dapat mempengaruhi kelulusan
mahasiswa antara lain adalah nilai akhir SMA, Indeks Prestasi
Semester (IPS), gaji orang tua dan pekerjaan orang tua (Suhartinah &
Ernastuti, 2010).
2.2.2 Data Mining
Data mining adalah suatu proses untuk menemukan hubungan
baru dengan cara memilah-milah data yang sudah ada di dalam
13
database menggunakan teknologi pengenalan pola dan statistik
(Larose, 2005). Data mining adalah proses menggali informasi atau
pola dalam data berukuran besar yang sudah ada dalam database untuk
keperluan tertentu. Salah satu teknik dari data mining adalah
klasifikasi yang tujuannya membagi objek untuk ditugaskan hanya ke
salah satu nomor kategori yang disebut kelas (Max Bramer, 2007).
Variable target dari klasifikasi adalah variable kategori (Larose, 2005).
Klasifikasi adalah suatu proses pencarian untuk memprediksi kelas
dari suatu obyek yang belum diketahui kelasnya.
2.2.3 CRIPS-DM
Cross-Industry Standart Proses for Data Mining (CRIPS-DM)
dikembangkan pada tahun 1996 oleh analis dari beberapa industri.
CRIPS-DM menyediakan standart proses data mining sebagai
pemecahan masalah secara umum dari bisnis atau unit penelitian.
CRIPS-DM memiliki siklus hidup yang terbagi dalam enam fase, yaitu
(Larose, 2005) :
14
Gambar 2.1 Siklus CRISP-DM (Larose, 2005)
a. Pemahaman Bisnis(Business Understanding)
Merupakan tahap awal yaitu pemahaman penelitian,
penentuan tujuan dan rumusan masalah data mining.
b. Pemahaman Data(Data Understanding)
Dalam tahap ini dilakukan pengumpulan data, mengenali
lebih lanjut data yang akan digunakan.
c. Pengolahan Data(Data Preparation)
Tahap ini adalah pekerjaan berat yang perlu dilaksanakan
secara intensif. Memilih kasus atau variable yang ingin dianalisis,
melakukan perubahan pada beberapa variable jika diperlukan
sehingga data siap untuk dimodelkan.
15
d. Pemodelan(Modeling)
Memilih teknik pemodelan yang sesuai dan sesuaikan
aturan model untuk hasil yang maksimal. Dapat kembali ke tahap
pengolahan untuk menjadikan data ke dalam bentuk yang sesuai
dengan model tertentu.
e. Evaluasi (Evaluation)
Mengevaluasi satu atau model yang digunakan dan
menetapkan apakah terdapat model yang memenuhi tujuan pada
tahap awal. Kemudian menentukan apakah ada permasalahan yang
tidak dapat tertangani dengan baik serta mengambil keputusan
hasil penelitian.
f. Penyebaran (Deployment)
Menggunakan model yang dihasilkan seperti pembuatan
laporan atau penerapan proses data mining pada institusi lain.
2.2.4 Pembobotan atribut
Tidak semua atribut memiliki peranan penting dalam akurasi.
Pembobotan atribut adalah proses pemberian nilai pada setiap atribut
dengan metode tertentu berdasarkan tingkat pengaruhnya terhadap
nilai akurasi (Witten, 2011). Pembobotan atribut pada penelitian ini
menggunakan metode Particle Swarm Optimization (PSO).
2.2.5 Algoritma C4.5
Disebut juga dengan Desicion Tree adalah pengklasifikasian
statistik yang didasarkan pada Desicion Tree yang dapat digunakan
untuk memprediksi probabilitas keanggotaan suatu kelas. Desicion
Tree terbukti memiliki akurasi dan kecepatan yang tinggi saat
diaplikasikan ke dalam database yang besar (Kusrini, 2009).
16
Desicion Tree menyerupai struktur flowchart, yang masing-
masing internal node-nya dinyatakan sebagai atribut pengujian, setiap
cabang mewakili output dari pengujian, dan setiap node daun (terminal
node) menentukan label class. Node paling atas dari sebuah pohon
adalah node akar (Han & Kamber, 2007). Salah satu metode klasifikasi
yang menarik melibatkan konstruksi pohon keputusan, koleksi node
keputusan, terhubung oleh cabang-cabang, memperpanjang bawah dari
simpul akar sampai berakhir di node daun. Dimulai di node root, yang
oleh konvensi ditempatkan di bagian atas dari diagram pohon
keputusan, atribut diuji pada node keputusan, dengan setiap hasil yang
mungkin dihasilkan dalam suatu cabang. Setiap cabang kemudian
mengarah baik ke node lain keputusan atau ke node daun untuk
mengakhiri (Larose, 2005).
Gambar 2.2 Contoh pohon keputusan yang terbentuk (Santosa, 2007)
Beberapa tahap dalam membuat sebuah pohon keputusan dengan
algoritma C4.5 (kusrini & Lutfi, 2009), yaitu:
1. Menyiapkan data training. Data training biasanya diambil dari
data histori yang pernah terjadi sebelumnya dan sudah
dikelompokan ke dalam kelas kelas tertentu.
2. Menentukan akar dari pohon. Akar akan diambil dari atribut
yang terpilih, dengan cara menghitung nilai gain dari masing-
17
masing atribut, nilai gain yang paling tinggi yang akan menjadi
akar pertama. Sebelum menghitung gain dari atribut, hitung
dahulu nilai entropy yaitu:
(2.1)
Keterangan:
S : himpunan kasus
A : atribut
N : jumlah partisi S
Pi : proporsi dari Si terhadap S
3. Kemudian hitung nilai gain dengan metode informasi gain:
(2.2)
4. Ulangi langkah ke-2 hingga semua tupel terpartisi.
5. Proses partisi pohon keputusan akan berhenti saat:
a. Semua tupel dalam node N mendapat kelas yang sama.
b. Tidak ada atribut di dalam tupel yang dipartisi lagi.
c. Tidak ada tupel di dalam cabang yang kosong.
Langkah-langkah diatas digunakan untuk menangani atribut
nominal. Perhitungan dengan metode Entropy Based Discretization di
gunakan untuk menangani atribut yang bersifat kontinu. Metode ini
menggunakan entropy sebagai bagian dari proses pemisahan selang
data selang kontinu(Jiawei Han, 2001). Untuk menemukan nilai
pemisah yang terbaik maka harus dihitung nilai split ploint, nilai
informasi dari entropi antara 2 sample dengan rumus :
18
1. Urutkan data subset dari yang terkecil sampai yang terbesar.
2. Hitung rataan nilai per 2 data yang bersebelahan yang
digunakan untuk split point dengan formula 2.3. Setiap nilai
rata-rata merupakan titik nilai yang mungkin menjadi titik
perpecahan (split_point) untuk memilih titik terbaik, data akan
dipecah menurut titik yang diuji.
3. Hitung nilai informasi dari kedua sampel(Sₐ) dengan formula
2.5. Kemudian T(split point) yang memilki nilai informasi
terkecil diambil sebagai batas node.
(2.3)
(2.4)
(2.5)
Dimana, T merupakan nilai batas (split point)
2.2.5.1 Pruning dalam pohon keputusan
Untuk mendapatkan data yang benar benar sejenis, maka
akan terbentuk banyak sekali cabang dalam pohon keputusan.
Data yang terlalu beragam ataupun data acak akan membuat
struktur pohon keputusan menjadi terlalu rumit (Alpaydın,
2010). Di dalam pohon keputusan dikenal istilah pruning yaitu
memangkas cabang yang tidak terlalu besar pengaruhnya agar
diagram dihasilkan lebih akurat dan simple.
19
Ada dua pendekatan pruning yang digunakan :
a. Prepruning menghentikan proses pembuatan cabang pada
titik tertentu. Semakin besar perulangan pembuatan cabang
yang diperbolehkan, semakin besar pula kompleksitas dari
pohon keputusan yang didapat jika data beragam, namun
jika jumlah perulangan terlalu kecil, diagram pohon yang
dihasilkan menjadi kurang akurat.
b. Postpruning memotong cabang pohon yang kurang
mereprensentasikan data setelah sebuah pohon keputusan
terbentuk. Kelas yang diberikan akan diukur dari jumlah
persebaran label yang ada pada cabang tersebut.
Algoritma C4.5 menggunakan pessimistic pruning yang
mampu mengkalkulasi tingkat error yang digunakan sebagai
acuan dalam pemangkasan cabang pohon keputusan. Baik
postpruning dan prepruning dapat dikombinasikan karena
tidakada teknik yang lebih baik antara keduanya. Walaupun
pohonkeputusan yang muncul setelah pruning akan lebih
singkat, namun terkadang masih muncul repetisi dan replikasi
cabang.
Gambar 2.3 Pohon keputusan dengan cabang A5 tidak
konsisten(Desiyana, 2012)
20
Gambar 2.4 Pohon keputusan setelah di pruning(Desiyana, 2012)
2.2.6 Particle Swarm Optimization (PSO)
PSO adalah algoritma pencarian berbasis populasi yang
diinisialisasi dengan populasi solusi acak dan digunakan untuk
memecahkan masalah optimasi (Abraham, Grosan, & Ramos, 2006).
PSO adalah metode optimasi heuristic global yang diperkenalkan oleh
Dokter Kennedy dan Eberhart pada tahun 1995 berdasarkan penelitian
terhadap perilaku kawanan burung dan ikan (Bai, 2010).
Setiap partikel dalam PSO juga dikaitkan dengan kecepatan
partikel terbang melalui ruang pencarian dengan kecepatan yang
dinamis disesuaikan untuk perilaku historis mereka. Oleh karena itu,
partikel memiliki kecenderungan untuk terbang menuju daerah
pencarian yang lebih baik dan lebih baik selama proses pencarian
(Abraham, Grosan, & Ramos, 2006).
Rumus untuk menghitung perpindahan posisi dan kecepatan
partikel yaitu :
(2.6)
(2.7)
21
Dimana :
· Vi (t) = kecepatan partikel i saat iterasi t
· Xi (t) = posisi partikel i saat iterasi t
· c1 dan c2 = learning rates untuk kemampuan individu (cognitive)
dan pengaruh sosial (group)
· r1 dan r2 = bilangan random yang berdistribusi uniformal dalam
interval 0 dan 1
· XPbesti = posisi terbaik partikel i
· XGbest = posisi terbaik global
2.2.7 Cross validation
Cross validation adalah teknik pengambilan sampel secara
random yang menjamin setiap jumlah kemunculan data yang diamati
dama dengan jumlah data training dan hanya sekali pada data testing
(Vercellis, 2009). Dalam cross validation kita harus menetapkan
jumlah partisi atau fold, standar yang biasa digunakan untuk
memperoleh estimasi kesalahan terbaik adalah 10 kali partisi atau
tenfold cross-validation (Gorunescu, 2011). Data dibagi secara random
menjadi 10 bagian dengan perbandingan yang sama kemudian error
rate dihitung bagian demi bagian, selanjutnya error rate secara
keseluruhan diperoleh dari menghitung rata-rata error rate dari 10
bagian
.
Gambar 2.5 Ilustrasi tenfold cross validation
22
2.2.8 Confusion matrix
Untuk melakukan evaluasi terhadap model klasifikasi
berdasarkan perhitungan objek testing mana yang diprediksi benar dan
tidak benar. Perhitungan ini ditabulasikan kedalam tabel yang disebut
confusion matrix (Gorunescu, 2011). Confusion matrix merupakan
data set hanya memiliki dua kelas, kelas yang satu sebagai positif dan
kelas yang lain sebagai negatif. Terdiri dari empat sel yaitu True
Positives (TP), False Positives (FP), True Negatives (TN) dan False
Negatives (FN) (Max Bramer, 2007).
Gambar 2.6 Confusion matrix untuk 2 model kelas (Gorunescu, 2011)
Untuk menghitung akurasi menggunakan rumus (Gorunescu,
2011):
(2.8)
Tabel 2.2 Contoh confusion matrix
Model C4.5 Kelas yang prediksi
Kelas yang di amati 250 45
5 200
Dari table di atas dapat dilakukan pengukuran akurasi model
C4.5 sebagai berikut :
23
2.2.9 Kurva ROC
Kurva ROC menunjukan visualisasi dari akurasi model dan
perbandingkan perbedaan antar model klasifikasi. ROC
mengekspresikan confusion matrix (Vercellis, 2009). ROC adalah
grafik dua dimensi dengan false positives sebagai garis horizontal dan
true positives untuk mengukur perbedaaan performasi metode yang
digunakan. Kurva ROC adalah teknik untuk memvisualisasi dan
menguji kinerja pengklasifikasian berdasarkan performanya
(Gorunescu, 2011). Model klasifikasi yang lebih baik adalah yang
mempunyai kurva ROC lebih besar (Vercellis, 2009). Performa
keakurasian AUC dapat diklasifikasikan menjadi lima kelompok yaitu
(Gorunescu, 2011):
a. 0.90 – 1.00 = Unggul
b. 0.80 – 0.90 = Baik
c. 0.70 – 0.80 = Cukup
d. 0.60 – 0.70 = Kurang
e. 0.50 – 0.60 = Gagal
2.2.10 Kerangka pemikiran
Masalah yang ditemui pada penelitian ini adalah kurang
akuratnya algoritma C4.5 untuk memprediksikan kelulusan
mahasiswa. Maka digunakan model algoritma Particle Swarm
Optimization (PSO) dalam seleksi atribut pada algoritma C4.5 untuk
meningkatkan akurasi. Desain penelitian ini menggunakan CRISP-DM
dan RapidMiner digunakan sebagi aplikasi model untuk
pengembangannya. Kemudian dilakukan pengujian hasil terhadap
24
kinerja dari algoritma C4.5 dan algoritma C4.5 berbasis PSO dengan
menggunakan metode Cross Validation, tingkat akurasi algoritma
diukur dengan Confusion Matrix dan AUC dengan kurva ROC. Dari
hasil perbandingan nilai akurasi maka akan diketahui dampak
penerapan PSO di algoritma C4.5.
Gambar 2.7 Kerangka pemikiran
Pengujiaan
confusion matrix
dan AUC
Penerapan CRISP-
DMPengembanganmetodemasalah
Kurang akuratnya
algoritma C4.5 untuk
memprediksikan
kelulusan mahasiswa
Algoritma C4.5Rapid miner
framework
Data set mahasiswa
lulus tepat waktu dan
terlambatakurasi
Algoritma C4.5
berbasis PSO pada
seleksi atribut dan
bobot
Rapid miner
framework
Data set mahasiswa
lulus tepat waktu dan
terlambat
akurasi
25
BAB III
METODE PENELITIAN
3.1 Desain penelitian
Metode yang digunakan dalam penelitian ini adalah model CRISP-
DM, dengan langkah-langkah sebagai berikut :
3.1.1 Pengumpulan data
3.1.1.1 Pemahaman bisnis (Bussiness understanding)
Berbagai perguruan tinggi bersaing untuk
meningkatkan tingkat kelulusan sesuai dengan misi masing-
masing pergururuan tinggi dalam mendidik mahasiswa (yaitu
menghasilkan lulusan) yang akan menjadi anggota produktif
masyarakat dan berkontribusi terhadap kesejahteraan
ekonomi bangsa. Selain itu, masing-masing perguruan tinggi
mengetahui bahwa jumlah siswa yang putus diterjemahkan
sebagai hilangnya pendapatan bagi lembaga pendidikan
tersebut (Karamouiz & Vrettos, 2008). Penilaian publik
biasanya berdasar pada ketepatan lulus dari mahasiswa atau
siswa sebuah institusi pendidikan maka ini berpengaruh pada
tingkat kredibilitas dan eksisnya institusi tersebut.
Quadri et al(Quadri & Kalyankar, 2010) berpendapat
bahwa wisuda yang tepat waktu merupakan isu yang penting
karena tingkat kelulusan sebagai dasar efektifnya suatu
kelembagaan. Jika terjadi penurunan tingkat kelulusan secara
signifikan dan terus berkembang maka akan menjadi
permasalahan yang serius. Bahkan dapat mempengaruhi
akreditasi perguruan tinggi tersebut. Untuk itu pemantauan
dan evaluasi secara berkala terhadap kecenderungan tingkat
kelulusan mahasiswa diperlukan. Jadi, prediksi untuk
26
kelulusan sangat diperlukan untuk dapat memberikan
pertimbangan kebijakan yang akan diambil oleh lembaga
pendidikan setelah mengetahui kemungkinan aset mereka
berupa mahasiswa akan telat untuk kelulusannya.
3.1.1.2 Pemahaman data (Data understanding)
Data yang digunakan pada penelitian ini berasal dari
penelitian Hilda tahun 2012 level thesis STIMIK NUSA
MANDIRI JAKARTA yang berupa lampiran data kelulusan
mahasiswa berjumlah 1632 record dan terdiri dari 14 atribut,
dengan 9 atribut bertipe numerik dan 5 bertipe kategorikal.
Data tersebut digunakan oleh Hilda untuk dilakukan prediksi
kelulusan mahasiswa(Hilda, 2012).
Gambar 3.1 Data yang dilampirkan oleh Hilda (kolom status
terpotong)
27
Setelah data tersebut dilakukan penulisan kembali
dalam bentuk yang sama disimpan dengan ekstensi excel maka
tampilan data seperti dibawah ini :
Gambar 3.2 Data set dalam bentuk excel
3.1.2 Pengolahan Data (Data preparation)
Dalam tahap ini, data yang akan dipergunakan adalah
sebagai berikut :
Table 3.1 Kedudukan atribut yang akan digunakan
Atribut Kegunaan
NIP √ ID
NAMA X No
FALKULTAS √ regular(nilai model)
Jeniskelamin √ regular(nilai model)
Umur √ regular(nilai model)
IPS1 √ regular(nilai model)
IPS2 √ regular(nilai model)
IPS3 √ regular(nilai model)
IPS4 √ regular(nilai model)
IPS5 X No
IPS6 X No
IPS7 X No
IPS8 X No
STATUS √ Label (hasil)
28
Tabel 3.2 Ilustrasi Missing Data dan atribut yang akan
digunakan untuk pemodelan dalam bentuk excel
NIP FALKULTAS jeniskelamin umur IPS1 IPS2 IPS3 IPS4 STATUS
76183 ILMUPENDIDIKAN PEREMPUAN 21 3.44 3.43 3.91 3.45 TEPAT
70029 ILMUPENDIDIKAN PEREMPUAN 21 4 3.13 3.43 3.55 TEPAT
76152 ILMUPENDIDIKAN PEREMPUAN 0 2.9 3 3.03 TEPAT
76174 ILMUPENDIDIKAN PEREMPUAN 21 3.56 3.26 3.91 3.36 TEPAT
Kemudian dari data diatas maka langkah berikutnya dilakukan
replace missing value berdasar pada model average yaitu
menggantikan nilai yang kosong dengan nilai rataan yang akan
muncul pada data traning tersebut.
Tabel 3.3 Contoh Data Traning yang telah di replace missing
value
NIP FALKULTAS jeniskelamin umur IPS1 IPS2 IPS3 IPS4 STATUS
76049 ILMUPENDIDIKAN LAKI-LAKI 27 0 0 2.76 2.99 TEPAT
76050 ILMUPENDIDIKAN PEREMPUAN 26 0 0 3 2.9 TEPAT
76120 ILMUPENDIDIKAN PEREMPUAN 23 3.13 3.5 3.67 3.54 TEPAT
76149 ILMUPENDIDIKAN LAKI-LAKI 22 3.33 3.52 4 3.55 TEPAT
76151 ILMUPENDIDIKAN PEREMPUAN 22 3.44 3.26 3.65 3.45 TEPAT
76152 ILMUPENDIDIKAN PEREMPUAN 24 0 2.9 3 3.03 TEPAT
76154 ILMUPENDIDIKAN PEREMPUAN 22 3.22 3.35 3.3 3.36 TEPAT
76155 ILMUPENDIDIKAN PEREMPUAN 23 3.22 3.26 3.65 3.82 TEPAT
76157 ILMUPENDIDIKAN PEREMPUAN 22 2.89 3.3 3.65 3.09 TEPAT
3.1.3 Pemodelan (Modelling)
Terdapat dua metode yang digunakan yaitu algoritma C4.5
dan algoritma C4.5 yang dikombinasikan dengan algoritma PSO
pada seleksi atribut. Untuk membandingkan atau mengkomparasi
dalam penelitian ini akan menggunakan framework RapidMiner versi
5.3 sehingga akan ditemukan algoritma mana yang paling akurat.
29
act Gambaran umum data proses
start
replace missing v alue pada dataset
dengan model av erage
menghitung nilai ENTROPY dari total
data traning berdasar jumlah kasus
merujuk ke label/hasil
perhitungan
dikelompokkan per atribut
dari subset atribut yang
ada didalamnya
menghitung nilai
INFORMATION GAIN
data bersifat kontinyu ?
subset data dari atribut
diurutkan dari yang
terkecil ke yang terbesar
menghitung rata-rata nilai
dari tiap subset data yang
bersebelahan per 2 data
(MEAN)sebagai split point
menghitung nilai entropi
tersendiri untuk nilai
rataan/split point berdasar
nilai entropy yang
mengapitnya
menentukan nilai split
point yang diambil
berdasar information gain
atribut- entropi tersendiri
diambi split info nilainya
ter kecil
menghitung information
gain atribut tersebut
menetukan information
gain terbesar untuk
dijadikan node/tupel
tertinggi
menentukan simpul
berikutnya/node
dibawahnya
proses selesai ?
node terpil ih berupa nilai kontinyufinish
nilai / range nilai node diatasnya
sebagai batas dan tidak bisa
muncul di node bawahnya
menghitung nilai ENTROPY tiap
atribut yang memiliki subset
berdasar jumlah kasus merujuk ke
label/hasil
optimasi pso ?Pemberian bobot pada tiap
atribut
menghitung nilai entropy
tiap atribut dikalikan bobot
menghitung nilai
information gain dari
entropy
data bersifat kontinu ?
Setiap
perhitungan
information
gain, entropi
berdasar
nilai bobot
untuk
menentukan
split point menghitung information
gain berdasar bobot
node subset atribut
sebagai batas untuk
perhitungan node
dibawahnya[tidak]
[ya]
[tidak]
[tidak]
[ya]
[ya]
[tidak]
[ya]
[tidak]
[ya]
Modelling
C4.5
Modelling
C4.5 + PSO
Data set
Preprocesing
Replace Missing value
New data set
Traning Data
Traning Data
Evaluation
Confusion Matrix
Kurva ROC
Data testing Data testing
Compare
- Accuracy
- AUC Perform
Gambar 3.3 Model yang di usulkan
Gambar 3.4 Model proses yang di usulkan
30
Setelah memodelkan alur proses yang akan dilakukan, maka akan
ilakukan pembentukan pohon keputusan. Perhitungan secara manual
diberikan berdasar model C4.5 dan C4.5+PSO pada sub-bab dibawah ini.
3.1.3.1 Model C4.5
Beberapa tahap dalam membuat sebuah pohon keputusan
dengan algoritma C4.5 (kusrini & Lutfi, 2009), yaitu:
1. Menyiapkan data training. Data training biasanya
diambil dari data histori yang pernah terjadi
sebelumnya dan sudah dikelompokan ke dalam kelas
kelas tertentu.
2. Menentukan akar dari pohon. Akar akan diambil dari
atribut yang terpilih, dengan cara menghitung nilai gain
dari masing-masing atribut, nilai gain yang paling tinggi
yang akan menjadi akar pertama. Sebelum menghitung
gain dari atribut, hitung dahulu nilai entropy yaitu:
Table 3.4 Jumlah kasus dari tiap atribut
Simpul Kasus Tepat Terlambat
Jumlahkasus 1632 684 948
fakultas
bahasa dan seni 267 167 100
ekonomi 290 187 103
ilmu keolahragaan 91 3 88
ilmu pendidikan 377 137 240
ilmu sosial 228 100 128
matematika dan ipa 208 46 162
teknik 171 44 127
jenis kelamin
laki-laki 517 155 362
perempuan 1115 529 586
Dst
31
(3.1)
Etotalkasus(684,948) = - (684/1632)*log2(684/1632)-
(948/1632)*log2(948/1632)
= 0.981
Dengan perhitungan yang sama dilakukan terhadap tiap
atribut dengan berdasar pada pengelompokan jumlah kasus
pada tiap atribut dan subset atribut didalamnya.
3. Kemudian hitung nilai gain dengan metode informasi
gain:
(3.2)
Contoh perhitungan gain pada atribut fakultas berdasar
jumlah kasus per subset atribut yaitu:
Ebahasa&seni(167,100)= -(167/267)*log2(167/267)-
(100/267)*log2(100/267)
= 0.954
Eekonomi(187,103) = - (187/290)*log2(187/290)-
(103/290)*log2(103/290)
= 0.939
Eilmuolahraga(3,88) = - (3/91)*log2(3/91)-
(88/91)*log2(88/91)
= 0.209
32
Eilmpendidikn(137,240) = - (137/377)*log2(137/377)-
(240/377)*log2(240/377)
= 0.945
Eilmusosial(100,128) = - (100/228)*log2(100/228)-
(128/228)*log2(128/228)
= 0.989
Emtk&ipa(46,162) = - (46/208)*log2(46/208)-
(162/208)*log2(162/208)
= 0.762
Eteknik(44,127) = - (44/171)*log2(44/171)-
(127/171)*log2(127/171)
= 0.823
Setelah perhitungan subset atribut diatas, maka
lanjutkan menghitung information gain yaitu :
Gain = 0.981-( (267/1632 * 0.954 )+(290/1632*0.939)+
(91/1632*0.209)+(377/1632*945)+(228/1632*98
9)+(208/1632*0.762)+(171/1632*0.823) )
= 0.107
4. Ulangi langkah ke-2 hingga semua tupel terpartisi.
5. Proses partisi pohon keputusan akan berhenti saat:
a. Semua tupel dalam node N mendapat kelas yang sama.
b. Tidak ada atribut di dalam tupel yang dipartisi lagi.
c. Tidak ada tupel di dalam cabang yang kosong.
33
Perhitungan gain selengkapnya akan ditampilkan pada
table berikut ini :
Tabel 3.5 Hasil perhitungan gain untuk menentukan
node tertinggi
Simpul Kasus Tepat Terlambat entropi S/Stotal*E Gain
Jumlahkasus 1632 684 948 0.981041
Fakultas
bahasa dan seni 267 167 100 0.954088 0.156092 0.106567
Ekonomi 290 187 103 0.938603 0.166786
ilmu keolahragaan 91 3 88 0.20906 0.011657
ilmu pendidikan 377 137 240 0.945465 0.218407
ilmu social 228 100 128 0.989093 0.138182
matematika dan ipa 208 46 162 0.762269 0.097152
Teknik 171 44 127 0.82266 0.086198
jenis kelamin
laki-laki 517 155 362 0.881054 0.279109 0.02001
Perempuan 1115 529 586 0.998114 0.681922
Umur
<= 22.5 532 468 64 0.530225 0.172843 0.326546
>22.5 1100 216 884 0.714595 0.481651
IP1 0.805966 0.175075
IP2 0.869968 0.111073
IP3 0.893624 0.087416
IP4 0.874877 0.106164
Perhitungan dengan metode Entropy Based Discretization di
gunakan untuk menangani atribut yang bersifat kontinu. Metode ini
menggunakan entropy sebagai bagian dari proses pemisahan selang
data selang kontinu(Jiawei Han, 2001). Untuk menemukan nilai
pemisah yang terbaik maka harus dihitung nilai split ploint, nilai
informasi dari entropi antara 2 sample dengan rumus :
Table 3.6 Jumlah kasus yang terjadi pada subset atribut bersifat
kontinu
umur jumlah kasus tepat Terlambat
1632 684 948
20 1 1 0
21 67 67 0
22 464 400 64
23 487 125 362
24 267 59 208
25 151 14 137
26 70 6 64
27 40 2 38
Dst
34
1. Urutkan data subset dari yang terkecil sampai yang terbesar.
Contoh perhitungan pada atribut umur sebagai berikut :
2. Hitung rataan nilai per 2 data yang bersebelahan yang
digunakan untuk split point . Setiap nilai rata-rata merupakan
titik nilai yang mungkin menjadi titik perpecahan (split_point)
untuk memilih titik terbaik, data akan dipecah menurut titik
yang diuji.
(3.3)
3. Hitung nilai informasi dari kedua sampel(Sₐ). Kemudian T(split
point) yang memilki nilai informasi terkecil diambil sebagai
batas node. Rumus yang digunakan :
(3.4)
(3.5)
Dimana, T merupakan nilai batas (split point)
Dari perhitungan diatas, maka diperoleh nilai informasi
terkecil ialah split point pada 22.5 dengan nilai informasinya
adalah –0.04585.
35
Table 3.7 Split point yang digunakan
pemilihan split terbaik Status
Split point Nilai informasi
20.5 0.363902 no
21.5 0.199343 no
22.5 -0.04585 yes
23.5 -0.00595 no
24.5 0.198029 no
25.5 0.304585 no
Dst
3.1.3.2 Model C4.5 dioptimasi PSO
Simulasi pembobotan atribut dengan PSO dihitung
berdasar rumus :
(3.6)
(3.7)
Akan ditampilkan seperti tabel dibawah ini dengan
pemisalan menggunakan 15 sampel subset data dalam
atribut yang dipilih secara acak dan iterasi sebanyak 25 kali
untuk menemukan nilai bobot yang terbaik untuk tiap
atribut yaitu minimal dengan nilai 0 atau maksimal dengan
nilai 1.
Tabel 3.8 Hasil perhitungan bobot dari iterasi ke-1 sampai
itersasi ke-25
iterasi fakultas jenis
kelamin umur IPS1 IPS2 IPS3 IPS4
1 0.865 0.244 0.974 0.883 0.487 0.866 0.679
2 0.865 0.244 0.974 0.883 0.487 0.866 0.679
3 0.660 0 1 1 0.402 1 0.674
4 0.417 0.305 0.768 1 0.195 1 1
5 0.349 0.343 0.767 1 0.200 1 0.970
6 0.307 0.363 0.770 1 0.204 1 0.912
36
7 0.279 0.375 0.774 1 0.207 1 0.870
8 0.259 0.383 0.778 0.209 1 0.837
9 0.243 0.388 0.781 1 0.211 1 0.811
10 0.231 0.392 0.785 1 0.213 1 0.791
11 0.221 0.395 0.788 1 0.214 1 0.773
12 0.214 0.397 0.791 1 0.215 1 0.759
13 0.207 0.398 0.793 1 0.216 1 0.747
14 0.201 0.399 0.795 1 0.216 1 0.736
15 0.197 0.400 0.797 1 0.217 1 0.727
16 0.193 0.401 0.799 1 0.218 1 0.719
17 0.189 0.402 0.801 1 0.218 1 0.712
18 0.186 0.402 0.802 1 0.218 1 0.706
19 0.183 0.403 0.804 1 0.219 1 0.700
20 0.322 0 0.747 1 0 1 0
21 0.324 0 0.737 1 0 1 0
22 0.868 0.565 0.969 1 0 1 0
23 0.869 0.574 0.937 1 0 1 0
24 0.873 0.352 0.890 1 0 1 0.694
25 0.875 0.358 0.862 1 0 1 0.733
Berdasar perhitungan diatas, maka bobot memiliki
kecenderungan untuk mendekati nilai minimum dan
maksimum nilai ketika bobot tersebut mendekati nilai 0
lebih banyak daripada nilai 1 dalam rangkaian iterasi maka
dimungkinkan untuk iterasi selanjutnya bobotnya keluar
nilai 0, ketika nilai bobot tersebut mendekati nilai 1 lebih
banyak daripada nilai 0 dalam rangkaian iterasi maka
dimungkinkan untuk iterasi selanjutnya bobotnya keluar
nilai 1, dan jika nilai bobot tersebut bernilai antara 0 dan 1
maka kecenderungan nilai bobot akan menuju ke nilai
maksimum.
Langkah-langkah perhitungan weighting PSO pada
C4.5 seperti dibawah ini :
37
1. Setelah nilai weighting/bobot di peroleh untuk
tiap atribut. Kemudian dilakukan perkalian
bobot dengan probabilitas atribut atau subset
atribut (ping yau, 2009) merujuk pada (kai ming
ting, 2002). Dengan perhitungan sebagai
berikut:
Jika nilai bobot belum terpenuhi penerapan pada
C4.5.
a. Perhitungan probabilitas
(3.8)
b. Perhitungan bobot untuk tiap atribut
(3.9)
c. Perhitungan bobot untuk subset atribut
(3.10)
Keterangan :
p(j|t) : probabilitas
sampel
n(j)ᵗ : banyak sampel
∑n(i)ᵗ : total sampel
∑niʷ(t) : total sampel
yang memiliki bobot
pw(j|t) : prob. Bobot
w(j) : bobot atribut
njʷ(t) : nilai atribut
yang memiliki bobot
2. Bobot dikalikan dengan probabilitas sampel,
kemudian menghitung nilai entropi untuk tiap
sampel kasus menggunakan formula 3.1.
38
3. Menghitung nilai information gain dari entropi
yang telah ditentukan dilangkah kedua sesuai
formula 3.2.
4. Menghitung nilai split info berdasar formula 3.3.
5. Setelah ditemukan nilai information gain dan
nilai info, maka dihitung nilai informasi split
point dan diambil split point yang memiliki nilai
terkecil.
(3.11)
Keterangan :
Gainweight : nilai information gain dari
perhitungan entropi yang telah
dikalikan bobot.
Eweight(E,S): total entropi dari dua sampel
yang bersebelahan sesuai
entropi yang telah diberi bobot.
Dari perhitungan diatas yang berdasar pada weight, maka
diperoleh nilai informasi terkecil ialah split point pada 22.5
dengan nilai informasinya adalah 0.521718.
Table 3.9 Split point berdasar weight yang digunakan
pemilihan split terbaik
Status Split point Nilai informasi
20.5 0.699577 No
21.5 0.615132 No
22.5 0.521718 yes
23.5 0.555593 No
24.5 0.62234 No
25.5 0.660614 No
Dst
39
3.1.4 Validasi dan evaluasi
Dalam tahap ini dilakukan validasi dan pengukuran
keakuratan hasil yang dicapai oleh model menggunakan beberapa
teknik yang terdapat dalam framework RapidMiner versi 5.3 yaitu
confusion matrix dan kurva ROC untuk pengukuran akurasi model,
dan cross-validation untuk validasi.
Tabel 3.10 Confusion matrik C4.5
C4.5 true TEPAT true TERLAMBAT
pred. TEPAT 507 82
pred. TERLAMBAT 177 866
Dari table tersebut dapat dihitung akurasinya sebagai berikut :
3.1.5 Penyebaran (Deployment)
Hasil penelitian ini adalah analisa yang mengarah ke
Decission Suport System (DSS) dapat digunakan oleh institusi
pendidikan setingkat perguruan tinggi untuk memberikan
pertimbangan dalam penentuan langkah selanjutnya menangani
masalah keterlambatan kelulusan dari mahasiswa yang
mempengaruhi akreditasi perguruan tinggi, penilaian sosial
masyarakat, dan juga dapat digunakan untuk rujukan penelitian
berikutnya serta dapat digunakan sebagai dasar perancangan sebuah
sistem.
40
3.2 Alat penelitian
Dalam penelitian ini penulis menggunakan spesifikasi software dan
hardware sebagai alat bantu dalam penelitian yang tercantum pada tabel 3.11
dibawah ini.
Software Hardware
Sistem operasi : Windows 7
Ultimate
Prosesor : Intel(R) Core(TM)2Duo
CPU P7570 @2.26Ghz
2.26Ghz
Data mining : RapidMiner versi
5.3.008
RAM : 2.00 GB
41
BAB IV
HASIL DAN PEMBAHASAN
4.1 Validasi dan Evaluasi
Tujuan utama penelitian ini adalah untuk mengetahui nilai akurasi
dari algoritma C4.5 dan C4.5 berbasis PSO pada pembobotan atribut yang
digunakan akan berpengaruh pada hasil pohon keputusan yang terbentuk.
Kemudian, berdasar tingkat akurasi dan kurva AUC digunakan untuk
membandingkan kedua algoritma tersebut sehingga dapat diperoleh salah
satu algoritma yang terbaik.
Penggunaan parameter berpengaruh pada hasil akurasi dan model
yang akan dihasilkan oleh algoritma C4.5. Sesuai perhitungan sebelumnya
menggunakan information gain, maka setting parameter yang digunakan
adalah sebagai berikut :
Gambar 4.1 Setting parameter pada rapidminer
Untuk menentukan akurasi dari setiap algoritma, penelitian ini
menggunakan metode validasi tenfold cross-validation. Desain model C4.5
yang terdapat pada RapidMiner seperti gambar 4.2.
42
Gambar 4.2 Desain model validasi C4.5
Retrieve berfungsi untuk memasukan data set ke dalam RapidMiner.
Model C4.5 ini menggunakan Entropy by Dizcretization yaitu transformasi
atribut menciptakan kelompok nilai batas rentang terbaik sehingga jumlah
nilai yang unik dalam kelompok rentang hampir sama. Validation
menggunakan tenfold cross-validation. Didalam validation terdapat dua
kolom, training dan testing. Didalam kolom training terdapat algoritma
klasjikaikasi yang diterapkan yaitu C4.5, sedangkan di dalam kolom testing
terdapat Apply Model untuk menjalankan algoritma/model C4.5 dan
Performance untuk mengukur performa dari model C4.5 tersebut.
43
Sedangkan desain model C4.5 berbasis PSO pada pembobotan
atribut pada Rapidminer dapat dilihat pada gambar 4.3.
Gambar 4.3 Desain model validasi C4.5 berbasis PSO
Optimize Weights (PSO) untuk menerapkan algoritma PSO pada
pembobotan atribut. Didalam Optimize Weights (PSO) terdapat Validation
yang menggunakan tenfold cross-validation. Didalam validation terdapat
dua kolom, training dan testing. Didalam kolom training terdapat algoritma
klasjikaikasi yang diterapkan yaitu C4.5, sedangkan di dalam kolom testing
terdapat Apply Model untuk menjalankan algoritma/model C4.5 dan
Performance untuk mengukur performa dari model C4.5 tersebut.
44
4.2 Hasil percobaan dan pengujian metode
4.2.1 C4.5
Hasil pemodelan yang telah diproses oleh tools RapidMiner
adalah sebagai berikut :
Gambar 4.4 Hasil perhitungan nilai akurasi dari C4.5 yang
ditampilkan oleh RapidMiner
Gambar 4.5 Hasil peforma AUC dari C4.5 yang ditampilkan oleh
RapidMiner
45
Tabel 4.1 Hasil akurasi dan AUC dari C4.5
Percobaaan C4.5 lama
waktu
eksekusi Akurasi performa AUC
1 84.13% 0.837 3 s
2 84.13% 0.837 3 s
Hasil di atas menunjukan algoritma C4.5 yang diterapkan
pada data set kelulusan mahasiswa (Hilda, 2012) data menghasilkan
nilai akurasi confusion matrix sebesar 84.13% dan akurasi AUC
0,837 dalam selang waktu 3 detik.
4.2.2 C4.5 berbasis PSO
Pertama, dilakukan uji coba dengan memberi nilai pada
parameter population size dan maximum number of generation
bernilai default yaitu 5 dan 30.
Table 4.2 Hasil percobaan menggunakan population size dan
maximum number of generation secara berbeda
C4.5+pso lama waktu
eksekusi parameter pso akurasi performa AUC
85.54% 0.865 4 m 30 s default
85.54% 0.865 4 m 53 s default
85.79% 0.868 10 m 05 s posize=10,generate=30
85.79% 0.868 13 m 15 s posize=10,generate=40
86.09% 0.883 20 m 23 s posize=15,generate=40
85.85% 0.865 33 m 24 s posize=20,generate=50
86.09% 0.883 25 m 16 s posize=15,generate=50
85.90% 0.870 37 m posize=25,generate=50
85.97% 0.875 40 m 3 s posize=30,generate=50
46
Gambar 4.6 Grafik perbedaan tingkat akurasi C4.5-PSO berdasar
pada population size dan maximum number of generation
Gambar 4.7 Grafik perbedaan peforma AUC C4.5-PSO berdasar
pada population size dan maximum number of generation
85.17%
85.17%
85.79%
85.79%
86.09%
85.85%
86.09%
85.90%
85.97%
84.60%
84.80%
85.00%
85.20%
85.40%
85.60%
85.80%
86.00%
86.20%
Tingkat akurasi
0.896
0.8960.868
0.868
0.883
0.865
0.883
0.87
0.875
0.8450.85
0.8550.86
0.8650.87
0.8750.88
0.8850.89
0.8950.9
Kurva AUC
47
Dari table diatas menunjukkan hasil akurasi dari maximum
number of generation 15 sampai 40 sudah konvergen. Atrinya hasil
akurasi sudah maksimal, jika dilakukan percobaan lagi dengan
maximum number of generation lebih dari 40 maka akan terjadi
overfiting (kelebihan iterasi) yang berdampak pada meningkatnya
waktu eksekusi sedangkan hasil akurasi tidak meningkat. Dengan
demikian diketahui bahwa algoritma C4.5-PSO menghasilkan nilai
akurasi terbaik pada saat population size bernilai 15 dan maximum
number of generation bernilai 40 yaitu akurasi bernilai 86,09 % dan
AUC 0,883 dengan waktu eksekusi 20 menit 23 detik.
Gambar 4.8 Hasil perhitungan akurasi dari C4.5-PSO yang
ditampilkan oleh RapidMiner berdasar pada population size
bernilai 15 dan maximum number of generation bernilai 40
48
Gambar 4.9 Hasil peforma AUC dari C4.5-PSO yang ditampilkan
oleh RapidMiner berdasar pada population size bernilai 15 dan
maximum number of generation bernilai 40
Setelah melakukan pemodelan dan perhitungan berdasar
kedua algoritma diatas, kemudian dilakukan perbandingan hasil yang
berupa nilai akurasi dan peforma AUC. Maka diperoleh data
perbandingan sebagai berikut :
Tabel 4.3 Hasil komparasi C4.5 dan C4.5-PSO
Perbandingan C4.5 C4.5-PSO
Akurasi confusion matrix (%) 84.13% 86.09%
performa AUC 0.837 0.883
Waktu eksekusi 3 s 20 m 23 s
Table 4.3 merupakan hasil akhir percobaan. Memperlihatkan
perbandingan akurasi dan AUC antara algoritma C4.5 dan
algoritma C4.5-PSO.
49
Gambar 4.10 Grafik perbedaan tingkat akurasi antara C4.5
dengan C4.5-PSO
Gambar 4.11 Grafik perbedaan peforma AUC antara C4.5
dengan C4.5-PSO
Pembobotan atribut diperlukan karena tidak semua atribut
mempunyai pengaruh terhadap hasil akurasi. Hasil dari pembobotan
atribut oleh PSO pada saat hasil akurasi terbaik dapat dilihat pada
tabel 4.4.
81.00%
82.00%
83.00%
84.00%
85.00%
86.00%
87.00%
C4.5 C4.5+PSO
84.13%
86.09%
Perbedaan Akurasi
0.837
0.883
0.81
0.82
0.83
0.84
0.85
0.86
0.87
0.88
0.89
C4.5 C4.5+PSO
Perbedaan kurva AUC
peforma
50
Table 4.4 Hasil pembobotan atribut
Atribut Bobot
FALKULTAS 1
jeniskelamin 0
umur 1
IPS1 1
IPS2 0
IPS3 1
IPS4 0
Terdapat 7 atribut yang digunakan, dan 3 atribut bobotnya
bernilai 0 atau tidak berpengaruh terhadap akurasi yaitu jenis
kelamin, IPS2, IPS4. Beberapa atribut tersebut jika dihilangkan
dimungkinkan tidak akan mempengarui hasil akurasi.
Bobot dari atribut yang bernilai 1 dapat dimungkinkan
mempengaruhi hasil akurasi secara signjikaikan. Terdapat 4 atribut
yang bobotnya 1 yaitu fakultas, umur, IPS1, IPS3.
4.3 Pembahasan
Percobaan pada penelitian ini menggunakan RapidMiner 5.3.008.
Algoritma yang digunakan adalah C4.5 dan C4.5-PSO untuk pembobotan
atribut. Validasinya menggunakan tenfold cross-validation, sedangkan
pengukuran performanya menggunakan confusion matrix dan kurva ROC.
Nilai dari population size dan maximum number of generation pada
PSO diubah-ubah untuk meningkatkan kinerja PSO yang berdampak pada
peningkatan akurasi.
Berdasarkan hasil percobaan, diperoleh akurasi C4.5-PSO tertinggi
terjadi pada saat population size bernilai 15 dan maximum number of
generation bernilai 40. Akurasi C4.5-PSO 86,09%, dan AUC 0,883
sedangkan akurasi C4.5 hanya 84.13% dan AUC 0.837.
51
Hal tersebut membuktikan bahwa PSO yang diterapkan pada
pembobotan atribut meningkatkan akurasi C4.5. Akurasi meningkat 1,96%
sedangkat AUC meningkat 0,046. Dengan hasil pembobotan atribut yaitu 3
atribut mempunyai bobot 0, dan 4 atribut mempunyai bobot 1.
4.4 Hasil pemodelan pohon keputusan dan Ruleₐ
4.4.1 Model C4.5 berbasis PSO
Gambar 4.12 Hasil pemodelan tree C4.5-PSO bagian 1(kiri)
52
Gambar 4.13 Hasil pemodelan tree C4.5-PSO bagian 2(tengah)
53
Gambar 4.14 Hasil pemodelan tree C4.5-PSO bagian 3(kanan)
54
Rule yang tercipta dari gambar hasil pemodelan diatas adalah
sebagai berikut R₍n₊₊), n=1 :
1) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 > 3.865 MAKA
TERLAMBAT
2) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur > 23.500
DAN umur > 25.500 MAKA TEPAT
3) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur > 23.500
DAN umur ≤ 25.500 DAN IPS4 > 3.230 DAN IPS4 > 3.475 DAN IPS4 > 3.570
MAKA TEPAT
4) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur > 23.500
DAN umur ≤ 25.500 DAN IPS4 > 3.230 DAN IPS4 > 3.475 DAN IPS4 ≤ 3.570
MAKA TERLAMBAT
5) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur > 23.500
DAN umur ≤ 25.500 DAN IPS4 > 3.230 AND IPS4 ≤ 3.475 MAKA TEPAT
6) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur > 23.500
DAN umur ≤ 25.500 AND IPS4 ≤ 3.230 MAKA TERLAMBAT
7) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur ≤ 23.500
MAKA TEPAT
8) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 ≤ 2.975 DAN IPS2 > 3.170 MAKA
TERLAMBAT
9) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 ≤ 2.975 DAN IPS2 ≤ 3.170 DAN jeniskelamin
= LAKI-LAKI MAKA TERLAMBAT
10) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 ≤ 2.975 DAN IPS2 ≤ 3.170 DAN jeniskelamin =
PEREMPUAN MAKA TEPAT
55
11) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = EKONOMI
MAKA TEPAT
12) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
ILMUKEOLAHRAGAAN MAKA TERLAMBAT
13) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
ILMUPENDIDIKAN MAKA TERLAMBAT
14) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = ILMUSOSIAL
MAKA TERLAMBAT
15) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
MATEMATIKADANIPA DAN umur > 23.500 MAKA TERLAMBAT
16) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
MATEMATIKADANIPA DAN umur ≤ 23.500 DAN IPS3 > 2.905 MAKA
TEPAT
17) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
MATEMATIKADANIPA DAN umur ≤ 23.500 DAN IPS3 ≤ 2.905 MAKA
TERLAMBAT
18) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = TEKNIK DAN
umur > 24.500 DAN IPS1 > 3.395 MAKA TERLAMBAT
19) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = TEKNIK DAN
umur > 24.500 DAN IPS1 ≤ 3.395 MAKA TEPAT
20) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = TEKNIK DAN
umur ≤ 24.500 MAKA TERLAMBAT
21) JIKA umur > 22.500 DAN IPS1 ≤ 3.235 MAKA TERLAMBAT
22) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
BAHASADANSENI MAKA TEPAT
23) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = EKONOMI DAN
IPS1 > 3.205 MAKA TEPAT
24) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = EKONOMI DAN
IPS1 ≤ 3.205 DAN IPS3 > 3.095 DAN IPS1 > 2.900 MAKA TEPAT
25) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = EKONOMI DAN
IPS1 ≤ 3.205 DAN IPS3 > 3.095 DAN IPS1 ≤ 2.900 MAKA TERLAMBAT
26) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = EKONOMI DAN
IPS1 ≤ 3.205 DAN IPS3 ≤ 3.095 MAKA TEPAT
27) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUKEOLAHRAGAAN DAN IPS1 > 3.270 MAKA TEPAT
56
28) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUKEOLAHRAGAAN DAN IPS1 ≤ 3.270 MAKA TERLAMBAT
29) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 > 3.400
MAKA TEPAT
30) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400
DAN IPS4 > 3.610 DAN IPS2 > 3.245 MAKA TEPAT
31) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400
DAN IPS4 > 3.610 DAN IPS2 ≤ 3.245 MAKA TERLAMBAT
32) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400
DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 > 3.310 DAN IPS4 > 3.300
DAN IPS3 > 3.740 MAKA TEPAT
33) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400
DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 > 3.310 DAN IPS4 > 3.300
DAN IPS3 ≤ 3.740 MAKA TERLAMBAT
34) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400
DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 > 3.310 DAN IPS4 ≤ 3.300
MAKA TEPAT
35) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400
DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 ≤ 3.310 MAKA TEPAT
36) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400
DAN IPS4 ≤ 3.610 DAN IPS3 ≤ 3.425 MAKA TEPAT
37) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 ≤ 2.950 DAN IPS2 > 3.045
DAN IPS4 > 3.050 MAKA TERLAMBAT
38) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 ≤ 2.950 DAN IPS2 > 3.045
DAN IPS4 ≤ 3.050 MAKA TEPAT
57
39) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 ≤ 2.950 DAN IPS2 ≤ 3.045
MAKA TEPAT
40) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 ≤ 3.080 DAN IPS4 > 3.275 MAKA
TERLAMBAT
41) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 ≤ 3.080 DAN IPS4 ≤ 3.275 DAN IPS2 > 3.070
MAKA TERLAMBAT
42) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 ≤ 3.080 DAN IPS4 ≤ 3.275 DAN IPS2 ≤ 3.070
MAKA TEPAT
43) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUSOSIAL
DAN IPS2 > 2.740 DAN IPS1 > 3.780 MAKA TERLAMBAT
44) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUSOSIAL
DAN IPS2 > 2.740 DAN IPS1 ≤ 3.780 MAKA TEPAT
45) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUSOSIAL
DAN IPS2 ≤ 2.740 DAN IPS2 > 2.610 MAKA TEPAT
46) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUSOSIAL
DAN IPS2 ≤ 2.740 DAN IPS2 ≤ 2.610 MAKA TERLAMBAT
47) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
MATEMATIKADANIPA DAN IPS4 > 2.900 MAKA TEPAT
48) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
MATEMATIKADANIPA DAN IPS4 ≤ 2.900 DAN IPS2 > 3.165 MAKA TEPAT
49) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
MATEMATIKADANIPA DAN IPS4 ≤ 2.900 DAN IPS2 ≤ 3.165 MAKA
TERLAMBAT
50) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = TEKNIK DAN
IPS1 > 3.075 DAN IPS2 > 3.525 MAKA TEPAT
51) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = TEKNIK DAN
IPS1 > 3.075 DAN IPS2 ≤ 3.525 DAN IPS1 > 3.235 MAKA TEPAT
52) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = TEKNIK DAN
IPS1 > 3.075 DAN IPS2 ≤ 3.525 DAN IPS1 ≤ 3.235 MAKA TERLAMBAT
53) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = TEKNIK DAN
IPS1 ≤ 3.075 MAKA TEPAT
54) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS =
BAHASADANSENI DAN IPS1 > 2.590 MAKA TEPAT
58
55) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS =
BAHASADANSENI DAN IPS1 ≤ 2.590 DAN IPS1 > 2.435 MAKA
TERLAMBAT
56) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS =
BAHASADANSENI DAN IPS1 ≤ 2.590 DAN IPS1 ≤ 2.435 MAKA TEPAT
57) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = EKONOMI
MAKA TEPAT
58) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS =
ILMUKEOLAHRAGAAN MAKA TERLAMBAT
59) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN MAKA TERLAMBAT
60) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = ILMUSOSIAL
DAN IPS1 > 2.615 MAKA TEPAT
61) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = ILMUSOSIAL
DAN IPS1 ≤ 2.615 MAKA TERLAMBAT
62) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS =
MATEMATIKADANIPA DAN IPS3 > 2.545 DAN IPS4 > 3.205 MAKA
TERLAMBAT
63) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS =
MATEMATIKADANIPA DAN IPS3 > 2.545 DAN IPS4 ≤ 3.205 MAKA TEPAT
64) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS =
MATEMATIKADANIPA DAN IPS3 ≤ 2.545 MAKA TERLAMBAT
65) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = TEKNIK DAN
IPS2 > 2.550 MAKA TERLAMBAT
66) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = TEKNIK DAN
IPS2 ≤ 2.550 MAKA TEPAT
59
4.4.2 Model C4.5
Gambar 4.15 Hasil pemodelan tree C4.5 bagian 1(kiri)
60
Gambar 4.16 Hasil pemodelan tree C4.5 bagian 2(tengah)
61
Gambar 4.17 Hasil pemodelan tree C4.5 bagian 3(kanan)
62
Rule yang tercipta dari gambar hasil pemodelan diatas adalah
sebagai berikut R₍n₊₊), n=1 :
1) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 > 3.865 MAKA
TERLAMBAT
2) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur >
23.500 DAN umur > 25.500 MAKA TEPAT
3) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur >
23.500 DAN umur ≤ 25.500 DAN IPS4 > 3.230 DAN IPS4 > 3.475 DAN IPS4
> 3.570 MAKA TEPAT
4) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur >
23.500 DAN umur ≤ 25.500 DAN IPS4 > 3.230 DAN IPS4 > 3.475 DAN IPS4
≤ 3.570 MAKA TERLAMBAT
5) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur >
23.500 DAN umur ≤ 25.500 DAN IPS4 > 3.230 AND IPS4 ≤ 3.475 MAKA
TEPAT
6) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur >
23.500 DAN umur ≤ 25.500 AND IPS4 ≤ 3.230 MAKA TERLAMBAT
7) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur ≤
23.500 MAKA TEPAT {TEPAT=24, TERLAMBAT=2}
8) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 ≤ 2.975 DAN IPS2 > 3.170 MAKA
TERLAMBAT
9) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 ≤ 2.975 DAN IPS2 ≤ 3.170 DAN
jeniskelamin = LAKI-LAKI MAKA TERLAMBAT
63
10) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 ≤ 2.975 DAN IPS2 ≤ 3.170 DAN jeniskelamin
= PEREMPUAN MAKA TEPAT
11) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = EKONOMI
MAKA TEPAT
12) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
ILMUKEOLAHRAGAAN MAKA TERLAMBAT
13) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
ILMUPENDIDIKAN MAKA TERLAMBAT
14) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = ILMUSOSIAL
MAKA TERLAMBAT
15) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
MATEMATIKADANIPA DAN umur > 23.500 MAKA TERLAMBAT
16) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
MATEMATIKADANIPA DAN umur ≤ 23.500 DAN IPS3 > 2.905 MAKA
TEPAT
17) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
MATEMATIKADANIPA DAN umur ≤ 23.500 DAN IPS3 ≤ 2.905 MAKA
TERLAMBAT
18) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = TEKNIK DAN
umur > 24.500 DAN IPS1 > 3.395 MAKA TERLAMBAT
19) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = TEKNIK DAN
umur > 24.500 DAN IPS1 ≤ 3.395 MAKA TEPAT
20) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = TEKNIK DAN
umur ≤ 24.500 MAKA TERLAMBAT
21) JIKA umur > 22.500 DAN IPS1 ≤ 3.235 MAKA TERLAMBAT
22) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
BAHASADANSENI MAKA TEPAT
23) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = EKONOMI
DAN IPS1 > 3.205 MAKA TEPAT
24) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = EKONOMI
DAN IPS1 ≤ 3.205 DAN IPS3 > 3.095 DAN IPS1 > 2.900 MAKA TEPAT
25) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = EKONOMI
DAN IPS1 ≤ 3.205 DAN IPS3 > 3.095 DAN IPS1 ≤ 2.900 MAKA
TERLAMBAT
64
26) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = EKONOMI
DAN IPS1 ≤ 3.205 DAN IPS3 ≤ 3.095 MAKA TEPAT
27) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUKEOLAHRAGAAN DAN IPS1 > 3.270 MAKA TEPAT
28) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUKEOLAHRAGAAN DAN IPS1 ≤ 3.270 MAKA TERLAMBAT
29) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 >
3.400 MAKA TEPAT
30) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤
3.400 DAN IPS4 > 3.610 DAN IPS2 > 3.245 MAKA TEPAT
31) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤
3.400 DAN IPS4 > 3.610 DAN IPS2 ≤ 3.245 MAKA TERLAMBAT
32) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤
3.400 DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 > 3.310 DAN IPS4 >
3.300 DAN IPS3 > 3.740 MAKA TEPAT
33) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤
3.400 DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 > 3.310 DAN IPS4 >
3.300 DAN IPS3 ≤ 3.740 MAKA TERLAMBAT
34) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤
3.400 DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 > 3.310 DAN IPS4 ≤
3.300 MAKA TEPAT
35) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤
3.400 DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 ≤ 3.310 MAKA
TEPAT
36) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤
3.400 DAN IPS4 ≤ 3.610 DAN IPS3 ≤ 3.425 MAKA TEPAT
37) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 ≤ 2.950 DAN IPS2 > 3.045
DAN IPS4 > 3.050 MAKA TERLAMBAT
65
38) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 ≤ 2.950 DAN IPS2 > 3.045
DAN IPS4 ≤ 3.050 MAKA TEPAT
39) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 ≤ 2.950 DAN IPS2 ≤ 3.045
MAKA TEPAT
40) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 ≤ 3.080 DAN IPS4 > 3.275 MAKA
TERLAMBAT
41) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 ≤ 3.080 DAN IPS4 ≤ 3.275 DAN IPS2 > 3.070
MAKA TERLAMBAT
42) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 ≤ 3.080 DAN IPS4 ≤ 3.275 DAN IPS2 ≤ 3.070
MAKA TEPAT
43) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUSOSIAL
DAN IPS2 > 2.740 DAN IPS1 > 3.780 MAKA TERLAMBAT
44) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUSOSIAL
DAN IPS2 > 2.740 DAN IPS1 ≤ 3.780 MAKA TEPAT
45) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUSOSIAL
DAN IPS2 ≤ 2.740 DAN IPS2 > 2.610 MAKA TEPAT
46) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUSOSIAL
DAN IPS2 ≤ 2.740 DAN IPS2 ≤ 2.610 MAKA TERLAMBAT
47) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
MATEMATIKADANIPA DAN IPS4 > 2.900 MAKA TEPAT
48) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
MATEMATIKADANIPA DAN IPS4 ≤ 2.900 DAN IPS2 > 3.165 MAKA
TEPAT
49) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
MATEMATIKADANIPA DAN IPS4 ≤ 2.900 DAN IPS2 ≤ 3.165 MAKA
TERLAMBAT
50) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = TEKNIK DAN
IPS1 > 3.075 DAN IPS2 > 3.525 MAKA TEPAT
51) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = TEKNIK DAN
IPS1 > 3.075 DAN IPS2 ≤ 3.525 DAN IPS1 > 3.235 MAKA TEPAT
52) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = TEKNIK DAN
IPS1 > 3.075 DAN IPS2 ≤ 3.525 DAN IPS1 ≤ 3.235 MAKA TERLAMBAT
66
53) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = TEKNIK DAN
IPS1 ≤ 3.075 MAKA TEPAT
54) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS =
BAHASADANSENI DAN IPS1 > 2.590 MAKA TEPAT
55) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS =
BAHASADANSENI DAN IPS1 ≤ 2.590 DAN IPS1 > 2.435 MAKA
TERLAMBAT
56) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS =
BAHASADANSENI DAN IPS1 ≤ 2.590 DAN IPS1 ≤ 2.435 MAKA TEPAT
57) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = EKONOMI
MAKA TEPAT
58) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS =
ILMUKEOLAHRAGAAN MAKA TERLAMBAT
59) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN MAKA TERLAMBAT
60) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = ILMUSOSIAL
DAN IPS1 > 2.615 MAKA TEPAT
61) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = ILMUSOSIAL
DAN IPS1 ≤ 2.615 MAKA TERLAMBAT
62) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS =
MATEMATIKADANIPA DAN IPS3 > 2.545 DAN IPS4 > 3.205 MAKA
TERLAMBAT
63) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS =
MATEMATIKADANIPA DAN IPS3 > 2.545 DAN IPS4 ≤ 3.205 MAKA
TEPAT
64) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS =
MATEMATIKADANIPA DAN IPS3 ≤ 2.545 MAKA TERLAMBAT
65) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = TEKNIK DAN
IPS2 > 2.550 MAKA TERLAMBAT
66) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = TEKNIK DAN
IPS2 ≤ 2.550 MAKA TEPAT
67
BAB V
PENUTUP
5.1 Kesimpulan
Pada penelitian ini dilakukan pemodelan menggunakan algoritma
C4.5 dan C4.5-PSO dengan menggunakan data yang dilampirkan oleh Hilda
dalam thesisnya. Fokus penelitian ini adalah penerapan algoritma PSO pada
pembobotan atribut teknik klasifikasi data mining C4.5. Validasi model
menggunakan 10fold cross-validation dan evaluasi model menggunakan
confusion matrix dan kurva ROC.
Hasil penelitian menunjukan bahwa model C4.5-PSO memiliki
akurasi yang lebih baik yaitu 86,09 % dibandingkan dengan model C4.5
yang akurasinya 84,13 %. Namun waktu eksekusi C4.5-PSO lebih lama
dengan 20 menit 23 detik, sedangkan C4.5 hanya 3 detik.
Dengan demikian, terbukti bahwa PSO yang diterapkan pada
pembobotan atribut C4.5 meningkatkan nilai akurasi. Hal ini menjadikan
C4.5-PSO menjadi alternatif lain untuk model optimasi yang dapat
diterapkan pada kasus lain seperti penentuan pemberian kredit, analisa pasar.
5.2 Saran
Proses penelitian ini mendapatkan banyak hambatan seperti
terbatasnya data penelitian dan perangkat keras yang digunakan, untuk
penelitian selanjutnya terdapat beberapa saran sebagai berikut :
1. Untuk mempercepat waktu eksekusi model dapat menggunakan
perangkat keras dengan spesifikasi hardware yang lebih baik seperti
processor core i7 dengan RAM 4Gb atau spesifikasi yang lebih tinggi.
68
2. Penelitian ini mengkomparasikan algoritma C4.5 dan C4.5 yang
dikombinasikan dengan PSO untuk pembobotan atribut, untuk
penelitian selanjutnya dapat dikembangkan dengan menggunakan
algoritma klasifikasi lain seperti Suport Vector Machine (SVM),
Neural Network yang dikombinasikan dengan algoritma PSO atau
algoritma optimasi lain seperti Ant Colony Optimization (ACO),
Genetic Algorithm (GA), Adaboost, atau algoritma optimasi lainnya.
3. Penelitian ini menggunakan data set yang dilampirkan oleh Hilda
dalam thesisnya, data set tersebut merupakan data kelulusan
mahasiswa perguruan tinggi yang erat kaitannya dengan dunia
pendidikan, untuk penelitian selanjutnya dapat dikembangkan dengan
menggunakan data set lain yang memiliki atribut tambahan seperti
status pernikahan, status pekerjaan, pendapatan per bulan keluarga
sebagai inputan nilai model yang dapat mempengaruhi tingkat
akurasinya.
4. Penelitian ini menggunakan data set yang dilampirkan oleh Hilda
dalam thesisnya dan data set tersebut terkait dengan dunia pendidikan,
kemudian data set tersebut dimodelkan berdasar pada algoritma C4.5
dengan C4.5 berbasis PSO untuk membandingkan tingkat akurasi dari
keduanya. Dalam penelitian selanjutnya, model yang digunakan pada
penelitian ini dapat diterapkan pada data set lain yang berbeda seperti
data perbankan terkait analisa penentuan kredit, data pemasaran
produk-produk tertentu untuk menguji kehandalan model yang
diusulkan.
69
DAFTAR PUSTAKA
[1] Abraham, A., Grosan, C., & Ramos, V. (2006). Swarm Intelligence In Data Mining.
Verlag Berlin Heidelberg: Springer.
[2] Alpaydın, E. (2010). Introduction to Machine Learning (Second Edition ed.).
London: The MIT Press.
[3] Amalia, Hilda. (2012). Komparasi Metode Klasifikasi Data Mining Untuk Prediksi
Ketepatan Kelulusan Mahasiswa. Jakarta :STIMIK Nusa Mandiri.
[4] Bai, Q. (2010). Analysis of Particle Swarm Optimization Algorithm. Computer dan
Informasi Science. Vol. 3, No. 1, February 2012. College of Computer Science and
Technology Inner Mongolia University for Nationalities.
[5] Bramer, Max. (2007). Principles of Data Mining. London: Springer.
[6] Gorunescu, Florin. (2011). Data Mining: Concepts and Techniques. Verlag berlin
Heidelberg: Springer.
[7] Han, J., & Kamber, M. (2007). Data Mining Concepts and Techniques. San
Fransisco: Mofgan Kaufan Publisher.
[8] http://ban-pt.kemdiknas.go.id/Instrumen%20AIPT%20(02-12-
2011)/2%20BUKU%202%20STANDAR%20DAN%20PROSEDUR%20AIPT%20
2011.docx. diakses 18 Juli 2013
[9] http://www.republika.co.id/berita/pendidikan/dunia-kampus/13/03/24/mk53wr-
lima-tahun-terakhir-11-pts-di-yogya-tutup. diakses 18 Juli 2013
[10] Karamouzis, T. S., & Vrettos, A. (2008). An Artificial Neural Network for
Predicting Student Graduation Outcomes. Preceeding of World Congress on
Engineering and Computer Science, 978-988-98671-02.
[11] Kusrini,&Luthfi, E. T. (2009). Algoritma Data Mining. Yogyakarta: Andi
Publishing
[12] Larose, D. T. (2005).Discovering Knowledge in Data. New Jersey: John Willey &
Sons, Inc.
70
[13] Lasut, Desiyana. (2012). Prediksi Loyalitas Pelanggan pada Perusahaan Penyedia
Layanan Multimedia dengan Algoritma C4.5 Berbasis Particle Swarm
Optimization. Jakarta: STIMIK Eresha.
[14] Liu, Y., Wang, G., Chen, H., Dong, H., Zhu, X., & Wang, S. (2011). An Improved
Particle Swarm Optimization for Feature Selection. Journal of Bionic Engineering
Vol 8 , 1-10.
[15] Ming, Kai Ting. (2002). An instance-weighting method to induce cost-sensitive.
IEEE transactions on knowledge and data engineering, vol. 14, no. 3.
[16] Quadri, M. N., & Kalyankar, N. V. (2010). Drop Out Feature of Student Data for
Academic Performance Using Decision Tree techniques. Global Journal of
Computer Science and Technology , 2-4.
[17] Santosa, B. (2007). Data Mining Teknik Pemanfaat Data Untuk Keperluan Bisnis.
Yogyakarta: Graha Ilmu.
[18] Sousa, T., Silva, A., & Neves, A. (2004). Particle Swarm Based Data Mining
Algorithms for Classification Tasks. Parallel Computing , 30, 767-783.
[19] Suhartina & Ernastuti. (2010). Graduation Prediction of Gunadarma Student Using
Naïve Bayes and Decision Tree. Jakarta: Universitas Gunadarma.
[20] Tsai, C. F., & Chen, M. Y. (2009). Variable Selection by Association Rules for
Customer Churn Prediction of Multimedia on Demand. Expert Systems with
Applications.
[21] Vercellis, Carlo (2009). Business Intelligent: Data Mining and Optimization for
Decision Making. Southern Gate, Chichester, West Sussex: John Willey & Sons,
Ltd.
[22] Witten, H. I., Eibe, F., & Hall, A. M. (2011). Data Mining Machine Learning Tools
and Techiques. Burlington: Morgan Kaufmann Publisher.
[23] Wu, X., & Kumar, V. (2009). The Top Ten Algorithms in Data Mining. Taylor &
Francis Group, LLC.
[24] Yao, Ping. (2009). Comparative Study on Class Imbalance Learning for Credit
Scoring. Ninth International Conference on Hybrid Intelligent Systems.
Heilongjiang Institute of Science and Technology, Harbin, 150027, China.