KOMPARASI METODE NAÏVE BAYES DAN RANDOM FOREST …
Transcript of KOMPARASI METODE NAÏVE BAYES DAN RANDOM FOREST …
i
KOMPARASI METODE NAÏVE BAYES DAN RANDOM
FOREST UNTUK MEMPREDIKSI KETEPATAN
WAKTU LULUS MAHASISWA
(Studi Kasus: Mahasiswa Fakultas Sains Dan Teknologi Universitas Sanata
Dharma)
SKRIPSI
Diajukan untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Komputer
Program Studi Informatika HALAMAN JUDU L
Disusun Oleh:
Erwinsyah Rico Agusta
175314101
PROGRAM STUDI INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2021
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ii
COMPARISON OF NAIVE BAYES AND RANDOM FOREST
METHODS TO PREDICT THE ACCURACY OF
STUDENT GRADUATION TIME
(Case: Faculty of Science and Technology Sanata Dharma University
Students)
THESIS
Present as Partial Fulfillment of the Requirement
To Obtain the Sarjana Komputer Degree
In Informatics Study Program HALAMAN JUDU L
By:
Erwinsyah Rico Agusta
175314101
INFORMATICS STUDY PROGRAM
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2021
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
iii
HALAMAN PERSETUJUAN
SKRIPSI
KOMPARASI METODE NAÏVE BAYES DAN RANDOM FOREST UNTUK
MEMPREDIKSI KETEPATAN WAKTU LULUS MAHASISWA
Oleh:
ERWINSYAH RICO AGUSTA
NIM: 175314101
Telah Disetujui Oleh:
Dosen Pembimbing,
Dr. Ridowati Gunawan, S.Kom., M.T. Tanggal: ....... ................2021
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
iv
HALAMAN PENGESAHAN
SKRIPSI
KOMPARASI METODE NAÏVE BAYES DAN RANDOM FOREST UNTUK
MEMPREDIKSI KETEPATAN WAKTU LULUS MAHASISWA
Dipersiapkan dan disusun oleh:
ERWINSYAH RICO AGUSTA
NIM: 175314101
Telah dipertahankan di depan Panitia Penguji
Pada tanggal 26 Juli 2021
Dan dinyatakan telah memenuhi syarat
Susunan Panitia Penguji
Nama Lengkap Tanda Tangan
Ketua : Drs.Haris Sriwindono M.Kom, Ph.D. .........................
Sekretaris : Paulina Heruningsih Prima Rosa, S.Si., M.Sc. .........................
Anggota : Dr. Ridowati Gunawan, S.Kom., M.T. .........................
Yogyakarta, .......................................
Fakultas Sains dan Teknologi
Universitas Sanata Dharma
Dekan,
Sudi Mungkasi, S.Si, M.Math.Sc., Ph.D.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
v
HALAMAN PERSEMBAHAN
“You can’t build an adaptable organization without adaptable people and
individuals change only when they have to, or when they want to.”
Gary Hamel
Tugas Akhir ini saya persembahkan kepada:
Orang tua
Alm. Kakek dan Alm. Nenek
Kakak-kakak saya
Teman-teman saya
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
vi
PERNYATAAN KEASLIAN KARYA
Saya menyatakan dengan sesungguhnya bahwa skripsi yang saya tulis ini
tidak mengandung atau memuat hasil karya orang lain, kecuali yang sudah saya
sebutkan dalam daftar pustaka dan kutipan selayaknya karya ilmiah.
Yogyakarta, 20 Agustus 2021
Penulis,
Erwinsyah Rico Agusta
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
vii
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH
UNTUK KEPENTINGAN AKADEMIS
Yang bertanda tangan di bawah ini, saya mahasiswa Universitas Sanata
Dharma:
Nama : Erwinsyah Rico Agusta
NIM : 175314101
Demi pengembangan ilmu pengetahuan, saya memberikan kepada
Perpustakaan Universitas Sanata Dharma karya ilmiah saya yang berjudul:
KOMPARASI METODE NAÏVE BAYES DAN RANDOM FOREST UNTUK
MEMPREDIKSI KETEPATAN WAKTU LULUS MAHASISWA
Berserta perangkat yang diperlukan (bila ada). Dengan demikian saya
memberikan kepada Perpustakaan Universitas Sanata Dharma hak untuk
menyimpan, mengalihkan dalam bentuk media lain, mengelola di internet atau
media lain untuk kepentingan akademis tanpa perlu meminta izin kepada saya
maupun memberikan royalty kepada saya selama tetap mencantumkan nama saya
sebagai penulis.
Demikian pernyataan ini saya buat dengan sebenarnya.
Dibuat di Yogyakarta
Pada tanggal 20 Agustus 2021
Yang menyatakan,
Erwinsyah Rico Agusta.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
viii
KATA PENGANTAR
Puji dan syukur penulis panjatkan kepada Tuhan Yang Maha Esa atas segala
rahmat dan karunia nya sehingga peneliti dapat menyelesaikan skripsi ini dengan
judul “Komparasi Metode Naïve Bayes Dan Random Forest Untuk Memprediksi
Ketepatan Waktu Lulus Mahasiswa”, sebagai salah satu syarat guna untuk
menyelesaikan Program Sarjana (S1) prodi Informatika di Universitas Sanata
Dharma.
Penulis menyadari bahwa skripsi ini tidak mungkin terselesaikan tanpa
adanya dukungan, bantuan, bimbingan dan nasehat dari berbagai pihak selama
penyusunan skripsi ini. Pada kesempatan ini penulis menyampaikan terima kasih
setulus-tulusnya kepada:
1. Ibu Dr. Ridowati Gunawan, S.Kom., M.T. selaku dosen pembimbing
skripsi atas segala bimbingan, arahan serta saran yang diberikan kepada
penulis sehingga skripsi ini dapat diselesaikan dengan baik.
2. Bapak Robertus Adi Nugroho S.T., M. Eng selaku Ketua Program Studi
S1 Informatika Universitas Sanata Dharma.
3. Bapak Drs.Haris Sriwindono M.Kom, Ph.D. selaku dosen pembimbing
akademik.
4. Bapak Sudi Mungkasi, S.Si, M.Math.Sc., Ph.D. selaku Dekan Fakultas
Sains dan Teknologi Universitas Sanata Dharma.
5. Pihak sekretariat dan laboran yang turut membantu penulis
menyelesaikan tugas akhir ini.
6. Nia Ayulita, terima kasih untuk selalu ada saat suka maupun duka, selalu
memberikan semangat, doa dan motivasi kepada penulis.
7. Damar, Thomas dan Mahendra selaku teman satu dosen bimbingan yang
menemani dan saling membantu dalam mengerjakan skripsi ini.
8. Kedua orang tua tercinta, bapak Sis Widyanto dan ibu Sri Mulyani yang
telah memberikan motivasi dalam menyelesaikan skripsi ini.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ix
9. Kakak-kakak tersayang, Erlita Octaviani dan Ernanda Rully Novrisanti
yang telah memberikan kasih sayang dan motivasi kepada penulis dalam
menyelesaikan skripsi ini.
10. Teman-teman informatika Angkatan 2017 yang saling menyemangati
dalam menyelesaikan skripsi.
11. Semua pihak yang tidak dapat disebutkan satu-persatu yang telah
membantu penulis dalam menyelesaikan skripsi ini.
Peneliti berharap, semoga skripsi ini dapat memberikan tambahan
pengetahuan yang berguna kepada pembaca pada umumnya. Penulis menyadari
skripsi ini masih memiliki kekurangan dan jauh dari kata sempurna, oleh karena itu
penulis mengharapkan kritik dan saran yang membangun demi kesempurnaan
skripsi ini.
Yogyakarta, 26 Juli 2021
Penulis,
Erwinsyah Rico Agusta
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
x
ABSTRAK
Salah satu aspek pengukuran kualitas perguruan tinggi adalah mahasiswa.
Kategori penilaian dari aspek tersebut yaitu sistem perekrutan mahasiswa baru,
rata-rata masa studi yang ditempuh dan indeks prestasi kumulatifnya (Badan
Akreditasi Nasional Perguruan Tinggi, 2011). Dari pernyataan tersebut, bisa
disimpulkan bahwa kualitas perguruan tinggi salah satunya ditentukan dari
ketepatan waktu lulus mahasiswa, sehingga dilakukan penelitian yang mampu
memprediksi ketepatan waktu lulus mahasiswa agar dapat menjadi salah satu alat
yang menyediakan informasi untuk membantu pihak universitas untuk upaya-upaya
yang dilakukan dalam rangka peningkatan kualitas perguruan tinggi.
Pada penelitian ini, metode Naïve Bayes dan Random Forest digunakan
untuk mengetahui tingkat akurasi yang lebih baik antara dua metode tersebut dalam
memprediksi ketepatan waktu lulus mahasiswa Fakultas Sains dan Teknologi,
Universitas Sanata Dharma. Klasifikasi yang dilakukan pada 1169 data tersebut
menghasilkan akurasi tertinggi oleh Random Forest dengan akurasi sebesar 88,53%
menggunakan 10-fold Cross Validation dan 100 pohon, sedangkan Naïve Bayes
mendapatkan akurasi sebesar 78,53% menggunakan 10-fold Cross Validation.
Kata Kunci: Naïve Bayes, Random Forest, Kelulusan Mahasiswa, Klasifikasi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xi
ABSTRACT
One aspect from college grade measurement is the student from the college
itself. The measurement category from this aspect is new student recruitment
system, the average length of study taken and the cumulative achievement index
(Badan Akreditasi Nasional Perguruan Tinggi, 2011). From that statement, can be
concluded that the quality of higher education on university is determined by the
accuracy student graduation time, so a research is carried out to predict the accuracy
student graduation time and can become one of the tools that provides information
to assist the university in the efforts to improve the quality of the college.
In this research, Naïve Bayes and Random Forest methods were used to
determine the better accuracy between the methods in order to predict the accuracy
student graduation time from the Faculty of Science and Technology, Sanata
Dharma University. The classification using 1169 data resulted in the highest
accuracy by Random Forest with an accuracy of 88.53% using 10-fold Cross
Validation and 100 trees, while Naïve Bayes obtained an accuracy of 78.53% using
10-fold Cross Validation.
Kata Kunci: Naïve Bayes, Random Forest, Student Graduation, Classification.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xii
DAFTAR ISI
HALAMAN JUDUL ...................................................................................... i
HALAMAN JUDUL(ENGLISH) ................................................................. ii
HALAMAN PERSETUJUAN ..................................................................... iii
HALAMAN PENGESAHAN ...................................................................... iv
HALAMAN PERSEMBAHAN .................................................................... v
PERNYATAAN KEASLIAN KARYA ....................................................... vi
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA
ILMIAH UNTUK KEPENTINGAN AKADEMIS..................................... vii
KATA PENGANTAR ................................................................................ viii
ABSTRAK ..................................................................................................... x
ABSTRACT ................................................................................................... xi
DAFTAR ISI ............................................................................................... xii
DAFTAR TABEL ...................................................................................... xiv
DAFTAR GAMBAR .................................................................................. xvi
BAB I PENDAHULUAN ............................................................................ 1
1.1 Latar Belakang .................................................................................... 1
1.2 Perumusan Masalah ............................................................................. 2
1.3 Tujuan Penelitian ................................................................................. 2
1.4 Manfaat Penelitian ............................................................................... 3
1.5 Batasan Masalah .................................................................................. 3
1.6 Sistematika Penulisan .......................................................................... 4
BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI .................. 6
2.1 Tinjauan Pustaka ................................................................................. 6
2.2 Landasan Teori .................................................................................... 7
2.2.1 Ketepatan Waktu Lulus Mahasiswa ........................................ 8
2.2.2 Klasifikasi ................................................................................ 8
2.2.3 Naïve Bayes ............................................................................. 9
2.2.4 Random Forest ...................................................................... 10
2.2.5 K-Fold Cross Validation ....................................................... 12
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiii
2.2.6 Confusion Matrix ................................................................... 12
BAB III METODOLOGI PENELITIAN ................................................ 14
3.1 Gambaran Umum Penelitian ............................................................. 14
3.2 Pengambilan Data ............................................................................. 15
3.3 Data Pre-processing ......................................................................... 16
3.3.1 Data Cleaning........................................................................ 17
3.3.2 Data Transformation ............................................................. 17
3.4 Metode dan Pemodelan ..................................................................... 17
3.4.1 Pemodelan Naïve Bayes. ........................................................ 18
3.4.2 Pemodelan Random Forest .................................................... 22
3.5 Rancangan Pengujian ........................................................................ 30
3.6 Peralatan Penelitian ........................................................................... 30
3.7 Rancangan Interface .......................................................................... 31
BAB IV HASIL DAN ANALISA ............................................................. 32
4.1 Tahap Pre-processing ....................................................................... 32
4.1.1 Data Cleaning........................................................................ 32
4.1.2 Data Transformation ............................................................. 33
4.2 Pemeringkatan Atribut dengan Information Gain ............................. 34
4.3 Klasifikasi .......................................................................................... 35
4.4 Pengujian ........................................................................................... 37
4.4.1 Uji Variasi Atribut ................................................................. 37
4.5 Analisis Hasil .................................................................................... 44
4.6 Interface Perangkat Lunak ................................................................ 46
BAB V PENUTUP ..................................................................................... 50
5.1 Kesimpulan ........................................................................................ 50
5.2 Saran .................................................................................................. 50
DAFTAR PUSTAKA .................................................................................. 52
LAMPIRAN ................................................................................................ 55
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiv
DAFTAR TABEL
Tabel 2.1 Perbandingan Penelitian Relevan ........................................................... 7
Tabel 2.2 Confusion Matrix (Sasongko, 2016) ..................................................... 13
Tabel 3.1 Contoh Data Training............................................................................ 18
Tabel 3.2 Contoh Data Testing ............................................................................. 18
Tabel 3.3 Probabilitas Label (Kelas) ..................................................................... 19
Tabel 3.4 Hasil Perhitungan Mean dan Standar Deviasi pada Atribut ................. 20
Tabel 3.5 Hasil Probabilitas Masing-masing Atribut pada Data Testing .............. 21
Tabel 3.6 Probabilitas Data Testing ...................................................................... 21
Tabel 3.7 Hasil Klasifikasi Naive Bayes ............................................................... 22
Tabel 3.8 Confusion Matrix Hasil Klasifikasi Naive Bayes .................................. 22
Tabel 3.9 Bootstrap Dataset ................................................................................. 23
Tabel 3.10 Entropy dari Data Bootstrap ............................................................... 24
Tabel 3.11 Hasil Perhitungan Partisi, Entropy dan Information Gain dari masing-
masing Atribut ....................................................................................................... 25
Tabel 3.12 Hasil Perhitungan Partisi, Entropy dan Information Gain terakhir. ... 26
Tabel 3.13 Contoh Data Testing untuk Klasifikasi Random Forest ..................... 28
Tabel 3.14 Hasil Klasifikasi Random Forest ........................................................ 29
Tabel 3.15 Confusion Matrix Hasil Klasifikasi Random Forest ........................... 29
Tabel 4.1 Contoh Data Sebelum Transformasi ..................................................... 33
Tabel 4.2 Contoh Data Sesudah Transformasi ...................................................... 34
Tabel 4.3 Hasil Pemeringkatan Atribut Menggunakan Information Gain ............ 34
Tabel 4.4 Hasil Pengujian Menggunakan 1 Atribut (IPS 8) ................................. 37
Tabel 4.5 Hasil Pengujian Menggunakan 2 Atribut (IPS 8 dan Lama TA) .......... 37
Tabel 4.6 Hasil Pengujian menggunakan 3 Atribut (IPS 8, Lama TA dan SKS 8)
............................................................................................................................... 38
Tabel 4.7 Hasil Pengujian menggunakan 4 Atribut (IPS 8, Lama TA, SKS 8 dan
IPS 7) ..................................................................................................................... 39
Tabel 4.8 Hasil Pengujian menggunakan 5 Atribut (IPS 8, Lama TA, SKS 8, IPS 7
dan IPS 2) .............................................................................................................. 39
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xv
Tabel 4.9 Hasil Pengujian menggunakan 6 Atribut (IPS 8, Lama TA, SKS 8, IPS 7,
IPS 2 dan SKS 3) .................................................................................................. 40
Tabel 4.10 Hasil Pengujian menggunakan 7 Atribut (IPS 8, Lama TA, SKS 8, IPS
7, IPS 2, SKS 3 dan IPS 1) .................................................................................... 41
Tabel 4.11 Hasil Pengujian menggunakan 8 Atribut (IPS 8, Lama TA, SKS 8, IPS
7, IPS 2, SKS 3, IPS 1 dan SKS 6) ....................................................................... 42
Tabel 4.12 Hasil Pengujian menggunakan 9 Atribut (IPS 8, Lama TA, SKS 8, IPS
7, IPS 2, SKS 3, IPS 1, SKS 6 dan SKS 5) ........................................................... 42
Tabel 4.13 Hasil Pengujian menggunakan 10 Atribut (IPS 8, Lama TA, SKS 8, IPS
7, IPS 2, SKS 3, IPS 1, SKS 6, SKS 5 dan IPS 6) ................................................ 43
Tabel 4.14 Hasil Optimal dari Semua Variasi ...................................................... 44
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xvi
DAFTAR GAMBAR
Gambar 2.1 3-Fold Cross Validation .................................................................... 12
Gambar 3.1 Diagram Alur Penelitian.................................................................... 14
Gambar 3.2 Contoh Data Awal ............................................................................. 15
Gambar 3.3 Data Sebelum dan Sesudah Transformasi ......................................... 17
Gambar 3.4 Perhitungan Partisi Atribut IPS 6 ...................................................... 25
Gambar 3.5 Root Node Hasil Perhitungan ........................................................... 26
Gambar 3.6 Pohon ke-1......................................................................................... 27
Gambar 3.7 Pohon ke-2......................................................................................... 28
Gambar 3.8 Pohon ke-3......................................................................................... 28
Gambar 3.9 Rancangan Interface .......................................................................... 31
Gambar 4.1 Source Code Data Cleaning .............................................................. 32
Gambar 4.2 Source Code Data Transformation ................................................... 33
Gambar 4.3 Source Code Pemeringkatan Information Gain ................................ 35
Gambar 4.4 Source Code Klasifikasi Random Forest dengan Cross Validation . 36
Gambar 4.5 Source Code Klasifikasi Naive Bayes dengan Cross Validation ...... 36
Gambar 4.6 Grafik Tingkat Akurasi ..................................................................... 45
Gambar 4.7 Interface Program .............................................................................. 46
Gambar 4.8 Interface Masukkan Data .................................................................. 47
Gambar 4.9 Interface Pemodelan .......................................................................... 48
Gambar 4.10 Atribut yang dipilih ......................................................................... 49
Gambar 4.11 Interface Uji Data Tunggal ............................................................. 49
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Perguruan tinggi merupakan jenjang pendidikan yang dianggap paling
tinggi sebelum akhirnya memasuki dunia kerja dan diselenggarakan untuk
mempersiapkan peserta didik menjadi masyarakat yang memiliki kemampuan
akademis dan profesional yang dapat menerapkan, mengembangkan, dan
menciptakan ilmu pengetahuan, teknologi, dan kesenian (Menteri Riset Teknologi
dan Pendidikan Tinggi, 2015). Artinya, perguruan tinggi memiliki pengaruh yang
besar dalam meningkatkan kualitas pendidikan di Indonesia. Sehingga sangat
dibutuhkan pengembangan kualitas perguruan tinggi.
Salah satu aspek pengukuran kualitas perguruan tinggi adalah mahasiswa.
Kategori penilaian dari aspek tersebut yaitu sistem perekrutan mahasiswa baru,
rata-rata masa studi yang ditempuh dan indeks prestasi kumulatifnya (Badan
Akreditasi Nasional Perguruan Tinggi, 2011). Dari pernyataan tersebut, bisa
disimpulkan bahwa kualitas perguruan tinggi salah satunya ditentukan dari
ketepatan waktu lulus mahasiswa. Sehingga dilakukan penelitian yang mampu
memprediksi ketepatan waktu lulus mahasiswa agar dapat menjadi salah satu alat
yang menyediakan informasi untuk membantu pihak universitas dalam upaya-
upaya yang dilakukan dalam rangka peningkatan kualitas perguruan tinggi.
Data Mining dan Machine Learning ialah teknik untuk menemukan dan
mengekstrak pengetahuan/informasi dari suatu dataset. Algoritma data mining
dapat menganalisis data untuk menemukan pola yang tidak diketahui dalam
database besar dari beberapa industri seperti pendidikan, asuransi, kesehatan, dan
pemasaran umumnya menerapkannya untuk mengurangi biaya, meningkatkan
kualitas penelitian, dan meningkatkan jumlah penjualan (Khozeimeh et al., 2017).
Dalam penelitian ini, dilakukan teknik data mining klasifikasi untuk memprediksi
memprediksi ketepatan waktu lulus mahasiswa berdasarkan data dari mahasiswa
tersebut.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2
Metode data mining yang populer dalam kasus klasifikasi/prediksi ialah
metode Naïve Bayes dan Random Forest. Naïve Bayes adalah metode
pengklasifikasian statistik yang dapat digunakan untuk memprediksi probabilitas
keanggotaan suatu kelas. Naive Bayes didasarkan pada teorema Bayes yang
memiliki kemampuan klasifikasi serupa dengan decision tree (Yuda Septian
Nugroho, 2014). Metode Naïve Bayes juga memiliki kelebihan karena mudah dan
dapat menangani data missing (Kang et al., 2012). Namun metode Naïve Bayes
memiliki asumsi independensi atribut (Zhang et al., 2017). Sedangkan Random
Forest adalah metode pengembangan turunan dari decision tree tunggal (Gata dkk.,
2019). Penggunaan Random Forest dapat menghindari overfitting pada sebuah set
data saat mencapai akurasi yang maksimum.
Pada penelitian ini, metode Naïve Bayes dan Random Forest akan
diterapkan untuk memecahkan masalah tersebut. Metode Naïve Bayes dan Random
Forest telah banyak digunakan untuk melakukan proses klasifikasi dari sejumlah
data, tetapi belum diketahui metode mana yang lebih tinggi akurasinya dalam
memprediksi ketepatan waktu lulus mahasiswa.
Dari latar belakang yang telah dijabarkan, juga berdasarkan pada kelebihan
dan kekurangan masing-masing metode yang akan digunakan, dilakukan penelitian
dengan mengkomparasikan metode Naïve Bayes dan Random Forest untuk
memprediksi ketepatan waktu lulus mahasiswa Fakultas Sains dan Teknologi,
Universitas Sanata Dharma.
1.2 Perumusan Masalah
Berdasarkan latar belakang permasalahan diatas, maka rumusan masalah
yang didapatkan ialah bagaimana membandingkan tingkat akurasi antara metode
Naïve Bayes dan Random Forest dalam memprediksi ketepatan waktu lulus
mahasiswa.
1.3 Tujuan Penelitian
Tujuan penelitian berdasarkan rumusan masalah diatas yakni untuk
mengetahui tingkat akurasi yang lebih baik antara metode Naïve Bayes dan Random
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3
Forest dalam memprediksi ketepatan waktu lulus mahasiswa Fakultas Sains dan
Teknologi, Universitas Sanata Dharma.
1.4 Manfaat Penelitian
Manfaat yang diperoleh dari Tugas Akhir ini adalah :
Bagi Penulis:
1. Penerapan dari ilmu perkuliahan data mining yang pernah ditempuh
2. Menambah pemahaman dalam penerapan metode naïve bayes dan random
forest untuk klasifikasi data
Bagi Akademik
Dengan adanya penelitian ini, dapat menjadi salah satu alat yang
menyediakan informasi untuk membantu pihak universitas dalam
upaya-upaya yang dilakukan dalam rangka peningkatan kualitas
perguruan tinggi.
Bagi Pembaca
Manfaat yang akan diperoleh dari pembaca yaitu bisa digunakan
sebagai salah satu bahan pengetahuan dalam melakukan penelitian
dengan penggunaan metode klasifikasi naïve bayes dan random forest.
1.5 Batasan Masalah
Guna menghindari adanya penyimpangan dari judul dalam melakukan
penelitian, maka penulis memberi batasan untuk mencapai tujuan penelitian:
1. Data yang digunakan adalah data akademik mahasiswa Fakultas Sains dan
Teknologi Universitas Sanata Dharma angkatan 2011 hingga 2016
2. Yang dimaksud dari Lulus tepat waktu ialah lulus sesuai dengan kurikulum
S1 Universitas Sanata Dharma yaitu 8 semester atau 4 tahun dengan jumlah
sks 144 sks.
3. Data yang diambil hanya dari mahasiswa yang sudah lulus.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4
4. Pada penelitian ini, tidak dilakukan uji independensi atribut.
1.6 Sistematika Penulisan
Sistematika penulisan pada penelitian ini dibagi menjadi 5 bab, yaitu:
1. BAB I PENDAHULUAN
Bab ini menjelaskan tentang latar belakang, rumusan masalah, tujuan,
manfaat, batasan masalah, dan sistematika penulisan.
2. BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI
Bab ini berisi mengenai teori-teori yang akan digunakan sebagai dasar
dalam penelitian klasifikasi dengan menggunakan algoritma naïve
bayes dan random forest.
3. BAB III METODOLOGI PENELITIAN
Bab ini berisi tentang gambaran umum sistem yang dibangun, data yang
digunakan dan tahap-tahap memprediksi ketepatan waktu lulus
mahasiswa dengan menggunakan metode naïve bayes dan random
forest.
4. BAB IV HASIL DAN ANALISA
Dalam bab ini berisi tahap-tahap yang berkaitan dengan implementasi
perangkat lunak yang dibuat serta hasil luaran (output) yang diperoleh
dari pengolahan data dan pengujian, yaitu melalui tahap pre-processing
data, pemeringkatan atribut dengan metode information gain,
klasifikasi naïve bayes dan random forest, pengujian variasi dan
analisis hasil.
5. BAB IV KESIMPULAN DAN SARAN
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5
Bab ini membahas tentang kesimpulan yang diperoleh dari hasil
penelitian tugas akhir yang dilakukan dan saran yang berguna untuk
penelitian yang akan datang.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
6
BAB II
TINJAUAN PUSTAKA DAN LANDASAN TEORI
2.1 Tinjauan Pustaka
Berbagai penelitian untuk memprediksi kelulusan maupun ketepatan waktu
lulus mahasiswa telah dilakukan. Seperti pada penelitian yang dilakukan oleh
Sinaga (Sinaga, 2020) yang memprediksi kelulusan mahasiswa Fakultas Sains dan
Teknologi Universitas Sanata Dharma dengan menggunakan metode naïve bayes
dan mendapatkan akurasi sebesar 80.54% dengan menggunakan 3 atribut yaitu SKS
semester 4, lama tugas akhir dan indeks prestasi semester 2 yang dipilih
menggunakan metode seleksi fitur information gain. Juga terdapat penelitian oleh
Yahya (Yahya, 2018) yang membandingkan metode random forest dan support-
vector machine untuk mengklasifikasikan ketepatan lama studi mahasiswa
Universitas Islam Indonesia dan menghasilkan akurasi yang terbaik adalah metode
random forest yaitu 80% akurasi dengan nilai optimum m=2 dan k=500, sedangkan
SVM kernel RBF dengan optimum c=1 dan gamma=1 mendapatkan akurasi sebesar
77% dan SVM kernel signoid dengan optimum c=10 dan gamma=1 mendapatkan
akurasi sebesar 68%.
Juga terdapat penelitian lain yang menggunakan metode yang sama, tetapi
untuk kasus yang lain. Bawono & Wasono (Bawono & Wasono, 2019) melakukan
penelitian perbandingan metode naïve bayes dan random forest untuk klasifikasi
debitur berdasarkan kualitas kredit dan mendapatkan tingkat akurasi paling tinggi
yaitu random forest dengan akurasi 98,16%, sedangkan naïve bayes hanya 95,93%.
Untuk tabel perbandingan penelitian diatas ditunjukkan pada Tabel 2.1
Perbandingan Penelitian Relevan, dari penelitian tersebut diusulkan penelitian yang
membandingkan antara metode naïve bayes dengan random forest yang telah
diketahui sama-sama memiliki akurasi yang bagus untuk memprediksi ketepatan
waktu lulus mahasiswa Fakultas Sains dan Teknologi Universitas Sanata Dharma.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
7
Tabel 2.1 Perbandingan Penelitian Relevan
No. Peneliti Algoritma Keterangan
1. Sinaga
(2020)
Naïve Bayes Penelitian untuk memprediksi
kelulusan mahasiswa dengan
menggunakan Naïve Bayes
menghasilkan akurasi sebesar
80.5402%
2. Yahya
(2018)
Random Forest dan
Support Vector Machine
Penelitian untuk
mengklasifikasikan ketepatan
lama studi mahasiswa pada
Universitas Islam Indonesia
menghasilkan akurasi terbaik
yaitu metode Random Forest
dengan nilai optimum m=2 dan k
=500 mendapatkan akurasi
sebesar 80%.
3. Bawono
dan
Wasono
(2019)
Random Forest dan Naïve
Bayes
Penelitian klasifikasi debitur pada
kualitas kredit menghasilkan
Random Forest menjadi metode
terbaik dengan akurasi mencapai
98,16%, sedangkan Naïve Bayes
hanya 95,93%.
2.2 Landasan Teori
Dalam tahap ini bdijelaskan secara singkat teori-teori yang digunakan pada
penelitian yaitu mengenai ketepatan waktu lulus mahasiswa, klasifikasi, naïve
bayes, random forest, k-fold cross validation dan confusion matrix berdasarkan
kajian Pustaka dan sumber-sumber lain.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
8
2.2.1 Ketepatan Waktu Lulus Mahasiswa
Lulus tepat waktu merupakan salah satu tujuan yang ingin dicapai
mahasiswa dalam menyelesaikan studinya di perguruan tinggi. Mahasiswa
dinyatakan lulus tepat waktu apabila menyelesaikan studinya di perguruan
tinggi selama kurang dari atau sama dengan 8 semester atau bisa dibilang 4
tahun, dengan jumlah sks 144 sks (Universitas Sanata Dharma, 2017).
Ketepatan waktu lulus mahasiswa merupakan salah satu aspek yang sangat
mempengaruhi kualitas suatu perguruan tinggi. Menurut Buku II “Standar dan
Prosedur Akreditasi Institusi Perguruan Tinggi” dari Badan Akreditasi
Nasional Perguruan Tinggi, menyebutkan bahwa mahasiswa dan lulusan
merupakan salah satu aspek penilaian dari akreditasi (Badan Akreditasi
Nasional Perguruan Tinggi, 2011).
Namun dalam prakteknya mahasiswa tidak selalu dapat menyelesaikan
pendidikan sarjana/strata satu dalam kurun waktu empat tahun. Contohnya
pada data mahasiswa Fakultas Sains dan Teknologi Universitas Sanata Dharma
angkatan 2011 hingga angkatan 2016 yang diambil dari BAPSI Universitas
Sanata Dharma, diketahui mahasiswa yang lulus tepat waktu tidak lebih banyak
dari mahasiswa yang tidak tepat waktu.
Terdapat juga beberapa faktor penyebab ketidaktepatan waktu lulus
mahasiswa yaitu jumlah mata kuliah yang diulang, mempunyai kerja sambilan
saat kuliah, tidak memahami Metode Penelitian Ilmiah, tidak mempunyai
gambaran judul skripsi dari awal (Meilani dkk., 2019).
2.2.2 Klasifikasi
Merupakan suatu teknik dalam menemukan suatu pola atau fungsi dari
suatu data yang dapat membedakan konsep atau kelas data. Teknik tersebut
bertujuan untuk dapat memprediksi kelas dari suatu objek yang labelnya tidak
diketahui (Syukri Mustafa et al., 2017).
Klasifikasi data terdiri dari 2 langkah proses. Pertama adalah learning
(fase training), dimana algoritma klasifikasi dibuat untuk menganalisa data
training lalu direpresentasikan dalam bentuk rule klasifikasi. Proses kedua
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
9
adalah klasifikasi, dimana data tes digunakan untuk memperkirakan akurasi
dari rule klasifikasi (Han & Kamber, 2006).
2.2.3 Naïve Bayes
Naïve Bayes merupakan metode pengklasifikasian menggunakan metode
probabilitas dan statistik yg dikemukakan oleh ilmuwan Inggris Thomas
Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman di
masa sebelumnya. Ciri utama dr Naïve Bayes Classifier ini adalah asumsi yg
sangat kuat (naïf) akan independensi dari masing-masing kondisi / kejadian
(Hidayat, 2016). Naïve Bayes ini terbukti memiliki tingkat akurasi dan
kecepatan yang tepat saat dalam menggunakan aplikasi ke dalam database
dengan data yang besar (Muslehatin et al., 2017). Naive Bayes juga memiliki
asumsi independensi atribut yang berarti Naïve Bayes akan memandang semua
atribut sebagai atribut independen (Zhang et al., 2017). Namun, Naïve Bayes
dapat tetap berjalan walaupun syarat independensi atribut dilanggar (Brownlee,
2014).
Rumus naïve bayes dapat dimaksimalkan dengan menggunakan teorema
bayes menjadi seperti pada persamaan (2.1) dan juga untuk data kontinu dapat
digunakan rumus gaussian naïve bayes seperti pada persamaan (2.2) (Han et
al., 2012).
𝑃(𝑐|𝑥) = 𝑃(𝑥|𝑐). 𝑃(𝑐)
𝑃(𝑥)
(2.1)
Keterangan :
c : Kelas
x : Prediktor
P(c|x) : Probabilitas kelas (label) dari kondisi prediktor (atribut)
P(x|c) : Probabilitas c dari kondisi c
P(c) : Probabilitas kelas
P(x) : Probabilitas dari prediktor
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
10
𝑃(𝑋𝑖 = 𝑋|𝑌 = 𝑌𝑗) = 1
√2𝜋𝜎𝑒
−(𝑥𝑖−µ)2
2(𝜎2 (2.2)
Keterangan:
P : Probabilitas
Xi : Atribut ke-i
zi : Nilai atribut ke-i
Y : Kelas yang akan dicari
µ : Rata-rata dari seluruh atribut
σ : Standar Deviasi
Secara sederhana, tahapan Naïve Bayes dapat dilakukan sebagai berikut
(Bawono & Wasono, 2019):
1. Menghitung probabilitas dari kelas/label P(c).
2. Menentukan probablitas kategori dari atribut P(x).
3. Menghitung probabilitas dari semua atribut berdasarkan label/kelas
(Menghitung P(x|c) untuk tiap kelas)
4. Mengalikan nilai probabilitas tiap atribut dengan hasil probabilitas
kelas.
5. Membandingkan hasil per kelas.
2.2.4 Random Forest
Random Forest telah ditemukan oleh Breiman pada Tahun 2001. Dalam
penelitiannya, Random Forest memiliki kelebihan antara lain dapat
memberikan akurasi yang bagus untuk klasifikasi, dapat mendapatkan error
yang lebih rendah, dapat mengatasi data training dalam jumlah besar dengan
efisien, dan efektif untuk mengestimasi missing value (Breiman, 2001).
Metode random forest dibuat menggunakan teknik dasar data mining
yaitu pohon keputusan. Pohon keputusan tersebut terdiri dari root node,
internal node dan leaf node. Metode ini digunakan dengan mengambil atribut
dan data secara acak sesuai ketentuan yang diberlakukan. Root node yang biasa
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
11
disebut sebagai akar dari pohon keputusan merupakan simpul(node) yang
terletak paling atas. Internal node atau simpul dalam merupakan simpul
percabangan yang berasal dari root node dan mempunyai output minimal dua.
Sedangkan leaf node yaitu merupakan simpul terakhir dari pohon keputusan
yang hanya memiliki satu input dan tidak mempunyai output (Yusuf Sulistyo
Nugroho & Emiliyawati, 2017)
Tahapan untuk melakukan random forest adalah sebagai berikut (Bawono
& Wasono, 2019):
1. Tahapan bootstrap, menarik contoh acak berukuran n (n = banyak data
training) dengan pemulihan pada gugus data training.
2. Menyusun pohon keputusan berdasarkan data bootstrap diatas.
a) Membuat node pertama pohon keputusan.
b) Membuat node selanjutnya hingga pohon berakhir.
3. Mengulangi langkah 1 dan 2 sebanyak k kali sehingga diperoleh
sebuah hutan yang terdiri atas k pohon acak,
4. Tahapan aggregating, yaitu melakukan voting berdasarkan mayoritas
atau hasil klasifikasi yang paling banyak dari pohon-pohon acak
tersebut dan hasil paling banyak tersebut merupakan hasil klasifikasi
dari metode Random Forest.
Cara untuk memulai pohon keputusan adalah dengan menghitung nilai
entropy sebagai penentu tingkat impurity atribut dan nilai information gain.
Pada persamaan (2.3) terdapat rumus untuk menghitung nilai entropy,
sedangkan pada persamaan (2.4) terdapat rumus untuk menghitung nilai
information gain (Yusuf Sulistyo Nugroho & Emiliyawati, 2017).
𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑌) = − ∑ 𝑝(𝑐|𝑌)𝑙𝑜𝑔2 𝑝(𝑐|𝑌) (2.3)
Keterangan:
Y : Himpunan kasus
P(c|Y) : Proporsi nilai Y terhadap kelas c
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
12
𝐼𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛 𝑔𝑎𝑖𝑛(𝑌, 𝑎) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑌) − ∑ 𝑣 ∈ 𝑉𝑎𝑙𝑢𝑒𝑠(𝑎)|𝑌𝑣|
|𝑌𝑎|Entropy(Yv)
(2.4)
Keterangan:
Values(a) : Semua nilai yang mungkin dalam himpunan kasus a.
Yv : Subkelas dari Y dengan kelas v yang berhubungan
dengan kelas
Ya : Semua nilai yang sesuai dengan kelas a.
2.2.5 K-Fold Cross Validation
K-Fold cross validation merupakan teknik yang menggunakan semua
sampel yang tersedia sebagai data pelatihan dan pengujian. Pada k-fold cross
validation, kumpulan data akan dibagi menjadi partisi K, dan setiap blok
memiliki jumlah data yang sama (Bengio & Grandvalet, 2004). Teknik k-fold
cross validation digunakan untuk menghilangkan bias pada data. Pelatihan dan
pengujian dilakukan sebanyak k kali. Terdapat contoh dengan nilai k=3 maka
dapat di ilustrasikan seperti pada Gambar 2.1.
Gambar 2.1 3-Fold Cross Validation
2.2.6 Confusion Matrix
Confusion matrix merupakan suatu alat yang memiliki fungsi
menghitung keakuratan dari klasifikasi. Nilai dari True-Positive dan True-
Negative memberikan informasi bahwa klasifikasi data bernilai benar,
sedangkan False-Positive dan False-Negative memberikan informasi bahwa
klasifikasi data bernilai salah. Evaluasi menggunakan confusion matrix dapat
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
13
menghasilkan nilai akurasi, presisi dan recall. Akurasi dalam klasifikasi
merupakan persentase dari keakuratan data yang diklasifikasikan secara benar
setelah dilakukan pengujian pada hasil klasifikasi (Han & Kamber, 2006).
Dalam penelitian ini, pengukuran akurasi dilakukan dengan metode
pengujian confusion matrix yang dapat dilihat pada Tabel 2.2.Tabel 2.1
Tabel 2.2 Confusion Matrix (Sasongko, 2016)
Prediksi Nilai Sebenarnya
True False
True TP FN
False FP TN
Keterangan:
TP = Jumlah prediksi yang tepat bersifat positif (True Positive).
TN = jumlah prediksi yang tepat bersifat negatif (True Negative).
FP = jumlah prediksi yang salah bersifat positif (False Positive).
FN = jumlah prediksi yang salah bersifat negatif (False Negative).
Untuk menghitung tingkat akurasi, presisi dan recall dalam confusion matrix
digunakan rumus seperti pada persamaan (2.5), (2.6) dan (2.7).
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =𝑇𝑃 + 𝑇𝑁
𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁 𝑥 100% (2.5)
𝑃𝑟𝑒𝑠𝑖𝑠𝑖 = (𝑇𝑃
(𝑇𝑃 + 𝐹𝑃)) 𝑥 100% (2.6)
𝑅𝑒𝑐𝑎𝑙𝑙 = (𝑇𝑃
(𝑇𝑃 + 𝐹𝑁)) 𝑥 100% (2.7)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
14
BAB III
METODOLOGI PENELITIAN
Bab ini berisi tentang gambaran umum sistem yang dibangun, data yang
digunakan dan tahap-tahap memprediksi ketepatan waktu lulus mahasiswa dengan
menggunakan metode naïve bayes dan random forest.
3.1 Gambaran Umum Penelitian
Pada penelitian ini, metode naïve bayes dan random forest akan diterapkan
untuk memprediksi ketepatan waktu lulus mahasiswa dengan menggunakan data
mahasiswa Fakultas Sains dan Teknologi Universitas Sanata Dharma angkatan
2011 hingga angkatan 2016. Lalu hasil akurasi dari prediksi tersebut akan
dibandingkan sehingga bisa diketahui metode mana yang lebih baik antara naïve
bayes dan random forest berdasarkan akurasinya.
Gambar 3.1 Diagram Alur Penelitian
Pada diagram alur penelitian yang ditunjukkan pada Gambar 3.1, terdapat
tahap-tahap dilakukannya penelitian. Berikut penjelasan alur penelitian pada
Gambar 3.1 tersebut:
1. Membaca file (Data Kelulusan Mahasiswa FST USD).
2. Dilakukan data pre-processing yaitu data cleaning dan data
transformation pada file yang telah dibaca sebelumnya.
3. Setelah melakukan data pre-processing, dilakukan pemeringkatan
atribut menggunakan information gain berdasarkan data tersebut.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
15
4. Dilakukan k-Fold Cross Validation dengan menghasilkan data training
dan data testing yang berbeda-beda di tiap fold-nya.
5. Dilakukan pemodelan naïve bayes dan random forest menggunakan data
training, hasil pemodelan tersebut akan digunakan untuk memprediksi
dari data testing sehingga label kelas dari data testing tidak digunakan
6. Dilakukan prediksi dari metode naïve bayes dan random forest dengan
menggunakan data testing. Hasil prediksi berupa label kelas dari prediksi
kedua metode akan dibandingkan dengan label kelas sebenarnya untuk
dihitung akurasi dari kedua metode tersebut.
7. Dilakukan evaluasi confusion matrix untuk mendapatkan akurasi dari
hasil prediksi metode naïve bayes dan random forest.
8. Dilakukan analisis hasil dari metode naïve bayes dan random forest
untuk mengetahui metode yang mempunyai akurasi yang lebih baik
dalam memprediksi ketepatan waktu lulus mahasiswa.
3.2 Pengambilan Data
Data yang digunakan merupakan data mahasiswa Fakultas Sains dan
Teknologi Universitas Sanata Dharma angkatan 2011 hingga angkatan 2016
sebanyak 1.169 data record yang diambil dari BAPSI Universitas Sanata Dharma.
Contoh data awal yang belum melalui tahap pre-processing ditunjukkan pada
Gambar 3.2.
Gambar 3.2 Contoh Data Awal
Pada data tersebut terdiri dari 24 atribut, yaitu:
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
16
1. Prodi : Program studi atau disingkat prodi merupakan kesatuan rencana
belajar yang digunakan sebagai pedoman jalannya pendidikan akademik
yang penyelenggaraannya berdasarkan suatu kurikulum. Data prodi terdiri
dari TM (Teknik Mesin), TE (Teknik Elektro), INF (Informatika), dan
MAT (Matematika).
2. Angkatan : Tahun mahasiswa memulai kuliah.
3. Asal Sekolah : Asal sekolah mahasiswa sebelum memulai perkuliahan
4. Jalur masuk : Jalur masuk mahasiswa (jalur tes/prestasi)
5. Nilai Masuk : Nilai tes masuk mahasiswa atau nilai raport mahasiswa.
6. IPS 1 : Indeks Prestasi mahasiswa pada saat semester 1.
7. IPS 2 : Indeks Prestasi mahasiswa pada saat semester 2.
8. IPS 3 : Indeks Prestasi mahasiswa pada saat semester 3
9. IPS 4 : Indeks Prestasi mahasiswa pada saat semester 4.
10. IPS 5 : Indeks Prestasi mahasiswa pada saat semester 5.
11. IPS 6 : Indeks Prestasi mahasiswa pada saat semester 6.
12. IPS 7 : Indeks Prestasi mahasiswa pada saat semester 7.
13. IPS 8 : Indeks Prestasi mahasiswa pada saat semester 8.
14. SKS S1 : Jumlah SKS yang telah ditempuh pada saat semester 1.
15. SKS S2 : Jumlah SKS yang telah ditempuh pada saat semester 2.
16. SKS S3 : Jumlah SKS yang telah ditempuh pada saat semester 3.
17. SKS S4 : Jumlah SKS yang telah ditempuh pada saat semester 4.
18. SKS S5 : Jumlah SKS yang telah ditempuh pada saat semester 5.
19. SKS S6 : Jumlah SKS yang telah ditempuh pada saat semester 6.
20. SKS S7 : Jumlah SKS yang telah ditempuh pada saat semester 7.
21. SKS S8 : Jumlah SKS yang telah ditempuh pada saat semester 8.
22. Poin : Jumlah poin kegiatan kemahasiswaan.
23. Lama TA : Lama pengerjaan tugas akhir mahasiswa dalam satuan
semester.
24. Lama Studi : Jangka waktu penyelesaian studi mahasiswa dalam satuan
semester.
3.3 Data Pre-processing
Pada tahap ini data akan melalui tahap pre-processing untuk menghilangkan
noise sehingga sistem menghasilkan dataset yang siap dipakai untuk proses
klasifikasi selanjutnya. Tahapan pre-processing yang ada pada penelitian ini adalah
data cleaning dan data transformation.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
17
3.3.1 Data Cleaning
Proses pembersihan data dilakukan untuk menghilangkan noise dan data
yang tidak konsisten. Jika terdapat nilai kosong pada salah satu atribut maka
baris data tersebut akan dihapus atau dihilangkan dari data frame.
3.3.2 Data Transformation
Proses transformasi data adalah proses perubahan data ke dalam kategori
atau nilai tertentu untuk proses data mining. Pada tahap ini, dilakukan
transformasi atribut lama studi(semester) yang terdiri dari 8, 9, 10, 11, 12 dan
lain-lain. Nilai tersebut akan dikelompokkan menjadi kategori 1 (lulus tepat
waktu) atau 0 (lulus tidak tepat waktu) berdasarkan syarat, jika atribut lama
studi <= 8 maka masuk ke dalam kategori 1 (lulus tepat waktu, dan jika atribut
lama studi > 8 maka masuk ke dalam kategori 0 (lulus tidak tepat waktu).
Contoh data sebelum dan sesudah ditransformasi ditunjukkan pada Gambar
3.3.
Gambar 3.3 Data Sebelum dan Sesudah Transformasi
3.4 Metode dan Pemodelan
Dalam penelitian ini, metode klasifikasi naïve bayes dan random forest akan
diterapkan dan dibandingkan akurasinya, maka dilakukan modelling metode naïve
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
18
bayes dan random forest guna untuk mengetahui akurasi dari hasil klasifikasi
metode tersebut
3.4.1 Pemodelan Naïve Bayes.
Dalam tahap pembentukan model naïve bayes, akan digunakan data awal
yang sudah di pre-processing pada tahap sebelumnya. Langkah pembangunan
model naïve adalah sebagai berikut:
1. Membaca data training.
2. Menghitung probabilitas dari label (kelas).
3. Menghitung probabilitas dari semua atribut berdasarkan label
(kelas).
4. Mengalikan nilai probabilitas tiap atribut dengan hasil probabilitas
kelas.
Namun, sebelum masuk ke pemodelan naïve bayes, 2/3 dari data awal yang
sudah di pre-processing akan digunakan sebagai data training dan sisanya 1/3
akan digunakan sebagai data testing. Contoh data training dan testing
ditunjukkan pada Tabel 3.1 dan Tabel 3.2.
Tabel 3.1 Contoh Data Training
No. IPS 5 IPS 6 Lama
TA
Lama
Studi
1. 3,43 3,87 1 1
2. 2,8 3,26 3 0
3. 3,05 3,6 3 0
4. 3,53 4 1 1
5. 3,65 3,87 1 1
6. 3,26 3,59 1 1
7. 2,33 2,65 7 0
8. 3,17 3,21 3 0
Tabel 3.2 Contoh Data Testing
No. IPS 5 IPS 6 Lama
TA
Lama
Studi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
19
1. 3,1 2,78 3 0
2. 3,68 3,61 2 0
3. 2,32 3,3 3 0
4. 3,61 4 1 1
Langkah 1: Membaca Data Training.
Untuk membangun model naïve bayes, yang dilakukan pertama kali
adalah membaca data training. Pada kasus ini data training akan menggunakan
data yang ditunjukkan pada Tabel 3.1.
Langkah 2: Menghitung Probabilitas dari Label (Kelas) dan Semua
Atribut.
Setelah membaca data training, selanjutnya adalah mencari probabilitas
label(kelas) dan tiap atribut. Terdapat dua label dari data training tersebut,
yaitu:
• K1 (Kelas 1) → Lama Studi = Yes → 4 record.
• K2 (Kelas 2) → Lama Studi = No → 4 record.
• Total = 8 record.
Maka Hasil probabilitas label (kelas) ditunjukkan pada Tabel 3.3.
Tabel 3.3 Probabilitas Label (Kelas)
Lama Studi P (Lama Studi)
1 4/8
0 4/8
Langkah 3: Menghitung Probabilitas Semua Atribut Berdasarkan Label
(Kelas).
Langkah selanjutnya adalah menghitung probabilitas dari semua atribut
berdasarkan label. Atribut pada data training yang akan digunakan adalah IPS
5, IPS 6 dan Lama TA dimana nilai tiap atribut tersebut bersifat kontinu,
sehingga akan menggunakan persamaan (2.2). Di setiap atribut pada hitungan
mean dan standar deviasi nya. Hasil perhitungan mean dan standar deviasi tiap
atribut ditunjukkan pada Tabel 3.4. Untuk menghitung mean, digunakan rumus
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
20
pada persamaan (3.1) dan untuk menghitung standar deviasi, digunakan rumus
pada persamaan (3.2).
𝑀𝑒𝑎𝑛 =𝐽𝑢𝑚𝑙𝑎ℎ 𝑛𝑖𝑙𝑎𝑖
𝐵𝑎𝑛𝑦𝑎𝑘 𝑑𝑎𝑡𝑎 (3.1)
𝑆 = √∑ (𝑥𝑖 − 𝑥)2𝑛
𝑖=1
𝑛 − 1
(3.2)
Keterangan:
S = Standar deviasi
N = banyak data
Xi = data iterasi ke-i
X= rata-rata
Tabel 3.4 Hasil Perhitungan Mean dan Standar Deviasi pada Atribut
Atribut Hitungan 1
(Tepat Waktu)
0
(Tidak Tepat Waktu)
IPS 5 Mean 3,4675 2,8375
Standar Deviasi 0,165 0,371786
IPS 6 Mean 3,8325 3,18
Standar Deviasi 0,172892 0,393531
Lama TA Mean 1 4
Standar Deviasi 0,001 2
Selanjutnya jika mean dan standar deviasi telah ditemukan hasilnya,
maka menggunakan data testing pada Tabel 3.2 untuk mencari nilai
probabilitas tiap atribut. Hasilnya akan dihitung berdasarkan rumus densitas
gauss dengan memasukkan mean, standar deviasi dan nilai data testing. Hasil
probabilitas data testing ditunjukkan pada Tabel 3.5.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
21
Tabel 3.5 Hasil Probabilitas Masing-masing Atribut pada Data Testing
Data
Testing ke- Atribut
1
(Tepat Waktu)
0
(Tidak Tepat Waktu)
9
IPS 5 0,202401763 0,836310005
IPS 6 1,71564E-08 0,604736049
Lama TA 0 0,176032663
10
IPS 5 1,055015423 0,082325009
IPS 6 1,004626441 0,557901792
Lama TA 0 0,120985362
11
IPS 5 3,24831E-11 0,377358039
IPS 6 0,019234115 0,968884183
Lama TA 0 0,176032663
12
IPS 5 1,66518693 0,123916772
IPS 6 1,443604071 0,11512196
Lama TA 398,9422804 0,064758798
Langkah 4: Mengalikan Nilai Probabilitas tiap Atribut dengan Hasil
Probabilitas Kelas
Setelah nilai probabilitas seluruh atribut terhadap kelas didapatkan, nilai
probabilitas masing-masing atribut akan dikalikan semuanya dengan dengan
hasil probabilitas kelas pada Tabel 3.3. Jika salah satu probabilitas kelas
memiliki nilai lebih tinggi, maka kelas pada probabilitas tersebut merupakan
prediksi dari data testing yang diuji. Hasil perhitungan probabilitas naïve bayes
pada data testing ditunjukkan pada Tabel 3.6 dan hasil klasifikasi naïve bayes
ditunjukkan pada Tabel 3.7.
Tabel 3.6 Probabilitas Data Testing
Data
Testing ke-
1
(Tepat Waktu)
0
(Tidak Tepat Waktu)
9. 0 0,089027958
10. 0 0,005556769
11. 0 0,0643604
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
22
12. 958,7252287 0,000923819
Tabel 3.7 Hasil Klasifikasi Naive Bayes
No. IPS 5 IPS 6 Lama TA Lama Studi Prediksi
9. 3,1 2,78 3 0 0
10. 3,68 3,61 2 0 0
11. 2,32 3,3 3 0 0
12. 3,61 4 1 1 1
Selanjutnya untuk mencari hasil akurasi dari hasil perhitungan naïve
bayes, digunakan perhitungan confusion matrix yakni dengan menjumlahkan
data yang diprediksi benar dan dibagi dengan seluruh data yang diprediksi
benar maupun salah lalu dikali dengan 100%. Pada kasus diatas, pengujian
hasil klasifikasi naïve bayes ditunjukkan pada Tabel 3.8.
Tabel 3.8 Confusion Matrix Hasil Klasifikasi Naive Bayes
Lama Studi
True 0
(Lulus Tidak Tepat
Waktu)
True 1
(Lulus Tepat
Waktu)
Pred. 0
(Lulus Tidak Tepat
Waktu)
3 0
Pred. 1
(Lulus Tepat Waktu) 0 1
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 1 + 3
1 + 3 + 0 + 0 𝑥 100% = 100%
3.4.2 Pemodelan Random Forest
Dalam tahap pembentukan model random forest, juga akan digunakan
data awal yang sudah di pre-processing pada tahap sebelumnya. Langkah
pembangunan model random forest adalah sebagai berikut:
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
23
1. Bootstrap Process, menarik data acak berukuran n data training
dengan pemulihan pada gugus data training.
2. Menyusun pohon keputusan berdasarkan data bootstrap diatas.
a) Membuat node pertama pohon keputusan.
b) Membuat node selanjutnya hingga pohon berakhir.
3. Mengulangi langkah 1 dan 2 sebanyak k kali sehingga diperoleh
sebuah hutan yang terdiri atas k pohon acak. Dan melakukan voting
berdasarkan mayoritas atau hasil klasifikasi yang paling banyak dari
pohon-pohon acak tersebut dan hasil paling banyak tersebut
merupakan hasil klasifikasi dari metode Random Forest.
Namun, sebelum masuk ke pemodelan random forest, 2/3 dari data awal yang
sudah di pre-processing akan digunakan sebagai data training dan sisanya 1/3
akan digunakan sebagai data testing. Contoh data training dan testing
ditunjukkan pada Tabel 3.1 dan Tabel 3.2.
Langkah 1: Bootstrap Process
Setelah data training dan data testing didapatkan, selanjutnya dilakukan
bootstrap process yaitu membuat bootstrap proses dengan mengambil data
dengan ukuran yang sama pada data training secara acak dan diperbolehkan
untuk mengambil data yang sama lebih dari satu kali. Hasil dari bootstrap
process yaitu bootstrap dataset ditunjukkan pada Tabel 3.9.
Tabel 3.9 Bootstrap Dataset
No. IPS 5 IPS 6 Lama TA Lama Studi
1. 3,53 4 1 1
2. 2,8 3,26 3 0
3. 3,26 3,59 1 1
4. 2,8 3,26 3 0
5. 3,05 3,6 3 0
6. 3,26 3,59 1 1
7. 3,05 3,6 3 0
8. 3,17 3,21 3 0
Langkah 2: Menyusun Pohon Keputusan berdasarkan Bootstrap Datasets
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
24
Setelah mendapatkan bootstrap datasets dari proses bootstrap pada
Langkah sebelumnya, selanjutnya adalah membuat pohon keputusan
berdasarkan datasets tersebut, yaitu dengan membuat root atau node pertama
hingga entropy = 0. Tahapan detail dari pembuatan pohon keputusan adalah
sebagai berikut:
a) Membuat root
Setelah dilakukan proses bootstrap, kemudian dilakukan perhitungan
entropy dari label dari keseluruhan data menggunakan persamaan
(2.3) yang akan digunakan untuk menghitung information gain pada
langkah selanjutnya. Entropy dari data yang telah di bootstrap
ditunjukkan pada Tabel 3.10.
Tabel 3.10 Entropy dari Data Bootstrap
Atribut Total Kasus 1 0 Entropy
Lama Studi 8 3 5 0,954434
Setelah itu menghitung partisi dari masing-masing atribut dari data
yang telah di bootstrap menggunakan persamaan 3.3) di setiap
perubahan label pada data. Lalu dari partisi tersebut dihitung entropy
dan information gain menggunakan s (2.3) dan (2.4) untuk
menentukan partisi yang paling baik. Hasil perhitungan partisi,
entropy dan juga information gain dari masing-masing atribut
ditunjukkan pada Tabel 3.11.
𝑃𝑎𝑟𝑡𝑖𝑠𝑖 =𝐷𝑖 + 𝐷𝑖+1
2
3.3)
Keterangan:
Di = Data ke-i
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
25
Tabel 3.11 Hasil Perhitungan Partisi, Entropy dan Information Gain
dari masing-masing Atribut
Atribut Partisi Total Kasus 1 0 Entropy Information
Gain
IPS 5 <=3,215 5 0 5 0
0,95443 >3,215 3 3 0 0
IPS 6
<=3,425 3 0 3 0 0,34758
>3,425 5 3 2 0,97095
<=3,595 5 3 5 0,97095 0,00322
>3,595 3 2 3 0,91829
<=3,8 7 2 5 0,86312 0,19920
>3,8 1 1 0 0
Lama
TA
<=2 3 3 0 0 0,95443
>2 5 0 5 0
Gambar 3.4 Perhitungan Partisi Atribut IPS 6
Berdasarkan hasil pada Tabel 3.11, diketahui terdapat 3 partisi pada
atribut IPS 6. Hal itu dikarenakan pada data di atribut IPS 6 terdapat
3 perubahan label setelah data yang telah diurutkan yang ditunjukkan
pada Gambar 3.4, sehingga terdapat juga 3 kandidat partisi lalu
kandidat partisi tersebut akan dipilih berdasarkan nilai information
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
26
gain paling tinggi. Hasil partisi pilihan, entropy dan juga information
gain ditunjukkan pada Tabel 3.12.
Tabel 3.12 Hasil Perhitungan Partisi, Entropy dan Information Gain
terakhir.
Atribut Partisi Total
Kasus 1 0 Entropy
Information
Gain
IPS 5 <=3,215 5 0 5 0
0,95443 >3,215 3 3 0 0
IPS 6 <=3,425 3 0 3 0
0,34758 >3,425 5 3 2 0,97095
Lama
TA
<=2 3 3 0 0 0,95443
>2 5 0 5 0
Berdasarkan hasil pada Tabel 3.12, nilai information gain tertinggi
yaitu pada atribut IPS 5 dan Lama TA yaitu sebesar 0.95443. Dengan
demikian dilakukan pemilihan salah satu dari 2 atribut yang memiliki
nilai information gain terbesar yaitu IPS 5 terbentuk menjadi root
node dari pohon keputusan.
Gambar 3.5 Root Node Hasil Perhitungan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
27
b) Membuat node selanjutnya hingga entropy bernilai 0.
Berdasarkan hasil dari Gambar 3.5, diketahui bahwa pada IPS 5<=
3.215 maupun pada IPS > 3.215, entropy nya bernilai 0 atau hanya
tersisa masing-masing 1 label saja yaitu 0 (Tidak Lulus Tepat Waktu)
dan 1 (Lulus Tepat Waktu) sehingga node tersebut menjadi leaf atau
node tersebut tidak dilanjutkan dan terbentuklah hasil perhitungan
decision tree pertama. Namun, jika terdapat kasus tertentu yang
mempunyai 2 label di dalam 1 node atau entropy > 0, maka akan
dilakukan pembuatan node selanjutnya dengan data yang ada di dalam
node tersebut saja.
Langkah 3: Mengulangi Langkah 1 Dan 2 Sebanyak k kali sehingga
diperoleh sebuah Hutan yang terdiri atas K Pohon Acak.
Setelah mendapatkan hasil decision tree pada langkah 2, dilakukan
pengulangan langkah 1-2 idealnya hingga mencapai 100 pohon keputusan atau
decision tree. Namun, pada contoh pemodelan kali ini hanya akan dilakukan
hingga 3 pohon saja.
Setelah melakukan perhitungan yang sama pada langkah 1 dan 2 hingga
membentuk 3 pohon, hasil pohon tersebut ditunjukkan pada Gambar 3.6,
Gambar 3.7 dan Gambar 3.8
Gambar 3.6 Pohon ke-1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
28
Gambar 3.7 Pohon ke-2
Gambar 3.8 Pohon ke-3
Setelah itu, dilakukan klasifikasi dengan 3 pohon yang dihasilkan
sebelumnya dengan data testing dengan cara memasukkan satu per satu data
testing ke dalam pohon. Lalu masing-masing hasil akan dipilih menggunakan
majority vote.
Tabel 3.13 Contoh Data Testing untuk Klasifikasi Random Forest
No. IPS 5 IPS 6 Lama TA Lama Studi
1. 3,68 3,61 2
Berikut pada Tabel 3.13, terdapat contoh satu data testing. Selanjutnya
data testing tersebut akan dimasukkan ke semua pohon yang sudah dibuat.
Dalam pohon 1 menghasilkan klasifikasi 1, pohon 2 menghasilkan klasifikasi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
29
1 dan pohon 3 menghasilkan klasifikasi 1. Dari ketiga hasil klasifikasi tersebut,
dilakukan tahapan aggregating atau bisa disebut majority vote, yaitu memilih
berdasarkan hasil yang paling banyak, sehingga hasil klasifikasi dari data
testing pada Tabel 3.13 adalah 1. Untuk hasil klasifikasi seluruh data testing
ditunjukkan pada Tabel 3.14.
Tabel 3.14 Hasil Klasifikasi Random Forest
No. IPS 5 IPS 6 Lama TA Lama
Studi Prediksi
1. 3,1 2,78 3 0 0
2. 3,68 3,61 2 0 1
3. 2,32 3,3 3 0 0
4. 3,61 4 1 1 1
Untuk mencari hasil akurasi dari hasil klasifikasi random forest,
digunakan perhitungan confusion matrix yakni dengan menjumlahkan data
yang diprediksi benar dan dibagi dengan seluruh data yang diprediksi benar
maupun salah lalu dikali dengan 100%. Pada kasus diatas, pengujian hasil
klasifikasi random forest ditunjukkan pada Tabel 3.15.
Tabel 3.15 Confusion Matrix Hasil Klasifikasi Random Forest
Lama Studi
True 0
(Lulus Tidak Tepat
Waktu)
True 1
(Lulus Tepat
Waktu)
Pred. 0
(Lulus Tidak Tepat Waktu) 2 0
Pred. 1
(Lulus Tepat Waktu) 1 1
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 1 + 2
1 + 2 + 1 + 0 𝑥 100% = 75%
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
30
3.5 Rancangan Pengujian
Proses pengujian pada penelitian ini dilakukan beberapa variasi, yaitu:
1. Variasi menggunakan 1 hingga 10 atribut dari yang terbaik berdasarkan
pemeringkatan dengan information gain.
2. Variasi nilai k dalam k-Fold Cross Validation yaitu 3-Fold Cross
Validation, 5-Fold Cross Validation dan 10-Fold Cross Validation
untuk mengurangi bias dalam klasifikasi.
3. Dalam pemodelan random forest, digunakan variasi banyak pohon 10,
30 dan 100.
Lalu untuk menghitung akurasi dari hasil dari klasifikasi, digunakan
confusion matrix yang sudah dicontohkan sebelumnya pada Tabel 3.8 dan Tabel
3.15.
3.6 Peralatan Penelitian
Penelitian ini menggunakan beberapa peralatan untuk membangun
sistem, yaitu sebagai berikut:
1. Perangkat keras
a. Merk : Asus
b. Type : A456UF
c. Processor : Intel® Core™ i5-6200U CPU @ 2.30 GHz
d. RAM : 8,00 GB
2. Perangkat Lunak
a. Windows 10 Pro
b. Phyton (Spyder)
c. Microsoft Excel
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
31
3.7 Rancangan Interface
Gambar 3.9 Rancangan Interface
Pada Gambar 3.9 terdapat rancangan awal interface dari perangkat lunak
yang akan dibuat. Dalam rancangan awal interface tersebut terdapat fitur sebagai
berikut:
1. Input Data, membaca data yang diinginkan dari direktori komputer
dengan format excel.
2. Tombol Klasifikasi, tombol yang berguna mengklasifikasikan data
yang di baca sebelumnya dan menghasilkan akurasi pemodelan dari
naïve bayes dan random forest, juga memperlihatkan atribut yang
digunakan dari pemodelan tersebut.
3. Uji Data Tunggal, user akan mengisi form sesuai dengan atribut yang
digunakan dalam pemodelan sebelumnya dan menghasilkan prediksi
Lulus Tepat Waktu atau Lulus Tidak Tepat Waktu berdasarkan
metode naïve bayes dan random forest dari pemodelan sebelumnya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
32
BAB IV
HASIL DAN ANALISA
Dalam bab ini berisi tahap-tahap yang berkaitan dengan implementasi
perangkat lunak yang dibuat serta hasil luaran (output) yang diperoleh dari
pengolahan data dan pengujian yang dilakukan yaitu tahap pre-processing data,,
pemeringkatan atribut dengan metode information gain, klasifikasi naïve bayes dan
random forest, pengujian dan analisis hasil.
4.1 Tahap Pre-processing
Tahap pre-processing dilakukan untuk mempersiapkan data sehingga data
siap untuk diolah. Terdapat dua tahapan dalam tahap pre-processing yaitu data
cleaning dan data transformation
4.1.1 Data Cleaning
Pada tahap ini, data yang memiliki missing value akan dihapus dari tabel
sehingga tidak terdapat data kosong. Dari data yang berjumlah 1169, terdapat
8 data yang mempunyai nilai kosong pada salah satu kolomnya. Karena jumlah
data yang bernilai kosong hanya sebesar 0.7698% maka baris data tersebut
dihapus dari tabel dan pada penelitian ini hanya akan menggunakan data yang
memiliki nilai di setiap kolomnya agar tidak terdapat noise pada saat proses
klasifikasi. Implementasi pada source code ditunjukkan pada Gambar 4.1.
Gambar 4.1 Source Code Data Cleaning
Pada Gambar 4.1, terdapat source code dari data cleaning, menggunakan
method dropna() yaitu salah satu method dari library pandas dalam
pemrograman phyton, yang digunakan untuk menghilangkan nilai yang hilang
dari sebuah data (jika salah satu atribut tidak ada nilainya dari sebuah
data/baris, maka data/baris tersebut akan dihilangkan dari keseluruhan data).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
33
4.1.2 Data Transformation
Pada tahap ini, pada kolom/atribut yang memiliki rentang nilai jauh dan
juga tidak seimbang terhadap atribut lain, akan ditransformasikan
menggunakan normalisasi min-max dengan menggunakan library dari
sklearn.preprocessing. Atribut Nilai Masuk merupakan atribut yang memiliki
rentang nilai yang jauh yaitu dengan nilai terendah 21 dan tertinggi 84. Lalu
juga terdapat atribut Lama Studi sebagai label akan diubah nilainya dan
dikelompokkan menjadi kategori 1 (lulus tepat waktu) atau 0 (lulus tidak tepat
waktu) berdasarkan syarat, jika Lama studi <= 8 maka masuk ke dalam kategori
1 (lulus tepat waktu, dan jika Lama studi > 8 maka masuk ke dalam kategori 0
(lulus tidak tepat waktu). Implementasi transformasi data dalam source code
ditunjukkan pada Gambar 4.2.
Gambar 4.2 Source Code Data Transformation
Pada Gambar 4.2, terdapat source code dari data transformation,
menggunakan menggunakan library dari sklearn.preprocessing yang
digunakan untuk menormalisasi dari atribut Nilai Masuk dan terdapat method
where() yang merupakan salah satu method dari library numpy yang dalam
kasus tersebut digunakan untuk memanggil kondisi dari atribut Lama Studi
yang mempunyai nilai <=8 maka nilainya akan menjadi 1 dan kondisi dari
atribut Lama Studi yang mempunyai nilai >=0 maka nilainya akan menjadi 0.
Contoh data sebelum ditransformasi dan sesudah ditransformasi ditunjukkan
pada Tabel 4.1 dan Tabel 4.2.
Tabel 4.1 Contoh Data Sebelum Transformasi
Nilai Masuk Lama Studi
52,00 5
41,00 6
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
34
61,50 9
36,00 5
47,50 6
Tabel 4.2 Contoh Data Sesudah Transformasi
Nilai Masuk Lama Studi
0.253911 1
0.163814 1
0.331722 0
0.122860 1
0.217053 1
4.2 Pemeringkatan Atribut dengan Information Gain
Pada tahap ini, dilakukan pemeringkatan atribut dengan menggunakan mutual
info regression atau information gain dari library sklearn.feature_selection dan
mendapatkan hasil seperti yang ditunjukkan pada Tabel 4.3. Untuk implementasi
information gain pada source code ditunjukkan pada Gambar 4.3.
Tabel 4.3 Hasil Pemeringkatan Atribut Menggunakan Information Gain
Atribut Information Gain Ranking
IPS 8 0.173927 1
Lama TA 0.168048 2
SKS 8 0.122580 3
IPS 7 0.103205 4
IPS 2 0.099550 5
SKS 3 0.088386 6
IPS 1 0.086668 7
SKS 6 0.077768 8
SKS 5 0.070780 9
IPS 6 0.070113 10
IPS 3 0.065985 11
Prodi 0.064541 12
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
35
SKS 7 0.059978 13
IPS 5 0.058876 14
SKS 1 0.056959 15
SKS 2 0.055955 16
IPS 4 0.051305 17
Nilai Masuk 0.049823 18
SKS 4 0.049534 19
Angkatan 0.049028 20
Poin 0.000000 21
Gambar 4.3 Source Code Pemeringkatan Information Gain
Pada Gambar 4.3, dalam penelitian ini menggunakan kasus penyeleksian
atribut dari yang terbaik dengan mengambil secara manual dari list yang telah
dibuat dari hasil pemeringkatan atribut, seperti contohnya atribut = ranked[:5],
yang berarti telah diambil 5 atribut terbaik dari pemeringkatan information gain
sebagai feature dalam proses klasifikasi yang akan dilakukan setelah tahap ini.
4.3 Klasifikasi
Terdapat dua pemodelan yang dibangun, yaitu naïve bayes dan random forest.
Untuk pemodelan naïve bayes menggunakan fungsi GaussianNB dari library
sklearn.naive_bayes tanpa adanya masukan apapun. Sedangkan untuk pemodelan
random forest menggunakan fungsi RandomForestClassifier dari library
sklearn.ensemble dengan menggunakan masukan n_estimators(pohon) =
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
36
10,30,100; criterion = entropy dan random_state = 0 agar tidak terjadi
keserampangan(randomness) pada proses bootstrapping dari sampel yang
digunakan saat membangun pohon setiap program dijalankan. Implementasi
klasifikasi Random Forest dan Naïve Bayes dengan menggunakan Cross Validation
ditunjukkan pada Gambar 4.4 dan Gambar 4.5.
Gambar 4.4 Source Code Klasifikasi Random Forest dengan Cross Validation
Gambar 4.5 Source Code Klasifikasi Naive Bayes dengan Cross Validation
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
37
4.4 Pengujian
Pengujian dari data dan hasil klasifikasi dari klasifikasi Random Forest dan
Naïve Bayes.
4.4.1 Uji Variasi Atribut
Hasil pengujian penggunaan 1 atribut hingga 10 atribut terbaik adalah
sebagai berikut:
1. Menggunakan 1 Atribut
Tabel 4.4 Hasil Pengujian Menggunakan 1 Atribut (IPS 8)
No. Percobaan Fold Akurasi (%)
1 Naïve Bayes 3 47,92
2 RF (10 Pohon) 3 67,50
3 RF (30 Pohon) 3 68,11
4 RF (100 Pohon) 3 67,76
5 Naïve Bayes 5 46,90
6 RF (10 Pohon) 5 66,72
7 RF (30 Pohon) 5 66,38
8 RF (100 Pohon) 5 66,29
9 Naïve Bayes 10 52,59
10 RF (10 Pohon) 10 66,38
11 RF (30 Pohon) 10 68,71
12 RF (100 Pohon) 10 68,71
Pada Tabel 4.4, diketahui dari variasi menggunakan 1 atribut
terbaik yaitu IPS 8 menghasilkan akurasi terbaik yaitu 68,71% oleh
metode random forest dengan menggunakan 30 dan 100 pohon dan nilai
k = 10 sedangkan untuk naïve bayes mendapatkan akurasi yang paling
tinggi hanyalah 52,59% dengan menggunakan nilai k=10.
2. Menggunakan 2 Atribut
Tabel 4.5 Hasil Pengujian Menggunakan 2 Atribut (IPS 8 dan Lama
TA)
No. Percobaan Fold Akurasi (%)
1 Naïve Bayes 3 72,68
2 RF (10 Pohon) 3 77,50
3 RF (30 Pohon) 3 77,93
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
38
4 RF (100 Pohon) 3 77,84
5 Naïve Bayes 5 72,76
6 RF (10 Pohon) 5 76,29
7 RF (30 Pohon) 5 73,88
8 RF (100 Pohon) 5 74,57
9 Naïve Bayes 10 72,41
10 RF (10 Pohon) 10 78,79
11 RF (30 Pohon) 10 78,62
12 RF (100 Pohon) 10 77,41
Pada Tabel 4.5, diketahui dari variasi menggunakan 2 atribut
terbaik yaitu IPS 8 dan Lama TA menghasilkan akurasi terbaik yaitu
78,79% oleh metode random forest dengan menggunakan 10 pohon dan
nilai k = 10, sedangkan untuk naïve bayes mendapatkan akurasi paling
tinggi hanyalah 72,76% dengan menggunakan nilai k = 5.
3. Menggunakan 3 Atribut
Tabel 4.6 Hasil Pengujian menggunakan 3 Atribut (IPS 8, Lama TA
dan SKS 8)
No. Percobaan Fold Akurasi (%)
1 Naïve Bayes 3 74,83
2 RF (10 Pohon) 3 85,69
3 RF (30 Pohon) 3 58,35
4 RF (100 Pohon) 3 85,00
5 Naïve Bayes 5 77,24
6 RF (10 Pohon) 5 85,94
7 RF (30 Pohon) 5 83,36
8 RF (100 Pohon) 5 82,93
9 Naïve Bayes 10 76,21
10 RF (10 Pohon) 10 86,72
11 RF (30 Pohon) 10 86,72
12 RF (100 Pohon) 10 86,38
Pada Tabel 4.6, diketahui dari variasi menggunakan 3 atribut
terbaik yaitu IPS 8, Lama TA dan SKS 8 menghasilkan akurasi terbaik
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
39
yaitu 86,72% oleh metode random forest dengan menggunakan 10 dan
30 pohon dan nilai k = 10, sedangkan untuk naïve bayes mendapatkan
akurasi paling tinggi hanyalah 77,24% dengan menggunakan nilai k = 5.
4. Menggunakan 4 Atribut
Tabel 4.7 Hasil Pengujian menggunakan 4 Atribut (IPS 8, Lama TA,
SKS 8 dan IPS 7)
No. Percobaan Fold Akurasi (%)
1 Naïve Bayes 3 77,93
2 RF (10 Pohon) 3 83,10
3 RF (30 Pohon) 3 82,58
4 RF (100 Pohon) 3 82,50
5 Naïve Bayes 5 78,10
6 RF (10 Pohon) 5 82,75
7 RF (30 Pohon) 5 83,71
8 RF (100 Pohon) 5 83,27
9 Naïve Bayes 10 78,53
10 RF (10 Pohon) 10 84,31
11 RF (30 Pohon) 10 84,14
12 RF (100 Pohon) 10 84,39
Pada Tabel 4.7, diketahui dari variasi menggunakan 4 atribut
terbaik yaitu IPS 8, Lama TA, SKS 8 dan IPS 7 menghasilkan akurasi
terbaik yaitu 84,39% oleh metode random forest dengan menggunakan
100 pohon dan nilai k = 10, sedangkan untuk naïve bayes mendapatkan
akurasi paling tinggi hanyalah 78,53% dengan menggunakan nilai k =
10.
5. Menggunakan 5 Atribut
Tabel 4.8 Hasil Pengujian menggunakan 5 Atribut (IPS 8, Lama TA,
SKS 8, IPS 7 dan IPS 2)
No. Percobaan Fold Akurasi (%)
1 Naïve Bayes 3 77,23
2 RF (10 Pohon) 3 83,53
3 RF (30 Pohon) 3 84,05
4 RF (100 Pohon) 3 84,74
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
40
5 Naïve Bayes 5 76,47
6 RF (10 Pohon) 5 84,31
7 RF (30 Pohon) 5 84,57
8 RF (100 Pohon) 5 83,97
9 Naïve Bayes 10 77,24
10 RF (10 Pohon) 10 85,60
11 RF (30 Pohon) 10 85,69
12 RF (100 Pohon) 10 86,21
Pada Tabel 4.8, diketahui dari variasi menggunakan 5 atribut
terbaik yaitu IPS 8, Lama TA, SKS 8, IPS 7 dan IPS 2 menghasilkan
akurasi terbaik yaitu 86,21% oleh metode random forest dengan
menggunakan 100 pohon dan nilai k = 10, sedangkan untuk naïve bayes
mendapatkan akurasi paling tinggi hanyalah 77,24 % dengan
menggunakan nilai k = 10.
6. Menggunakan 6 Atribut
Tabel 4.9 Hasil Pengujian menggunakan 6 Atribut (IPS 8, Lama TA,
SKS 8, IPS 7, IPS 2 dan SKS 3)
No. Percobaan Fold Akurasi (%)
1 Naïve Bayes 3 78,10
2 RF (10 Pohon) 3 87,24
3 RF (30 Pohon) 3 86,55
4 RF (100 Pohon) 3 86,64
5 Naïve Bayes 5 77,76
6 RF (10 Pohon) 5 86,21
7 RF (30 Pohon) 5 87,24
8 RF (100 Pohon) 5 86,98
9 Naïve Bayes 10 78,28
10 RF (10 Pohon) 10 87,16
11 RF (30 Pohon) 10 86,55
12 RF (100 Pohon) 10 87,07
Pada Tabel 4.9, diketahui dari variasi menggunakan 6 atribut
terbaik yaitu IPS 8, Lama TA, SKS 8, IPS 7, IPS 2 dan SKS 3
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
41
menghasilkan akurasi terbaik yaitu 87,24% oleh metode random forest
dengan menggunakan 30 pohon dan nilai k = 5, sedangkan untuk naïve
bayes mendapatkan akurasi paling tinggi hanyalah 78,28 % dengan
menggunakan nilai k = 10.
7. Menggunakan 7 Atribut
Tabel 4.10 Hasil Pengujian menggunakan 7 Atribut (IPS 8, Lama TA,
SKS 8, IPS 7, IPS 2, SKS 3 dan IPS 1)
No. Percobaan Fold Akurasi (%)
1 Naïve Bayes 3 77,06
2 RF (10 Pohon) 3 86,29
3 RF (30 Pohon) 3 86,81
4 RF (100 Pohon) 3 87,42
5 Naïve Bayes 5 76,98
6 RF (10 Pohon) 5 85,69
7 RF (30 Pohon) 5 87,76
8 RF (100 Pohon) 5 87,50
9 Naïve Bayes 10 77,07
10 RF (10 Pohon) 10 86,29
11 RF (30 Pohon) 10 86,47
12 RF (100 Pohon) 10 86,90
Pada Tabel 4.10, diketahui dari variasi menggunakan 7 atribut
terbaik yaitu IPS 8, Lama TA, SKS 8, IPS 7, IPS 2, SKS 3 dan IPS 1
menghasilkan akurasi terbaik yaitu 87,76% oleh metode random forest
dengan menggunakan 30 pohon dan nilai k = 5, sedangkan untuk naïve
bayes mendapatkan akurasi paling tinggi hanyalah 77,07% dengan
menggunakan nilai k = 10.
8. Menggunakan 8 Atribut
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
42
Tabel 4.11 Hasil Pengujian menggunakan 8 Atribut (IPS 8, Lama TA,
SKS 8, IPS 7, IPS 2, SKS 3, IPS 1 dan SKS 6)
No. Percobaan Fold Akurasi (%)
1 Naïve Bayes 3 75,51
2 RF (10 Pohon) 3 85,86
3 RF (30 Pohon) 3 87,33
4 RF (100 Pohon) 3 87,24
5 Naïve Bayes 5 75,60
6 RF (10 Pohon) 5 85,52
7 RF (30 Pohon) 5 87,33
8 RF (100 Pohon) 5 87,07
9 Naïve Bayes 10 76,63
10 RF (10 Pohon) 10 86,55
11 RF (30 Pohon) 10 87,50
12 RF (100 Pohon) 10 87,33
Pada Tabel 4.11, diketahui dari variasi menggunakan 8 atribut
terbaik yaitu IPS 8, Lama TA, SKS 8, IPS 7, IPS 2, SKS 3, IPS 1 dan
SKS 6 menghasilkan akurasi terbaik yaitu 87,50% oleh metode random
forest dengan menggunakan 30 pohon dan nilai k = 10, sedangkan untuk
naïve bayes mendapatkan akurasi paling tinggi hanyalah 76,63% dengan
menggunakan nilai k = 10.
9. Menggunakan 9 Atribut
Tabel 4.12 Hasil Pengujian menggunakan 9 Atribut (IPS 8, Lama TA,
SKS 8, IPS 7, IPS 2, SKS 3, IPS 1, SKS 6 dan SKS 5)
No. Percobaan Fold Akurasi (%)
1 Naïve Bayes 3 72,92
2 RF (10 Pohon) 3 86,64
3 RF (30 Pohon) 3 88,28
4 RF (100 Pohon) 3 88,28
5 Naïve Bayes 5 73,79
6 RF (10 Pohon) 5 86,81
7 RF (30 Pohon) 5 87,67
8 RF (100 Pohon) 5 88,53
9 Naïve Bayes 10 74,74
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
43
10 RF (10 Pohon) 10 87,93
11 RF (30 Pohon) 10 87,84
12 RF (100 Pohon) 10 87,84
Pada Tabel 4.12, diketahui dari variasi menggunakan 9 atribut
terbaik yaitu IPS 8, Lama TA, SKS 8, IPS 7, IPS 2, SKS 3, IPS 1, SKS 6
dan SKS 5 menghasilkan akurasi terbaik yaitu 88,53% oleh metode
random forest dengan menggunakan 100 pohon dan nilai k = 5,
sedangkan untuk naïve bayes mendapatkan akurasi paling tinggi
hanyalah 74,74% dengan menggunakan nilai k = 10.
10. Menggunakan 10 Atribut
Tabel 4.13 Hasil Pengujian menggunakan 10 Atribut (IPS 8, Lama TA,
SKS 8, IPS 7, IPS 2, SKS 3, IPS 1, SKS 6, SKS 5 dan IPS 6)
No. Percobaan Fold Akurasi (%)
1 Naïve Bayes 3 71,20
2 RF (10 Pohon) 3 86,47
3 RF (30 Pohon) 3 86,73
4 RF (100 Pohon) 3 87,93
5 Naïve Bayes 5 71,81
6 RF (10 Pohon) 5 87,14
7 RF (30 Pohon) 5 87,41
8 RF (100 Pohon) 5 87,76
9 Naïve Bayes 10 74,48
10 RF (10 Pohon) 10 87,59
11 RF (30 Pohon) 10 88,36
12 RF (100 Pohon) 10 88,02
Pada Tabel 4.13, diketahui dari variasi menggunakan 10 atribut
terbaik yaitu IPS 8, Lama TA, SKS 8, IPS 7, IPS 2, SKS 3, IPS 1, SKS
6, SKS 5 dan IPS 6 menghasilkan akurasi terbaik yaitu 88,36% oleh
metode random forest dengan menggunakan 30 pohon dan nilai k = 10,
sedangkan untuk naïve bayes mendapatkan akurasi paling tinggi
hanyalah 74,48% dengan menggunakan nilai k = 10.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
44
4.5 Analisis Hasil
Dari semua percobaan yang telah dilakukan pada tahap sebelumnya,
diketahui bahwa jumlah k dalam fold sangat berpengaruh dimana lebih banyak k
juga akan mendapatkan akurasi yang lebih baik. Perbandingan akurasi terbaik
Naïve Bayes dan Random Forest dari berbagai variasi pada tahap sebelumnya
ditunjukkan pada Tabel 4.14 Hasil Optimal dari Semua Variasi.
Tabel 4.14 Hasil Optimal dari Semua Variasi
Jumlah
Atribut Nama Atribut
Akurasi Terbaik
Random Forest
Akurasi Terbaik
Naive Bayes
1 IPS 8 68,71% (30 Pohon
dan 10-Fold)
52,59% (10-
Fold)
2 IPS 8, Lama TA 78,79% (10 Pohon
dan 10-Fold) 72,76% (5-Fold)
3 IPS 8, Lama TA, SKS 8 86,72% (30 Pohon
dan 10-Fold) 77,24% (5-Fold)
4 IPS 8, Lama TA, SKS 8,
IPS 7
84,39% (100 Pohon
dan 10-Fold)
78.53% (10-
Fold)
5 IPS 8, Lama TA, SKS 8,
IPS 7, IPS 2
86,21% (100 Pohon
dan 10-Fold)
77,24% (10-
Fold)
6 IPS 8, Lama TA, SKS 8,
IPS 7, IPS 2, SKS 3
87,24% (30 Pohon
dan 5-Fold)
78,27% (10-
Fold)
7 IPS 8, Lama TA, SKS 8,
IPS 7, IPS 2, SKS 3, IPS 1
87,76% (30 Pohon
dan 5-Fold)
77,07% (10-
Fold)
8
IPS 8, Lama TA, SKS 8,
IPS 7, IPS 2, SKS 3, IPS 1,
SKS 6
87,50% (30 Pohon
dan 10-Fold)
76,63% (10-
Fold)
9
IPS 8, Lama TA, SKS 8,
IPS 7, IPS 2, SKS 3, IPS 1,
SKS 6, SKS 5
88,53% (100 Pohon
dan 5-Fold)
74,74% (10-
Fold)
10
IPS 8, Lama TA, SKS 8,
IPS 7, IPS 2, SKS 3, IPS 1,
SKS 6, SKS 5, IPS 6
88,36% (30 Pohon
dan 10-Fold)
74,48% (10-
Fold)
Tabel 4.14 merupakan hasil akurasi terbaik dari semua percobaan dan
mendapatkan hasil akurasi yang berbeda-beda pada tiap variasi atribut. Tingkat
akurasi tertinggi sebesar 88,53% menggunakan 9 atribut terbaik dan akurasi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
45
terendah sebesar 52,59% menggunakan 1 atribut terbaik. Tingkat akurasi tertinggi
tersebut didapatkan oleh Random Forest dengan akurasi sebesar 88,53% dari
menggunakan 100 pohon, 5-fold dan menggunakan 9 atribut terbaik yaitu IPS 8,
Lama TA, SKS 8, IPS 7, IPS 2, SKS 3, IPS 1, SKS 6 dan SKS 5. Sedangkan Naïve
Bayes, hanya mendapatkan akurasi paling tinggi sebesar 78.53% dari menggunakan
10-fold dan menggunakan 4 atribut terbaik yaitu IPS 8, Lama TA, SKS 8 dan IPS
7.
Berdasarkan penelitian dari pengujian variasi atribut tersebut, diketahui untuk
random forest, menggunakan lebih banyak atribut akan lebih baik juga akurasinya
dan mencapai akurasi optimal saat menggunakan 9 atribut terbaik, sedangkan untuk
naïve bayes mencapai akurasi optimal pada saat menggunakan 4 atribut terbaik. Hal
ini dapat dilihat di grafik tingkat akurasi pada Gambar 4.6.
Gambar 4.6 Grafik Tingkat Akurasi
50,00%
55,00%
60,00%
65,00%
70,00%
75,00%
80,00%
85,00%
90,00%
95,00%
1 2 3 4 5 6 7 8 9 1 0
J U M L A H A T R I B U T
GRAFIK TINGKAT AKURASI
Akurasi Random Forest Akurasi Naive Bayes
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
46
4.6 Interface Perangkat Lunak
Untuk interface perangkat lunak pada penelitian ini, pengguna akan diberikan
kebebasan untuk memilih atribut yang diinginkan, nilai k yang diinginkan dan juga
banyak pohon yang diinginkan untuk klasifikasi Random Forest. Interface tersebut
ditunjukkan pada Gambar 4.7.
Gambar 4.7 Interface Program
Langkah-langkah dari penggunaan interface tersebut adalah sebagai berikut.
1. Masukkan Data.
Membaca data yang diinginkan dari direktori komputer dengan
format .csv dan menampilkannya seperti yang ditunjukkan pada
Gambar 4.8.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
47
Gambar 4.8 Interface Masukkan Data
2. Pemodelan
Pengguna dipersilahkan untuk memilih atribut, nilai k dari fold dan
pohon yang diinginkan lalu dengan menekan tombol modelling maka
akan mengeluarkan akurasi dari naïve bayes dan random forest
berdasarkan masukan tersebut seperti yang ditunjukkan pada Gambar
4.9.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
48
Gambar 4.9 Interface Pemodelan
3. Uji Data Tunggal
Program akan menentukan hasil klasifikasi berdasarkan masukan
dan data yang dimasukkan oleh pengguna sesuai dengan atribut yang
dipilih pengguna yang ditunjukkan pada, field nya akan terbuka sesuai
dengan atribut yang dipilih pengguna. Contoh atribut yang dipilih dan
field yang terbuka sesuai atribut yang dipilih ditunjukkan pada
Gambar 4.10 dan Gambar 4.11.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
49
Gambar 4.10 Atribut yang dipilih
Gambar 4.11 Interface Uji Data Tunggal
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
50
BAB V
PENUTUP
5.1 Kesimpulan
Berdasarkan hasil analisis yang telah dilakukan, diperoleh beberapa
kesimpulan sebagai berikut:
1. Penelitian ini menghasilkan metode terbaik untuk melakukan
klasifikasi data ketepatan waktu lulus mahasiswa Fakultas Sains dan
Teknologi Universitas Sanata Dharma adalah metode Random Forest
dengan tingkat akurasi tertinggi sebesar 88,53% dari menggunakan
nilai k = 10, menggunakan 100 pohon dan menggunakan 9 atribut
terbaik yaitu IPS 8, Lama TA, SKS 8, IPS 7, IPS 2, SKS 3, IPS 1, SKS
6 dan SKS 5. Sedangkan Naïve Bayes, hanya mendapatkan akurasi
tertinggi sebesar 78.53% dari menggunakan nilai k = 10 dan
menggunakan 4 atribut terbaik yaitu IPS 8, Lama TA, SKS 8 dan IPS
7.
2. Untuk kedua pemodelan, jumlah k dalam fold sangat berpengaruh
terhadap akurasi yang dihasilkan, dimana jika lebih banyak jumlah k
akan mendapatkan akurasi yang lebih baik. Lalu untuk pemodelan
Random Forest, akan mendapatkan akurasi yang lebih baik jika
menggunakan lebih banyak pohon walaupun akurasi optimalnya
terdapat pada saat menggunakan 30 pohon.
5.2 Saran
Saran yang dapat diberikan dari hasil penelitian ini adalah:
1. Untuk penelitian berikutnya, dapat dilakukan komparasi Naïve Bayes
dengan Random Forest terhadap data yang dikenai uji independensi
atribut.
2. Mengembangkan hasil klasifikasi dengan menambahkan metode
Support Vector Machine (SVM) sebagai perbandingan akurasinya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
51
3. Menambahkan atribut-atribut lain yang lebih mempengaruhi
ketepatan waktu lulus mahasiswa dan juga memperbanyak
variasinya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
52
DAFTAR PUSTAKA
Badan Akreditasi Nasional Perguruan Tinggi. (2011). Buku II Standar dan
Prosedur Akreditasi Institusi Perguruan Tinggi.
Bawono, B., & Wasono, R. (2019). PERBANDINGAN METODE RANDOM
FOREST DAN NAÏVE BAYES UNTUK KLASIFIKASI DEBITUR
BERDASARKAN KUALITAS KREDIT.
Bengio, Y., & Grandvalet, Y. (2004). No Unbiased Estimator of the Variance ofK-
Fold Cross-Validation. Journal OfMachine Learning Research 5 (2004),
302(4), 860–864. https://doi.org/10.1016/S0006-291X(03)00224-9
Breiman, L. (2001). Random forests. Random Forests, 1–122.
https://doi.org/10.1201/9780367816377-11
Brownlee, J. (2014). Better Naive Bayes: 12 Tips To Get The Most From The Naive
Bayes Algorithm. In Machine Learning Mastery.
https://machinelearningmastery.com/better-naive-bayes/
Gata, W., Basri, H., Hidayat, R., Patras, Y. E., Baharuddin, B., Fatmasari, R.,
Tohari, S., & Wardhani, N. K. (2019). Algorithm Implementations Naïve
Bayes, Random Forest. C4.5 on Online Gaming for Learning Achievement
Predictions. 258(Icream 2018). https://doi.org/10.2991/icream-18.2019.1
Han, J., & Kamber, M. (2006). Data Mining: Concepts and Techniques (Vol. 05).
https://scholar.google.ru/scholar?hl=ru&as_sdt=0%2C5&q=Data+Mining%3
A+The+Textbook&btnG=
Han, J., Kamber, M., & Pei, J. (2012). Data Mining: Concepts and Techniques. In
Data Mining: Concepts and Techniques. https://doi.org/10.1016/C2009-0-
61819-5
Hidayat, A. (2016). Algoritma Naive Bayes. Https://Arfianhidayat.Com/Algoritma-
Naive-Bayes.
Kang, H., Yoo, S. J., & Han, D. (2012). Senti-lexicon and improved Naïve Bayes
algorithms for sentiment analysis of restaurant reviews. Expert Systems with
Applications, 39.5, 6000–6010.
Khozeimeh, F., Alizadehsani, R., Roshanzamir, M., Khosravi, A., Layegh, P., &
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
53
Nahavandi, S. (2017). An expert system for selecting wart treatment method.
Computers in Biology and Medicine, 81, 167–175.
Meilani, B. D., Wahyudiana, S., Putri, A. Y. P., & Pakarbudi, A. (2019). Klasifikasi
Identifikasi Faktor Penyebab Ketidaktepatan Masa Lulus Mahasiswa dengan
Metode Naïve Bayes Classifier. Seminar Nasional Sains Dan Teknologi
Terapan, 297–302.
Menteri Riset Teknologi dan Pendidikan Tinggi. (2015). Peraturan Menteri Riset,
Teknologi, dan Pendidikan Nomor 44 Tahun 2015 tentang Standar Nasional
Pendidikan Tinggi.
Muslehatin, W., Ibnu, M., & Mustakim. (2017). Penerapan Naïve Bayes
Classification untuk Klasifikasi Tingkat Kemungkinan Obesitas Mahasiswa
Sistem Informasi UIN Suska Riau. Seminar Nasional Teknologi Informasi,
Komunikasi Dan Industri (SNTIKI), 7.
Nugroho, Yuda Septian. (2014). DATA MINING MENGGUNAKAN
ALGORITMA NAÏVE BAYES UNTUK KLASIFIKASI KELULUSAN
MAHASISWA UNIVERSITAS DIAN NUSWANTORO. The American
Journal of Medicine, 75(3 PART A), 1–3. https://doi.org/10.1016/0002-
9343(83)90110-9
Nugroho, Yusuf Sulistyo, & Emiliyawati, N. (2017). Sistem Klasifikasi Variabel
Tingkat Penerimaan Konsumen Terhadap Mobil Menggunakan Metode
Random Forest. Jurnal Teknik Elektro, 9(1), 24–29.
https://doi.org/10.15294/jte.v9i1.10452
Sasongko, T. B. (2016). Komparasi dan Analisis Kinerja Model Algoritma SVM
dan PSO-SVM. Jurnal Teknik Informatika Dan Sistem Informasi, 2, 244–253.
Sinaga, A. D. (2020). PREDIKSI KELULUSAN MAHASISWA FAKULTAS SAINS
DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA MENGGUNAKAN
METODE KLASIFIKASI NAIVE BAYES.
Syukri Mustafa, M., Rizky Ramadhan, M., & Thenata, A. P. (2017). Implementasi
Data Mining untuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan
Algoritma Naive Bayes Classifier. Citec Journal, 4(2), 151–162.
Universitas Sanata Dharma. (2017). PROGRAM PENDIDIKAN MAHASISWA FST
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
54
USD TAHUN ANGKATAN 2017.
Yahya, S. A. (2018). KLASIFIKASI KETEPATAN LAMA STUDI MAHASISWA
MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DAN
RANDOM FOREST.
Zhang, C., Liu, C., Zhang, X., & Almpanidis, G. (2017). An up-to-date comparison
of state-of-the-art classification algorithms. Expert Systems with Applications.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
55
LAMPIRAN
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
56
Lampiran 1. Data Penelitian
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
57
Lampiran 2. Source Code Program (hanya yang berkaitan dengan penelitian saja)
1. Library dari ModelSkripsi.py
2. Library dari MainSkripsi.py
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
58
3. Data Pre-processing
4. Modelling
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
59
5. Modelling Random Forest
6. Modelling Naïve Bayes
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
60
7. ujiTunggal
8. Uji Data Tunggal
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
61
9. Source code memanggil method dari menge-klik tombol
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI