KOMPARASI METODE NAÏVE BAYES DAN RANDOM FOREST …

i

KOMPARASI METODE NAÏVE BAYES DAN RANDOM

FOREST UNTUK MEMPREDIKSI KETEPATAN

WAKTU LULUS MAHASISWA

(Studi Kasus: Mahasiswa Fakultas Sains Dan Teknologi Universitas Sanata

Dharma)

SKRIPSI

Diajukan untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Komputer

Program Studi Informatika HALAMAN JUDU L

Disusun Oleh:

Erwinsyah Rico Agusta

175314101

PROGRAM STUDI INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2021

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ii

COMPARISON OF NAIVE BAYES AND RANDOM FOREST

METHODS TO PREDICT THE ACCURACY OF

STUDENT GRADUATION TIME

(Case: Faculty of Science and Technology Sanata Dharma University

Students)

THESIS

Present as Partial Fulfillment of the Requirement

To Obtain the Sarjana Komputer Degree

In Informatics Study Program HALAMAN JUDU L

By:


175314101

INFORMATICS STUDY PROGRAM

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2021


iii

HALAMAN PERSETUJUAN

SKRIPSI

KOMPARASI METODE NAÏVE BAYES DAN RANDOM FOREST UNTUK

MEMPREDIKSI KETEPATAN WAKTU LULUS MAHASISWA

Oleh:

ERWINSYAH RICO AGUSTA

NIM: 175314101

Telah Disetujui Oleh:

Dosen Pembimbing,

Dr. Ridowati Gunawan, S.Kom., M.T. Tanggal: ....... ................2021


iv

HALAMAN PENGESAHAN

SKRIPSI



Dipersiapkan dan disusun oleh:

ERWINSYAH RICO AGUSTA

NIM: 175314101

Telah dipertahankan di depan Panitia Penguji

Pada tanggal 26 Juli 2021

Dan dinyatakan telah memenuhi syarat

Susunan Panitia Penguji

Nama Lengkap Tanda Tangan

Ketua : Drs.Haris Sriwindono M.Kom, Ph.D. .........................

Sekretaris : Paulina Heruningsih Prima Rosa, S.Si., M.Sc. .........................

Anggota : Dr. Ridowati Gunawan, S.Kom., M.T. .........................

Yogyakarta, .......................................

Fakultas Sains dan Teknologi

Universitas Sanata Dharma

Dekan,

Sudi Mungkasi, S.Si, M.Math.Sc., Ph.D.


v

HALAMAN PERSEMBAHAN

“You can’t build an adaptable organization without adaptable people and

individuals change only when they have to, or when they want to.”

Gary Hamel

Tugas Akhir ini saya persembahkan kepada:

Orang tua

Alm. Kakek dan Alm. Nenek

Kakak-kakak saya

Teman-teman saya


vi

PERNYATAAN KEASLIAN KARYA

Saya menyatakan dengan sesungguhnya bahwa skripsi yang saya tulis ini

tidak mengandung atau memuat hasil karya orang lain, kecuali yang sudah saya

sebutkan dalam daftar pustaka dan kutipan selayaknya karya ilmiah.

Yogyakarta, 20 Agustus 2021

Penulis,



vii

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH

UNTUK KEPENTINGAN AKADEMIS

Yang bertanda tangan di bawah ini, saya mahasiswa Universitas Sanata

Dharma:

Nama : Erwinsyah Rico Agusta

NIM : 175314101

Demi pengembangan ilmu pengetahuan, saya memberikan kepada

Perpustakaan Universitas Sanata Dharma karya ilmiah saya yang berjudul:



Berserta perangkat yang diperlukan (bila ada). Dengan demikian saya

memberikan kepada Perpustakaan Universitas Sanata Dharma hak untuk

menyimpan, mengalihkan dalam bentuk media lain, mengelola di internet atau

media lain untuk kepentingan akademis tanpa perlu meminta izin kepada saya

maupun memberikan royalty kepada saya selama tetap mencantumkan nama saya

sebagai penulis.

Demikian pernyataan ini saya buat dengan sebenarnya.

Dibuat di Yogyakarta

Pada tanggal 20 Agustus 2021

Yang menyatakan,

Erwinsyah Rico Agusta.


viii

KATA PENGANTAR

Puji dan syukur penulis panjatkan kepada Tuhan Yang Maha Esa atas segala

rahmat dan karunia nya sehingga peneliti dapat menyelesaikan skripsi ini dengan

judul “Komparasi Metode Naïve Bayes Dan Random Forest Untuk Memprediksi

Ketepatan Waktu Lulus Mahasiswa”, sebagai salah satu syarat guna untuk

menyelesaikan Program Sarjana (S1) prodi Informatika di Universitas Sanata

Dharma.

Penulis menyadari bahwa skripsi ini tidak mungkin terselesaikan tanpa

adanya dukungan, bantuan, bimbingan dan nasehat dari berbagai pihak selama

penyusunan skripsi ini. Pada kesempatan ini penulis menyampaikan terima kasih

setulus-tulusnya kepada:

1. Ibu Dr. Ridowati Gunawan, S.Kom., M.T. selaku dosen pembimbing

skripsi atas segala bimbingan, arahan serta saran yang diberikan kepada

penulis sehingga skripsi ini dapat diselesaikan dengan baik.

2. Bapak Robertus Adi Nugroho S.T., M. Eng selaku Ketua Program Studi

S1 Informatika Universitas Sanata Dharma.

3. Bapak Drs.Haris Sriwindono M.Kom, Ph.D. selaku dosen pembimbing

akademik.

4. Bapak Sudi Mungkasi, S.Si, M.Math.Sc., Ph.D. selaku Dekan Fakultas

Sains dan Teknologi Universitas Sanata Dharma.

5. Pihak sekretariat dan laboran yang turut membantu penulis

menyelesaikan tugas akhir ini.

6. Nia Ayulita, terima kasih untuk selalu ada saat suka maupun duka, selalu

memberikan semangat, doa dan motivasi kepada penulis.

7. Damar, Thomas dan Mahendra selaku teman satu dosen bimbingan yang

menemani dan saling membantu dalam mengerjakan skripsi ini.

8. Kedua orang tua tercinta, bapak Sis Widyanto dan ibu Sri Mulyani yang

telah memberikan motivasi dalam menyelesaikan skripsi ini.


ix

9. Kakak-kakak tersayang, Erlita Octaviani dan Ernanda Rully Novrisanti

yang telah memberikan kasih sayang dan motivasi kepada penulis dalam

menyelesaikan skripsi ini.

10. Teman-teman informatika Angkatan 2017 yang saling menyemangati

dalam menyelesaikan skripsi.

11. Semua pihak yang tidak dapat disebutkan satu-persatu yang telah

membantu penulis dalam menyelesaikan skripsi ini.

Peneliti berharap, semoga skripsi ini dapat memberikan tambahan

pengetahuan yang berguna kepada pembaca pada umumnya. Penulis menyadari

skripsi ini masih memiliki kekurangan dan jauh dari kata sempurna, oleh karena itu

penulis mengharapkan kritik dan saran yang membangun demi kesempurnaan

skripsi ini.

Yogyakarta, 26 Juli 2021

Penulis,



x

ABSTRAK

Salah satu aspek pengukuran kualitas perguruan tinggi adalah mahasiswa.

Kategori penilaian dari aspek tersebut yaitu sistem perekrutan mahasiswa baru,

rata-rata masa studi yang ditempuh dan indeks prestasi kumulatifnya (Badan

Akreditasi Nasional Perguruan Tinggi, 2011). Dari pernyataan tersebut, bisa

disimpulkan bahwa kualitas perguruan tinggi salah satunya ditentukan dari

ketepatan waktu lulus mahasiswa, sehingga dilakukan penelitian yang mampu

memprediksi ketepatan waktu lulus mahasiswa agar dapat menjadi salah satu alat

yang menyediakan informasi untuk membantu pihak universitas untuk upaya-upaya

yang dilakukan dalam rangka peningkatan kualitas perguruan tinggi.

Pada penelitian ini, metode Naïve Bayes dan Random Forest digunakan

untuk mengetahui tingkat akurasi yang lebih baik antara dua metode tersebut dalam

memprediksi ketepatan waktu lulus mahasiswa Fakultas Sains dan Teknologi,

Universitas Sanata Dharma. Klasifikasi yang dilakukan pada 1169 data tersebut

menghasilkan akurasi tertinggi oleh Random Forest dengan akurasi sebesar 88,53%

menggunakan 10-fold Cross Validation dan 100 pohon, sedangkan Naïve Bayes

mendapatkan akurasi sebesar 78,53% menggunakan 10-fold Cross Validation.

Kata Kunci: Naïve Bayes, Random Forest, Kelulusan Mahasiswa, Klasifikasi.


xi

ABSTRACT

One aspect from college grade measurement is the student from the college

itself. The measurement category from this aspect is new student recruitment

system, the average length of study taken and the cumulative achievement index

(Badan Akreditasi Nasional Perguruan Tinggi, 2011). From that statement, can be

concluded that the quality of higher education on university is determined by the

accuracy student graduation time, so a research is carried out to predict the accuracy

student graduation time and can become one of the tools that provides information

to assist the university in the efforts to improve the quality of the college.

In this research, Naïve Bayes and Random Forest methods were used to

determine the better accuracy between the methods in order to predict the accuracy

student graduation time from the Faculty of Science and Technology, Sanata

Dharma University. The classification using 1169 data resulted in the highest

accuracy by Random Forest with an accuracy of 88.53% using 10-fold Cross

Validation and 100 trees, while Naïve Bayes obtained an accuracy of 78.53% using

10-fold Cross Validation.

Kata Kunci: Naïve Bayes, Random Forest, Student Graduation, Classification.


xii

DAFTAR ISI

HALAMAN JUDUL ...................................................................................... i

HALAMAN JUDUL(ENGLISH) ................................................................. ii

HALAMAN PERSETUJUAN ..................................................................... iii

HALAMAN PENGESAHAN ...................................................................... iv

HALAMAN PERSEMBAHAN .................................................................... v

PERNYATAAN KEASLIAN KARYA ....................................................... vi

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA

ILMIAH UNTUK KEPENTINGAN AKADEMIS..................................... vii

KATA PENGANTAR ................................................................................ viii

ABSTRAK ..................................................................................................... x

ABSTRACT ................................................................................................... xi

DAFTAR ISI ............................................................................................... xii

DAFTAR TABEL ...................................................................................... xiv

DAFTAR GAMBAR .................................................................................. xvi

BAB I PENDAHULUAN ............................................................................ 1

1.1 Latar Belakang .................................................................................... 1

1.2 Perumusan Masalah ............................................................................. 2

1.3 Tujuan Penelitian ................................................................................. 2

1.4 Manfaat Penelitian ............................................................................... 3

1.5 Batasan Masalah .................................................................................. 3

1.6 Sistematika Penulisan .......................................................................... 4

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI .................. 6

2.1 Tinjauan Pustaka ................................................................................. 6

2.2 Landasan Teori .................................................................................... 7

2.2.1 Ketepatan Waktu Lulus Mahasiswa ........................................ 8

2.2.2 Klasifikasi ................................................................................ 8

2.2.3 Naïve Bayes ............................................................................. 9

2.2.4 Random Forest ...................................................................... 10

2.2.5 K-Fold Cross Validation ....................................................... 12


xiii

2.2.6 Confusion Matrix ................................................................... 12

BAB III METODOLOGI PENELITIAN ................................................ 14

3.1 Gambaran Umum Penelitian ............................................................. 14

3.2 Pengambilan Data ............................................................................. 15

3.3 Data Pre-processing ......................................................................... 16

3.3.1 Data Cleaning........................................................................ 17

3.3.2 Data Transformation ............................................................. 17

3.4 Metode dan Pemodelan ..................................................................... 17

3.4.1 Pemodelan Naïve Bayes. ........................................................ 18

3.4.2 Pemodelan Random Forest .................................................... 22

3.5 Rancangan Pengujian ........................................................................ 30

3.6 Peralatan Penelitian ........................................................................... 30

3.7 Rancangan Interface .......................................................................... 31

BAB IV HASIL DAN ANALISA ............................................................. 32

4.1 Tahap Pre-processing ....................................................................... 32

4.1.1 Data Cleaning........................................................................ 32

4.1.2 Data Transformation ............................................................. 33

4.2 Pemeringkatan Atribut dengan Information Gain ............................. 34

4.3 Klasifikasi .......................................................................................... 35

4.4 Pengujian ........................................................................................... 37

4.4.1 Uji Variasi Atribut ................................................................. 37

4.5 Analisis Hasil .................................................................................... 44

4.6 Interface Perangkat Lunak ................................................................ 46

BAB V PENUTUP ..................................................................................... 50

5.1 Kesimpulan ........................................................................................ 50

5.2 Saran .................................................................................................. 50

DAFTAR PUSTAKA .................................................................................. 52

LAMPIRAN ................................................................................................ 55


xiv

DAFTAR TABEL

Tabel 2.1 Perbandingan Penelitian Relevan ........................................................... 7

Tabel 2.2 Confusion Matrix (Sasongko, 2016) ..................................................... 13

Tabel 3.1 Contoh Data Training............................................................................ 18

Tabel 3.2 Contoh Data Testing ............................................................................. 18

Tabel 3.3 Probabilitas Label (Kelas) ..................................................................... 19

Tabel 3.4 Hasil Perhitungan Mean dan Standar Deviasi pada Atribut ................. 20

Tabel 3.5 Hasil Probabilitas Masing-masing Atribut pada Data Testing .............. 21

Tabel 3.6 Probabilitas Data Testing ...................................................................... 21

Tabel 3.7 Hasil Klasifikasi Naive Bayes ............................................................... 22

Tabel 3.8 Confusion Matrix Hasil Klasifikasi Naive Bayes .................................. 22

Tabel 3.9 Bootstrap Dataset ................................................................................. 23

Tabel 3.10 Entropy dari Data Bootstrap ............................................................... 24

Tabel 3.11 Hasil Perhitungan Partisi, Entropy dan Information Gain dari masing-

masing Atribut ....................................................................................................... 25

Tabel 3.12 Hasil Perhitungan Partisi, Entropy dan Information Gain terakhir. ... 26

Tabel 3.13 Contoh Data Testing untuk Klasifikasi Random Forest ..................... 28

Tabel 3.14 Hasil Klasifikasi Random Forest ........................................................ 29

Tabel 3.15 Confusion Matrix Hasil Klasifikasi Random Forest ........................... 29

Tabel 4.1 Contoh Data Sebelum Transformasi ..................................................... 33

Tabel 4.2 Contoh Data Sesudah Transformasi ...................................................... 34

Tabel 4.3 Hasil Pemeringkatan Atribut Menggunakan Information Gain ............ 34

Tabel 4.4 Hasil Pengujian Menggunakan 1 Atribut (IPS 8) ................................. 37

Tabel 4.5 Hasil Pengujian Menggunakan 2 Atribut (IPS 8 dan Lama TA) .......... 37

Tabel 4.6 Hasil Pengujian menggunakan 3 Atribut (IPS 8, Lama TA dan SKS 8)

............................................................................................................................... 38

Tabel 4.7 Hasil Pengujian menggunakan 4 Atribut (IPS 8, Lama TA, SKS 8 dan

IPS 7) ..................................................................................................................... 39

Tabel 4.8 Hasil Pengujian menggunakan 5 Atribut (IPS 8, Lama TA, SKS 8, IPS 7

dan IPS 2) .............................................................................................................. 39


xv

Tabel 4.9 Hasil Pengujian menggunakan 6 Atribut (IPS 8, Lama TA, SKS 8, IPS 7,

IPS 2 dan SKS 3) .................................................................................................. 40

Tabel 4.10 Hasil Pengujian menggunakan 7 Atribut (IPS 8, Lama TA, SKS 8, IPS

7, IPS 2, SKS 3 dan IPS 1) .................................................................................... 41


7, IPS 2, SKS 3, IPS 1 dan SKS 6) ....................................................................... 42


7, IPS 2, SKS 3, IPS 1, SKS 6 dan SKS 5) ........................................................... 42


7, IPS 2, SKS 3, IPS 1, SKS 6, SKS 5 dan IPS 6) ................................................ 43

Tabel 4.14 Hasil Optimal dari Semua Variasi ...................................................... 44


xvi

DAFTAR GAMBAR

Gambar 2.1 3-Fold Cross Validation .................................................................... 12

Gambar 3.1 Diagram Alur Penelitian.................................................................... 14

Gambar 3.2 Contoh Data Awal ............................................................................. 15

Gambar 3.3 Data Sebelum dan Sesudah Transformasi ......................................... 17

Gambar 3.4 Perhitungan Partisi Atribut IPS 6 ...................................................... 25

Gambar 3.5 Root Node Hasil Perhitungan ........................................................... 26

Gambar 3.6 Pohon ke-1......................................................................................... 27

Gambar 3.7 Pohon ke-2......................................................................................... 28

Gambar 3.8 Pohon ke-3......................................................................................... 28

Gambar 3.9 Rancangan Interface .......................................................................... 31

Gambar 4.1 Source Code Data Cleaning .............................................................. 32

Gambar 4.2 Source Code Data Transformation ................................................... 33

Gambar 4.3 Source Code Pemeringkatan Information Gain ................................ 35

Gambar 4.4 Source Code Klasifikasi Random Forest dengan Cross Validation . 36

Gambar 4.5 Source Code Klasifikasi Naive Bayes dengan Cross Validation ...... 36

Gambar 4.6 Grafik Tingkat Akurasi ..................................................................... 45

Gambar 4.7 Interface Program .............................................................................. 46

Gambar 4.8 Interface Masukkan Data .................................................................. 47

Gambar 4.9 Interface Pemodelan .......................................................................... 48

Gambar 4.10 Atribut yang dipilih ......................................................................... 49

Gambar 4.11 Interface Uji Data Tunggal ............................................................. 49


1

BAB I

PENDAHULUAN

1.1 Latar Belakang

Perguruan tinggi merupakan jenjang pendidikan yang dianggap paling

tinggi sebelum akhirnya memasuki dunia kerja dan diselenggarakan untuk

mempersiapkan peserta didik menjadi masyarakat yang memiliki kemampuan

akademis dan profesional yang dapat menerapkan, mengembangkan, dan

menciptakan ilmu pengetahuan, teknologi, dan kesenian (Menteri Riset Teknologi

dan Pendidikan Tinggi, 2015). Artinya, perguruan tinggi memiliki pengaruh yang

besar dalam meningkatkan kualitas pendidikan di Indonesia. Sehingga sangat

dibutuhkan pengembangan kualitas perguruan tinggi.

Salah satu aspek pengukuran kualitas perguruan tinggi adalah mahasiswa.

Kategori penilaian dari aspek tersebut yaitu sistem perekrutan mahasiswa baru,

rata-rata masa studi yang ditempuh dan indeks prestasi kumulatifnya (Badan

Akreditasi Nasional Perguruan Tinggi, 2011). Dari pernyataan tersebut, bisa

disimpulkan bahwa kualitas perguruan tinggi salah satunya ditentukan dari

ketepatan waktu lulus mahasiswa. Sehingga dilakukan penelitian yang mampu

memprediksi ketepatan waktu lulus mahasiswa agar dapat menjadi salah satu alat

yang menyediakan informasi untuk membantu pihak universitas dalam upaya-

upaya yang dilakukan dalam rangka peningkatan kualitas perguruan tinggi.

Data Mining dan Machine Learning ialah teknik untuk menemukan dan

mengekstrak pengetahuan/informasi dari suatu dataset. Algoritma data mining

dapat menganalisis data untuk menemukan pola yang tidak diketahui dalam

database besar dari beberapa industri seperti pendidikan, asuransi, kesehatan, dan

pemasaran umumnya menerapkannya untuk mengurangi biaya, meningkatkan

kualitas penelitian, dan meningkatkan jumlah penjualan (Khozeimeh et al., 2017).

Dalam penelitian ini, dilakukan teknik data mining klasifikasi untuk memprediksi

memprediksi ketepatan waktu lulus mahasiswa berdasarkan data dari mahasiswa

tersebut.


2

Metode data mining yang populer dalam kasus klasifikasi/prediksi ialah

metode Naïve Bayes dan Random Forest. Naïve Bayes adalah metode

pengklasifikasian statistik yang dapat digunakan untuk memprediksi probabilitas

keanggotaan suatu kelas. Naive Bayes didasarkan pada teorema Bayes yang

memiliki kemampuan klasifikasi serupa dengan decision tree (Yuda Septian

Nugroho, 2014). Metode Naïve Bayes juga memiliki kelebihan karena mudah dan

dapat menangani data missing (Kang et al., 2012). Namun metode Naïve Bayes

memiliki asumsi independensi atribut (Zhang et al., 2017). Sedangkan Random

Forest adalah metode pengembangan turunan dari decision tree tunggal (Gata dkk.,

2019). Penggunaan Random Forest dapat menghindari overfitting pada sebuah set

data saat mencapai akurasi yang maksimum.

Pada penelitian ini, metode Naïve Bayes dan Random Forest akan

diterapkan untuk memecahkan masalah tersebut. Metode Naïve Bayes dan Random

Forest telah banyak digunakan untuk melakukan proses klasifikasi dari sejumlah

data, tetapi belum diketahui metode mana yang lebih tinggi akurasinya dalam

memprediksi ketepatan waktu lulus mahasiswa.

Dari latar belakang yang telah dijabarkan, juga berdasarkan pada kelebihan

dan kekurangan masing-masing metode yang akan digunakan, dilakukan penelitian

dengan mengkomparasikan metode Naïve Bayes dan Random Forest untuk

memprediksi ketepatan waktu lulus mahasiswa Fakultas Sains dan Teknologi,

Universitas Sanata Dharma.

1.2 Perumusan Masalah

Berdasarkan latar belakang permasalahan diatas, maka rumusan masalah

yang didapatkan ialah bagaimana membandingkan tingkat akurasi antara metode

Naïve Bayes dan Random Forest dalam memprediksi ketepatan waktu lulus

mahasiswa.

1.3 Tujuan Penelitian

Tujuan penelitian berdasarkan rumusan masalah diatas yakni untuk

mengetahui tingkat akurasi yang lebih baik antara metode Naïve Bayes dan Random


3

Forest dalam memprediksi ketepatan waktu lulus mahasiswa Fakultas Sains dan

Teknologi, Universitas Sanata Dharma.

1.4 Manfaat Penelitian

Manfaat yang diperoleh dari Tugas Akhir ini adalah :

Bagi Penulis:

1. Penerapan dari ilmu perkuliahan data mining yang pernah ditempuh

2. Menambah pemahaman dalam penerapan metode naïve bayes dan random

forest untuk klasifikasi data

Bagi Akademik

Dengan adanya penelitian ini, dapat menjadi salah satu alat yang

menyediakan informasi untuk membantu pihak universitas dalam

upaya-upaya yang dilakukan dalam rangka peningkatan kualitas

perguruan tinggi.

Bagi Pembaca

Manfaat yang akan diperoleh dari pembaca yaitu bisa digunakan

sebagai salah satu bahan pengetahuan dalam melakukan penelitian

dengan penggunaan metode klasifikasi naïve bayes dan random forest.

1.5 Batasan Masalah

Guna menghindari adanya penyimpangan dari judul dalam melakukan

penelitian, maka penulis memberi batasan untuk mencapai tujuan penelitian:

1. Data yang digunakan adalah data akademik mahasiswa Fakultas Sains dan

Teknologi Universitas Sanata Dharma angkatan 2011 hingga 2016

2. Yang dimaksud dari Lulus tepat waktu ialah lulus sesuai dengan kurikulum

S1 Universitas Sanata Dharma yaitu 8 semester atau 4 tahun dengan jumlah

sks 144 sks.

3. Data yang diambil hanya dari mahasiswa yang sudah lulus.


4

4. Pada penelitian ini, tidak dilakukan uji independensi atribut.

1.6 Sistematika Penulisan

Sistematika penulisan pada penelitian ini dibagi menjadi 5 bab, yaitu:

1. BAB I PENDAHULUAN

Bab ini menjelaskan tentang latar belakang, rumusan masalah, tujuan,

manfaat, batasan masalah, dan sistematika penulisan.

2. BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

Bab ini berisi mengenai teori-teori yang akan digunakan sebagai dasar

dalam penelitian klasifikasi dengan menggunakan algoritma naïve

bayes dan random forest.

3. BAB III METODOLOGI PENELITIAN

Bab ini berisi tentang gambaran umum sistem yang dibangun, data yang

digunakan dan tahap-tahap memprediksi ketepatan waktu lulus

mahasiswa dengan menggunakan metode naïve bayes dan random

forest.

4. BAB IV HASIL DAN ANALISA

Dalam bab ini berisi tahap-tahap yang berkaitan dengan implementasi

perangkat lunak yang dibuat serta hasil luaran (output) yang diperoleh

dari pengolahan data dan pengujian, yaitu melalui tahap pre-processing

data, pemeringkatan atribut dengan metode information gain,

klasifikasi naïve bayes dan random forest, pengujian variasi dan

analisis hasil.

5. BAB IV KESIMPULAN DAN SARAN


5

Bab ini membahas tentang kesimpulan yang diperoleh dari hasil

penelitian tugas akhir yang dilakukan dan saran yang berguna untuk

penelitian yang akan datang.


6

BAB II

TINJAUAN PUSTAKA DAN LANDASAN TEORI

2.1 Tinjauan Pustaka

Berbagai penelitian untuk memprediksi kelulusan maupun ketepatan waktu

lulus mahasiswa telah dilakukan. Seperti pada penelitian yang dilakukan oleh

Sinaga (Sinaga, 2020) yang memprediksi kelulusan mahasiswa Fakultas Sains dan

Teknologi Universitas Sanata Dharma dengan menggunakan metode naïve bayes

dan mendapatkan akurasi sebesar 80.54% dengan menggunakan 3 atribut yaitu SKS

semester 4, lama tugas akhir dan indeks prestasi semester 2 yang dipilih

menggunakan metode seleksi fitur information gain. Juga terdapat penelitian oleh

Yahya (Yahya, 2018) yang membandingkan metode random forest dan support-

vector machine untuk mengklasifikasikan ketepatan lama studi mahasiswa

Universitas Islam Indonesia dan menghasilkan akurasi yang terbaik adalah metode

random forest yaitu 80% akurasi dengan nilai optimum m=2 dan k=500, sedangkan

SVM kernel RBF dengan optimum c=1 dan gamma=1 mendapatkan akurasi sebesar

77% dan SVM kernel signoid dengan optimum c=10 dan gamma=1 mendapatkan

akurasi sebesar 68%.

Juga terdapat penelitian lain yang menggunakan metode yang sama, tetapi

untuk kasus yang lain. Bawono & Wasono (Bawono & Wasono, 2019) melakukan

penelitian perbandingan metode naïve bayes dan random forest untuk klasifikasi

debitur berdasarkan kualitas kredit dan mendapatkan tingkat akurasi paling tinggi

yaitu random forest dengan akurasi 98,16%, sedangkan naïve bayes hanya 95,93%.

Untuk tabel perbandingan penelitian diatas ditunjukkan pada Tabel 2.1

Perbandingan Penelitian Relevan, dari penelitian tersebut diusulkan penelitian yang

membandingkan antara metode naïve bayes dengan random forest yang telah

diketahui sama-sama memiliki akurasi yang bagus untuk memprediksi ketepatan

waktu lulus mahasiswa Fakultas Sains dan Teknologi Universitas Sanata Dharma.


7

Tabel 2.1 Perbandingan Penelitian Relevan

No. Peneliti Algoritma Keterangan

1. Sinaga

(2020)

Naïve Bayes Penelitian untuk memprediksi

kelulusan mahasiswa dengan

menggunakan Naïve Bayes

menghasilkan akurasi sebesar

80.5402%

2. Yahya

(2018)

Random Forest dan

Support Vector Machine

Penelitian untuk

mengklasifikasikan ketepatan

lama studi mahasiswa pada

Universitas Islam Indonesia

menghasilkan akurasi terbaik

yaitu metode Random Forest

dengan nilai optimum m=2 dan k

=500 mendapatkan akurasi

sebesar 80%.

3. Bawono

dan

Wasono

(2019)

Random Forest dan Naïve

Bayes

Penelitian klasifikasi debitur pada

kualitas kredit menghasilkan

Random Forest menjadi metode

terbaik dengan akurasi mencapai

98,16%, sedangkan Naïve Bayes

hanya 95,93%.

2.2 Landasan Teori

Dalam tahap ini bdijelaskan secara singkat teori-teori yang digunakan pada

penelitian yaitu mengenai ketepatan waktu lulus mahasiswa, klasifikasi, naïve

bayes, random forest, k-fold cross validation dan confusion matrix berdasarkan

kajian Pustaka dan sumber-sumber lain.


8

2.2.1 Ketepatan Waktu Lulus Mahasiswa

Lulus tepat waktu merupakan salah satu tujuan yang ingin dicapai

mahasiswa dalam menyelesaikan studinya di perguruan tinggi. Mahasiswa

dinyatakan lulus tepat waktu apabila menyelesaikan studinya di perguruan

tinggi selama kurang dari atau sama dengan 8 semester atau bisa dibilang 4

tahun, dengan jumlah sks 144 sks (Universitas Sanata Dharma, 2017).

Ketepatan waktu lulus mahasiswa merupakan salah satu aspek yang sangat

mempengaruhi kualitas suatu perguruan tinggi. Menurut Buku II “Standar dan

Prosedur Akreditasi Institusi Perguruan Tinggi” dari Badan Akreditasi

Nasional Perguruan Tinggi, menyebutkan bahwa mahasiswa dan lulusan

merupakan salah satu aspek penilaian dari akreditasi (Badan Akreditasi

Nasional Perguruan Tinggi, 2011).

Namun dalam prakteknya mahasiswa tidak selalu dapat menyelesaikan

pendidikan sarjana/strata satu dalam kurun waktu empat tahun. Contohnya

pada data mahasiswa Fakultas Sains dan Teknologi Universitas Sanata Dharma

angkatan 2011 hingga angkatan 2016 yang diambil dari BAPSI Universitas

Sanata Dharma, diketahui mahasiswa yang lulus tepat waktu tidak lebih banyak

dari mahasiswa yang tidak tepat waktu.

Terdapat juga beberapa faktor penyebab ketidaktepatan waktu lulus

mahasiswa yaitu jumlah mata kuliah yang diulang, mempunyai kerja sambilan

saat kuliah, tidak memahami Metode Penelitian Ilmiah, tidak mempunyai

gambaran judul skripsi dari awal (Meilani dkk., 2019).

2.2.2 Klasifikasi

Merupakan suatu teknik dalam menemukan suatu pola atau fungsi dari

suatu data yang dapat membedakan konsep atau kelas data. Teknik tersebut

bertujuan untuk dapat memprediksi kelas dari suatu objek yang labelnya tidak

diketahui (Syukri Mustafa et al., 2017).

Klasifikasi data terdiri dari 2 langkah proses. Pertama adalah learning

(fase training), dimana algoritma klasifikasi dibuat untuk menganalisa data

training lalu direpresentasikan dalam bentuk rule klasifikasi. Proses kedua


9

adalah klasifikasi, dimana data tes digunakan untuk memperkirakan akurasi

dari rule klasifikasi (Han & Kamber, 2006).

2.2.3 Naïve Bayes

Naïve Bayes merupakan metode pengklasifikasian menggunakan metode

probabilitas dan statistik yg dikemukakan oleh ilmuwan Inggris Thomas

Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman di

masa sebelumnya. Ciri utama dr Naïve Bayes Classifier ini adalah asumsi yg

sangat kuat (naïf) akan independensi dari masing-masing kondisi / kejadian

(Hidayat, 2016). Naïve Bayes ini terbukti memiliki tingkat akurasi dan

kecepatan yang tepat saat dalam menggunakan aplikasi ke dalam database

dengan data yang besar (Muslehatin et al., 2017). Naive Bayes juga memiliki

asumsi independensi atribut yang berarti Naïve Bayes akan memandang semua

atribut sebagai atribut independen (Zhang et al., 2017). Namun, Naïve Bayes

dapat tetap berjalan walaupun syarat independensi atribut dilanggar (Brownlee,

2014).

Rumus naïve bayes dapat dimaksimalkan dengan menggunakan teorema

bayes menjadi seperti pada persamaan (2.1) dan juga untuk data kontinu dapat

digunakan rumus gaussian naïve bayes seperti pada persamaan (2.2) (Han et

al., 2012).

𝑃(𝑐|𝑥) = 𝑃(𝑥|𝑐). 𝑃(𝑐)

𝑃(𝑥)

(2.1)

Keterangan :

c : Kelas

x : Prediktor

P(c|x) : Probabilitas kelas (label) dari kondisi prediktor (atribut)

P(x|c) : Probabilitas c dari kondisi c

P(c) : Probabilitas kelas

P(x) : Probabilitas dari prediktor


10

𝑃(𝑋𝑖 = 𝑋|𝑌 = 𝑌𝑗) = 1

√2𝜋𝜎𝑒

−(𝑥𝑖−µ)2

2(𝜎2 (2.2)

Keterangan:

P : Probabilitas

Xi : Atribut ke-i

zi : Nilai atribut ke-i

Y : Kelas yang akan dicari

µ : Rata-rata dari seluruh atribut

σ : Standar Deviasi

Secara sederhana, tahapan Naïve Bayes dapat dilakukan sebagai berikut

(Bawono & Wasono, 2019):

1. Menghitung probabilitas dari kelas/label P(c).

2. Menentukan probablitas kategori dari atribut P(x).

3. Menghitung probabilitas dari semua atribut berdasarkan label/kelas

(Menghitung P(x|c) untuk tiap kelas)

4. Mengalikan nilai probabilitas tiap atribut dengan hasil probabilitas

kelas.

5. Membandingkan hasil per kelas.

2.2.4 Random Forest

Random Forest telah ditemukan oleh Breiman pada Tahun 2001. Dalam

penelitiannya, Random Forest memiliki kelebihan antara lain dapat

memberikan akurasi yang bagus untuk klasifikasi, dapat mendapatkan error

yang lebih rendah, dapat mengatasi data training dalam jumlah besar dengan

efisien, dan efektif untuk mengestimasi missing value (Breiman, 2001).

Metode random forest dibuat menggunakan teknik dasar data mining

yaitu pohon keputusan. Pohon keputusan tersebut terdiri dari root node,

internal node dan leaf node. Metode ini digunakan dengan mengambil atribut

dan data secara acak sesuai ketentuan yang diberlakukan. Root node yang biasa


11

disebut sebagai akar dari pohon keputusan merupakan simpul(node) yang

terletak paling atas. Internal node atau simpul dalam merupakan simpul

percabangan yang berasal dari root node dan mempunyai output minimal dua.

Sedangkan leaf node yaitu merupakan simpul terakhir dari pohon keputusan

yang hanya memiliki satu input dan tidak mempunyai output (Yusuf Sulistyo

Nugroho & Emiliyawati, 2017)

Tahapan untuk melakukan random forest adalah sebagai berikut (Bawono

& Wasono, 2019):

1. Tahapan bootstrap, menarik contoh acak berukuran n (n = banyak data

training) dengan pemulihan pada gugus data training.

2. Menyusun pohon keputusan berdasarkan data bootstrap diatas.

a) Membuat node pertama pohon keputusan.

b) Membuat node selanjutnya hingga pohon berakhir.

3. Mengulangi langkah 1 dan 2 sebanyak k kali sehingga diperoleh

sebuah hutan yang terdiri atas k pohon acak,

4. Tahapan aggregating, yaitu melakukan voting berdasarkan mayoritas

atau hasil klasifikasi yang paling banyak dari pohon-pohon acak

tersebut dan hasil paling banyak tersebut merupakan hasil klasifikasi

dari metode Random Forest.

Cara untuk memulai pohon keputusan adalah dengan menghitung nilai

entropy sebagai penentu tingkat impurity atribut dan nilai information gain.

Pada persamaan (2.3) terdapat rumus untuk menghitung nilai entropy,

sedangkan pada persamaan (2.4) terdapat rumus untuk menghitung nilai

information gain (Yusuf Sulistyo Nugroho & Emiliyawati, 2017).

𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑌) = − ∑ 𝑝(𝑐|𝑌)𝑙𝑜𝑔2 𝑝(𝑐|𝑌) (2.3)

Keterangan:

Y : Himpunan kasus

P(c|Y) : Proporsi nilai Y terhadap kelas c


12

𝐼𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛 𝑔𝑎𝑖𝑛(𝑌, 𝑎) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑌) − ∑ 𝑣 ∈ 𝑉𝑎𝑙𝑢𝑒𝑠(𝑎)|𝑌𝑣|

|𝑌𝑎|Entropy(Yv)

(2.4)

Keterangan:

Values(a) : Semua nilai yang mungkin dalam himpunan kasus a.

Yv : Subkelas dari Y dengan kelas v yang berhubungan

dengan kelas

Ya : Semua nilai yang sesuai dengan kelas a.

2.2.5 K-Fold Cross Validation

K-Fold cross validation merupakan teknik yang menggunakan semua

sampel yang tersedia sebagai data pelatihan dan pengujian. Pada k-fold cross

validation, kumpulan data akan dibagi menjadi partisi K, dan setiap blok

memiliki jumlah data yang sama (Bengio & Grandvalet, 2004). Teknik k-fold

cross validation digunakan untuk menghilangkan bias pada data. Pelatihan dan

pengujian dilakukan sebanyak k kali. Terdapat contoh dengan nilai k=3 maka

dapat di ilustrasikan seperti pada Gambar 2.1.

Gambar 2.1 3-Fold Cross Validation

2.2.6 Confusion Matrix

Confusion matrix merupakan suatu alat yang memiliki fungsi

menghitung keakuratan dari klasifikasi. Nilai dari True-Positive dan True-

Negative memberikan informasi bahwa klasifikasi data bernilai benar,

sedangkan False-Positive dan False-Negative memberikan informasi bahwa

klasifikasi data bernilai salah. Evaluasi menggunakan confusion matrix dapat


13

menghasilkan nilai akurasi, presisi dan recall. Akurasi dalam klasifikasi

merupakan persentase dari keakuratan data yang diklasifikasikan secara benar

setelah dilakukan pengujian pada hasil klasifikasi (Han & Kamber, 2006).

Dalam penelitian ini, pengukuran akurasi dilakukan dengan metode

pengujian confusion matrix yang dapat dilihat pada Tabel 2.2.Tabel 2.1

Tabel 2.2 Confusion Matrix (Sasongko, 2016)

Prediksi Nilai Sebenarnya

True False

True TP FN

False FP TN

Keterangan:

TP = Jumlah prediksi yang tepat bersifat positif (True Positive).

TN = jumlah prediksi yang tepat bersifat negatif (True Negative).

FP = jumlah prediksi yang salah bersifat positif (False Positive).

FN = jumlah prediksi yang salah bersifat negatif (False Negative).

Untuk menghitung tingkat akurasi, presisi dan recall dalam confusion matrix

digunakan rumus seperti pada persamaan (2.5), (2.6) dan (2.7).

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =𝑇𝑃 + 𝑇𝑁

𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁 𝑥 100% (2.5)

𝑃𝑟𝑒𝑠𝑖𝑠𝑖 = (𝑇𝑃

(𝑇𝑃 + 𝐹𝑃)) 𝑥 100% (2.6)

𝑅𝑒𝑐𝑎𝑙𝑙 = (𝑇𝑃

(𝑇𝑃 + 𝐹𝑁)) 𝑥 100% (2.7)


14

BAB III

METODOLOGI PENELITIAN

Bab ini berisi tentang gambaran umum sistem yang dibangun, data yang

digunakan dan tahap-tahap memprediksi ketepatan waktu lulus mahasiswa dengan

menggunakan metode naïve bayes dan random forest.

3.1 Gambaran Umum Penelitian

Pada penelitian ini, metode naïve bayes dan random forest akan diterapkan

untuk memprediksi ketepatan waktu lulus mahasiswa dengan menggunakan data

mahasiswa Fakultas Sains dan Teknologi Universitas Sanata Dharma angkatan

2011 hingga angkatan 2016. Lalu hasil akurasi dari prediksi tersebut akan

dibandingkan sehingga bisa diketahui metode mana yang lebih baik antara naïve

bayes dan random forest berdasarkan akurasinya.

Gambar 3.1 Diagram Alur Penelitian

Pada diagram alur penelitian yang ditunjukkan pada Gambar 3.1, terdapat

tahap-tahap dilakukannya penelitian. Berikut penjelasan alur penelitian pada

Gambar 3.1 tersebut:

1. Membaca file (Data Kelulusan Mahasiswa FST USD).

2. Dilakukan data pre-processing yaitu data cleaning dan data

transformation pada file yang telah dibaca sebelumnya.

3. Setelah melakukan data pre-processing, dilakukan pemeringkatan

atribut menggunakan information gain berdasarkan data tersebut.


15

4. Dilakukan k-Fold Cross Validation dengan menghasilkan data training

dan data testing yang berbeda-beda di tiap fold-nya.

5. Dilakukan pemodelan naïve bayes dan random forest menggunakan data

training, hasil pemodelan tersebut akan digunakan untuk memprediksi

dari data testing sehingga label kelas dari data testing tidak digunakan

6. Dilakukan prediksi dari metode naïve bayes dan random forest dengan

menggunakan data testing. Hasil prediksi berupa label kelas dari prediksi

kedua metode akan dibandingkan dengan label kelas sebenarnya untuk

dihitung akurasi dari kedua metode tersebut.

7. Dilakukan evaluasi confusion matrix untuk mendapatkan akurasi dari

hasil prediksi metode naïve bayes dan random forest.

8. Dilakukan analisis hasil dari metode naïve bayes dan random forest

untuk mengetahui metode yang mempunyai akurasi yang lebih baik

dalam memprediksi ketepatan waktu lulus mahasiswa.

3.2 Pengambilan Data

Data yang digunakan merupakan data mahasiswa Fakultas Sains dan

Teknologi Universitas Sanata Dharma angkatan 2011 hingga angkatan 2016

sebanyak 1.169 data record yang diambil dari BAPSI Universitas Sanata Dharma.

Contoh data awal yang belum melalui tahap pre-processing ditunjukkan pada

Gambar 3.2.

Gambar 3.2 Contoh Data Awal

Pada data tersebut terdiri dari 24 atribut, yaitu:


16

1. Prodi : Program studi atau disingkat prodi merupakan kesatuan rencana

belajar yang digunakan sebagai pedoman jalannya pendidikan akademik

yang penyelenggaraannya berdasarkan suatu kurikulum. Data prodi terdiri

dari TM (Teknik Mesin), TE (Teknik Elektro), INF (Informatika), dan

MAT (Matematika).

2. Angkatan : Tahun mahasiswa memulai kuliah.

3. Asal Sekolah : Asal sekolah mahasiswa sebelum memulai perkuliahan

4. Jalur masuk : Jalur masuk mahasiswa (jalur tes/prestasi)

5. Nilai Masuk : Nilai tes masuk mahasiswa atau nilai raport mahasiswa.

6. IPS 1 : Indeks Prestasi mahasiswa pada saat semester 1.


8. IPS 3 : Indeks Prestasi mahasiswa pada saat semester 3






14. SKS S1 : Jumlah SKS yang telah ditempuh pada saat semester 1.








22. Poin : Jumlah poin kegiatan kemahasiswaan.

23. Lama TA : Lama pengerjaan tugas akhir mahasiswa dalam satuan

semester.

24. Lama Studi : Jangka waktu penyelesaian studi mahasiswa dalam satuan

semester.

3.3 Data Pre-processing

Pada tahap ini data akan melalui tahap pre-processing untuk menghilangkan

noise sehingga sistem menghasilkan dataset yang siap dipakai untuk proses

klasifikasi selanjutnya. Tahapan pre-processing yang ada pada penelitian ini adalah

data cleaning dan data transformation.


17

3.3.1 Data Cleaning

Proses pembersihan data dilakukan untuk menghilangkan noise dan data

yang tidak konsisten. Jika terdapat nilai kosong pada salah satu atribut maka

baris data tersebut akan dihapus atau dihilangkan dari data frame.

3.3.2 Data Transformation

Proses transformasi data adalah proses perubahan data ke dalam kategori

atau nilai tertentu untuk proses data mining. Pada tahap ini, dilakukan

transformasi atribut lama studi(semester) yang terdiri dari 8, 9, 10, 11, 12 dan

lain-lain. Nilai tersebut akan dikelompokkan menjadi kategori 1 (lulus tepat

waktu) atau 0 (lulus tidak tepat waktu) berdasarkan syarat, jika atribut lama

studi <= 8 maka masuk ke dalam kategori 1 (lulus tepat waktu, dan jika atribut

lama studi > 8 maka masuk ke dalam kategori 0 (lulus tidak tepat waktu).

Contoh data sebelum dan sesudah ditransformasi ditunjukkan pada Gambar

3.3.

Gambar 3.3 Data Sebelum dan Sesudah Transformasi

3.4 Metode dan Pemodelan

Dalam penelitian ini, metode klasifikasi naïve bayes dan random forest akan

diterapkan dan dibandingkan akurasinya, maka dilakukan modelling metode naïve


18

bayes dan random forest guna untuk mengetahui akurasi dari hasil klasifikasi

metode tersebut

3.4.1 Pemodelan Naïve Bayes.

Dalam tahap pembentukan model naïve bayes, akan digunakan data awal

yang sudah di pre-processing pada tahap sebelumnya. Langkah pembangunan

model naïve adalah sebagai berikut:

1. Membaca data training.

2. Menghitung probabilitas dari label (kelas).

3. Menghitung probabilitas dari semua atribut berdasarkan label

(kelas).

4. Mengalikan nilai probabilitas tiap atribut dengan hasil probabilitas

kelas.

Namun, sebelum masuk ke pemodelan naïve bayes, 2/3 dari data awal yang

sudah di pre-processing akan digunakan sebagai data training dan sisanya 1/3

akan digunakan sebagai data testing. Contoh data training dan testing

ditunjukkan pada Tabel 3.1 dan Tabel 3.2.

Tabel 3.1 Contoh Data Training

No. IPS 5 IPS 6 Lama

TA

Lama

Studi

1. 3,43 3,87 1 1

2. 2,8 3,26 3 0

3. 3,05 3,6 3 0

4. 3,53 4 1 1

5. 3,65 3,87 1 1

6. 3,26 3,59 1 1

7. 2,33 2,65 7 0

8. 3,17 3,21 3 0

Tabel 3.2 Contoh Data Testing

No. IPS 5 IPS 6 Lama

TA

Lama

Studi


19

1. 3,1 2,78 3 0

2. 3,68 3,61 2 0

3. 2,32 3,3 3 0

4. 3,61 4 1 1

Langkah 1: Membaca Data Training.

Untuk membangun model naïve bayes, yang dilakukan pertama kali

adalah membaca data training. Pada kasus ini data training akan menggunakan

data yang ditunjukkan pada Tabel 3.1.

Langkah 2: Menghitung Probabilitas dari Label (Kelas) dan Semua

Atribut.

Setelah membaca data training, selanjutnya adalah mencari probabilitas

label(kelas) dan tiap atribut. Terdapat dua label dari data training tersebut,

yaitu:

• K1 (Kelas 1) → Lama Studi = Yes → 4 record.

• K2 (Kelas 2) → Lama Studi = No → 4 record.

• Total = 8 record.

Maka Hasil probabilitas label (kelas) ditunjukkan pada Tabel 3.3.

Tabel 3.3 Probabilitas Label (Kelas)

Lama Studi P (Lama Studi)

1 4/8

0 4/8

Langkah 3: Menghitung Probabilitas Semua Atribut Berdasarkan Label

(Kelas).

Langkah selanjutnya adalah menghitung probabilitas dari semua atribut

berdasarkan label. Atribut pada data training yang akan digunakan adalah IPS

5, IPS 6 dan Lama TA dimana nilai tiap atribut tersebut bersifat kontinu,

sehingga akan menggunakan persamaan (2.2). Di setiap atribut pada hitungan

mean dan standar deviasi nya. Hasil perhitungan mean dan standar deviasi tiap

atribut ditunjukkan pada Tabel 3.4. Untuk menghitung mean, digunakan rumus


20

pada persamaan (3.1) dan untuk menghitung standar deviasi, digunakan rumus

pada persamaan (3.2).

𝑀𝑒𝑎𝑛 =𝐽𝑢𝑚𝑙𝑎ℎ 𝑛𝑖𝑙𝑎𝑖

𝐵𝑎𝑛𝑦𝑎𝑘 𝑑𝑎𝑡𝑎 (3.1)

𝑆 = √∑ (𝑥𝑖 − 𝑥)2𝑛

𝑖=1

𝑛 − 1

(3.2)

Keterangan:

S = Standar deviasi

N = banyak data

Xi = data iterasi ke-i

X= rata-rata

Tabel 3.4 Hasil Perhitungan Mean dan Standar Deviasi pada Atribut

Atribut Hitungan 1

(Tepat Waktu)

0

(Tidak Tepat Waktu)

IPS 5 Mean 3,4675 2,8375

Standar Deviasi 0,165 0,371786

IPS 6 Mean 3,8325 3,18

Standar Deviasi 0,172892 0,393531

Lama TA Mean 1 4

Standar Deviasi 0,001 2

Selanjutnya jika mean dan standar deviasi telah ditemukan hasilnya,

maka menggunakan data testing pada Tabel 3.2 untuk mencari nilai

probabilitas tiap atribut. Hasilnya akan dihitung berdasarkan rumus densitas

gauss dengan memasukkan mean, standar deviasi dan nilai data testing. Hasil

probabilitas data testing ditunjukkan pada Tabel 3.5.


21

Tabel 3.5 Hasil Probabilitas Masing-masing Atribut pada Data Testing

Data

Testing ke- Atribut

1

(Tepat Waktu)

0

(Tidak Tepat Waktu)

9

IPS 5 0,202401763 0,836310005

IPS 6 1,71564E-08 0,604736049

Lama TA 0 0,176032663

10

IPS 5 1,055015423 0,082325009

IPS 6 1,004626441 0,557901792

Lama TA 0 0,120985362

11

IPS 5 3,24831E-11 0,377358039

IPS 6 0,019234115 0,968884183

Lama TA 0 0,176032663

12

IPS 5 1,66518693 0,123916772

IPS 6 1,443604071 0,11512196

Lama TA 398,9422804 0,064758798

Langkah 4: Mengalikan Nilai Probabilitas tiap Atribut dengan Hasil

Probabilitas Kelas

Setelah nilai probabilitas seluruh atribut terhadap kelas didapatkan, nilai

probabilitas masing-masing atribut akan dikalikan semuanya dengan dengan

hasil probabilitas kelas pada Tabel 3.3. Jika salah satu probabilitas kelas

memiliki nilai lebih tinggi, maka kelas pada probabilitas tersebut merupakan

prediksi dari data testing yang diuji. Hasil perhitungan probabilitas naïve bayes

pada data testing ditunjukkan pada Tabel 3.6 dan hasil klasifikasi naïve bayes

ditunjukkan pada Tabel 3.7.

Tabel 3.6 Probabilitas Data Testing

Data

Testing ke-

1

(Tepat Waktu)

0

(Tidak Tepat Waktu)

9. 0 0,089027958

10. 0 0,005556769

11. 0 0,0643604


22

12. 958,7252287 0,000923819

Tabel 3.7 Hasil Klasifikasi Naive Bayes

No. IPS 5 IPS 6 Lama TA Lama Studi Prediksi

9. 3,1 2,78 3 0 0

10. 3,68 3,61 2 0 0

11. 2,32 3,3 3 0 0

12. 3,61 4 1 1 1

Selanjutnya untuk mencari hasil akurasi dari hasil perhitungan naïve

bayes, digunakan perhitungan confusion matrix yakni dengan menjumlahkan

data yang diprediksi benar dan dibagi dengan seluruh data yang diprediksi

benar maupun salah lalu dikali dengan 100%. Pada kasus diatas, pengujian

hasil klasifikasi naïve bayes ditunjukkan pada Tabel 3.8.

Tabel 3.8 Confusion Matrix Hasil Klasifikasi Naive Bayes

Lama Studi

True 0

(Lulus Tidak Tepat

Waktu)

True 1

(Lulus Tepat

Waktu)

Pred. 0

(Lulus Tidak Tepat

Waktu)

3 0

Pred. 1

(Lulus Tepat Waktu) 0 1

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 1 + 3

1 + 3 + 0 + 0 𝑥 100% = 100%

3.4.2 Pemodelan Random Forest

Dalam tahap pembentukan model random forest, juga akan digunakan

data awal yang sudah di pre-processing pada tahap sebelumnya. Langkah

pembangunan model random forest adalah sebagai berikut:


23

1. Bootstrap Process, menarik data acak berukuran n data training

dengan pemulihan pada gugus data training.

2. Menyusun pohon keputusan berdasarkan data bootstrap diatas.

a) Membuat node pertama pohon keputusan.

b) Membuat node selanjutnya hingga pohon berakhir.

3. Mengulangi langkah 1 dan 2 sebanyak k kali sehingga diperoleh

sebuah hutan yang terdiri atas k pohon acak. Dan melakukan voting

berdasarkan mayoritas atau hasil klasifikasi yang paling banyak dari

pohon-pohon acak tersebut dan hasil paling banyak tersebut

merupakan hasil klasifikasi dari metode Random Forest.

Namun, sebelum masuk ke pemodelan random forest, 2/3 dari data awal yang

sudah di pre-processing akan digunakan sebagai data training dan sisanya 1/3

akan digunakan sebagai data testing. Contoh data training dan testing

ditunjukkan pada Tabel 3.1 dan Tabel 3.2.

Langkah 1: Bootstrap Process

Setelah data training dan data testing didapatkan, selanjutnya dilakukan

bootstrap process yaitu membuat bootstrap proses dengan mengambil data

dengan ukuran yang sama pada data training secara acak dan diperbolehkan

untuk mengambil data yang sama lebih dari satu kali. Hasil dari bootstrap

process yaitu bootstrap dataset ditunjukkan pada Tabel 3.9.

Tabel 3.9 Bootstrap Dataset

No. IPS 5 IPS 6 Lama TA Lama Studi

1. 3,53 4 1 1

2. 2,8 3,26 3 0

3. 3,26 3,59 1 1

4. 2,8 3,26 3 0

5. 3,05 3,6 3 0

6. 3,26 3,59 1 1

7. 3,05 3,6 3 0

8. 3,17 3,21 3 0

Langkah 2: Menyusun Pohon Keputusan berdasarkan Bootstrap Datasets


24

Setelah mendapatkan bootstrap datasets dari proses bootstrap pada

Langkah sebelumnya, selanjutnya adalah membuat pohon keputusan

berdasarkan datasets tersebut, yaitu dengan membuat root atau node pertama

hingga entropy = 0. Tahapan detail dari pembuatan pohon keputusan adalah

sebagai berikut:

a) Membuat root

Setelah dilakukan proses bootstrap, kemudian dilakukan perhitungan

entropy dari label dari keseluruhan data menggunakan persamaan

(2.3) yang akan digunakan untuk menghitung information gain pada

langkah selanjutnya. Entropy dari data yang telah di bootstrap


Tabel 3.10 Entropy dari Data Bootstrap

Atribut Total Kasus 1 0 Entropy

Lama Studi 8 3 5 0,954434

Setelah itu menghitung partisi dari masing-masing atribut dari data

yang telah di bootstrap menggunakan persamaan 3.3) di setiap

perubahan label pada data. Lalu dari partisi tersebut dihitung entropy

dan information gain menggunakan s (2.3) dan (2.4) untuk

menentukan partisi yang paling baik. Hasil perhitungan partisi,

entropy dan juga information gain dari masing-masing atribut


𝑃𝑎𝑟𝑡𝑖𝑠𝑖 =𝐷𝑖 + 𝐷𝑖+1

2

3.3)

Keterangan:

Di = Data ke-i


25

Tabel 3.11 Hasil Perhitungan Partisi, Entropy dan Information Gain

dari masing-masing Atribut

Atribut Partisi Total Kasus 1 0 Entropy Information

Gain

IPS 5 <=3,215 5 0 5 0

0,95443 >3,215 3 3 0 0

IPS 6

<=3,425 3 0 3 0 0,34758

>3,425 5 3 2 0,97095

<=3,595 5 3 5 0,97095 0,00322

>3,595 3 2 3 0,91829

<=3,8 7 2 5 0,86312 0,19920

>3,8 1 1 0 0

Lama

TA

<=2 3 3 0 0 0,95443

>2 5 0 5 0

Gambar 3.4 Perhitungan Partisi Atribut IPS 6

Berdasarkan hasil pada Tabel 3.11, diketahui terdapat 3 partisi pada

atribut IPS 6. Hal itu dikarenakan pada data di atribut IPS 6 terdapat

3 perubahan label setelah data yang telah diurutkan yang ditunjukkan

pada Gambar 3.4, sehingga terdapat juga 3 kandidat partisi lalu

kandidat partisi tersebut akan dipilih berdasarkan nilai information


26

gain paling tinggi. Hasil partisi pilihan, entropy dan juga information

gain ditunjukkan pada Tabel 3.12.

Tabel 3.12 Hasil Perhitungan Partisi, Entropy dan Information Gain

terakhir.

Atribut Partisi Total

Kasus 1 0 Entropy

Information

Gain

IPS 5 <=3,215 5 0 5 0

0,95443 >3,215 3 3 0 0

IPS 6 <=3,425 3 0 3 0

0,34758 >3,425 5 3 2 0,97095

Lama

TA

<=2 3 3 0 0 0,95443

>2 5 0 5 0

Berdasarkan hasil pada Tabel 3.12, nilai information gain tertinggi

yaitu pada atribut IPS 5 dan Lama TA yaitu sebesar 0.95443. Dengan

demikian dilakukan pemilihan salah satu dari 2 atribut yang memiliki

nilai information gain terbesar yaitu IPS 5 terbentuk menjadi root

node dari pohon keputusan.

Gambar 3.5 Root Node Hasil Perhitungan


27

b) Membuat node selanjutnya hingga entropy bernilai 0.

Berdasarkan hasil dari Gambar 3.5, diketahui bahwa pada IPS 5<=

3.215 maupun pada IPS > 3.215, entropy nya bernilai 0 atau hanya

tersisa masing-masing 1 label saja yaitu 0 (Tidak Lulus Tepat Waktu)

dan 1 (Lulus Tepat Waktu) sehingga node tersebut menjadi leaf atau

node tersebut tidak dilanjutkan dan terbentuklah hasil perhitungan

decision tree pertama. Namun, jika terdapat kasus tertentu yang

mempunyai 2 label di dalam 1 node atau entropy > 0, maka akan

dilakukan pembuatan node selanjutnya dengan data yang ada di dalam

node tersebut saja.

Langkah 3: Mengulangi Langkah 1 Dan 2 Sebanyak k kali sehingga

diperoleh sebuah Hutan yang terdiri atas K Pohon Acak.

Setelah mendapatkan hasil decision tree pada langkah 2, dilakukan

pengulangan langkah 1-2 idealnya hingga mencapai 100 pohon keputusan atau

decision tree. Namun, pada contoh pemodelan kali ini hanya akan dilakukan

hingga 3 pohon saja.

Setelah melakukan perhitungan yang sama pada langkah 1 dan 2 hingga

membentuk 3 pohon, hasil pohon tersebut ditunjukkan pada Gambar 3.6,

Gambar 3.7 dan Gambar 3.8

Gambar 3.6 Pohon ke-1


28



Setelah itu, dilakukan klasifikasi dengan 3 pohon yang dihasilkan

sebelumnya dengan data testing dengan cara memasukkan satu per satu data

testing ke dalam pohon. Lalu masing-masing hasil akan dipilih menggunakan

majority vote.

Tabel 3.13 Contoh Data Testing untuk Klasifikasi Random Forest

No. IPS 5 IPS 6 Lama TA Lama Studi

1. 3,68 3,61 2

Berikut pada Tabel 3.13, terdapat contoh satu data testing. Selanjutnya

data testing tersebut akan dimasukkan ke semua pohon yang sudah dibuat.

Dalam pohon 1 menghasilkan klasifikasi 1, pohon 2 menghasilkan klasifikasi


29

1 dan pohon 3 menghasilkan klasifikasi 1. Dari ketiga hasil klasifikasi tersebut,

dilakukan tahapan aggregating atau bisa disebut majority vote, yaitu memilih

berdasarkan hasil yang paling banyak, sehingga hasil klasifikasi dari data

testing pada Tabel 3.13 adalah 1. Untuk hasil klasifikasi seluruh data testing


Tabel 3.14 Hasil Klasifikasi Random Forest

No. IPS 5 IPS 6 Lama TA Lama

Studi Prediksi

1. 3,1 2,78 3 0 0

2. 3,68 3,61 2 0 1

3. 2,32 3,3 3 0 0

4. 3,61 4 1 1 1

Untuk mencari hasil akurasi dari hasil klasifikasi random forest,

digunakan perhitungan confusion matrix yakni dengan menjumlahkan data

yang diprediksi benar dan dibagi dengan seluruh data yang diprediksi benar

maupun salah lalu dikali dengan 100%. Pada kasus diatas, pengujian hasil

klasifikasi random forest ditunjukkan pada Tabel 3.15.

Tabel 3.15 Confusion Matrix Hasil Klasifikasi Random Forest

Lama Studi

True 0

(Lulus Tidak Tepat

Waktu)

True 1

(Lulus Tepat

Waktu)

Pred. 0

(Lulus Tidak Tepat Waktu) 2 0

Pred. 1

(Lulus Tepat Waktu) 1 1

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 1 + 2

1 + 2 + 1 + 0 𝑥 100% = 75%


30

3.5 Rancangan Pengujian

Proses pengujian pada penelitian ini dilakukan beberapa variasi, yaitu:

1. Variasi menggunakan 1 hingga 10 atribut dari yang terbaik berdasarkan

pemeringkatan dengan information gain.

2. Variasi nilai k dalam k-Fold Cross Validation yaitu 3-Fold Cross

Validation, 5-Fold Cross Validation dan 10-Fold Cross Validation

untuk mengurangi bias dalam klasifikasi.

3. Dalam pemodelan random forest, digunakan variasi banyak pohon 10,

30 dan 100.

Lalu untuk menghitung akurasi dari hasil dari klasifikasi, digunakan

confusion matrix yang sudah dicontohkan sebelumnya pada Tabel 3.8 dan Tabel

3.15.

3.6 Peralatan Penelitian

Penelitian ini menggunakan beberapa peralatan untuk membangun

sistem, yaitu sebagai berikut:

1. Perangkat keras

a. Merk : Asus

b. Type : A456UF

c. Processor : Intel® Core™ i5-6200U CPU @ 2.30 GHz

d. RAM : 8,00 GB

2. Perangkat Lunak

a. Windows 10 Pro

b. Phyton (Spyder)

c. Microsoft Excel


31

3.7 Rancangan Interface

Gambar 3.9 Rancangan Interface

Pada Gambar 3.9 terdapat rancangan awal interface dari perangkat lunak

yang akan dibuat. Dalam rancangan awal interface tersebut terdapat fitur sebagai

berikut:

1. Input Data, membaca data yang diinginkan dari direktori komputer

dengan format excel.

2. Tombol Klasifikasi, tombol yang berguna mengklasifikasikan data

yang di baca sebelumnya dan menghasilkan akurasi pemodelan dari

naïve bayes dan random forest, juga memperlihatkan atribut yang

digunakan dari pemodelan tersebut.

3. Uji Data Tunggal, user akan mengisi form sesuai dengan atribut yang

digunakan dalam pemodelan sebelumnya dan menghasilkan prediksi

Lulus Tepat Waktu atau Lulus Tidak Tepat Waktu berdasarkan

metode naïve bayes dan random forest dari pemodelan sebelumnya.


32

BAB IV

HASIL DAN ANALISA

Dalam bab ini berisi tahap-tahap yang berkaitan dengan implementasi

perangkat lunak yang dibuat serta hasil luaran (output) yang diperoleh dari

pengolahan data dan pengujian yang dilakukan yaitu tahap pre-processing data,,

pemeringkatan atribut dengan metode information gain, klasifikasi naïve bayes dan

random forest, pengujian dan analisis hasil.

4.1 Tahap Pre-processing

Tahap pre-processing dilakukan untuk mempersiapkan data sehingga data

siap untuk diolah. Terdapat dua tahapan dalam tahap pre-processing yaitu data

cleaning dan data transformation

4.1.1 Data Cleaning

Pada tahap ini, data yang memiliki missing value akan dihapus dari tabel

sehingga tidak terdapat data kosong. Dari data yang berjumlah 1169, terdapat

8 data yang mempunyai nilai kosong pada salah satu kolomnya. Karena jumlah

data yang bernilai kosong hanya sebesar 0.7698% maka baris data tersebut

dihapus dari tabel dan pada penelitian ini hanya akan menggunakan data yang

memiliki nilai di setiap kolomnya agar tidak terdapat noise pada saat proses

klasifikasi. Implementasi pada source code ditunjukkan pada Gambar 4.1.

Gambar 4.1 Source Code Data Cleaning

Pada Gambar 4.1, terdapat source code dari data cleaning, menggunakan

method dropna() yaitu salah satu method dari library pandas dalam

pemrograman phyton, yang digunakan untuk menghilangkan nilai yang hilang

dari sebuah data (jika salah satu atribut tidak ada nilainya dari sebuah

data/baris, maka data/baris tersebut akan dihilangkan dari keseluruhan data).


33

4.1.2 Data Transformation

Pada tahap ini, pada kolom/atribut yang memiliki rentang nilai jauh dan

juga tidak seimbang terhadap atribut lain, akan ditransformasikan

menggunakan normalisasi min-max dengan menggunakan library dari

sklearn.preprocessing. Atribut Nilai Masuk merupakan atribut yang memiliki

rentang nilai yang jauh yaitu dengan nilai terendah 21 dan tertinggi 84. Lalu

juga terdapat atribut Lama Studi sebagai label akan diubah nilainya dan

dikelompokkan menjadi kategori 1 (lulus tepat waktu) atau 0 (lulus tidak tepat

waktu) berdasarkan syarat, jika Lama studi <= 8 maka masuk ke dalam kategori

1 (lulus tepat waktu, dan jika Lama studi > 8 maka masuk ke dalam kategori 0

(lulus tidak tepat waktu). Implementasi transformasi data dalam source code

ditunjukkan pada Gambar 4.2.

Gambar 4.2 Source Code Data Transformation

Pada Gambar 4.2, terdapat source code dari data transformation,

menggunakan menggunakan library dari sklearn.preprocessing yang

digunakan untuk menormalisasi dari atribut Nilai Masuk dan terdapat method

where() yang merupakan salah satu method dari library numpy yang dalam

kasus tersebut digunakan untuk memanggil kondisi dari atribut Lama Studi

yang mempunyai nilai <=8 maka nilainya akan menjadi 1 dan kondisi dari

atribut Lama Studi yang mempunyai nilai >=0 maka nilainya akan menjadi 0.

Contoh data sebelum ditransformasi dan sesudah ditransformasi ditunjukkan

pada Tabel 4.1 dan Tabel 4.2.

Tabel 4.1 Contoh Data Sebelum Transformasi

Nilai Masuk Lama Studi

52,00 5

41,00 6


34

61,50 9

36,00 5

47,50 6

Tabel 4.2 Contoh Data Sesudah Transformasi

Nilai Masuk Lama Studi

0.253911 1

0.163814 1

0.331722 0

0.122860 1

0.217053 1

4.2 Pemeringkatan Atribut dengan Information Gain

Pada tahap ini, dilakukan pemeringkatan atribut dengan menggunakan mutual

info regression atau information gain dari library sklearn.feature_selection dan

mendapatkan hasil seperti yang ditunjukkan pada Tabel 4.3. Untuk implementasi

information gain pada source code ditunjukkan pada Gambar 4.3.

Tabel 4.3 Hasil Pemeringkatan Atribut Menggunakan Information Gain

Atribut Information Gain Ranking

IPS 8 0.173927 1

Lama TA 0.168048 2

SKS 8 0.122580 3

IPS 7 0.103205 4

IPS 2 0.099550 5

SKS 3 0.088386 6

IPS 1 0.086668 7

SKS 6 0.077768 8

SKS 5 0.070780 9

IPS 6 0.070113 10

IPS 3 0.065985 11

Prodi 0.064541 12


35

SKS 7 0.059978 13

IPS 5 0.058876 14

SKS 1 0.056959 15

SKS 2 0.055955 16

IPS 4 0.051305 17

Nilai Masuk 0.049823 18

SKS 4 0.049534 19

Angkatan 0.049028 20

Poin 0.000000 21

Gambar 4.3 Source Code Pemeringkatan Information Gain

Pada Gambar 4.3, dalam penelitian ini menggunakan kasus penyeleksian

atribut dari yang terbaik dengan mengambil secara manual dari list yang telah

dibuat dari hasil pemeringkatan atribut, seperti contohnya atribut = ranked[:5],

yang berarti telah diambil 5 atribut terbaik dari pemeringkatan information gain

sebagai feature dalam proses klasifikasi yang akan dilakukan setelah tahap ini.

4.3 Klasifikasi

Terdapat dua pemodelan yang dibangun, yaitu naïve bayes dan random forest.

Untuk pemodelan naïve bayes menggunakan fungsi GaussianNB dari library

sklearn.naive_bayes tanpa adanya masukan apapun. Sedangkan untuk pemodelan

random forest menggunakan fungsi RandomForestClassifier dari library

sklearn.ensemble dengan menggunakan masukan n_estimators(pohon) =


36

10,30,100; criterion = entropy dan random_state = 0 agar tidak terjadi

keserampangan(randomness) pada proses bootstrapping dari sampel yang

digunakan saat membangun pohon setiap program dijalankan. Implementasi

klasifikasi Random Forest dan Naïve Bayes dengan menggunakan Cross Validation

ditunjukkan pada Gambar 4.4 dan Gambar 4.5.

Gambar 4.4 Source Code Klasifikasi Random Forest dengan Cross Validation

Gambar 4.5 Source Code Klasifikasi Naive Bayes dengan Cross Validation


37

4.4 Pengujian

Pengujian dari data dan hasil klasifikasi dari klasifikasi Random Forest dan

Naïve Bayes.

4.4.1 Uji Variasi Atribut

Hasil pengujian penggunaan 1 atribut hingga 10 atribut terbaik adalah

sebagai berikut:

1. Menggunakan 1 Atribut

Tabel 4.4 Hasil Pengujian Menggunakan 1 Atribut (IPS 8)

No. Percobaan Fold Akurasi (%)

1 Naïve Bayes 3 47,92

2 RF (10 Pohon) 3 67,50

3 RF (30 Pohon) 3 68,11

4 RF (100 Pohon) 3 67,76


6 RF (10 Pohon) 5 66,72

7 RF (30 Pohon) 5 66,38

8 RF (100 Pohon) 5 66,29


10 RF (10 Pohon) 10 66,38

11 RF (30 Pohon) 10 68,71

12 RF (100 Pohon) 10 68,71

Pada Tabel 4.4, diketahui dari variasi menggunakan 1 atribut

terbaik yaitu IPS 8 menghasilkan akurasi terbaik yaitu 68,71% oleh

metode random forest dengan menggunakan 30 dan 100 pohon dan nilai

k = 10 sedangkan untuk naïve bayes mendapatkan akurasi yang paling

tinggi hanyalah 52,59% dengan menggunakan nilai k=10.


Tabel 4.5 Hasil Pengujian Menggunakan 2 Atribut (IPS 8 dan Lama

TA)



2 RF (10 Pohon) 3 77,50

3 RF (30 Pohon) 3 77,93


38

4 RF (100 Pohon) 3 77,84


6 RF (10 Pohon) 5 76,29

7 RF (30 Pohon) 5 73,88

8 RF (100 Pohon) 5 74,57


10 RF (10 Pohon) 10 78,79

11 RF (30 Pohon) 10 78,62

12 RF (100 Pohon) 10 77,41


terbaik yaitu IPS 8 dan Lama TA menghasilkan akurasi terbaik yaitu

78,79% oleh metode random forest dengan menggunakan 10 pohon dan

nilai k = 10, sedangkan untuk naïve bayes mendapatkan akurasi paling

tinggi hanyalah 72,76% dengan menggunakan nilai k = 5.


Tabel 4.6 Hasil Pengujian menggunakan 3 Atribut (IPS 8, Lama TA

dan SKS 8)



2 RF (10 Pohon) 3 85,69

3 RF (30 Pohon) 3 58,35

4 RF (100 Pohon) 3 85,00


6 RF (10 Pohon) 5 85,94

7 RF (30 Pohon) 5 83,36

8 RF (100 Pohon) 5 82,93


10 RF (10 Pohon) 10 86,72

11 RF (30 Pohon) 10 86,72

12 RF (100 Pohon) 10 86,38


terbaik yaitu IPS 8, Lama TA dan SKS 8 menghasilkan akurasi terbaik


39

yaitu 86,72% oleh metode random forest dengan menggunakan 10 dan

30 pohon dan nilai k = 10, sedangkan untuk naïve bayes mendapatkan

akurasi paling tinggi hanyalah 77,24% dengan menggunakan nilai k = 5.


Tabel 4.7 Hasil Pengujian menggunakan 4 Atribut (IPS 8, Lama TA,

SKS 8 dan IPS 7)



2 RF (10 Pohon) 3 83,10

3 RF (30 Pohon) 3 82,58

4 RF (100 Pohon) 3 82,50


6 RF (10 Pohon) 5 82,75

7 RF (30 Pohon) 5 83,71

8 RF (100 Pohon) 5 83,27


10 RF (10 Pohon) 10 84,31

11 RF (30 Pohon) 10 84,14

12 RF (100 Pohon) 10 84,39


terbaik yaitu IPS 8, Lama TA, SKS 8 dan IPS 7 menghasilkan akurasi

terbaik yaitu 84,39% oleh metode random forest dengan menggunakan

100 pohon dan nilai k = 10, sedangkan untuk naïve bayes mendapatkan

akurasi paling tinggi hanyalah 78,53% dengan menggunakan nilai k =

10.



SKS 8, IPS 7 dan IPS 2)



2 RF (10 Pohon) 3 83,53

3 RF (30 Pohon) 3 84,05

4 RF (100 Pohon) 3 84,74


40


6 RF (10 Pohon) 5 84,31

7 RF (30 Pohon) 5 84,57

8 RF (100 Pohon) 5 83,97


10 RF (10 Pohon) 10 85,60

11 RF (30 Pohon) 10 85,69

12 RF (100 Pohon) 10 86,21


terbaik yaitu IPS 8, Lama TA, SKS 8, IPS 7 dan IPS 2 menghasilkan

akurasi terbaik yaitu 86,21% oleh metode random forest dengan

menggunakan 100 pohon dan nilai k = 10, sedangkan untuk naïve bayes

mendapatkan akurasi paling tinggi hanyalah 77,24 % dengan

menggunakan nilai k = 10.



SKS 8, IPS 7, IPS 2 dan SKS 3)



2 RF (10 Pohon) 3 87,24

3 RF (30 Pohon) 3 86,55

4 RF (100 Pohon) 3 86,64


6 RF (10 Pohon) 5 86,21

7 RF (30 Pohon) 5 87,24

8 RF (100 Pohon) 5 86,98


10 RF (10 Pohon) 10 87,16

11 RF (30 Pohon) 10 86,55

12 RF (100 Pohon) 10 87,07


terbaik yaitu IPS 8, Lama TA, SKS 8, IPS 7, IPS 2 dan SKS 3


41

menghasilkan akurasi terbaik yaitu 87,24% oleh metode random forest

dengan menggunakan 30 pohon dan nilai k = 5, sedangkan untuk naïve

bayes mendapatkan akurasi paling tinggi hanyalah 78,28 % dengan




SKS 8, IPS 7, IPS 2, SKS 3 dan IPS 1)



2 RF (10 Pohon) 3 86,29

3 RF (30 Pohon) 3 86,81

4 RF (100 Pohon) 3 87,42


6 RF (10 Pohon) 5 85,69

7 RF (30 Pohon) 5 87,76

8 RF (100 Pohon) 5 87,50


10 RF (10 Pohon) 10 86,29

11 RF (30 Pohon) 10 86,47

12 RF (100 Pohon) 10 86,90


terbaik yaitu IPS 8, Lama TA, SKS 8, IPS 7, IPS 2, SKS 3 dan IPS 1

menghasilkan akurasi terbaik yaitu 87,76% oleh metode random forest

dengan menggunakan 30 pohon dan nilai k = 5, sedangkan untuk naïve

bayes mendapatkan akurasi paling tinggi hanyalah 77,07% dengan




42


SKS 8, IPS 7, IPS 2, SKS 3, IPS 1 dan SKS 6)



2 RF (10 Pohon) 3 85,86

3 RF (30 Pohon) 3 87,33

4 RF (100 Pohon) 3 87,24


6 RF (10 Pohon) 5 85,52

7 RF (30 Pohon) 5 87,33

8 RF (100 Pohon) 5 87,07


10 RF (10 Pohon) 10 86,55

11 RF (30 Pohon) 10 87,50

12 RF (100 Pohon) 10 87,33


terbaik yaitu IPS 8, Lama TA, SKS 8, IPS 7, IPS 2, SKS 3, IPS 1 dan

SKS 6 menghasilkan akurasi terbaik yaitu 87,50% oleh metode random

forest dengan menggunakan 30 pohon dan nilai k = 10, sedangkan untuk

naïve bayes mendapatkan akurasi paling tinggi hanyalah 76,63% dengan




SKS 8, IPS 7, IPS 2, SKS 3, IPS 1, SKS 6 dan SKS 5)



2 RF (10 Pohon) 3 86,64

3 RF (30 Pohon) 3 88,28

4 RF (100 Pohon) 3 88,28


6 RF (10 Pohon) 5 86,81

7 RF (30 Pohon) 5 87,67

8 RF (100 Pohon) 5 88,53



43

10 RF (10 Pohon) 10 87,93

11 RF (30 Pohon) 10 87,84

12 RF (100 Pohon) 10 87,84


terbaik yaitu IPS 8, Lama TA, SKS 8, IPS 7, IPS 2, SKS 3, IPS 1, SKS 6

dan SKS 5 menghasilkan akurasi terbaik yaitu 88,53% oleh metode

random forest dengan menggunakan 100 pohon dan nilai k = 5,

sedangkan untuk naïve bayes mendapatkan akurasi paling tinggi

hanyalah 74,74% dengan menggunakan nilai k = 10.



SKS 8, IPS 7, IPS 2, SKS 3, IPS 1, SKS 6, SKS 5 dan IPS 6)



2 RF (10 Pohon) 3 86,47

3 RF (30 Pohon) 3 86,73

4 RF (100 Pohon) 3 87,93


6 RF (10 Pohon) 5 87,14

7 RF (30 Pohon) 5 87,41

8 RF (100 Pohon) 5 87,76


10 RF (10 Pohon) 10 87,59

11 RF (30 Pohon) 10 88,36

12 RF (100 Pohon) 10 88,02


terbaik yaitu IPS 8, Lama TA, SKS 8, IPS 7, IPS 2, SKS 3, IPS 1, SKS

6, SKS 5 dan IPS 6 menghasilkan akurasi terbaik yaitu 88,36% oleh

metode random forest dengan menggunakan 30 pohon dan nilai k = 10,

sedangkan untuk naïve bayes mendapatkan akurasi paling tinggi

hanyalah 74,48% dengan menggunakan nilai k = 10.


44

4.5 Analisis Hasil

Dari semua percobaan yang telah dilakukan pada tahap sebelumnya,

diketahui bahwa jumlah k dalam fold sangat berpengaruh dimana lebih banyak k

juga akan mendapatkan akurasi yang lebih baik. Perbandingan akurasi terbaik

Naïve Bayes dan Random Forest dari berbagai variasi pada tahap sebelumnya

ditunjukkan pada Tabel 4.14 Hasil Optimal dari Semua Variasi.

Tabel 4.14 Hasil Optimal dari Semua Variasi

Jumlah

Atribut Nama Atribut

Akurasi Terbaik

Random Forest

Akurasi Terbaik

Naive Bayes

1 IPS 8 68,71% (30 Pohon

dan 10-Fold)

52,59% (10-

Fold)

2 IPS 8, Lama TA 78,79% (10 Pohon

dan 10-Fold) 72,76% (5-Fold)

3 IPS 8, Lama TA, SKS 8 86,72% (30 Pohon

dan 10-Fold) 77,24% (5-Fold)

4 IPS 8, Lama TA, SKS 8,

IPS 7

84,39% (100 Pohon

dan 10-Fold)

78.53% (10-

Fold)


IPS 7, IPS 2

86,21% (100 Pohon

dan 10-Fold)

77,24% (10-

Fold)


IPS 7, IPS 2, SKS 3

87,24% (30 Pohon

dan 5-Fold)

78,27% (10-

Fold)


IPS 7, IPS 2, SKS 3, IPS 1

87,76% (30 Pohon

dan 5-Fold)

77,07% (10-

Fold)

8

IPS 8, Lama TA, SKS 8,

IPS 7, IPS 2, SKS 3, IPS 1,

SKS 6

87,50% (30 Pohon

dan 10-Fold)

76,63% (10-

Fold)

9



SKS 6, SKS 5

88,53% (100 Pohon

dan 5-Fold)

74,74% (10-

Fold)

10



SKS 6, SKS 5, IPS 6

88,36% (30 Pohon

dan 10-Fold)

74,48% (10-

Fold)

Tabel 4.14 merupakan hasil akurasi terbaik dari semua percobaan dan

mendapatkan hasil akurasi yang berbeda-beda pada tiap variasi atribut. Tingkat

akurasi tertinggi sebesar 88,53% menggunakan 9 atribut terbaik dan akurasi


45

terendah sebesar 52,59% menggunakan 1 atribut terbaik. Tingkat akurasi tertinggi

tersebut didapatkan oleh Random Forest dengan akurasi sebesar 88,53% dari

menggunakan 100 pohon, 5-fold dan menggunakan 9 atribut terbaik yaitu IPS 8,

Lama TA, SKS 8, IPS 7, IPS 2, SKS 3, IPS 1, SKS 6 dan SKS 5. Sedangkan Naïve

Bayes, hanya mendapatkan akurasi paling tinggi sebesar 78.53% dari menggunakan

10-fold dan menggunakan 4 atribut terbaik yaitu IPS 8, Lama TA, SKS 8 dan IPS

7.

Berdasarkan penelitian dari pengujian variasi atribut tersebut, diketahui untuk

random forest, menggunakan lebih banyak atribut akan lebih baik juga akurasinya

dan mencapai akurasi optimal saat menggunakan 9 atribut terbaik, sedangkan untuk

naïve bayes mencapai akurasi optimal pada saat menggunakan 4 atribut terbaik. Hal

ini dapat dilihat di grafik tingkat akurasi pada Gambar 4.6.

Gambar 4.6 Grafik Tingkat Akurasi

50,00%

55,00%

60,00%

65,00%

70,00%

75,00%

80,00%

85,00%

90,00%

95,00%

1 2 3 4 5 6 7 8 9 1 0

J U M L A H A T R I B U T

GRAFIK TINGKAT AKURASI

Akurasi Random Forest Akurasi Naive Bayes


46

4.6 Interface Perangkat Lunak

Untuk interface perangkat lunak pada penelitian ini, pengguna akan diberikan

kebebasan untuk memilih atribut yang diinginkan, nilai k yang diinginkan dan juga

banyak pohon yang diinginkan untuk klasifikasi Random Forest. Interface tersebut

ditunjukkan pada Gambar 4.7.

Gambar 4.7 Interface Program

Langkah-langkah dari penggunaan interface tersebut adalah sebagai berikut.

1. Masukkan Data.

Membaca data yang diinginkan dari direktori komputer dengan

format .csv dan menampilkannya seperti yang ditunjukkan pada

Gambar 4.8.


47

Gambar 4.8 Interface Masukkan Data

2. Pemodelan

Pengguna dipersilahkan untuk memilih atribut, nilai k dari fold dan

pohon yang diinginkan lalu dengan menekan tombol modelling maka

akan mengeluarkan akurasi dari naïve bayes dan random forest

berdasarkan masukan tersebut seperti yang ditunjukkan pada Gambar

4.9.


48

Gambar 4.9 Interface Pemodelan

3. Uji Data Tunggal

Program akan menentukan hasil klasifikasi berdasarkan masukan

dan data yang dimasukkan oleh pengguna sesuai dengan atribut yang

dipilih pengguna yang ditunjukkan pada, field nya akan terbuka sesuai

dengan atribut yang dipilih pengguna. Contoh atribut yang dipilih dan

field yang terbuka sesuai atribut yang dipilih ditunjukkan pada

Gambar 4.10 dan Gambar 4.11.


49

Gambar 4.10 Atribut yang dipilih

Gambar 4.11 Interface Uji Data Tunggal


50

BAB V

PENUTUP

5.1 Kesimpulan

Berdasarkan hasil analisis yang telah dilakukan, diperoleh beberapa

kesimpulan sebagai berikut:

1. Penelitian ini menghasilkan metode terbaik untuk melakukan

klasifikasi data ketepatan waktu lulus mahasiswa Fakultas Sains dan

Teknologi Universitas Sanata Dharma adalah metode Random Forest

dengan tingkat akurasi tertinggi sebesar 88,53% dari menggunakan

nilai k = 10, menggunakan 100 pohon dan menggunakan 9 atribut

terbaik yaitu IPS 8, Lama TA, SKS 8, IPS 7, IPS 2, SKS 3, IPS 1, SKS

6 dan SKS 5. Sedangkan Naïve Bayes, hanya mendapatkan akurasi

tertinggi sebesar 78.53% dari menggunakan nilai k = 10 dan

menggunakan 4 atribut terbaik yaitu IPS 8, Lama TA, SKS 8 dan IPS

7.

2. Untuk kedua pemodelan, jumlah k dalam fold sangat berpengaruh

terhadap akurasi yang dihasilkan, dimana jika lebih banyak jumlah k

akan mendapatkan akurasi yang lebih baik. Lalu untuk pemodelan

Random Forest, akan mendapatkan akurasi yang lebih baik jika

menggunakan lebih banyak pohon walaupun akurasi optimalnya

terdapat pada saat menggunakan 30 pohon.

5.2 Saran

Saran yang dapat diberikan dari hasil penelitian ini adalah:

1. Untuk penelitian berikutnya, dapat dilakukan komparasi Naïve Bayes

dengan Random Forest terhadap data yang dikenai uji independensi

atribut.

2. Mengembangkan hasil klasifikasi dengan menambahkan metode

Support Vector Machine (SVM) sebagai perbandingan akurasinya.


51

3. Menambahkan atribut-atribut lain yang lebih mempengaruhi

ketepatan waktu lulus mahasiswa dan juga memperbanyak

variasinya.


52

DAFTAR PUSTAKA

Badan Akreditasi Nasional Perguruan Tinggi. (2011). Buku II Standar dan

Prosedur Akreditasi Institusi Perguruan Tinggi.

Bawono, B., & Wasono, R. (2019). PERBANDINGAN METODE RANDOM

FOREST DAN NAÏVE BAYES UNTUK KLASIFIKASI DEBITUR

BERDASARKAN KUALITAS KREDIT.

Bengio, Y., & Grandvalet, Y. (2004). No Unbiased Estimator of the Variance ofK-

Fold Cross-Validation. Journal OfMachine Learning Research 5 (2004),

302(4), 860–864. https://doi.org/10.1016/S0006-291X(03)00224-9

Breiman, L. (2001). Random forests. Random Forests, 1–122.

https://doi.org/10.1201/9780367816377-11

Brownlee, J. (2014). Better Naive Bayes: 12 Tips To Get The Most From The Naive

Bayes Algorithm. In Machine Learning Mastery.

https://machinelearningmastery.com/better-naive-bayes/

Gata, W., Basri, H., Hidayat, R., Patras, Y. E., Baharuddin, B., Fatmasari, R.,

Tohari, S., & Wardhani, N. K. (2019). Algorithm Implementations Naïve

Bayes, Random Forest. C4.5 on Online Gaming for Learning Achievement

Predictions. 258(Icream 2018). https://doi.org/10.2991/icream-18.2019.1

Han, J., & Kamber, M. (2006). Data Mining: Concepts and Techniques (Vol. 05).

https://scholar.google.ru/scholar?hl=ru&as_sdt=0%2C5&q=Data+Mining%3

A+The+Textbook&btnG=

Han, J., Kamber, M., & Pei, J. (2012). Data Mining: Concepts and Techniques. In

Data Mining: Concepts and Techniques. https://doi.org/10.1016/C2009-0-

61819-5

Hidayat, A. (2016). Algoritma Naive Bayes. Https://Arfianhidayat.Com/Algoritma-

Naive-Bayes.

Kang, H., Yoo, S. J., & Han, D. (2012). Senti-lexicon and improved Naïve Bayes

algorithms for sentiment analysis of restaurant reviews. Expert Systems with

Applications, 39.5, 6000–6010.

Khozeimeh, F., Alizadehsani, R., Roshanzamir, M., Khosravi, A., Layegh, P., &


53

Nahavandi, S. (2017). An expert system for selecting wart treatment method.

Computers in Biology and Medicine, 81, 167–175.

Meilani, B. D., Wahyudiana, S., Putri, A. Y. P., & Pakarbudi, A. (2019). Klasifikasi

Identifikasi Faktor Penyebab Ketidaktepatan Masa Lulus Mahasiswa dengan

Metode Naïve Bayes Classifier. Seminar Nasional Sains Dan Teknologi

Terapan, 297–302.

Menteri Riset Teknologi dan Pendidikan Tinggi. (2015). Peraturan Menteri Riset,

Teknologi, dan Pendidikan Nomor 44 Tahun 2015 tentang Standar Nasional

Pendidikan Tinggi.

Muslehatin, W., Ibnu, M., & Mustakim. (2017). Penerapan Naïve Bayes

Classification untuk Klasifikasi Tingkat Kemungkinan Obesitas Mahasiswa

Sistem Informasi UIN Suska Riau. Seminar Nasional Teknologi Informasi,

Komunikasi Dan Industri (SNTIKI), 7.

Nugroho, Yuda Septian. (2014). DATA MINING MENGGUNAKAN

ALGORITMA NAÏVE BAYES UNTUK KLASIFIKASI KELULUSAN

MAHASISWA UNIVERSITAS DIAN NUSWANTORO. The American

Journal of Medicine, 75(3 PART A), 1–3. https://doi.org/10.1016/0002-

9343(83)90110-9

Nugroho, Yusuf Sulistyo, & Emiliyawati, N. (2017). Sistem Klasifikasi Variabel

Tingkat Penerimaan Konsumen Terhadap Mobil Menggunakan Metode

Random Forest. Jurnal Teknik Elektro, 9(1), 24–29.

https://doi.org/10.15294/jte.v9i1.10452

Sasongko, T. B. (2016). Komparasi dan Analisis Kinerja Model Algoritma SVM

dan PSO-SVM. Jurnal Teknik Informatika Dan Sistem Informasi, 2, 244–253.

Sinaga, A. D. (2020). PREDIKSI KELULUSAN MAHASISWA FAKULTAS SAINS

DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA MENGGUNAKAN

METODE KLASIFIKASI NAIVE BAYES.

Syukri Mustafa, M., Rizky Ramadhan, M., & Thenata, A. P. (2017). Implementasi

Data Mining untuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan

Algoritma Naive Bayes Classifier. Citec Journal, 4(2), 151–162.

Universitas Sanata Dharma. (2017). PROGRAM PENDIDIKAN MAHASISWA FST


54

USD TAHUN ANGKATAN 2017.

Yahya, S. A. (2018). KLASIFIKASI KETEPATAN LAMA STUDI MAHASISWA

MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DAN

RANDOM FOREST.

Zhang, C., Liu, C., Zhang, X., & Almpanidis, G. (2017). An up-to-date comparison

of state-of-the-art classification algorithms. Expert Systems with Applications.


55

LAMPIRAN


56

Lampiran 1. Data Penelitian


57

Lampiran 2. Source Code Program (hanya yang berkaitan dengan penelitian saja)

1. Library dari ModelSkripsi.py

2. Library dari MainSkripsi.py


58

3. Data Pre-processing

4. Modelling


59

5. Modelling Random Forest

6. Modelling Naïve Bayes


60

7. ujiTunggal

8. Uji Data Tunggal


61

9. Source code memanggil method dari menge-klik tombol


KOMPARASI METODE NAÏVE BAYES DAN RANDOM FOREST …

Documents

Transcript of KOMPARASI METODE NAÏVE BAYES DAN RANDOM FOREST …