Perbandingan- Prediksi Prestasi Belajar Mahasiswa Menggunakan Teknik Data Mining

PERBANDINGAN: PREDIKSI PRESTASI BELAJAR MAHASISWA

MENGGUNAKAN TEKNIK DATA MINING

(STUDY KASUS FASILKOM UNSIKA)

Sofi Defiyanti

Fakultas Ilmu Komputer Universitas Singaperbangsa Karawang

[email protected]

ABSTRAK

Prestasi belajar merupakan salah satu aspek yang

paling penting dalam bidang pendidikan. Prestasi

belajar yang tinggi selalu menjadi harapan semua

pihak. Bagi pihak perguruan tinggi prestasi belajar

mahasiswanya merupakan salah satu indikator efektif

proses belajar mengajar, yang sekaligus dapat

digunakan untuk meningkatkan citra perguruan tinggi

tersebut. Di perguruan tinggi prestasi belajar yang

dicapainya oleh mahasiswa menggunakan Indeks

Prestasi Kumulatif (IPK). Data akademik, data

ekonomi dan data geografis mahasiswa dapat

digunakan dalam menganalisis dan memprediksi

kinerja mahasiswa dengan menggunakan teknik-teknik

data mining diantaranya adalah teknik decision tree,

Nave Bayes dan artificial neural network. Dengan

variabel-variabel penentu adalah umur saat masuk

perguruan tinggi, jenis kelamin, suku bangsa, asal

sekolah, sks yang diambil, IPS, pembiayaan kuliah,

status mahasiswa, penghasilan orang tua, penghasilan

pribadi, dan tempat tinggal. Dari penelitian yang telah

dilakukan maka didapat Nave Bayes merupakan

teknik data mining yang memiliki akurasi yang paling

tinggi jika dibandingkan dengan decision tree dan

artificial neural network. Nave Bayes juga memiliki

waktu yang paling cepat untuk membangun model

dibandingkan dua model lain. Nave Bayes termasuk

kedalam good classification dilihat dari ROC Curve.

Kata Kunci : Data Mining, Prestasi Belajar,

Perbandingan

1. Pendahuluan Salah satu yang menjadi faktor suatu perguruan

tinggi termasuk yang berkualitas atau tidak salah

satunya dapat dilihat dari kinerja mahasiswanya.

Terbukti, dalam borang akreditasi program studi pada

buku 3A standar 3 Mahasiswa dan Lulusan salah satu

faktornya adalah indek prestasi kumulatif. Kinerja

mahasiswa ini dapat dilihat dari Indeks Prestasi

Kumulatif yang didapat oleh mahasiswa tersebut.

dengan semakin banyaknya rata-rata IPK mahasiswa

lebih dari 3,00 maka penilaian pada isian borang inipun

akan mendapat nilai empat, nilai maksimal dari

pengisian borang tersebut. Sehingga kualitas dari suatu

program studi pun akan semakin baik.

Rata-rata IPK didapat dari data akademik

mahasiswa selama masa kuliah sampai dengan lulus.

Dengan memanfaatkan data-data akademik mahasiswa

terdahulu yang sudah ada maka dapat memprediksi

IPK mahasiswa baru dengan menggunakan teknik data

mining. Dengan mengetahui prediksi IPK mahasiswa

baru, maka pihak prodi mendapat peringatan dini agar

lebih perhatian terhadap mahasiswanya, sehingga

kualitas dari prodi tersebut tetap baik atau bahkan lebih

baik.

Data mining memiliki beberapa teknik

diantaranya adalah klasifikasi yang digunakan untuk

penemuan sekumpulan model yang menggambarkan

dan membedakan konsep atau kelas-kelas data, agar

model yang sudah dibentuk dapat digunakan untuk

memprediksi. Teknik klasifikasi dapat dikelompokkan

kedalam beberapa jenis diantaranya pohon keputusan,

Bayesian, jaringan saraf tiruan (ANN), dan lain-lain.

Beberapa penelitian dalam bidang akademik

perguruan tinggi telah banyak dilakukan dengan

menggunakan teknik klasifikasi data mining.

Diantaranya pada tahun 1996 Al Cripps pada

penelitiannya yang berjudul Using Artificial Neural Nets to Predict Academic Performance menggunakan ANN untuk memprediksi kelulusan berdasarkan data

akademik selama mahasiswa kuliah. Dalam

penelitiannya Al Cripps menggunakan variable-

variabel prediktor yang digunakan dalam penelitiannya

yaitu usia, jenis kelamin, Skor American College

Testing (ACT), ras dan kemampuan membaca. (Cripps,

1996)

Pada tahun 2005 Chandra dan Nandhini pada

penelitiannya yang berjudul Predicting Student Performance using Classification Techniques menggunakan teknik klasifikasi untuk memprediksi

kinerja siswa dengan menggunakan algoritma induksi

pohon keputusan dan nave bayes. (Chandra &

Nandhini, 2005)

Pada tahun 2010 ying zhang, dkk dalam

penelitiannya yang berjudul (Y & S, 2010) menggunakan bebebrapa algoritma klasfifikasi dalam

data mining untuk mengetahui retensi siswa dengan

menggunakan teknik data mining. Retensi siswa akan

menjadi indikator dari kinerja akademik dan untuk

pengambilan keputuan pihak manajemen. Ying Zhang

menggunakan tiga algoritma klasifikasi dalam

penelitiannya diantaranya nave bayes, support vectore

machine dan decision tree. Dalam penelitiannya

didapat bahwa dari ketiga algoritma tersebut yang

paling akurat adalah nave bayes dengan 89,5% diikuti

di tempat kedua adalah Support Vectore Machine

dengan 83,5% dan terakhir adalah decision tree dengan

81,3%.

Pada tahun 2012 Surjeet Kumar, dkk dengan

penelitian yang berjudul Mining Education Data to Predict

Students Retention: A comparative Study membandingkan beberapa algoritma dalam teknik

klasifikasi dalam data mining yaitu ID3, C4.5 dan

ADT. Dari penelitiannya tersebut didapat algoritma

yang paling baik kinerjanya adalah ADT dengan

precision yang paling besar dengan 82,8% dan waktu

pengerjaan yang paling singkat yaitu 0,06 detik.

(Yaday, Surjeet, Bharadwaj, Brijesh, & Pal, 2012)

Fumei Weng pada thesisnya yang berjudul

Modelling IT Student Retention at Taiwanese Higher Education Institutions pada tahun 2010 mengatakan bahwa retensi siswa dapat dilihat berdasarkan variabel

demografi, data akademik dan ekonomi mahasiswa.

Maka di dapat 15 variabel dalam memprediksi retensi

siswa yaitu study major, gender, age, secondary school

type, entrance test score, admission status, residency,

first-semester credit earned, first-semester grade,

second-semester credit earned, second-semester grade,

tuition fee waiver, loan, absenteeism, and outcome.

(Weng, 2010)

Fakultas ilmu Komputer (Fasilkom) Universitas

Singaperbangsa Karawang (UNSIKA) adalah Fakultas

termuda di UNSIKA yang didirikan pada tahun 2008.

Meskipun Fakultas termuda tetapi fasilkom termasuk

fakultas yang memiliki jumlah mahasiswa terbanyak

jika dibandingkan dengan fakultas lain, yaitu pada

tahun 2012 tercatat ada 1000 mahasiswa untuk

program studi tenik informatika. Dengan banyaknya

jumlah mahasiswa yang terdaftar di fasilkom maka

membuktikan bahwa fasilkom termasuk salah satu

fakultas yang di favoritkan di UNSIKA.

Pada Desember 2012, Fasilkom UNSIKA prodi

teknik informatika melakukan akreditasinya yang

pertama dan pada bulan Februari 2013 hasil akreditasi

untuk Fasilkom UNSIKA prodi teknik informatika

keluar dengan hasil yang memuaskan yaitu mendapat

akreditasi B. Dengan hasil akreditasi B maka Fasilkom UNSIKA prodi teknik informatika termasuk

prodi terbaik di Indonesia terbukti bahwa hanya 50

prodi teknik informatika di seluruh indonesia yang

memiliki akreditasi B. Dari latar belakang yang telah di jabarkan

sebelumnya maka disini peneliti ingin melakukan

penelitian untuk menganalisis dan memprediksi kinerja

belajar mahasiswa berdasarkan variabel demografi,

data akademik dan ekonomi mahasiswa dengan

menggunakan teknik data mining pada fakultas ilmu

komputer UNSIKA.

2. Pembahasan Metodologi yang digunakan dalam

mengembangkan data mining adalah CRISP-DM,

CRISP-DM adalah metodologi yang dibentuk oleh

komisi Eropa pada tahun 1996 yang menerapkan

standar dalam proses data mining. Dalam CRISP-DM

terdapat enam fase yang akan dilakukan dalam

penelitian pengembangan data mining sesuai dengan

ilustrasi pada Gambar 2.1.

BusinessUnderstanding

DataUnderstanding

Depyoment

Modeling

Evaluation

Data Preparation

DATA

Gambar 1 Siklus Hidup CRISP-DM

a. Fase business Understanding (Pemahaman Bisnis)

Fase ini merupakan fase awal dari tahapan

pemodelan fase ini berfokus pada pemahaman

dan persfektif bisnis proses dari suatu sistem,

yaitu penentuan tujuan proyek,

menerjemahkan tujuan, dan menyiapkan

strategi untuk penyampaian tujuan.

Dengan memanfatkan data-data akademik

mahasiswa terdahulu yang sudah ada maka

akan dianalisi dan dipresikdi IPK mahasiswa

dengan menggunakan teknik data mining.

Dengan mengetahui prediksi IPK mahasiswa

baru, maka pihak prodi akan mendapat

peringatan dini agar lebih perhatian terhadap

mahasiswanya sehingga kualitas dari program

studi tetap terjaga baik atau bahkan lebih baik

dari sebelumnya.

b. Fase Data Understanding (Pemahaman Data) Pada fase ini berfokus pada pengumpulan data

awal, pembelajaran data yang sudah ada dan

verifikasi kualitas data.

Dalam penelitin ini menggunakan data

EPSBED fakultas ilmu komputer program

studi teknik informatika dati tahun 2008

sampai tahun 2011.

Selain dari data-data akademik penelitian ini

juga menggunakan data ekonomi dan

geografis. Dimana data ekonomi dan geografis

didapat dari penyebaran pertanyaan seputar

ekonomi mahasiswa dan geografis mahasiswa.

c. Fase Data Preparation (Persiapan Data) Fase persiapan data adalah fase yang terdiri

dari pemilihan data, pembersihan data,

mengintegrasikan data, dan transformasi data

agar dapat dilanjutkan kedalam tahap

pemodelan.

Untuk data akademik, pemilihan data

dilakukan dari sebuah sistem pelaporan yang

diberi nama EPSBED. Dari 24 tabel yang ada

di program EPSBED akan digunakan dua

buah table yaitu table master mahasiswa, dan

table transaksi mahasiswa.

Data ekonomi mahasiswa di dapat dari

beberapa pertanyaan yang diajukan ke

beberapa mahasiswa yaitu terdiri dari

mahasiswa tersebut bekerja atau tidak,

mahasiswa tersebut membiayai perkulihannya,

gaji orang tua dan gaji mahasiswa tersebut jika

mahasiswa tersebut bekerja.

Data geografi mahasiswa didapat dari

beberapa pertanyaan seputar suku bangsa dan

tempat tinggal mahasiswa selama mengikuti

proses belajar mengajar.

Tabel 1 Transformasi Data

d. Fase Modeling (pemodelan) dan Evaluation (Evaluasi)

Setelah fase persiapan data maka masuk

ketahap pemodelan dan evaluasi. Didalam

tahap ini akan dibagun beberapa model untuk

menganalisis kinerja mahasiswa yaitu dengan

Decision tree, Nave bayes dan Artificial

Neural Network (ANN). Fase pemodelan

dilakukan bersamaan dengan fase evaluasi.

Fase evaluasi terdiri dari beberapa kegiatan

yaitu: mengevaluasi akurasi yang didapat pada

fase sebelumnya.

Pengujian akan dilakukan dengan tiga cara

yaitu yang pertama adalah confusion matrix,

ROC Curve, dan Waktu dalam pembuatan

model. Dengan masing-masing pengujian

model menggunakan 10-fold cross validation.

1. Confusion Matrix

Evaluasi dengan menggunakan model

confusion matrix pada pengujian untuk

memperkirakan objek prediksi yang benar dari

hasil klasifikasi. Akurasi sebuah klasifikasi

berpengaruh terhadap performa dari suatu

model klasifikasi dengan mendafatkan

ketepatan klasifikasi dataset terhadap kelas

aktif dan tidak aktif. Nilai akurasi dari

beberapa model yang telah di evaluasi seperti

pada tabel 2

Tabel 2. Perbandingan Akurasi Decision

tree

Nave

Bayes

ANN

Akurasi 61.4767 % 63.5634

%

60.5136

%

Dari hasil pengujian dengan menggunakan

confusion matrix untuk masing-masing model

di dapat hasil decision tree memiliki akurasi

sebesar 61.4767 %, Nave Bayes memiliki

akurasi sebesar 63.5634 % dan untuk model

artifisial neural network memiliki akurasi

60.5136 %.

2. ROC Curve

Tabel 3 Perbandingan ROC Curve Decision

tree

Nave

Bayes

ANN

AUC 0.793 0.805 0.846

Evaluasi dengan menggunakan ROC Curve di

dapat seperti pada tabel di atas. Dari tabel 3

dapat diketahui nilai ROC curve yang paling

mendekati 1 adalah yang paling baik. Dari

hasil percobaan yang telah dilakukan didapat

bahwa algoritma Artificial Neural Network

mendapati nilai 0,846, nilai tersebut adalah

nilai yang paling tinggi jika dibandingkan

dengan model algoritma lainnya. Algoritma

Nave Bayes mendapat peringkat kedua

dengan nilai 0,805dengan nilai tersebut model

Nave Bayes dan Artificial Neural Network

termasuk kedalam good classification.

Sedangkan model decision tree mendapat nilai

0,793 dengan nilai yang di dapat model

decision tree termasuk kedalam Fair

Classsification.

3. Waktu

Tabel 4 Perbandingan Waktu Membangun

Model dalam Hitungan Detik Decision

tree

Nave

Bayes

ANN

Time

taken to

build

model

0.06 0.01 13.45

Dari hasil percobaan yang telah dilakukan di

dapat kesimpulan algoritma Nave Bayes

merupakan algoritma yang paling akurat jika

dibandingkan dengan model yang lainnya.

Dalam uji coba ROC Curve Algoritma Nave

Bayes bukan merupakan algoritma yang

paling tinggi nilainya jika dibandingkan

dengan algoritma yang lain, tetapi algoritma

Nave Bayes termasuk salah satu algoritma

yang memiliki good classification. Dan

algoritma native bayes juga merupakan

algoritma yang memiliki waktu pembuatan

model yang paling cepat dibandingkan dengan

algoritma yang lainnya.

Akhir dari fase evaluasi didapat bahwa

algoritma Nave Bayes merupakan algoritma

yang terbaik dalam kasus analisis dan prediksi

prestasi belajar mahasiswa dengan melibatkan

data akademik, ekonomi dan geografis

mahasiswa jika dibandingkan dengan

algoritma decision tree dan artificial neural

network.

e. Fase Deployment (Penempatan) Fase yang terakhir adalah fase deployment,

pada fase ini terdapat beberapa kegiatan

diantaranya adalah rencana deployment,

rencana pemantauan dan pemeliharaan, dan

tinjauan akhir.

Dari fase evaluasi maka didapat bahwa

algoritma native bayes merupakan algoritma

yang memiliki akurasi tertinggi, termasuk

good classification dan memiliki waktu

pembangunan model yang paling cepat

diantara dua algoritma yang lainnya.

Model yang telah di dapat akan dimanfaatkan

sebagai sebuah sistem yang dapat digunakan

sebagai salah satukomponen dalam

pengambilan keputusan dalam bidang

akademik baik berupa model pembelajaran

ataupun untuk meningkatkan kualitas dari

mahasiswanya sendiri.

3. Kesimpulan

Kesimpulan yang dapat diambil dari penelitian

tentang analisis dan prediksi kinerja mahasiswa dengan

teknik data mining pada fakultas ilmu komputer

UNSIKA adalah sebagai berikut :

1. Data akademik, data ekonomi dan data geografis mahasiswa dapat digunakan dalam menganalisis

dan memprediksi kinerja mahasiswa dengan

menggunakan teknik-teknik data mining

diantaranya adalah teknik decision tree, Nave

Bayes dan artificial neural network. Dengan

variabel-variabel penentu adalah umur saat masuk

perguruan tinggi, jenis kelamin, suku bangsa, asal

sekolah, sks yang diambil, IPS, pembiayaan

kuliah, status mahasiswa, penghasilan orang tua,

penghasilan pribadi, dan tempat tinggal.

2. Dari penelitian yang telah dilakukan maka didapat Nave Bayes merupakan teknik data mining yang

memiliki akurasi yang paling tinggi jika

dibandingkan dengan decision tree dan artificial

neural network. Nave Bayes juga memiliki

waktu yang paling cepat untuk membangun

model dibandingkan dua model lain. Nave Bayes

termasuk kedalam good classification dilihat dari

ROC Curve.

3. Prediksi kinerja mahasiswa dapat dilakukan dengan menggunakan teknik Nave Bayes yang

merupakan teknik terbaik dalam memprediksi

kinerja mahasiswa dengan menggunakan data

akadmik, data ekonomi dan data geografis

mahasiswa yang terdiri dari beberapa variabel

penentu yaitu umur saat masuk perguruan tinggi,

jenis kelamin, suku bangsa, asal sekolah, sks yang

diambil, IPS, pembiayaan kuliah, status

mahasiswa, penghasilan orang tua, penghasilan

pribadi, dan tempat tinggal.

4. Daftar Pustaka

1. brijesh, B., & Saurabh, P. (2011). Mining Educational Data to Analyze Student's Performance. International

Journal of Advanced Computer Science and Applications

, Vol. 2 No. 6. 2. Chandra, E., & Nandhini, K. (2005). Predicting Student

Performance Using Classification Techniques.

Proceedings of SPIT - IEEE Colloquium and International Conference, (p. 83). Mumbai, India.

3. Cripps, A. (1996). Using Artificial Neural Nets to Predict Academic Performance. ACM Symposium on Applied Computing .

4. Sunita, A., & Lobo. (2011). Data Mining in Educational System using WEKA. International Conference on Emerging Technology Trends (ICETT).

5. Weng, F. (2010). Modelling IT student Retention at Taiwanese Higher Education Institutions. Thesis School of Business Information Technology and Logistics

College of Business RMIT University.

6. Y, Z., & S, O. (2010). Use Data Mining to Improve Student Retention in Higher Educational - A Case Study.

ICEIS.

7. Yaday, Surjeet, K., Bharadwaj, Brijesh, & Pal, S. (2012). Mining Educational Data to predict Student's Retention :

A Comparative Study. International Journal of Computer Science and Information Security (IJCSIS) , Vol. 10, No.

2.

5. Biodata Penulis Sofi Defiyanti, Memperoleh Gelar Sarjana

Komputer (S.Kom), Jurusan Sistem Informasi

Universitas Gunadarma Depok, lulus tahun 2009.

Memperoleh gelar Megister Komputer (M.Kom)

Program Pasca Sarjana Megister Ilmu Komputer

STMIK Nusa Mandiri, lulus tahun 2012. Saat ini

menjadi Dosen di Prodi Teknik Informatika

Universitas Singaperbangsa Karawang.

Perbandingan- Prediksi Prestasi Belajar Mahasiswa Menggunakan Teknik Data Mining

Documents

Transcript of Perbandingan- Prediksi Prestasi Belajar Mahasiswa Menggunakan Teknik Data Mining