Komparasi Akurasi Algoritma C4.5 dan Naïve Bayes untuk ...ilkom.unnes.ac.id/snik/prosiding/2016/3....

6

Click here to load reader

Transcript of Komparasi Akurasi Algoritma C4.5 dan Naïve Bayes untuk ...ilkom.unnes.ac.id/snik/prosiding/2016/3....

Page 1: Komparasi Akurasi Algoritma C4.5 dan Naïve Bayes untuk ...ilkom.unnes.ac.id/snik/prosiding/2016/3. SNIK_324_Komparasi Akurasi... · Penelitian menggunakan algoritma C4.5 dan Fuzzy

Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8

16

Komparasi Akurasi Algoritma C4.5 dan Naïve Bayes untuk Prediksi

Pendonor Darah Potensial dengan Dataset RFMTC

Wahyu Eko Susanto

1, Candra Agustina

2

1, 2 Program Studi Manajemen Informatika, AMIK BSI Yogyakarta

Email: [email protected], [email protected]

Abstrak

Darah yang di donorkan oleh pendonor hanya dapat bertahan selama 42 hari saja oleh karenanya stok darah harus di jaga, salah satunya dengan mengetahui mana pendonor yang potensial untuk mendonorkannya kembali. Selama

ini beberapa algoritma memeiliki keakuratan yang berbeda-beda dalam memprediksi pendonor darah potensial.

Sehingga belum di ketahui algoritma mana yang cocok untuk digunakan. untuk menjaga stok darah tetap aman maka

perlu di cari cara untuk mengetahui dan membedakan antara pendonor darah yang potensial mendonorkan darahnya kembali dan yang tidak sehingga unit donor darah dapat mengambil keputusan. Dalam penelitian ini

dilakukan komparasi Algoritma C4.5 dan Naïve Bayes yang diterapkan pada data diri pendonor dan data transaksi

donor darah dengan dataset RFMTC. Dari hasil pengujian dengan mengukur kinerja kedua algoritma ketika

dilakukan Curva ROC, diketahui bahwa algoritma C4.5 memiliki nilai accuracy lebih tinggi. Sehingga algoritma C4.5 dalam penelitian ini lebih baik dari pada algoritma untuk diterapkan pada prediksi pendonor darah potensial.

Kata Kunci: C4.5, Naïve Bayes, RFMTC

Abstract

Donate blood at the donor can only survive for 42 days therefore the blood supply must be on guard, one of them by

knowing which potential donors to donate back. During this time some algorithms memeiliki different accuracyin

predicting the potential blood donor. So not yet known where the algorithms are suitable for use. to keep the blood

supply remains safe it is necessary to find a way to identify and distinguish between potential blood donors donate blood so that the back and that is not a blood donor unit can make a decision. In this study a comparison algorithm

C4.5 and Naïve Bayes is applied to the personal data of donors and blood donors transaction data with datasets

RFMTC. From the test results by measuring the performance of both algorithms when testing Confusion Matrix and

ROC curves, it is known that the Naïve Bayes algorithm has a higher accuracyvalue. So that the Naïve Bayes algorithm in this study is better than the algorithm C4.5 to be applied to the prediction of potential blood donors.

Keyword: C4.5, Naïve Bayes, RFMTC

1. PENDAHULUAN

Kesadaran masyarakat yang kurang untuk menjadi pendonor sukarela menjadi salah satu faktor yang

mengakibatkan persediaan darah di Unit Donor Darah (UDD) menjadi rendah [1]. Menurut American Red

Cross dilain sisi, darah hasil donor tidak lagi dapat digunakan setelah 42 hari. Satu-satunya cara untuk

memenuhi permintaan adalah dengan memiliki sumbangan rutin dari sukarelawan yang sehat [2]. Di

Indonesia saja pada tahun 2013 mengalami kekurangan kantong darah sebanyak 2.476.389, dimana

idealnya ketersediaan darah yang diperuntukkan untuk donor adalah 2,5% dari Jumlah Penduduk. [1].

Beberapa penelitian telah dilakukan untuk menentukan pendonor darah yang potensial mendonorkan

darahnya kembali untuk menjawab permasalahan tersebut.

Penelitian menggunakan algoritma C4.5 dan Fuzzy Tahani dengan dataset yang memiliki variabel

golongan darah, jenis kelamin, usia, berat badan, tekanan darah, kadar HB (hemoglobin), dan kadar HTC

(hematocit) adapun target variabel output-nya adalah atribut Donor Lagi yang berisikan nilai „ya‟ atau

„tidak‟ berdasarkan nilai ambang batas jumlah donor, bernilai „ya‟ apabila jumlah donor >=2 dan bernilai

„tidak‟ apabila jumlah donor < 2 . Pada penelitian ini menghasilkan akurasi rata-rata sebesar 89,64%

dengan menggunakan dataset yang berasal dari PMI Kota Malang[3].

Pada penelitian yang lain digunakan algoritma MLP dan SVM dan variabel dataset RFMTC (Recency,

Frequency, Monetary, Time, Churn Probability). Dataset yang digunakan berasal dari UCI Machine

Learning. Dari penelitian ini dihasilkan sensitivity 65.8% dan specificity 78.2% dari 600 data training dan

148 data testing [2].

Penelitian selanjutnya mengenai klasifikasi pendonor menggunakan metode Naïve Bayes classifier.

Adapun variabel yang digunakan dalam penelitian ini adalah hemoglobin (HB), tensi atas, tensi bawah,

berat badan, umur, jenis kelamin, riwayat penyakit menular, interval donor serta mempunyai variabel

Page 2: Komparasi Akurasi Algoritma C4.5 dan Naïve Bayes untuk ...ilkom.unnes.ac.id/snik/prosiding/2016/3. SNIK_324_Komparasi Akurasi... · Penelitian menggunakan algoritma C4.5 dan Fuzzy

Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8

17

target pendonor dan non pendonor. Dari 4 percobaan pengujian hasil yang didapatkan dalam penelitian ini

adalah keakuratan rata-rata yang didapatkan sebesar 74% [4].

Dengan melihat perbedaan akurasi dari penelitian terdahulu maka dalam penelitian ini dicarilah algoritma

yang lebih baik dalam memprediksi pendonor darah yang potensial mendonorkan darahnya kembali

dengan menggunakan dataset di UDD PMI Kabupaten Bantul dengan cara membandingkan Algoritma

C4.5 dan Naïve Baiyes. agar di ketahui tingkat akurasi pada masing-masing algoritma dengan variabel

dataset RFMTC.

2. METODE

Penelitian ini adalah penelitian eksperimen. Penelitian ini bertujuan untuk mencari algoritma yang tepat

untuk digunakan dalam memprediksi pendonor yang potensial mendonorkan darahnya kembali dan yang

tidak. Variabel target dari penelitian ini adalah donor lagi yang mempunyai class “donor” dan “Tidak

Donor”. Data yang digunakan dalam penelitian ini berasal dari data pendonor yang melakukan donor

darah di UDD PMI Kabupaten Bantul tahun 2012 sampai 2014 Data pendonor tersebut akan dianalisa

untuk kemudian ditarik kesimpulan algoritma yang tepat untuk digunakan.

2.1. Dataset RFMTC

Variabel dari dataset RFMTC (Recency, Frequency, Monetary value, Time since first purchase and

Churn probability) merupakan modifikasi dari teknik RFM, tiga variabel sederhana, yaitu Recency of

purchase, Frequency of purchase, dan Monetary value of purchase, merupakan dasar dari teknik RFM

[5].

RFMTC merupakan hasil modofikasi dari Y, I-Cheng, Y, King-Jang, and T, Tao-Ming yang digunakan

untuk meramalkan perilaku pendonor darah apakah pendonor tersebut termasuk klasifikasi yang potensial

mendonorkan darahnya kembali atau tidak, Akurasi dari RFMTC ini menurut I-Cheng dkk, lebih tinggi

daripada RFM, Adapun penjelasan dari variabel RFMTC tersebut [2].

Adapun penjelasan mengenai Variabel RFMTC adalah (a) Recency Jumlah

bulan sejak terakhir menyumbangkan darah. (b) Frequency adalah jumlah berapakali donor, (c) monetary

adalah jumlah darah yang disumbangkan dalam c.c., (d) Time yaitu jumlah bulan sejak pertama

menyumbangkan darah, Churn Probability yaitu or merupakan variabel yang merepresentasikan apakah

pendonor mendonorkan darahnya kembali atau tidak, 1 menyatakan mendonorkan darah (Donation), 0

menyatakan tidak menyumbangkan darah (non Donation).

2.2. Metode Pengumpulan Data

Dalam penelitian ini metode pengumpulan data yang digunakan adalah metode pengumpulan data

sekunder, yaitu dengan cara mengunduh data yang telah tersedia di database sistem informasi donor

darah UDD PMI Kabupaten Bantul. Sampel dari data penelitian ini adalah data profile pendonor darah

dan data hasil transaksi donor darah yang didapatkan dari UDD PMI Kabupaten Bantul.

2.3. Analisis Data

Beberapa tahapan dalam melakukan analisa data dalam KDD [6] adalah:

1) Domain Understanding dan KDD Goals

Tahap pertama dari KDD yaitu Domain Understanding dan KDD Goals pada tahapan ini dilakukan

pencarian persoalan-persoalan yang berkaitan dengan prediksi pendonor darah yang potensial, yang

dilanjutkan dengan menentukan rumusan masalah serta menganalisa kebutuhan untuk dapat

memecahkan masalah tersebut.

2) Selection and Addition

Pada tahapan Selection and Addition data yang didapatkan dianalisa agar dapat ditentukan variabel

apa saja yang diperlukan berdasarkan analisa kebutuhan yang diperoleh.

3) Preprocessing Data Cleaning

Pada tahap ini akan dilakukan pembersihan data. Setelah dihilangkan duplikasi dan null value,

terdapat 824 record yang dapat digunakan.

4) Transformation

Data yang digunakan dalam penulisan ini beberapa masih dalam bentuk angka, oleh karenanya data

ditransformasikan ke dalam klasifikasi atau kelompok berdasar interval untuk pengujian.

Page 3: Komparasi Akurasi Algoritma C4.5 dan Naïve Bayes untuk ...ilkom.unnes.ac.id/snik/prosiding/2016/3. SNIK_324_Komparasi Akurasi... · Penelitian menggunakan algoritma C4.5 dan Fuzzy

Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8

18

Pilihan interval kelas tergantung pada jumlah kelas untuk distribusi tertentu dan ukuran data.

Interval kelas diusahakan harus dengan ukuran yang sama. Prof. Sturge telah memberikan rumus

berikut untuk menentukan ukuran interval kelas [7]:

Keterangan:

N = Total Frekuensi

i = Ukuran Kelas Intervalence

5) Evaluation and Interpretation

Pada tahap ini adalah tahap pengujian dilakukan dengan menggunakan 660 data training data dan

165 data testing, kemudian dievaluasi menggunakan metode confusion matrix dan curva ROC.

AUC pada kurva ROC memiliki tingkat nilai diagnosa yaitu [8]:

a. Akurasi bernilai 0,90 – 1,00 = excellent classification

b. Akurasi bernilai 0,80 – 0,90 = good classification

c. Akurasi bernilai 0,70 – 0,80 = fair classification

d. Akurasi bernilai 0,60 – 0,70 = poor classification

e. Akurasi bernilai 0,50 – 0,60 = failure

6) Discovered Knowledge

Setelah pembentukan model, dilakukan analisa, dan pengukuran, selanjutnya pada tahap ini

diterapkan model yang paling akurat dari algoritma sebagai dasar pembuatan aplikasi yang dibuat

berdasarkan algoritma terbaik.

3. HASIL DAN PEMBAHASAN

3.1 Hasil

Penelitian ini bertujuan melakukan komparasi algoritma C4.5 dan Naïve Bayes untuk prediksi pendonor

darah yang potensial mendonorkan darahnya kembali dengan menggunakan dataset RFMTC, kemudian

menganalisa akurasi algoritma, algoritma yang paling cocok akan digunakan untuk melakukan prediksi

pendonor darah yang potensial mendonorkan darahnya kembali.

1) Algoritma Naïve Bayes

Pengujian Confussion Matrix

Pada percobaan menggunakan algoritma Naïve Bayes didapatkan nilai accuracy sebesar 70.30% seperti

ditampilkan pada Tabel 1.

Tabel 1. Hasil Nilai accuracy

Pada percobaan menggunakan algoritma Naïve Bayes didapatkan nilai precision sebesar 67.19% seperti

ditampilkan pada Tabel 2.

Tabel 2. Hasil Nilai precision

Pada percobaan menggunakan algoritma Naïve Bayes didapatkan nilai recall sebesar 60.56% seperti

ditampilkan pada Tabel 3.

Accuracy: 70.30%

True Tidak Donor True Donor Class precision

Pred. Tidak Donor 73 28 72.28%

Pred. Donor 21 43 67.19%

Class recall 77.66% 60.56%

Precision: 67.19% (positive class: Donor)

True Tidak Donor True Donor Class precision

Pred. Tidak Donor 73 28 72.28%

Pred. Donor 21 43 67.19%

Class recall 77.66% 60.56%

(1)

Page 4: Komparasi Akurasi Algoritma C4.5 dan Naïve Bayes untuk ...ilkom.unnes.ac.id/snik/prosiding/2016/3. SNIK_324_Komparasi Akurasi... · Penelitian menggunakan algoritma C4.5 dan Fuzzy

Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8

19

Tabel 3. Hasil Nilai precision

Pengujian Curva ROC

Pada algoritma Naive Bayes didapatkan hasil dari pengunaan ROC dengan menggunakan data testing

menghasilkan nilai sebesar 0,780. Gambar dapat dilihat pada Gambar 1 dengan nilai 0,780, maka tingkat

diagnosanya adalah fair classification.

Gambar 1. Grafik ROC Naïve Bayes

2) Algoritma C4.5

Pengujian Confussion Matrix

Pada percobaan menggunakan algoritma C4.5 didapatkan nilai accuracy sebesar 67.27% seperti

ditampilkan pada Tabel 4.

Tabel 4. Hasil Nilai accuracy

Pada percobaan menggunakan algoritma C4.5 didapatkan nilai precision sebesar 57.80% seperti

ditampilkan pada Tabel 5.

Tabel 5. Hasil Nilai Precision

Pada percobaan menggunakan algoritma C4.5 didapatkan nilai recall sebesar 88.73% seperti ditampilkan

pada Tabel 6.

recall: 60.56% (positive class: Donor)

True Tidak Donor True Donor Class precision

Pred. Tidak Donor 73 28 72.28%

Pred. Donor 21 43 67.19%

Class recall 77.66% 60.56%

Accuracy: 67.27%

True Tidak Donor True Donor Class precision

Pred. Tidak Donor 48 8 85.71%

Pred. Donor 46 63 57.80%

Class recall 51.06% 88.73%

precision: 57.80%

True Tidak Donor True Donor Class precision

Pred. Tidak Donor 48 8 85.71%

Pred. Donor 46 63 57.80%

Class recall 51.06% 88.73%

Page 5: Komparasi Akurasi Algoritma C4.5 dan Naïve Bayes untuk ...ilkom.unnes.ac.id/snik/prosiding/2016/3. SNIK_324_Komparasi Akurasi... · Penelitian menggunakan algoritma C4.5 dan Fuzzy

Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8

20

Tabel 6. Hasil Nilai Precision

Pengujian Curva ROC

Pada algoritma C4.5 di dapatkan hasil dari Kurva ROC/AUC (Area Under Curve) dengan menggunakan

data testing menghasilkan nilai sebesar 0,945. Gambar dapat dilihat pada Gambar 2 dengan nilai 0, 945.

maka tingkat diagnosanya adalah excellent classification

Gambar 2. Grafik ROC C4.5

3.2 PEMBAHASAN

Dari pengujian confussion matrix dari masing-masing algoritma menghasilkan perbandingan nilai

accuracy, precision dan recall pada Tabel 7.

Tabel 7. Perbandinga hasil pengujian confussion matrix

Algoritma Accuracy Precision Recall

C4.5 67.27% 57.80% 88.73%

Naïve Bayes 70.30% 67.19% 60.56%

Dari Tabel 7, dapat kita lihat perbandingan nilai accuracy pada masing-masing algoritma menunjukkan

hasil bahwa algoritma Naïve Bayes memiliki nilai accuracy dan Precision yang lebih tinggi dari C4.5

yaitu sebesar 70.30% untuk accuracy dan 67.19 % untuk precision. Sedangkan algoritma C4.5

mempunyai nilai recall 88.73%, lebih tinggi dari Naïve Bayes.

Adapun hasil pengujian curva ROC pada masing-masing algoritma hasilnya dapat dilihat pada Tabel 8.

Tabel 8. Komparasi curva ROC

Algoritma Nilai ROC

C4.5 0.945

Naïve Bayes 0.780

recall: 70.30% (positive class: Donor)

True Tidak Donor True Donor Class precision

Pred. Tidak Donor 48 8 85.71%

Pred. Donor 46 53 57.80%

Class recall 51.06% 60.56%

Page 6: Komparasi Akurasi Algoritma C4.5 dan Naïve Bayes untuk ...ilkom.unnes.ac.id/snik/prosiding/2016/3. SNIK_324_Komparasi Akurasi... · Penelitian menggunakan algoritma C4.5 dan Fuzzy

Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016 ISBN: 978-602-1034-40-8

21

Berdasarkan hasil pengujian nilai ROC pada Tabel 8 dapat dilihat bahwa algoritma C4.5 memiliki nilai

ROC yang lebih tinggi daripada algoritma Naïve Bayes, sebesar 0.945 dengan klasifikasi Excelent

clasification.

4. SIMPULAN

Kesimpulan yang dapat diambil dari penelitian mengenai komparasi algoritma C4.5 dan Naïve Bayes

untuk prediksi pendonor darah yang potensial mendonorkan darahnya kembali dengan menggunakan

dataset RFMTC dari data yang berasal dari UDD PMI Kabupaten Bantul adalah algoritma C4.5 secara

keseluruhan nilai AUC memiliki klasifikasi nilai ROC yang lebih baik dari Algoritma Naïve Bayes,

sebesar 0.945 dengan klasifikasi Excelent classification.

5. REFERENSI

[1] Kementrian Kesehatan Republik Indonesia. 2014. Darah Untuk Menyelamatkan Ibu.

http://sehatnegeriku.kemkes.go.id/baca/rilis-media/20140624/4510357/darah-untuk-

menyelamatkan-ibu/, diakses (18 Juli 2016).

[2] Darwiche, M., Feuilloy, M., Bousaleh, G., & Schang, D. 2010. Prediction of Blood Transfusion

Donation. IEEE. pp.51-56.

[3] Yunus, M., Dahlan, H. S., & Santoso , P. B. 2014. SPK Pemilihan Calon Pendonor Darah Potensial

dengan Algoritma C4.5 dan Fuzzy Tahani. Jurnal EECCIS. Vol 8 (1) 47-54.

[4] Fais A, S. N., Aditya D, M., & Mulya I, S. 2015. Klasifikasi Calon Pendonor Darah Dengan Metode

Naive Bayes Clasifier. http://yudistira.lecture.ub.ac.id/ ,diakses 3 Juli 2016.

[5] Aviliani, Sumarwan, U., Sugema, I., & Saefuddin, A. .2011. Segmentasi Nasabah Tabungan Mikro

Berdasarkan Recency, Frequency, Dan Monetary : Kasus Bank BRI. Finance and Banking Journal,

Vol. 13(1). 95-109.

[6] Maimon, O., & Rokach, L. 2010. Data Mining and Knowledge Discovery Handbook. Springer, New

York.

[7] Jain, T.R & Aggarwal, S.C. 2010. Statistics for BBA. VK Indiana Enterprises, New Delhi.

[8] Gorunescu, F. 2011. Data Mining Concepts, Models and Techniques. Springer, Verlag Berlin

Heidelrbeg.