ictech--ivandari-23-1-ivan

Peningkatan Performa Algoritma Klasifikasi K-Nearest Neighbour pada

Data Berdimensi Tinggi

Ivandari

Program Studi Teknik Informatika

STMIK Widya Pratama

Jl. Patriot 25 Pekalongan

Telp (0285) 427816

Email: [email protected]

Abstrak

Klasifikasi merupakan salah satu tugas utama data mining. Salah satu algoritma klasifikasi yang

banyak dipakai dan dikembangkan oleh peneliti adalah k-Nearest Neighbour. Penelitian ini merupakan

sebuah klasifikasi untuk mengetahui kemungkinan heregistrasi mahasiswa dengan menggunakan data

PMB STMIK Widya Pratama Pekalongan tahun 2011. Percobaan dilakukan dengan menggunakan

jumlah atribut yang berbeda. K-NN menunjukkan performa yang lebih baik dengan menggunakan

atribut berdimensi tinggi. Dengan 4 atribut akurasi k-NN hanya 62,10% dan dengan menambahkan 4

atribut menjadi 8 akurasinya naik drastis menjadi 81,38%. Sedangkan dengan menggunakan 12 atribut

akurasinya kembali naik menjadi 83,79%. Dan dengan 16 atribut akurasi k-NN meningkat menjadi

94,30%. Hal ini menguatkan teori bahwa performa k-NN akan naik ketika data yang digunakan

berdimensi tinggi.

Kata kunci: K-NN, Atribut data, Akurasi

1 Pendahuluan

1.1 Latar Belakang

Klasifikasi merupakan salah satu tugas utama

data mining. Dalam klasifikasi terdapat

berbagai macam algoritma dengan

karakteristik serta kemampuan masing-masing

[1] [2]. Salah satu algoritma klasifikasi yang

banyak dipakai dan dikembangkan oleh

peneliti adalah k-Nearest Neighbour [4]. K-

Nearest Neighbour (k-NN) merupakan sebuah

metode untuk mencari kedekatan kasus baru

dengan kasus lama yang sudah tercatat [5].

Banyak penelitian yang dilakukan untuk

meningkatkan performa algoritma k-NN. Salah

satu yang paling menarik adalah dalam proses

pemilihan atribut yang digunakan dalam proses

perhitungan klasifikasi serta pembobotan

atribut dalam data.

STMIK Widya Pratama merupakan salah satu

perguruan tinggi swasta yang ada di Kota

Pekalongan. Setiap tahun STMIK Widya

Pratama melakukan penerimaan mahasiswa

baru dengan dibantu tim marketing beserta

panitia PMB. Untuk sebuah perguruan tinggi

swasta jumlah mahasiswa sangatlah

mempengaruhi pendapatan akademik.

Penelitian mengenai prediksi heregistrasi

mahasiswa banyak dilakukan oleh peneliti.

Ragab (2014) dalam penelitiannya

membandingkan beberapa algoritma klasifikasi

data mining [6]. Kemudian Sugianti (2012)

melakukan prediksi heregistrasi calon

mahasiswa STMIK Widya Pratama dengan

menggunakan algoritma Bayesian

classification [7]. Dalam penelitian tersebut

algoritma bayessian classification memperoleh

akurasi sebesar 78% dengan menggunakan

data PMB Stmik Widya Pratama tahun 2011.

Atribut yang digunakan dalam penelitian

tersebut antara lain: kota asal, program studi,

status pendaftaran serta gelombang untuk

memprediksi atribut label yaitu registrasi.

Dalam penelitian ini akan digunakan data yang

sama yaitu data PMB STMIK Widya Pratama

Pekalongan tahun 2011. Atribut yang

digunakan dalam penelitian ini adalah atribut

yang dianggap dapat mempengaruhi

heregistrasi calon mahasiswa. Seleksi fitur

dalam penelitian ini dilakukan dengan cara

manual dan belum menggunakan algoritma

seleksi fitur. Berikutnya akan dilakukan

pembuktian apakah dengan banyaknya atribut

dapat mempengaruhi performa dari algoritma

k-NN.

1.2 Landasan Teori

1.2.1 Klasifikasi

Klasifikasi merupakan supervised learning dan

telah menjadi salah satu peran utama data

mining. Supervised learning atau pembelajaran

dengan menggunakan guru adalah sebuah

proses data mining dengan menggunakan data

lampau. Dalam hal ini dapat juga diartikan

pembelajaran dengan menggunakan guru.

Dalam klasifikasi data lampau yang ada

sebelumnya dianalisa untuk mendapatkan pola

dari data. Selain pola proses klasifikasi juga

dapat mencari aturan ataupun sebuah pohon

keputusan. Salah satu atribut data dalam

sebuah klasifikasi dijadikan sebagai label atau

atribut tujuan. Kemudian jika ada record data

baru yang belum diketahui labelnya maka akan

dihitung dengan menggunakan algoritma

tersebut dan dapat diketahui kemungkinan

labelnya.

1.2.2 K-Nearest Neighbour

K-Nearest Neighbour (k-NN) [5] adalah

pendekatan untuk mencari kasus dengan

menghitung kedekatan antara kasus baru

dengan kasus lama, yaitu berdasarkan pada

pencocokan bobot dari sejumlah fitur yang ada

[12]. K didalam k-NN merupakan jumlah

tetangga yang akan diambil untuk menentukan

keputusan.

Misalkan data rumah sakit mencatat banyak

pasien dengan gejala penyakit tertentu dan

penanganan khusus untuk jenis deteksi

penyakit tertentu. Jika terdapat kasus baru

dengan gejala yang menyerupai beberapa

kasus dengan vonis penyakit yang berbeda

maka k-NN dapat digunakan sebagai alat bantu

untuk menentukan jarak kedekatan antara

pasien baru dengan semua pasien lama. Maka

kasus dengan jarak kedekatan yang terbesar

yang akan diambil solusi yang sama untuk

pasien baru tersebut. Contoh secara nyata

kedekatan kasus dalam k-NN dapat dilihat

pada gambar 2.10 berikut

.

Gambar 1.1 Ilustrasi kedekatan pasien baru dengan kasus lama [12]

Seperti tampak pada gambar 2.11 terdapat tiga

pasien lama yaitu A, B, dan C. Ketika muncul

pasien baru, maka solusi yang akan diambil

adalah solusi dari pasien lama yang memiliki

kedekatan jarak paling dekat dengan pasien

baru. Tentunya pasien A menjadi pasien

terdekat yang nantinya dapat digunakan

sebagai solusi penanganan pasien baru

tersebut. Rumus dasar untuk menghitung

kedekatan antara dua kasus adalah sebagai

berikut:

Keterangan:

T : Kasus baru

S : Kasus yang ada dalam penyimpanan

n : Jumlah atribut dalam setiap kasus

i : Atribut individu antara 1 sampai dengan n

f : Fungsi similarity atribut i antara kasus T

dan kasus S

w : Bobot yang diberikan pada atribut ke i

Perhitungan algoritma k-NN menghitung

kedekatan data baru dengan keseluruhan data

A

Baru C

B

yang ada. Artinya jika data lampau adalah data

dengan record yang besar maka k-NN akan

membutuhkan waktu yang lama dan komputasi

yang mahal untuk menghitung kedekatan

keseluruhan record data lampau dengan data

baru.

2 Metode Penelitian

Penelitian ini dilakukan dengan menggunakan

metode eksperimen dan dengan alat bantu

yaitu rapid miner. Data yang digunakan adalah

data PMB STMIK Widya Pratama Pekalongan

tahun penerimaan 2011. Pengujian dilakukan

dengan menggunakan confusion matrix untuk

mengetahui tingkat akurasi dari algoritma K-

NN terhadap dataset yang disediakan.

2.1 Dataset

Dataset yang digunakan dalam penelitian ini

adalah data PMB STMIK Widya Pratama

Pekalongan tahun 2011. Percobaan dilakukan

beberapa kali dengan menggunakan jumlah

atribut yang berbeda. Percobaan pertama

dilakukan dengan menggunakan 4 atribut yang

sama seperti yang pernah dilakukan oleh

penelitian Sugianti (2012) sebelumnya.

Kemudian percobaan kedua dengan

menggunakan 8 atribut, percobaan ketiga

dengan menggunakan 12 atribut, serta

percobaan keempat dengan menggunakan 16

atribut data. Seluruh atribut yang digunakan

dalam keempat percobaan tersebut dapat

dilihat pada tabel 2.1 berikut.

Tabel 2.1 Atribut dalam percobaan

Percobaan 1

(4 Atribut)

Percobaan 2

(8 Atribut)

Percobaan 3

(12 Atribut)

Percobaan 4

(16 Atribut)

Atribut

yang

digunakan

Kota / kecamatan,

prodi,

status pendaftaran,

geelombang.

Kota / kecamatan,

prodi,

status pendaftaran,

geelombang,

agama,

status pekerjaan,

status sipil,

tahun lulus.

Kota / kecamatan,

prodi,

status pendaftaran,

geelombang,

agama,

status pekerjaan,

status sipil,

tahun lulus,

jenis kelamin,

jenjang,

shift kelas,

biaya kuliah.

Kota / kecamatan,

prodi,

status pendaftaran,

geelombang,

agama,

status pekerjaan,

status sipil,

tahun lulus,

jenis kelamin,

jenjang,

shift kelas,

biaya kuliah,

sesi pendaftaran,

kota sekolah asal,

gelombang grade,

kelas.

2.2 Pengujian

Pengujian dalam penelitian ini adalah

menggunakan cross validation. Dalam

pengujian cross validation sejumlah record

data dijadikan sebagai data uji (data testing)

serta sebagian besar yang lain digunakan

sebagai data pelatihan (data training).

Kemudian hasil klasifikasi dari data uji

tersebut dibandingkan dengan data sebenarnya

untuk mengetahui benar atau salah klasifikasi

yang dilakukan. Proses tersebut diulang

sampai keseluruhan record data mendapatkan

bagian sebagai data uji. Hasil dari semua

pengujian dihitung dan diambil rata-rata untuk

mendapatkan tingkat akurasi dari algoritma.

3 Hasil dan Pembahasan

Dari haasil penelitian diketahui bahwa

algoritma k-NN mengalami peningkatan

akurasi ketika data memiliki dimensi yang

tinggi. Dengan menggunakan 4 atribut k-NN

mendapat tingkat akurasi sebesar 62,10%.

Peningkatan yang cukup signifikan terjadi

ketika atribut yang digunakan berjumlah 8 dan

16. Dengan menggunakan 8 atribut k-NN

mendapat tingkat akurasi sebesar 81,38%.

Sedangkan dengan menggunakan jumlah

atribut 12 k-NN mendapat tingkat akurasi

83,79%, dan 94,30% untuk 16 atribut. Hasil

penelitian secara lebih jelas dapat dilihat pada

tabel 3.1 dibawah.

Tabel 3.1 Tingkat akurasi k-NN untuk data PMB STMIK Widya Pratama Pekalongan

Percobaan 1

(4 atribut)

Percobaan 2

(8 atribut)

Percobaan 3

(12 atribut)

Percobaan 4

(16 atribut)

Akurasi 62,10% 81,38% 83,79% 94,30%

Precission 37,60% 70,33% 71,15 91,43%

recall 54,12% 57,65% 70,59% 87,84%

4 Kesimpulan

Dari hasil penelitian yang telah dilakukan

sebelumnya maka dapat ditarik kesimpulan

bahwa algoritma k-NN akan lebih kuat jika

atribut dalam data yang dipakai berdimensi

tinggi. Terbukti dengan semakin naiknya

tingkat akurasi algoritma ketika atribut yang

digunakan ditambah sesuai dengan skala

tertentu. Semakin banyak atribut yang

mempengaruhi akan meningkatkan performa

k-NN secara keseluruhan [10].

5 Saran dan Penelitian berikutnya

Dalam penelitian ini setiap atributnya belum

diberikan pembobotan untuk membedakan

prioritas dan kepentingan satu atribut dengan

atribut lainnya. Penelitian berikutnya k-NN

dapat ditambahkan dengan pembobotan untuk

setiap atributnya. Serta dalam penelitian ini

atribut yang digunakan dipilih secara manual

dengan melihat pengaruh atribut tersebut

terhadap heregistrasi mahasiswa. Dalam

penelitian berikutnya juga dapat ditambahkan

algoritma seleksi fitur untuk melakukan

pemilihan atribut secara otomatis.

6 Daftar Pustaka

[1] I. H. Witten, E. Frank, and M. A. Hall,

Data Mining: Practical Machine

Learning Tools and Techniques 3rd

Edition. Elsevier, 2011.

[2] D. T. Larose, Discovering Knowledge

in Data: an Introduction to Data

Mining. John Wiley & Sons, 2005.

[3] J. Han and M. Kamber, Data Mining:

Concepts and Techniques Second

Edition. Elsevier, 2006.

[4] X. Wu, V. Kumar, J. R. Quinlan, J.

Ghosh, Q. Yang, H. Motoda, G. J.

Mclachlan, A. Ng, B. Liu, P. S. Yu, Z.

Z. Michael, S. David, and J. H. Dan,

Top 10 algorithms in data mining.

2007, pp. 137.

[5] T. M. Cover and P. E. Hart, Nearest Neighbor Pattern Classification, vol. I, 1967.

[6] A. H. M. Ragab, A. Y. Noaman, A. S.

Al-Ghamdi, and A. I. Madbouly, A Comparative Analysis of Classification

Algorithms for Students College

Enrollment Approval Using Data

Mining, 2014.

[7] D. Sugianti, Algoritma Bayesian Classification Untuk Memprediksi

Heregistrasi Mahasiswa Baru di

STMIK Widya Pratama, no. 2, pp. 15, 2012.

[8] Maimoon, Data Mining and Knowledge

Discovery Handbook. 2010.

[9] E. Alpaydin, Introduction to Machine

Learning Second Edition. 2010.

[10] D. R. Amancio, C. H. Comin, D.

Casanova, G. Travieso, O. M. Bruno, F.

A. Rodrigues, and L. da F. Costa, A Systematic Comparison of Supervised

Classifiers, 2013.

[11] A. Ashari, I. Paryudi, and A. M. Tjoa,

Performance Comparison between Nave Bayes , Decision Tree and k-

Nearest Neighbor in Searching

Alternative Design in an Energy

Simulation Tool, vol. 4, no. 11, pp. 3339, 2013.

[12] Kusrini and L. E. Taufiq, Algoritma

Data Mining. Yogyakarta: Andi Offset,

2009.

ictech--ivandari-23-1-ivan

Documents

Transcript of ictech--ivandari-23-1-ivan