Paper 007

Prosiding Seminar Nasional Sains dan Teknologi Nuklir PTNBR BATAN Bandung, 4 Juli 2013

Tema: Pemanfaatan Sains dan Teknologi Nuklir serta Peranan MIPA di Bidang Kesehatan, Lingkungan dan

Industri untuk Pembangunan Berkelanjutan

644

PENGEMBANGAN APLIKASI KLASIFIKASI NAIVE BAYESIAN PENDAFTAR KE PROGRAM D-III TEKNIK INFORMATIKA

FMIPA UNPAD BERDASARKAN ASAL DAERAH DAN SOSIAL EKONOMI PENDAFTAR

Rudi Rosadi dan Ino Suryana

Jurusan Matematika FMIPA Universitas Padjadjaran

Jl. Raya Bandung-Sumedang Km 21 Jatinangor 45363 E-mail: [email protected]; [email protected]

ABSTRAK PENGEMBANGAN APLIKASI KLASIFIKASI NAIVE BAYESIAN PENDAFTAR KE

PROGRAM D-III TEKNIK INFORMATIKA FMIPA UNPAD BERDASARKAN ASAL DAERAH DAN SOSIAL EKONOMI PENDAFTAR. Seorang pendaftar yang diterima atau didapatkan oleh sebuah perguruan tinggi melalui seleksi yang diadakan oleh perguruan tinggi tersebut merupakan pendaftar dengan berbagai macam klasifikasi. Misalnya suatu perguruan tinggi perlu memilah-milah pendaftar yang diterima ke dalam berbagai kategori, dalam hal ini ditinjau dari aspek sosial ekonomi dan asal daerah. Metode yang akan digunakan adalah metode Naive Bayessian. Pada metode ini diperlukan adanya proses pembelajaran dengan menggunakan data training sebagai bahan yang digunakan untuk melakukan klasifikasi pendaftar. Data training merupakan data pendaftar sebaiknya dalam jumlah yang besar terutama terhadap pendaftar ke program studi yang akan diteliti, sehingga berpengaruh terhadap keakuratan hasil klasifikasi. Pada penelitian ini dilakukan pengembangan aplikasi untuk pengklasifikasian pendaftar, dimana pertama-tama aplikasi diberi sejumlah data pendaftar (sebagai data training). Setelah cukup banyak data pendaftar untuk setiap kategorinya, maka aplikasi sudah siap mengolah data training dimana hasilnya dapat digunakan untuk melakukan prediksi terhadap pendaftar yang belum diketahui kelasnya.

Kata kunci: Klasifikasi Naive Bayessian

ABSTRACT

NAIVE BAYESIAN CLASSIFICATION OF APPLICATION DEVELOPMENT PROGRAM TO

APPLICANT D-III TECHNICAL INFORMATION FMIPA UNPAD BASED ON ORIGIN REGIONAL ECONOMIC AND SOCIAL APPLICANT. An applicant who received or earned by a college selection process conducted by the college registrar with a variety of classifications. For example, a college needs to sort out applicants who are accepted into the various categories, in this case in terms of economic and social aspects of the area of origin. Method to be used is Naive Bayessian. This method is necessary in the process of learning by using training data as the material used to perform the classification of registrants. Training data is data registries should be a large number, especially for applicants to courses that will be studied, and therefore contributes to the accuracy of the classification results. In this research, the development of applications for classification of registrants, where the first application was given amount of data registries (as the training data). After quite a lot of data registries for each category, then the application is ready to process the training data in which the results can be used to predict the unknown class applicants.

Key words: Naive Bayessian Classification




645

1. PENDAHULUAN

Pendaftar/calon mahasiswa suatu perguruan tinggi mempunyai pola/patern tertentu, pernyataan tersebut dinyatakan pada penelitian sebelumnya tahun 2002 oleh Tang-McDonald tahun 2002, hasil penelitian tersebut dijadikan untuk strategi pemasaran perguruan tinggi dalam rangka memperoleh source (mahasiswa) sebanyak mungkin. Pada tahun 2006, peneliti telah membangun sebuah sistem informasi yang disajikan dalam bentuk spasial untuk memberikan informasi bagi perguruan tinggi melihat sejauh mana tingkat penyebaran pendaftar k e perguruan tinggi khususnya Unpad (Universitas Padjadjaran) di wilayah Jawa Barat berdasarkan pengaruh keadaan sosial ekonomi dan asal daerah pendaftar. Pada penelitian ini peneliti mencoba mengembangkan penelitian sebelumnya yaitu dikembangkan pada teknik klasifikasi naive bayessian, dan lebih spesifik untuk pendaftar ke program studi tertentu di lingkungan FMIPA Unpad, dikaitkan dengan faktor asal daerah, dan sosial ekonomi pendaftar. Kesulitan dalam memprediksi data baru berhubungan dengan kategori apakah calon akan mendaftar atau tidak ke program studi tertentu menjadi permasalahan yang akan dipecahkan dalam penelitian ini. Data yang digunakan pada penelitian ini adalah biodata SMUP (Seleksi Masuk Universitas Padjadjaran) Program DIII tahun 2011. 2. TINJAUAN PUSTAKA 2.1. Nave Bayes Classifier

Nave Bayes Classifier merupakan sebuah metode klasifikasi yang berakar pada teorema Bayes. Ciri utama dari Nave Bayes Classifier ini adalah asumsi yang sangat kuat (naif) akan independensi dari masing-masing kondisi/kejadian. Teorema Bayes merupakan dasar dari metoda tersebut. Pada teorema Bayes, bila terdapat dua kejadian yang terpisah (misalkan A dan B), maka teorema Bayes dirumuskan sebagai berikut:

(1) Teorema Bayes sering dikembangkan mengingat berlakunya hukum probabilitas total, menjadi seperti berikut:

(2)

dimana, A1 U A2 U ... U An = S. Pada proses klasifikasi memerlukan sejumlah petunjuk untuk menentukan kelas apa yang cocok bagi sampel yang dianalisis tersebut. Karena itu, teorema Bayes di atas disesuaikan sebagai berikut:

(3)

Dimana variabel C merepresentasikan kelas, sementara variabel F1 ... Fn merepresentasikan karakteristik-karakteristik petunjuk yang dibutuhkan untuk melakukan klasifikasi. Maka persamaan (3) menjelaskan bahwa peluang masuknya sampel dengan karakteristik tertentu dalam kelas C (posterior) adalah peluang munculnya kelas C (sebelum masuknya sampel tersebut, seringkali disebut prior), dikali dengan peluang kemunculan karakteristik-karakteristik sampel pada kelas C (disebut juga likelihood), dibagi dengan peluang kemunculan karakteristik-karakteristik sampel secara global (disebut juga evidence). Karena itu, persamaan (3) dapat pula ditulis secara sederhana sebagai berikut:

(4)

Nilai evidence selalu tetap untuk setiap kelas pada satu sampel. Nilai dari Posterior tersebut yang nantinya akan dibandingkan dengan nilai-nilai Posterior kelas lainnya untuk menentukan ke kelas apa suatu sampel akan diklasifikasikan. Penjabaran lebih lanjut persamaan Bayes tersebut dilakukan dengan menjabarkan P(F1,...,Fn|C) menggunakan aturan perkalian, menjadi sebagai berikut:

Selanjutnya, penjabaran P(F1,...,Fn|C) dapat disederhanakan menjadi seperti berikut :




646

(5)

Dengan kesamaan di atas, persamaan teorema Bayes dapat dituliskan sebagai berikut:

(6)

Persamaan di atas merupakan model dari teorema Nave Bayes yang selanjutnya akan digunakan dalam proses klasifikasi dokumen. Adapun Z merepresentasikan evidence yang nilainya konstan untuk semua kelas pada satu sampel. 2.2. Klasifikasi dengan Naive Bayes classifier

Klasifikasi adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu obyek. Tahapan prosesnya ada 2 tahap, yang pertama tahap konstruksi model dari data training disebut sebagai tahap pembelajaran, prosesnya ditunjukkan pada Gambar 1 [2].

Gambar 1. Tahapan konstruksi model Pada tahap pembelajaran didapatkan nilai probabilitas prior. Selanjutnya dilakukan prediksi terhadap suatu objek, dilakukan dengan menggunakan persamaan (4), alur prosesnya dapat dilihat pada Gambar 2 [2]. 3. METODE PENELITIAN

Data yang digunakan adalah data pendaftar SMUP 2011, jumlah totalnya ada 2936 record

dan jumlah field/kolomnya 78 field/kolom. Data yang digunakan pada penelitian adalah data penghasilan dan pendidikan akhir orang tua, dan daerah asal jadi ada 4 field/kolom yaitu: pendidikan akhir ayah, pendidikan akhir ibu, penghasilan orang tua dan daerah asal. DBMS yang digunakan peneliti untuk menampung dan memproses data adalah MySQL versi 5.1.4.1, dan software yang digunakan untuk membangun aplikasi adalah Embarcadero RAD Studio 2010.

Gambar 2. Menggunakan model untuk prediksi

Proses data preparation, dimulai dengan proses seleksi data yaitu melakukan pemilihan field-field yang diperlukan. Model data/relasi antar tabel dapat dilihat pada Gambar 3 di bawah ini :

Gambar 3. Model relasi antar tabel

Dari relasi antara tabel pendaftar dengan tabel-tabel referensinya dapat dilakukan cleaning data, sehingga di sini dilakukan seleksi data yang mempunyai relasi dengan tabel referensinya, dan didapatkan data yang bersih. Pada proses ini dilakukan perintah-perintah query untuk melakukan beberapa agregasi yang di butuhkan terhadap data di atas. Dan semua data di atas




647

disimpan dalam sebuah database yang terintegrasi.

3.2 Penggunaan Klasifikasi dengan Nave Bayes classifier

a. Tahap pembelajaran

Pada tahap pembelajaran ini diawali pengambilan data/seleksi data yang dibutuhkan pada penelitian ini, dilanjutkan dengan tahap konstruksi model yang akan menghasilkan model probabilitas. Diagram alir/flow chart untuk proses ini dapat dilihat pada Gambar 4 (a).

b. Tahap klasifikasi

Pada tahap klasifikasi ini diawali pengambilan data testing pendaftar yang belum diketahui kelasnya, kemudian dilanjutkan proses klasifikasi naive bayes berdasarkan data hasil pembelajaran, sehingga menghasilkan informasi kelas/kategori untuk data tersebut. Diagram alir/flow chart untuk proses ini dapat dilihat pada Gambar 4 (b).

Gambar 4. Diagram alir proses klasifikasi Naive Bayes

3.3 Perancangan Interface

Pada penelitian ini akan dibangun sebuah program aplikasi sederhana untuk memudahkan pengolahan data pada proses pembelajaran

maupun pada proses pengklasifikasian. Rancangan interface untuk proses pembelajaran ditunjukkan pada Gambar 5 berikut ini.

Gambar 5. Rancangan interface untuk proses pembelajaran Selanjutnya untuk proses klasifikasi, rancangan interface nya ditunjukkan pada Gambar 6.

Gambar 6. Rancangan interface untuk proses klasifikasi 4. HASIL DAN PEMBAHASAN

Tahap pertama yang dilakukan adalah melakukan proses pembelajaran yaitu mengolah data training untuk mendapatkan nilai probabilitas prior. Tahapan yang pertama menghitung distribusi pendaftar berdasarkan asal daerah dan sosial ekonomi: asal daerah, penghasilan orang tua, pendidikan ayah, pendidikan ibu.

Berdasarkan data training untuk asal daerah Provinsi Jawa Barat didapat 32 kombinasi. Diantara 32 kombinasi, beberapa kombinasi yang frekuensinya terbesar adalah sebagai berikut :




648

Asal Penghasilan P.Ayah P.Ibu Jml Kab. Bandung Rp 2 jt dan




649

Asal daerah Kota Bandung

Penghasilan Orang Tua >2 Juta




650

6. UCAPAN TERIMA KASIH Terima kasih kepada pihak jurusan/program

studi Matematika serta Fakultas MIPA Unpad yang telah memfasilitasi adanya penelitian, dan UPT SMUP Unpad Tahun 2011 atas data pendaftar sebagai bahan peneitian kami.

7. DAFTAR PUSTAKA 1. BLACKMORE, K.L dan YANG, X.,

2000, "GIS in University Admissions: Analysis and Visualization of Students Flows", in Proceeding of The 28th Annual Conference of AURISA, Coolum, QLD, Australia, 20 -24 November 2000.

2. HAN, J. dan KAMBER, M., 2006, Slide Chapter 6 - Data Mining: Concepts and Techniques. Department of Computer Science University of Illinois at Urbana-Champaign.

3. HAN, J. dan KAMBER, M., 2001, Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers.

4. TANG, Mc DONALD, 2002, Integrating GIS and Spatial Data Mining Technique for

Target Marketing of University Course, Symposium on Geospatial Theory, Processing and Application, Ottawa 2002.

5. ROSADI, R., 2006, Pemetaan Spasial Hasil Data Mining Keadaan Sosial Ekonomi Pendaftar Perguruan Tinggi di Daerah Jawa Barat, Tesis Pascasarjana Ilmu Komputer UGM.

6. UPT SMUP UNPAD, 2011, Data Seleski Masuk Unpad Program Diploma III (SMUP-D3) tahun 2011.

7. WIKIPEDIA: Bayes' Theorem. http://en.wikipedia.org/wiki/ Bayes'_theorem. Tanggal Akses : 3 Juli 2012.

8. WIKIPEDIA: Bayesian spam filtering. http://en.wikipedia.org/wiki/ Bayesian_spam_filtering. Tanggal Akses : 3 Juli 2012.

9. WIKIPEDIA: Nave Bayes classifier. http://en.wikipedia.org/wiki/ Naive_Bayes_classifier. Tanggal Akses : 3 Juli 2012.

1. PENDAHULUAN 2. TINJAUAN PUSTAKA (1)3. METODE PENELITIAN 4. HASIL DAN PEMBAHASAN 5. KESIMPULAN

6. UCAPAN TERIMA KASIH 7. DAFTAR PUSTAKA

DAFTAR ISI:

Paper 007

Documents

Transcript of Paper 007