Cover.pdf

ANALISIS SELEKSI ATRIBUT PADA ALGORITMA NAVE BAYES DALAM MEMPREDIKSI

PENYAKIT JANTUNG

TESIS

IVAN JAYA 117038072

PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA MEDAN

2013

Universitas Sumatera Utara


PENYAKIT JANTUNG

TESIS

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Magister Teknik Informatika

IVAN JAYA 117038072

PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA MEDAN

2013


PERSETUJUAN

Judul : Analisis Seleksi Atribut Pada Algoritma Naive Bayes Dalam Memprediksi Penyakit Jantung

Nama : IVAN JAYA

Nomor Induk Mahasiswa : 117038072

Program Studi : MAGISTER (S2) TEKNIK INFORMATIKA

Fakultas : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

Prof. Dr. Drs. Iryanto, M.Si Prof. Dr. Herman Mawengkang

Diketahui/disetujui oleh Magister Teknik Informatika Ketua,

Prof. Dr. H. Muhammad Zarlis NIP: 1957 07011 1986 011 003


PERNYATAAN


PENYAKIT JANTUNG

TESIS

Saya mengakui bahwa tesis ini adalah hasil karya saya sendiri, kecuali beberapa

kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, 28 Januari 2014

Ivan Jaya NIM. 117038072


PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN

AKADEMIS

Sebagai civitas akademik Universitas Sumatera Utara, saya yang bertanda tangan di bawah ini :

Nama : Ivan Jaya

Nim : 117038072

Program Studi : Teknik Informatika

Demi pengembangan ilmu pengetahuan, menyetujui memberikan kepada Universitas Sumatera Utara Hak Bebas Royaliti Non-Ekslusif (Non-Exclusive Royality Free Right) atas tesis saya yang berjudul:

ANALISIS SELEKSI ATRIBUT PADA ALGORITMA NAIVE BAYES DALAM MEMPREDIKSI

PENYAKIT JANTUNG

Beserta perangkat yang ada (jika diperlukan). Dengan hak bebas Royaliti Non-Exclusive ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat dan mempublikasikan tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta Demikian pernyataan ini dibuat dengan sebenarnya. Medan, 28 Januari 2014 Ivan Jaya 117038072


Telah di uji pada Tanggal: 28 Januari 2014 PANITIA PENGUJI TESIS Ketua : Prof. Dr. Herman Mawengkang Anggota : 1. Prof. Dr. Drs. Iryanto, M.Si

2. Prof. Dr. Muhammad Zarlis 3. Dr. Zakarias Situmorang 4. Dr. Benny Benyamin Nasution


RIWAYAT HIDUP

DATA PRIBADI Nama Lengkap : Ivan Jaya, S.Si Tempat dan Tanggal Lahir : Jakarta, 07 Juli 1984 Alamat Rumah : Bukit Johor Mas Blok C 37 Medan Telepon Rumah/Faks/Hp : 081361593553 E-mail : [email protected] Instansi Tempat Bekerja : Telkomsel

Alamat Kantor : Jl. M.T. Haryono A-1 Gedung Uni Plaza West Tower Lt.8 Medan

DATA PENDIDIKAN SD : SD Negeri 3 Kabanjahe TAMAT : 1996 SMP : SMP Negeri 1 Kabanjahe TAMAT : 1999 SMA : SMA Negeri 1 Kabanjahe TAMAT : 2002 S1 : Jurusan Matematika FMIPA USU TAMAT : 2010 S2 : Teknik Informatika USU TAMAT : 2014


KATA PENGANTAR

Alhamdulillah puji syukur kehadirat Allah SWT, yang telah memberikan rahmat

dan karunia-Nya kepada penulis, sehingga penulis dapat menyelesaikan tesis ini

dengan judul: Analisis Seleksi Atribut Pada Algoritma Nave Bayes dalam

Memprediksi Penyakit Jantung.

Tesis ini disusun untuk melengkapi dan memenuhi persyaratan mencapai derajat

kesarjanaan Strata-2 pada Program Studi Teknik Informatika, Fakultas Ilmu Komputer

dan Teknologi Informasi Universitas Sumatera Utara. Penulis menyadari sepenuhnya,

bahwa tesis ini selesai karena adanya dukungan dan bantuan dari berbagai pihak.

Untuk itu pada kesempatan ini, penulis menyampaikan penghargaan dan ucapan

terimakasih yang sedalam-dalamnya kepada:

1. Bapak, Prof. Dr. Herman Mawengkang sebagai Dosen Pembimbing Utama dan

Bapak Prof. Dr. Drs. Iryanto, M.Si sebagai Dosen pembimbing kedua, dengan

segala perhatian dan kesabaran telah memberikan bimbingan baik selama

mengikuti pendidikan maupun dalam penyelesaian tesis ini.

2. Bapak Prof. Dr. Muhammad Zarlis, Bapak Dr. Zakarias Situmorang dan Dr.

Benny Benyamin Nasution, sebagai dosen pembanding atas segala kritik dan

sarannya.

3. Seluruh Dosen Pengajar Pascasarjana Program Studi Teknik Informatika yang

telah memberikan bekal ilmu pengetahuan selama penulis mengikuti pendidikan.

4. Ayahanda, Ibunda, istri dan anak serta keluarga tercinta, atas doa restu dan

motivasinya yang telah diberikan selama ini.

5. Segenap civitas akademika Program Studi Pascasarjana Teknik Informatika

Sumatera Utara yang selalu memberikan informasi dan pelayanan kepada penulis

dengan tulus dan tak kenal lelah.

6. Rekan-rekan seperjuangan pada program studi Teknik Informatika yang

tergabung dalam Kom C 2011 dan rekan-rekan lain yang tidak dapat disebutkan

satu persatu, yang telah banyak membantu selama perkuliahan maupun dalam

penyelesaian tesis ini.


Tentulah tiada yang sempurna di dunia ini begitu pula dalam penulisan tesis ini,

untuk itu penulis mengharapkan kritik dan saran dari pembaca demi kesempurnaan

tesis ini selanjutnya.

Akhir kata penulis berharap semoga tesis ini dapat bermanfaat bagi semua pihak,

khususnya dalam bidang pendidikan.

Medan, 28 Januari 2014

Penulis


ABSTRAK

Data mining dapat dimanfaatkan untuk memprediksi suatu penyakit dari data rekam medis pasien. Beberapa atribut pada data mungkin memiliki nilai yang tidak relevan untuk tugas data mining dan jika mengikutsertakan atribut yang tidak relevan dapat mengganggu dan menyebabkan kebingungan pada tugas algoritma data mining. Untuk itu perlu dilakukan seleksi atribut yang merupakan proses untuk mengidentifikasi dan menghilangkan atribut dengan nilai yang tidak relevan atau berlebihan. Pada penelitian ini diperoleh informasi atau data tentang perbedaan akurasi dari hasil prediksi algoritma Naive Bayes dengan menggunakan seleksi atribut dan tanpa menggunakan seleksi atribut. Seleksi atribut menggunakan information gain yang diimplementasikan pada algoritma Naive Bayes untuk tugas klasifikasi dalam memprediksi penyakit jantung. Information gain bertujuan melakukan pengurutan atribut berdasarkan peringkat (rank) dimana semakin besar nilai information gain dari suatu atribut maka semakin signifikan atribut tersebut untuk tugas prediksi. Kata kunci: Data Mining, Nave Bayes, Information Gain, seleksi atribut.


ATTRIBUTE SELECTION ANALYSIS AT NAIVE BAYES ALGORITHM

IN HEART DISEASE PREDICTION

ABSTRACT

Data mining can be used to predict a disease from patients medical records. Some of the attribute from the data may have a value that is not relevant to the task of data mining and if included it can interfere and causing confusion for mining algorithm. Its necessary to do attribute selection which is a process for identifying and eliminating attribute with values that are irrelevant or redundant. This research result the information or data about the difference of accuracy from prediction that used Naive Bayes algorithm with or without attributes selection. Attribute selection using information gain implemented on Naive Bayes algorithm for classification task in heart disease prediction. Information gain head for sorting attributes based on rank, which is the higher information gain value from an attributes then the more significant the attributes for classification task. Keywords: Data Mining, Nave Bayes, Information Gain, Attributes Selection.


DAFTAR ISI

DAFTAR ISI XII DAFTAR TABEL XIV DAFTAR GAMBAR XV

BAB 1 1 PENDAHULUAN 1

1.1. Latar Belakang 1 1.2. Rumusan Masalah 2 1.3. Tujuan Penelitian 2 1.4. Batasan Masalah 3 1.5. Manfaat Penelitian 3

BAB 2 4 LANDASAN TEORI 4

2.1. Data Mining 4 2.1.1. Tugas Utama Data Mining 4 2.1.2. Proses Data Mining 5

2.2. Klasifikasi (Classification) 6 2.2.1. Information Gain 8 2.2.2. Naive Bayes 10

2.3. Diskritisasi 12 2.4. Ukuran Kinerja 15

BAB 3 16 METODOLOGI PENELITIAN 16

3.1. Rancangan Penelitian 16 3.2. Teknik Pengumpulan Data 18 3.3. Alat dan Bahan Penelitian 18

3.3.1. Alat Penelitian 18 3.3.1. Bahan Penelitian 19

3.4. Metode Pengujian 22


BAB 4 24 HASIL DAN PEMBAHASAN 24

4.1. Hasil Pengujian 24 4.1.1. Hasil Pengujian Tahap Pertama 24 4.1.2. Hasil Pengujian Tahap Kedua 26 4.1.3. Percobaan Tahap Ketiga 28 4.1.4. Percobaan Tahap Keempat 29 4.1.5. Percobaan Tahap Kelima 30

4.2. Pembahasan 31

BAB 5 33 KESIMPULAN DAN SARAN 33

5.1. Kesimpulan 33 5.2. Saran 34

DAFTAR PUSTAKA 35 LAMPIRAN 37


DAFTAR TABEL

TABEL 2.1 Data Set Untuk Resiko Penyakit Jantung (Slocum, 2012) 9 TABEL 2.2 Pembagian Hasil YesDan No (Slocum, 2012) 9 TABEL 2.3 Data Cuaca Dan Keputusan Main Atau Tidak (Santosa, 2007) 11 TABEL 2.4 Confusion Matrix (Xhemali, Et Al. 2009) 15 TABEL 3.1 Diskritisasi Atribut Age 20 TABEL 3.2 Diskritisasi Atribut Trestbps 21 TABEL 3.3 Diskritisasi Atribut Chol 21 TABEL 3.4 Diskritisasi Atribut Thalach 22 TABEL 3.5 Diskritisasi Atribut Oldpeak 22 TABEL 4.1 Hasil Training Data Pada Tahap Pertama 25 TABEL 4.2 Hasil Pengujian Data Testing Pada Tahap Pertama 26 TABEL 4.3 Peringkat Atribut Berdasarkan Nilai Informasi Gain 27 TABEL 4.4 Hasil Pengujian Data Testing Tahap Kedua 27 TABEL 4.5 Hasil Pengujian Data Testing Tahap Ketiga 28 TABEL 4.6 Hasil Pengujian Data Testing Percobaan Tahap Keempat 29 TABEL 4.6 Hasil Pengujian Data Testing Percobaan Tahap Kelima 30 TABEL 4.7 Hasil Pengujian Percobaan Tahap Pertama Sampai Kelima 31


DAFTAR GAMBAR

Gambar 2.1 Langkah Proses Klasifikasi (Han And Kamber, 2006) 7 Gambar 2.2 Implementasi Naive Bayes Pada Data Pasien 12 Gambar 2.3 Data Kontinu Dengan Pasangan Nilai Kategorikal 13 Gambar 2.4 Pemisahan Dengan Informasi Gain 13 Gambar 2.5 Pemisahan Dengan Informasi Gain Terbaik 14 Gambar 3.1 Flowchart Proses Naive Bayes Dengan Dan Tanpa Seleksi Atribut 17 Gambar 4.1 Perbandingan Akurasi, Error Dan Waktu Proses Pengujian 31


Cover.pdf

Documents

Transcript of Cover.pdf