Cover.pdf

download Cover.pdf

of 15

Transcript of Cover.pdf

  • ANALISIS SELEKSI ATRIBUT PADA ALGORITMA NAVE BAYES DALAM MEMPREDIKSI

    PENYAKIT JANTUNG

    TESIS

    IVAN JAYA 117038072

    PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

    UNIVERSITAS SUMATERA UTARA MEDAN

    2013

    Universitas Sumatera Utara

  • ANALISIS SELEKSI ATRIBUT PADA ALGORITMA NAVE BAYES DALAM MEMPREDIKSI

    PENYAKIT JANTUNG

    TESIS

    Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Magister Teknik Informatika

    IVAN JAYA 117038072

    PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

    UNIVERSITAS SUMATERA UTARA MEDAN

    2013

    Universitas Sumatera Utara

  • PERSETUJUAN

    Judul : Analisis Seleksi Atribut Pada Algoritma Naive Bayes Dalam Memprediksi Penyakit Jantung

    Nama : IVAN JAYA

    Nomor Induk Mahasiswa : 117038072

    Program Studi : MAGISTER (S2) TEKNIK INFORMATIKA

    Fakultas : ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

    UNIVERSITAS SUMATERA UTARA

    Komisi Pembimbing :

    Pembimbing 2 Pembimbing 1

    Prof. Dr. Drs. Iryanto, M.Si Prof. Dr. Herman Mawengkang

    Diketahui/disetujui oleh Magister Teknik Informatika Ketua,

    Prof. Dr. H. Muhammad Zarlis NIP: 1957 07011 1986 011 003

    Universitas Sumatera Utara

  • PERNYATAAN

    ANALISIS SELEKSI ATRIBUT PADA ALGORITMA NAVE BAYES DALAM MEMPREDIKSI

    PENYAKIT JANTUNG

    TESIS

    Saya mengakui bahwa tesis ini adalah hasil karya saya sendiri, kecuali beberapa

    kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

    Medan, 28 Januari 2014

    Ivan Jaya NIM. 117038072

    Universitas Sumatera Utara

  • PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN

    AKADEMIS

    Sebagai civitas akademik Universitas Sumatera Utara, saya yang bertanda tangan di bawah ini :

    Nama : Ivan Jaya

    Nim : 117038072

    Program Studi : Teknik Informatika

    Demi pengembangan ilmu pengetahuan, menyetujui memberikan kepada Universitas Sumatera Utara Hak Bebas Royaliti Non-Ekslusif (Non-Exclusive Royality Free Right) atas tesis saya yang berjudul:

    ANALISIS SELEKSI ATRIBUT PADA ALGORITMA NAIVE BAYES DALAM MEMPREDIKSI

    PENYAKIT JANTUNG

    Beserta perangkat yang ada (jika diperlukan). Dengan hak bebas Royaliti Non-Exclusive ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat dan mempublikasikan tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta Demikian pernyataan ini dibuat dengan sebenarnya. Medan, 28 Januari 2014 Ivan Jaya 117038072

    Universitas Sumatera Utara

  • Telah di uji pada Tanggal: 28 Januari 2014 PANITIA PENGUJI TESIS Ketua : Prof. Dr. Herman Mawengkang Anggota : 1. Prof. Dr. Drs. Iryanto, M.Si

    2. Prof. Dr. Muhammad Zarlis 3. Dr. Zakarias Situmorang 4. Dr. Benny Benyamin Nasution

    Universitas Sumatera Utara

  • RIWAYAT HIDUP

    DATA PRIBADI Nama Lengkap : Ivan Jaya, S.Si Tempat dan Tanggal Lahir : Jakarta, 07 Juli 1984 Alamat Rumah : Bukit Johor Mas Blok C 37 Medan Telepon Rumah/Faks/Hp : 081361593553 E-mail : [email protected] Instansi Tempat Bekerja : Telkomsel

    Alamat Kantor : Jl. M.T. Haryono A-1 Gedung Uni Plaza West Tower Lt.8 Medan

    DATA PENDIDIKAN SD : SD Negeri 3 Kabanjahe TAMAT : 1996 SMP : SMP Negeri 1 Kabanjahe TAMAT : 1999 SMA : SMA Negeri 1 Kabanjahe TAMAT : 2002 S1 : Jurusan Matematika FMIPA USU TAMAT : 2010 S2 : Teknik Informatika USU TAMAT : 2014

    Universitas Sumatera Utara

  • KATA PENGANTAR

    Alhamdulillah puji syukur kehadirat Allah SWT, yang telah memberikan rahmat

    dan karunia-Nya kepada penulis, sehingga penulis dapat menyelesaikan tesis ini

    dengan judul: Analisis Seleksi Atribut Pada Algoritma Nave Bayes dalam

    Memprediksi Penyakit Jantung.

    Tesis ini disusun untuk melengkapi dan memenuhi persyaratan mencapai derajat

    kesarjanaan Strata-2 pada Program Studi Teknik Informatika, Fakultas Ilmu Komputer

    dan Teknologi Informasi Universitas Sumatera Utara. Penulis menyadari sepenuhnya,

    bahwa tesis ini selesai karena adanya dukungan dan bantuan dari berbagai pihak.

    Untuk itu pada kesempatan ini, penulis menyampaikan penghargaan dan ucapan

    terimakasih yang sedalam-dalamnya kepada:

    1. Bapak, Prof. Dr. Herman Mawengkang sebagai Dosen Pembimbing Utama dan

    Bapak Prof. Dr. Drs. Iryanto, M.Si sebagai Dosen pembimbing kedua, dengan

    segala perhatian dan kesabaran telah memberikan bimbingan baik selama

    mengikuti pendidikan maupun dalam penyelesaian tesis ini.

    2. Bapak Prof. Dr. Muhammad Zarlis, Bapak Dr. Zakarias Situmorang dan Dr.

    Benny Benyamin Nasution, sebagai dosen pembanding atas segala kritik dan

    sarannya.

    3. Seluruh Dosen Pengajar Pascasarjana Program Studi Teknik Informatika yang

    telah memberikan bekal ilmu pengetahuan selama penulis mengikuti pendidikan.

    4. Ayahanda, Ibunda, istri dan anak serta keluarga tercinta, atas doa restu dan

    motivasinya yang telah diberikan selama ini.

    5. Segenap civitas akademika Program Studi Pascasarjana Teknik Informatika

    Sumatera Utara yang selalu memberikan informasi dan pelayanan kepada penulis

    dengan tulus dan tak kenal lelah.

    6. Rekan-rekan seperjuangan pada program studi Teknik Informatika yang

    tergabung dalam Kom C 2011 dan rekan-rekan lain yang tidak dapat disebutkan

    satu persatu, yang telah banyak membantu selama perkuliahan maupun dalam

    penyelesaian tesis ini.

    Universitas Sumatera Utara

  • Tentulah tiada yang sempurna di dunia ini begitu pula dalam penulisan tesis ini,

    untuk itu penulis mengharapkan kritik dan saran dari pembaca demi kesempurnaan

    tesis ini selanjutnya.

    Akhir kata penulis berharap semoga tesis ini dapat bermanfaat bagi semua pihak,

    khususnya dalam bidang pendidikan.

    Medan, 28 Januari 2014

    Penulis

    Universitas Sumatera Utara

  • ABSTRAK

    Data mining dapat dimanfaatkan untuk memprediksi suatu penyakit dari data rekam medis pasien. Beberapa atribut pada data mungkin memiliki nilai yang tidak relevan untuk tugas data mining dan jika mengikutsertakan atribut yang tidak relevan dapat mengganggu dan menyebabkan kebingungan pada tugas algoritma data mining. Untuk itu perlu dilakukan seleksi atribut yang merupakan proses untuk mengidentifikasi dan menghilangkan atribut dengan nilai yang tidak relevan atau berlebihan. Pada penelitian ini diperoleh informasi atau data tentang perbedaan akurasi dari hasil prediksi algoritma Naive Bayes dengan menggunakan seleksi atribut dan tanpa menggunakan seleksi atribut. Seleksi atribut menggunakan information gain yang diimplementasikan pada algoritma Naive Bayes untuk tugas klasifikasi dalam memprediksi penyakit jantung. Information gain bertujuan melakukan pengurutan atribut berdasarkan peringkat (rank) dimana semakin besar nilai information gain dari suatu atribut maka semakin signifikan atribut tersebut untuk tugas prediksi. Kata kunci: Data Mining, Nave Bayes, Information Gain, seleksi atribut.

    Universitas Sumatera Utara

  • ATTRIBUTE SELECTION ANALYSIS AT NAIVE BAYES ALGORITHM

    IN HEART DISEASE PREDICTION

    ABSTRACT

    Data mining can be used to predict a disease from patients medical records. Some of the attribute from the data may have a value that is not relevant to the task of data mining and if included it can interfere and causing confusion for mining algorithm. Its necessary to do attribute selection which is a process for identifying and eliminating attribute with values that are irrelevant or redundant. This research result the information or data about the difference of accuracy from prediction that used Naive Bayes algorithm with or without attributes selection. Attribute selection using information gain implemented on Naive Bayes algorithm for classification task in heart disease prediction. Information gain head for sorting attributes based on rank, which is the higher information gain value from an attributes then the more significant the attributes for classification task. Keywords: Data Mining, Nave Bayes, Information Gain, Attributes Selection.

    Universitas Sumatera Utara

  • DAFTAR ISI

    DAFTAR ISI XII DAFTAR TABEL XIV DAFTAR GAMBAR XV

    BAB 1 1 PENDAHULUAN 1

    1.1. Latar Belakang 1 1.2. Rumusan Masalah 2 1.3. Tujuan Penelitian 2 1.4. Batasan Masalah 3 1.5. Manfaat Penelitian 3

    BAB 2 4 LANDASAN TEORI 4

    2.1. Data Mining 4 2.1.1. Tugas Utama Data Mining 4 2.1.2. Proses Data Mining 5

    2.2. Klasifikasi (Classification) 6 2.2.1. Information Gain 8 2.2.2. Naive Bayes 10

    2.3. Diskritisasi 12 2.4. Ukuran Kinerja 15

    BAB 3 16 METODOLOGI PENELITIAN 16

    3.1. Rancangan Penelitian 16 3.2. Teknik Pengumpulan Data 18 3.3. Alat dan Bahan Penelitian 18

    3.3.1. Alat Penelitian 18 3.3.1. Bahan Penelitian 19

    3.4. Metode Pengujian 22

    Universitas Sumatera Utara

  • BAB 4 24 HASIL DAN PEMBAHASAN 24

    4.1. Hasil Pengujian 24 4.1.1. Hasil Pengujian Tahap Pertama 24 4.1.2. Hasil Pengujian Tahap Kedua 26 4.1.3. Percobaan Tahap Ketiga 28 4.1.4. Percobaan Tahap Keempat 29 4.1.5. Percobaan Tahap Kelima 30

    4.2. Pembahasan 31

    BAB 5 33 KESIMPULAN DAN SARAN 33

    5.1. Kesimpulan 33 5.2. Saran 34

    DAFTAR PUSTAKA 35 LAMPIRAN 37

    Universitas Sumatera Utara

  • DAFTAR TABEL

    TABEL 2.1 Data Set Untuk Resiko Penyakit Jantung (Slocum, 2012) 9 TABEL 2.2 Pembagian Hasil YesDan No (Slocum, 2012) 9 TABEL 2.3 Data Cuaca Dan Keputusan Main Atau Tidak (Santosa, 2007) 11 TABEL 2.4 Confusion Matrix (Xhemali, Et Al. 2009) 15 TABEL 3.1 Diskritisasi Atribut Age 20 TABEL 3.2 Diskritisasi Atribut Trestbps 21 TABEL 3.3 Diskritisasi Atribut Chol 21 TABEL 3.4 Diskritisasi Atribut Thalach 22 TABEL 3.5 Diskritisasi Atribut Oldpeak 22 TABEL 4.1 Hasil Training Data Pada Tahap Pertama 25 TABEL 4.2 Hasil Pengujian Data Testing Pada Tahap Pertama 26 TABEL 4.3 Peringkat Atribut Berdasarkan Nilai Informasi Gain 27 TABEL 4.4 Hasil Pengujian Data Testing Tahap Kedua 27 TABEL 4.5 Hasil Pengujian Data Testing Tahap Ketiga 28 TABEL 4.6 Hasil Pengujian Data Testing Percobaan Tahap Keempat 29 TABEL 4.6 Hasil Pengujian Data Testing Percobaan Tahap Kelima 30 TABEL 4.7 Hasil Pengujian Percobaan Tahap Pertama Sampai Kelima 31

    Universitas Sumatera Utara

  • DAFTAR GAMBAR

    Gambar 2.1 Langkah Proses Klasifikasi (Han And Kamber, 2006) 7 Gambar 2.2 Implementasi Naive Bayes Pada Data Pasien 12 Gambar 2.3 Data Kontinu Dengan Pasangan Nilai Kategorikal 13 Gambar 2.4 Pemisahan Dengan Informasi Gain 13 Gambar 2.5 Pemisahan Dengan Informasi Gain Terbaik 14 Gambar 3.1 Flowchart Proses Naive Bayes Dengan Dan Tanpa Seleksi Atribut 17 Gambar 4.1 Perbandingan Akurasi, Error Dan Waktu Proses Pengujian 31

    Universitas Sumatera Utara