KLASIFIKASI JENIS KANKER BERDASARKAN STRUKTUR PROTEIN …repository.ub.ac.id/11714/1/Bagian...

14
KLASIFIKASI JENIS KANKER BERDASARKAN STRUKTUR PROTEIN MENGGUNAKAN ALGORITMA NAIVE BAYES SKRIPSI Untuk memenuhi sebagian persyaratan memperoleh gelar Sarjana Komputer Disusun oleh: Tawang Wulandari NIM: 115090601111009 PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER UNIVERSITAS BRAWIJAYA MALANG 2018

Transcript of KLASIFIKASI JENIS KANKER BERDASARKAN STRUKTUR PROTEIN …repository.ub.ac.id/11714/1/Bagian...

Page 1: KLASIFIKASI JENIS KANKER BERDASARKAN STRUKTUR PROTEIN …repository.ub.ac.id/11714/1/Bagian Depan.pdf · Tawang Wulandari, Klasifikasi Jenis Kanker Berdasarkan Struktur Protein Menggunakan

KLASIFIKASI JENIS KANKER BERDASARKAN STRUKTUR PROTEIN MENGGUNAKAN ALGORITMA NAIVE BAYES

SKRIPSI

Untuk memenuhi sebagian persyaratan memperoleh gelar Sarjana Komputer

Disusun oleh:

Tawang Wulandari NIM: 115090601111009

PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN TEKNIK INFORMATIKA

FAKULTAS ILMU KOMPUTER UNIVERSITAS BRAWIJAYA

MALANG 2018

Page 2: KLASIFIKASI JENIS KANKER BERDASARKAN STRUKTUR PROTEIN …repository.ub.ac.id/11714/1/Bagian Depan.pdf · Tawang Wulandari, Klasifikasi Jenis Kanker Berdasarkan Struktur Protein Menggunakan

ii

PENGESAHAN

Page 3: KLASIFIKASI JENIS KANKER BERDASARKAN STRUKTUR PROTEIN …repository.ub.ac.id/11714/1/Bagian Depan.pdf · Tawang Wulandari, Klasifikasi Jenis Kanker Berdasarkan Struktur Protein Menggunakan

iii

IDENTITAS PENGUJI

PENGUJI 1 :

Nama : Randy Cahya Wihandika, S.ST., M.Kom

NIP/NIK : 201405 880206 1 001

Laboratorium : Lab. Komputasi Cerdas dan Visualisasi

Bidang : Teknik Informatika

Ruangan : FILKOM UB, Jl. Veteran No.8 Gedung A, Lt. 1, R. A1.2

Email : [email protected]

PENGUJI 2 :

Nama : Achmad Arwan, S.Kom, M.Kom

NIP/NIK : 19840815 200812 1 004

Laboratorium : Lab. Rekayasa Perangkat Lunak

Bidang : Teknik Informatika

Ruangan : FILKOM UB, Jl. Veteran No.8 Gedung C, Lt. 1, R. C1.6

Email : [email protected]

Page 4: KLASIFIKASI JENIS KANKER BERDASARKAN STRUKTUR PROTEIN …repository.ub.ac.id/11714/1/Bagian Depan.pdf · Tawang Wulandari, Klasifikasi Jenis Kanker Berdasarkan Struktur Protein Menggunakan

iv

PERNYATAAN ORISINALITAS

Saya menyatakan dengan sebenar-benarnya bahwa sepanjang pengetahuan saya, di dalam naskah skripsi ini tidak terdapat karya ilmiah yang pernah diajukan oleh orang lain untuk memperoleh gelar akademik di suatu perguruan tinggi, dan tidak terdapat karya atau pendapat yang pernah ditulis atau diterbitkan oleh orang lain, kecuali yang secara tertulis disitasi dalam naskah ini dan disebutkan dalam daftar pustaka.

Apabila ternyata didalam naskah skripsi ini dapat dibuktikan terdapat unsur-unsur plagiasi, saya bersedia skripsi ini digugurkan dan gelar akademik yang telah saya peroleh (sarjana) dibatalkan, serta diproses sesuai dengan peraturan perundang-undangan yang berlaku (UU No. 20 Tahun 2003, Pasal 25 ayat 2 dan Pasal 70).

Malang, 10 Januari 2018

Tawang Wulandari

NIM: 115090601111009

Page 5: KLASIFIKASI JENIS KANKER BERDASARKAN STRUKTUR PROTEIN …repository.ub.ac.id/11714/1/Bagian Depan.pdf · Tawang Wulandari, Klasifikasi Jenis Kanker Berdasarkan Struktur Protein Menggunakan

v

DAFTAR RIWAYAT HIDUP

Nama : Tawang Wulandari

Jenis Kelamin : Perempuan

Tempat Tanggal Lahir : Pasuruan, 31 Desember 1993

Alamat : Dsn. Jawi RT.009 RW.003 Ds. Candi Wates, Kec. Prigen,

Kab. Pasuruan

Kewarganegaraan : Indonesia

Agama : Islam

Nomor HP : 081337918008

Email : [email protected]

Riwayat Pendidikan

1. 1999 – 2005 : SD Negeri Candiwates 1 Kabupaten Pasuruan

2. 2005 – 2008 : SMP Negeri 2 Pandaan Kabupaten Pasuruan

3. 2008 – 2011 : SMA Negeri 1 Pandaan Kabupaten Pasuruan

4. 2011 – 2018 : Universitas Brawijaya

Page 6: KLASIFIKASI JENIS KANKER BERDASARKAN STRUKTUR PROTEIN …repository.ub.ac.id/11714/1/Bagian Depan.pdf · Tawang Wulandari, Klasifikasi Jenis Kanker Berdasarkan Struktur Protein Menggunakan

vi

5. KATA PENGANTAR

Puji syukur atas kehadirat Allah SWT atas rahmat dan karunia yang telah diberikan-Nya, sehingga skripsi yang berjudul “Klasifikasi Jenis Kanker Berdasarkan Struktur Protein Menggunakan Algoritma Naïve Bayes” telah selesai dengan baik. Atas semua dukungan dan bantuan dari banyak pihak, penulis ingin menyampaikan rasa hormat dan terima kasih kepada:

1. Drs. Marji, M.T selaku dosen Pembimbing I dan Lailil Muflikhah, S.Kom, M.Sc selaku dosen Pembimbing II, yang telah sabar membimbing, mengarahkan dan memberi nasehat kepada penulis sehingga dapat menyelesaikan skripsi ini.

2. Agus Wahyu Widodo, S.T, M.Cs selaku Ketua Program Studi Tenik Informatika dan Ilmu Komputer, Fakultas Ilmu Komputer, Universitas Brawijaya.

3. Nurul Hidayat, S.Pd, M.Sc. selaku dosen penasehat akademik yang telah memberikan nasehat kepada penulis selama menempuh pendidikan.

4. Bapak dan ibu dosen, staff serta karyawan di Fakultas Ilmu Komputer, Universitas Brawijaya yang telah membantu penulis dalam pelaksanaan penyusunan skripsi ini.

5. Terima kasih kepada Ayah Yanto, Ibu Ninik, Adek Dian, Adek Radit, Kakek, Nenek, Om Nurdik, Tante Nia, serta seluruh keluarga tercinta, yang tetap percaya, sabar dan selalu memberikan semangat, dukungan serta doa kepada penulis hingga terselesaikannya skripsi ini.

6. Sahabat tercinta ravika, atiqo, clo, lily, zie, shofi dan karid yang telah memberikan semangat, dukungan dan bantuan kepada penulis

7. Teman-teman Ilmu Komputer 2011 yang telah memberikan dukungan kepada penulis.

8. Pihak-pihak yang telah membantu dan terlibat dalam penyelesaian skripsi ini yang tidak dapat penulis jabarkan satu persatu.

Semoga semua kebaikan dan pertolongan yang didapatkan penulis dari

semua pihak mendapatkan berkah dari Allah SWT. Penulis menyadari bahwa masih banyak kekurangan dalam penyusunan skripsi ini, oleh karena itu penulis mengharapkan saran dan kritik membangun agar skripsi ini lebih baik. Penulis berharap semoga skripsi ini dapat memberikan manfaat dan inspirasi terhadap pembaca dan masyarakat.

Malang, 10 Januari 2018

Penulis [email protected]

Page 7: KLASIFIKASI JENIS KANKER BERDASARKAN STRUKTUR PROTEIN …repository.ub.ac.id/11714/1/Bagian Depan.pdf · Tawang Wulandari, Klasifikasi Jenis Kanker Berdasarkan Struktur Protein Menggunakan

vii

ABSTRAK

Tawang Wulandari, Klasifikasi Jenis Kanker Berdasarkan Struktur Protein Menggunakan Algoritma Naïve Bayes

Pembimbing: Drs. Marji, M.T. dan Lailil Muflikhah S.Kom, M.Sc.

Kanker bermula ketika terdapat sel yang abnormal membelah dengan tidak terkontrol. Kanker dapat terbentuk karena berubahnya suatu gen, Karena sifat sel yang terus membelah tanpa henti yang seharusnya membentuk sel baru untuk mengganti sel lama, sebaliknya membuat sel yang tidak normal terus membelah dan terus tumbuh. Setiap tahun terdapat ribuan kasus baru kanker yang menyerang warga Indonesia. Terlambatnya deteksi dini meyebabkan banyak kasus kematian akibat kanker. Diprediksikan bahwa jumlah penderita kanker 20 tahun mendatang akan mencapai 24 juta penderita.

Faktor pasti penyebab kanker belum diketahui secara pasti. Faktor eksternal penyebab kanker antara lain genetik, karsinogen dan gaya hidup. Faktor tersebut dapat merubah struktur DNA. Perubahan DNA tersebut merugikan proses pembelahan sel dan menguntungkan proses mutasi. Pada proses mutasi dapat menghasilkan gen p53, perubahan genetik tersebut paling umum ditemukan pada kanker manusia. Dari permasalahan tersebut dibutuhkan sistem untuk mengklasifikasikan jenis kanker yang diderita oleh pasien. Salah satu metode yang digunakan adalah algoritma Naive Bayes. Naive Bayes merupakan sebuah pengklasifikasian probabilitas sederhana yang mengaplikasikan Teorema Bayes dengan asumsi ketidaktergantungan yang tinggi. Algoritma tersebut diketahui telah banyak digunakan dalam bidang kedokteran. Algoritma ini diterapkan pada hal-hal yang berhubungan dengan diagnosis medis. Diagnosis dilakukan dengan cara melihat gejala-gejala yang berkaitan kemudian melihat probabilitas kemungkinan dari penyakit.

Pada skripsi ini dilakukan pengujian dengan menggunakan beberapa dataset, yaitu 320, 400, 480, 588 dan 848 dataset. Persentase data uji yang diambil dari dataset adalah masing-masing 10% hingga 60%. Pengujian dilakukan untuk mengetahui tingkat akurasi yang dipengaruhi persentase data uji dan jumlah dataset struktur protein. Hasil akurasi yang didapatkan pada pengujian 588 dataset dengan persentase data uji 60% didapatkan akurasi tertinggi sebesar 79,17%.

Kata kunci: kanker, struktur protein, naïve bayes

Page 8: KLASIFIKASI JENIS KANKER BERDASARKAN STRUKTUR PROTEIN …repository.ub.ac.id/11714/1/Bagian Depan.pdf · Tawang Wulandari, Klasifikasi Jenis Kanker Berdasarkan Struktur Protein Menggunakan

viii

ABSTRACT

Tawang Wulandari, Cancer Classification Based on Protein Structure Using Naïve Bayes Algorithm

Supervisor: Drs. Marji, M.T. and Lailil Muflikhah S.Kom, M.Sc.

Cancer begins when there are abnormal cells that divide uncontrollably. Cancer can be formed due to the transformation of a gene, Due to the continuously splitting nature of the cell that is supposed to form new cells to replace the old cells, otherwise make the abnormal cells continue to divide and continue to grow. Every year there are thousands of new cases of cancer affecting Indonesians. The late detection caused many deaths from cancer. It is predicted that the number of cancer patients the next 20 years will reach 24 million patients.

The exact cause of cancer is not known for certain. External factors causing cancer include genetic, carcinogen and lifestyle. These factors can alter the structure of DNA. DNA changes are detrimental to the process of cell division and beneficial to the mutation process. In the mutation process can produce p53 gene, the genetic changes are most commonly found in human cancers. From these problems required a system to classify the types of cancer suffered by patients. One of the methods used is the Naive Bayes algorithm. Naive Bayes is a simple probability classification that applies Bayes Theorem with the assumption of high dependence. The algorithm is known to have been widely used in the field of medicine. The algorithm is applied to matters relating to medical diagnosis. Diagnosis is done by looking at the related symptoms then looking at the probability of the possibility of the disease.

In this thesis is tested using several datasets, namely 320, 400, 480, 588 and 848 datasets. The percentage of test data taken from the dataset is 10% to 60%, respectively. Tests conducted to determine the level of accuracy affected by the percentage of test data and the number of protein structure datasets. Accuracy results obtained in the test 848 dataset with the percentage of 60% test data obtained the highest accuracy of 79,17%.

Keywords: cancer, protein structure, naive bayes

Page 9: KLASIFIKASI JENIS KANKER BERDASARKAN STRUKTUR PROTEIN …repository.ub.ac.id/11714/1/Bagian Depan.pdf · Tawang Wulandari, Klasifikasi Jenis Kanker Berdasarkan Struktur Protein Menggunakan

ix

DAFTAR ISI

PENGESAHAN .................................................................................................... ii

IDENTITAS PENGUJI........................................................................................... iii

PERNYATAAN ORISINALITAS .............................................................................. iv

DAFTAR RIWAYAT HIDUP .................................................................................... v

ABSTRAK .......................................................................................................... vii

ABSTRACT ....................................................................................................... viii

DAFTAR ISI ......................................................................................................... ix

DAFTAR TABEL .................................................................................................. xii

DAFTAR GAMBAR ............................................................................................ xiii

DAFTAR SOURCE CODE ................................................................................... xiv

BAB 1 PENDAHULUAN ...................................................................................... 1

1.1 Latar Belakang ............................................................................ 1

1.2 Rumusan Masalah ...................................................................... 2

1.3 Tujuan ......................................................................................... 2

1.4 Manfaat ...................................................................................... 2

1.5 Batasan Masalah ........................................................................ 2

1.6 Sistematika Pembahasan ........................................................... 3

BAB 2 LANDASAN KEPUSTAKAAN ..................................................................... 4

2.1 Kajian Pustaka ............................................................................ 4

2.2 Landasan Teori ............................................................................ 5

2.2.1 Kanker .................................................................................. 5

2.2.2 Protein ................................................................................. 5

2.2.2.1 Gen P53 ........................................................................ 6

2.2.2.2 Kode Genetik Protein ................................................... 7

2.2.3 Data Mining ......................................................................... 8

2.2.3.1 Klasifikasi ...................................................................... 9

2.2.4 Naive Bayes ......................................................................... 9

BAB 3 METODOLOGI ....................................................................................... 11

3.1 Studi Literatur ........................................................................... 11

3.2 Analisis Kebutuhan ................................................................... 12

Page 10: KLASIFIKASI JENIS KANKER BERDASARKAN STRUKTUR PROTEIN …repository.ub.ac.id/11714/1/Bagian Depan.pdf · Tawang Wulandari, Klasifikasi Jenis Kanker Berdasarkan Struktur Protein Menggunakan

x

3.3 Perancangan ............................................................................. 12

3.4 Implementasi ............................................................................ 12

3.5 Pengujian dan Analisis .............................................................. 12

3.6 Kesimpulan dan Saran .............................................................. 13

BAB 4 PERANCANGAN .................................................................................... 14

4.1 Analisis Kebutuhan ................................................................... 14

4.1.1 Deskripsi Sistem ................................................................ 14

4.1.2 Analisis Kebutuhan Data ................................................... 14

4.2 Perancangan Perangkat Lunak ................................................. 16

4.3 Perancangan Pengujian ............................................................ 23

BAB 5 IMPLEMENTASI ..................................................................................... 25

5.1 Lingkungan Implementasi ........................................................ 25

5.2 Implementasi Program ............................................................. 25

5.2.1 Class DataDNA ................................................................... 25

5.2.2 Class NaiveBayes ................................................................ 27

5.2.3 Class MainProgram ............................................................ 29

5.3 Implementasi Program Perhitungan Manual ........................... 34

5.4 Implementasi Antarmuka ......................................................... 35

BAB 6 PENGUJIAN DAN ANALISIS .................................................................... 37

6.1 Pengujian Sistem ....................................................................... 37

6.1.1 Pengujian Pada 320 Dataset ............................................... 37

6.1.2 Pengujian Pada 400 Dataset ............................................... 37

6.1.3 Pengujian Pada 480 Dataset .............................................. 38

6.1.4 Pengujian Pada 588 Dataset .............................................. 38

6.1.5 Pengujian Pada 848 Dataset .............................................. 39

6.2 Analisis Hasil ............................................................................. 39

6.2.1 Analisis Hasil Data Uji Terhadap Tingkat Akurasi .............. 39

6.2.2 Analisis Hasil Pengaruh Jumlah Dataset Terhadap Tingkat Akurasi 40

BAB 7 PENUTUP .............................................................................................. 42

7.1 Kesimpulan ............................................................................... 42

7.2 Saran ......................................................................................... 42

Page 11: KLASIFIKASI JENIS KANKER BERDASARKAN STRUKTUR PROTEIN …repository.ub.ac.id/11714/1/Bagian Depan.pdf · Tawang Wulandari, Klasifikasi Jenis Kanker Berdasarkan Struktur Protein Menggunakan

xi

DAFTAR PUSTAKA ............................................................................................ 43

Page 12: KLASIFIKASI JENIS KANKER BERDASARKAN STRUKTUR PROTEIN …repository.ub.ac.id/11714/1/Bagian Depan.pdf · Tawang Wulandari, Klasifikasi Jenis Kanker Berdasarkan Struktur Protein Menggunakan

xii

DAFTAR TABEL

Tabel 2.1 Perbandingan penelitian ................................................................... 4

Tabel 2.2 Kode Genetik ..................................................................................... 7

Tabel 2.2 Kode Genetik (lanjutan) .................................................................... 8

Tabel 4.1 Protein P53 ...................................................................................... 14

Tabel 4.1 Protein P53 (lanjutan) ..................................................................... 15

Tabel 4.2 Data Latih ........................................................................................ 18

Tabel 4.3 Data Uji ............................................................................................ 18

Tabel 4.4 Probabilitas fitur (likelihood) ........................................................... 19

Tabel 4.4 Probabilitas fitur (likelihood) (lanjutan) .......................................... 20

Tabel 4.4 Probabilitas fitur (likelihood) (lanjutan) .......................................... 21

Tabel 4.5 Probabilitas kelas (prior) ................................................................. 21

Tabel 4.6 Pengujian Data Uji terhadap Tingkat Akurasi ................................. 24

Tabel 6.1 Hasil Pengujian pada 320 Dataset .................................................... 37

Tabel 6.2 Hasil Pengujian pada 400 Dataset ................................................... 38

Tabel 6.3 Hasil Pengujian pada 480 Dataset ................................................... 38

Tabel 6.4 Hasil Pengujian pada 588 Dataset ................................................... 39

Tabel 6.5 Hasil Pengujian pada 848 Dataset ................................................... 39

Page 13: KLASIFIKASI JENIS KANKER BERDASARKAN STRUKTUR PROTEIN …repository.ub.ac.id/11714/1/Bagian Depan.pdf · Tawang Wulandari, Klasifikasi Jenis Kanker Berdasarkan Struktur Protein Menggunakan

xiii

DAFTAR GAMBAR

Gambar 2.1 Struktur Protein ............................................................................ 6

Gambar 2.2 Kode Genetik ................................................................................ 7

Gambar 3.1 Diagram Alir Metodologi Penelitian ........................................... 11

Gambar 4.1 Flowchart Proses Sistem ............................................................. 16

Gambar 4.2 Algoritma Naive Bayes ................................................................ 17

Gambar 4.3 Antarmuka Klasifikasi Naive Bayes ............................................. 23

Gambar 5.1 Implementasi Hasil Prior ............................................................ 34

Gambar 5.2 Implementasi Hasil Peluang dan Klasifikasi ................................ 34

Gambar 5.3 Implementasi Hasil Akurasi......................................................... 35

Gambar 5.4 Implementasi Antarmuka ........................................................... 35

Gambar 5.5 Implementasi Input Data ............................................................ 35

Gambar 5.6 Implementasi Data ...................................................................... 36

Gambar 5.7 Implementasi Klasifikasi ............................................................. 36

Gambar 5.8 Implementasi Akurasi ................................................................. 36

Gambar 6.1 Grafik Hasil Pengujian Pengaruh Jumlah Data Uji ...................... 40

Gambar 6.2 Grafik Hasil Pengaruh Jumlah Dataset ........................................ 41

Page 14: KLASIFIKASI JENIS KANKER BERDASARKAN STRUKTUR PROTEIN …repository.ub.ac.id/11714/1/Bagian Depan.pdf · Tawang Wulandari, Klasifikasi Jenis Kanker Berdasarkan Struktur Protein Menggunakan

xiv

DAFTAR SOURCE CODE

Source Code 5.1 Class DataDNA ........................................................................... 25

Source Code 5.2 Class NaiveBayes ........................................................................ 27

Source Code 5.3 Class MainProgram ................................................................... 30