DETEKSI DINI PENYAKIT KANKER LEHER RAHIM (SERVIKS)...
Transcript of DETEKSI DINI PENYAKIT KANKER LEHER RAHIM (SERVIKS)...
TUGAS AKHIR – SS 141501 DETEKSI DINI PENYAKIT KANKER LEHER RAHIM (SERVIKS) DI KOTA BOGOR MENGUNAKAN REGRESI LOGISTIK BINER DAN SUPPORT VECTOR MACHINE (SVM) AGIL DARMAWAN NRP 1308 100 084 Dosen Pembimbing Santi Wulan Purnami,M.Si.,Ph.D
JURUSAN STATISTIKA Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Teknologi Sepuluh Nopember Surabaya 2016
TUGAS AKHIR – SS 141501 DETEKSI DINI PENYAKIT KANKER LEHER RAHIM (SERVIKS) DI KOTA BOGOR MENGUNAKAN REGRESI LOGISTIK BINER DAN SUPPORT VECTOR MACHINE (SVM) AGIL DARMAWAN NRP 1308 100 084 Dosen Pembimbing Santi Wulan Purnami,M.Si.,Ph.D JURUSAN STATISTIKA Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Teknologi Sepuluh Nopember Surabaya 2016
N JUDUL
FINAL PROJECT – SS141501
EARLY DETECTION OF CERVIXAL CANCER IN BOGOR
USING BINARY LOGISTIC REGRESSION AND SUPPORT
VECTOR MACHINE (SVM)
Agil Darmawan NRP 1308 100 084 Supervisor Santi Wulan Purnami, M.Si., Ph.D
DEPARTMENT OF STATISTICS Faculty Of Mathematics And Natural Sciences Institut Teknologi Sepuluh Nopember
Surabaya 2016
LEMBAR PENGESAIIAN
DETEKSI DINI TET{YAIilT KANKER LEHER RAIIIM{sER}:rKS) Dr KOTA BOGOR MENGUNAKAN REGREST
LOGISTIK BINER DAN SUPPORT VECTOR MACHINE(svM)
TLTGAS AKIIIRDiajukan untuk Memenuhi Salah Satu Syarat Kelulusan
Program Studi Strata I Jwusan StatistikaFakultas Matematika dan lhau Pengetahuan Alarn
Institut Teknologi Sepuluh Nopember
Oleh:AGIL DARMAWANNRP. 1308 100 084
Disetujui oleh Pernbirnbing Tugas,{khir
Santi Etulan Pureami, M.Si., Ph.DNrP. 19720923 199803 ? 00i
G4,
i i l r r
v
DETEKSI DINI PENYAKIT KANKER LEHER RAHIM
DI KOTA BOGOR MENGUNAKAN REGRESI LOGISTIK
BINER DAN SUPPORT VECTOR MACHINE (SVM)
Nama : Agil Darmawan
NRP : 1308 100 084
Jurusan : Statistika FMIPA-ITS
Dosen Pembimbing : Santi Wulan P.,M.Si.,Ph.D.
ABSTRAK
Negara-negara berkembang menyumbang 370.000 dari total
466.000 kasus serviks kanker yang diperkirakan terjadi di dunia dalam
tahun 2000. Sebagian besar kasus kanker serviks disebabkan oleh
infeksi Human Papilloma Virus (HPV). Kanker serviks tidak akan
terdiagnosa secara langsung karena ada fase pra-ganas selama beberapa
tahun, maka dibutuhkan deteksi dini untuk mencegah munculnya fase
ganas pada kanker serviks. Untuk melakukan deteksi dini tersebut
digunakan metode klasifikasi Support Vector Machine (SVM) yang
akan dibandingkan dengan Regresi Logistik Biner. Selain untuk melihat
ketepatan klasifikasi Regresi Logistik Biner juga digunakan untuk
mengetahui variabel predictor yang paling berpengaruh terhadap
respon. Dalam penelitian ini, data diambil dari Studi Kohort Faktor
Risiko Penyakit Tidak Menular di Kota Bogor. Variabel prediktor yang
digunakan adalah sebanyak 13 variabel. Faktor resiko yang
berpengaruh signifikan pada taraf signifikasi 90% (=0,1) terhadap
Kanker Serviks pada Analisis Regresi Logistik Biner adalah Lama
penggunaan kontrasepsi, Riwayat Keluarga dan Tes Pap Smear.
Performansi klasifikasi menggunakan SVM pada semua kombinasi baik
90:10, 70:30, dam 50:50 adalah sebesar 100%, sedangkan nilai
specificity semua 0%. Akurasi klasifikasi menggunakan Logistik Biner
tertinggi adalah kombinasi 90:10 sebesar 100%, kombinasi 70:30
sebesar 87,7%, sedangkan kombinasi 50:50 sebesar 55,5%..
Kata kunci : kanker serviks, klasifikasi, Regresi Logistik, SVM
vi
(Halaman ini sengaja dikosongkan)
vii
EARLY DETECTION OF THE CERVIXAL CANCER IN
BOGOR USING BINARY LOGISTIC REGRESSION AND
SUPPORT VECTOR MACHINE (SVM)
Name : Agil Darmawan
NRP : 1308 100 084
Department : Statistika FMIPA-ITS
Supervisor ;: Santi Wulan P.,M.Si.,Ph.D.
ABSTRAK
Developing countries accounted for 370,000 of the total 466,000
cases of cervical cancer are expected to occur in the world in the year
2000 Most cases of cervical cancer are caused by infection with Human
Papilloma Virus (HPV). Cervical cancer will not be diagnosed directly
because there is a pre-malignant phase for several years, it is necessary
to prevent the emergence of early detection of malignant phase in
cervical cancer. For the early detection of the used classification method
Support Vector Machine (SVM) which will be compared to Binary
Logistic Regression. In addition to seeing the classification accuracy
Binary logistic regression was also used to determine the most
influential predictor variables on the response. In this study, the data
was taken from Cohort Study of Risk Factors of Non-Communicable
Diseases in the city of Bogor. Predictor variables used were as many as
13 variables. Risk factors that have a significant effect on the 90%
significance level ( = 0.1) against Cervical Cancer in Binary Logistic
Regression Analysis is Older contraceptive use, family history and Pap
Smear Tests. Performance of classification using SVM on all the good
combination of 90:10, 70:30, 50:50 dam is at 100%, while the
specificity values of all 0%. Classification accuracy using Binary
Logistic highest is 90:10 combination of 100%, 87.7% combination of
70:30, while the combination of 50:50 at 55.5%.
Key word : cervical cancer, classification, logistic regression, SVM
viii
(Halaman ini sengaja dikosongkan)
ix
KATA PENGANTAR
Alhamdulillah puji syukur penulis panjatkan kehadirat
Allah SWT, yang atas rahmat, taufik, dan hidayah-Nya sehingga
penulis mampu menyelesaikan penyusunan Tugas Akhir yang
berjudul “Deteksi Dini Penyakit Kanker Leher Rahim
(Serviks) di Kota Bogor Mengunakan Regresi Logistik Biner
dan Support Vector Machine (SVM)”.
Selama penulisan laporan Tugas akhir ini tentunya
penulis tidak lepas dari bantuan dan sokongan dari banyak fihak.
Oleh karena itu, dengan penuh kerendahan hati penulis ingin
mengucapkan terima kasih kepada semua yang membantu
penyelesaian dalam proses Tugas Akhir ini, khususnya kepada :
1. Allah SWT yang karena kasih sayang-Nya penulis mampu
menyelesaikan Tugas Akhir ini.
2. Almarhum Kedua orang tuaku, Ayahanda Masykur Idris,
S.H dan Ibunda Siti Khudewi A.Z. yang membuat penulis
terus termotivasi. Serta mbak Ana Nur Aida. Mereka adalah
keluarga terbaik yang Allah turunkan untuk penulis.
3. Ibu Dr. Santi Wulan Purnami, S.Si.,M.Si. selaku dosen
pembimbing atas segala kesabaran dalam memnberi
bimbingan, saran, semangat, dan waktu yang diberikan
kepada penulis hingga laporan Tugas Akhir ini selesai.
4. Bapak Dr. Suhartono, M.Sc. selaku Ketua Jurusan Statistika
ITS.
5. Bapak Dr. Purhadi, M.Sc dan Ibu Ir. Mutia Salamah, M.Kes,
selaku dosen penguji atas kritik dan saran demi sempurnanya
Tugas Akhir ini.
6. Bapak Dr. Wahyu Wibowo, S.Si., M.Si. selaku dosen wali,
atas masukan dan bimbingannya selama penulis berada di
bangku kuliah.
7. Bapak Dr. Sutikno, M.Si. selaku Ketua Program studi SI
Stastistika ITS.
x
8. Fairizi, Ikhsan, Erik, Septian, Zainudin dan Reza yang telah
menjadi sahabat baik suka maupun duka. Terimakasih atas
semangat, motivasi, uluran waktu, dan doanya.
9. Nur Fain yang dengan segala keikhlasan untuk bersedia
meminjamkan laptop sehingga penulis mampu menyelesai-
kan Tugas Akhir ini.
10. Penghuni Ma‟had Ukhuwah Islamiyah, Al Faruqi, dan
Pondok Hijrah yang membersamai penulis sepanjang masa
perkuliahan.
11. Pak Ripan beserta segenap keluarga Litbangkes Kemenkes
RI yang membantu penyusunan dna pengiriman data.
12. Keluarga besar JMMI ITS dan Statistika Angkatan 2008 atas
kebersamaan yang indah selama ini.
13. Semua pihak yang tidak dapat disebutkan satu-persatu yang
telah membantu hingga pelaksanaan Tugas Akhir ini dapat
terselesaikan dengan baik.
Dalam Penulisan laporan ini penulis merasa masih banyak
kekurangan-kekurangan baik pada teknis penulisan maupun
materi, mengingat akan kemampuan yang dimiliki penulis. Untuk
itu kritik dan saran dari semua pihak sangat penulis harapkan
demi penyempurnaan pembuatan laporan ini.
Akhir kata, penulis berharap semoga Allah memberikan
imbalan yang setimpal pada mereka yang telah memberikan
bantuan, dan dapat menjadikan semua bantuan ini sebagai ibadah,
Amiin Yaa Robbal „Alamiin.
Surabaya, 10 April 2016
Penulis
xi
DAFTAR ISI
Halaman
HALAMAN JUDUL....................................................................... i
TITLE PAGE ................................................................................. ii
LEMBAR PENGESAHAN ..........................................................iii
ABSTRAK ...................................................................................... v
ABSTRACT ................................................................................. vii
KATA PENGANTAR .................................................................. ix
DAFTAR ISI ................................................................................. xi
DAFTAR TABEL .......................................................................xiii
DAFTAR GAMBAR ................................................................... xv
DAFTAR LAMPIRAN ............................................................. xvii
BAB I PENDAHULUAN ........................................................... 1
1.1 Latar Belakang ........................................................... 1
1.2 Rumusan Masalah ...................................................... 3
1.3 Tujuan Penelitian ....................................................... 4
1.4 Manfaat Penelitian ..................................................... 4
BAB II TINJAUAN PUSTAKA ................................................. 5
2.1 Statistika Deskriptif .................................................... 5
2.2 Regresi Logistik Biner ............................................... 5
2.3 Support Vector Machine .......................................... 10
2.4 Kanker Serviks ......................................................... 16
BAB III METODOLOGI PENELITIAN .................................. 19
3.1 Sumber Data ............................................................. 19
3.2 Variabel Penelitian ................................................... 19
3.3 Langkah Analisis ...................................................... 20
BAB IV ANALISIS DAN PEMBAHASAN .............................. 23
4.1 Deskripsi Faktor resiko Kanker serviks ................... 23
4.2 Analisis dengan Regresi Logistik Biner ................... 25
4.3 Klasifikasi Regresi Logistik Biner ........................... 33
4.3 Analisis menggunakan SVM .................................... 36
4.4.Perbandingan akurasi SVM dengan Regresi
Logistik Biner .......................................................... 38
xii
BAB V KESIMPULAN DAN SARAN ............................... 39 5.1 Kesimpulan............................................................... 39
5.2 Saran ......................................................................... 39
DAFTAR PUSTAKA ................................................................. 41
LAMPIRAN ................................................................................ 43
xiii
DAFTAR TABEL
Halaman
Tabel 2.1 Tabel Ketepatan Klasifikasi ....................................... 9
Tabel 2.2 Fungsi kernel pada SVM ......................................... 15
Tabel 3.2 Variabel Penelitian ................................................... 20
Tabel 4.1 Statistika Deskriptif ................................................. 23
Tabel 4.2 Crosstab variabel skala nominal .............................. 24
Tabel 4.3 Uji Univariabel ........................................................ 25
Tabel 4.4 Uji Serentak ............................................................. 27
Tabel 4.5 Uji Parsial dan Estimasi Parameter .......................... 28
Tabel 4.6 Uji Kebaikan Model ................................................. 31
Tabel 4.7 Hasil uji data training 50% ...................................... 32
Tabel 4.8 Hasil uji data training 70% ...................................... 33
Tabel 4.9 Hasil uji data training 90% ...................................... 33
Tabel 4.10 Hasil klasifikasi 50:50.............................................. 34
Tabel 4.11 Hasil klasifikasi 70:30.............................................. 34
Tabel 4.12 Hasil klasifikasi 90:10.............................................. 35
Tabel 4.13 Perbandingan Hasil klasifikasi ................................. 35
Tabel 4.14 Penghitungan SVM training 50% ............................ 36
Tabel 4.15 Penghitungan SVM training 70% ............................ 37
Tabel 4.16 Penghitungan SVM training 90% ............................ 37
Tabel 4.17 Hasil Klasifikasi SVM ............................................. 38
xiv
(Halaman ini sengaja dikosongkan)
xv
DAFTAR GAMBAR
Halaman
Gambar 2.1 Hyperplane SVM .................................................... 11
Gambar 2.2 .Pemisah non Linier SVM ...................................... 13
Gambar 2.2 Transformasi ruang vektor dimensi tinggi .............. 14
Gambar 2.3 Kanker serviks pada sistem reproduksi .................. 16
Gambar 3.1 Flowchart Penelitian ............................................... 22
xvi
(Halaman ini sengaja dikosongkan)
xvii
DAFTAR LAMPIRAN
Halaman
Lampiran 1 Data Studi Kohort PTM 2011 kanker serviks ......... 51
Lampiran 2 Uji Univariabel ........................................................ 52
Lampiran 3 Uji Kesesuaian Model ............................................. 53
Lampiran 4 Uji Serentak ............................................................. 54
Lampiran 5 Uji Parsial dan Estimasi Parameter ......................... 55
Lampiran 6 Syntax dan output SVM pembentukan model ......... 56
xviii
(Halaman ini sengaja dikosongkan)
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Kanker serviks merupakan suatu problem kesehatan
masyarakat bagi perempuan dewasa di negara-negara berkembang
di Asia Tenggara, Amerika Tengah dan Selatan, Afrika. Sebagian
besar kasus kanker serviks disebabkan oleh infeksi Human
Papilloma Virus (HPV), virus menular yang menginfeksi sel dan
dapat menyebabkan \kanker invasif. Negara-negara berkembang
menyumbang 370.000 dari total 466.000 kasus serviks kanker
yang diperkirakan terjadi di dunia dalam tahun 2000. Di seluruh
dunia, kanker serviks diklaim menjangkit 231.000 wanita per
tahun, lebih dari 80% yang terjadi di negara berkembang (WHO,
2001).
Kanker serviks memiliki tahap pra-ganas yang berlangsung
beberapa tahun. Oleh karena itu untuk mendeteksi dini adanya
kanker serviks dianjurkan untuk melakukan pemeriksaan Pap
Smear (Susanti, 2012).
Data-data ini diperkuat dengan penelitian Yayasan Kanker
Indonesia yang memperkirakan, ada sekitar 52 juta perempuan
Indonesia memiliki risiko terkena kanker serviks. Semua data
tersebut seolah mempertegas asumsi bahwa setiap perempuan
berisiko terkena infeksi Human Papilloma Virus (HPV), virus
penyebab kanker serviks (kotabogor.go.id). Data dari Yayasan
Kanker Indonesia juga (2009), di Kota besar rasio terjangkitnya
penyakit ini adalah 90 per 100.000 penduduk. Angka ini 400%
lebih tinggi dari Belanda yang hanya 9 per 100.000 penduduk.
Kota Bogor menjadi wilayah yang berinisiatif untuk
merealisasikan hal tersebut dengan mengadakan “Layanan
Papsmear dan KB Gratis” dengan menghadirkan 100 Ibu Rumah
Tangga pada 25 Mei 2011, bertempat di Klinik Ikatan Bidan
Indonesia, Kelurahan Cikaret Kecamatan Bogor Selatan Kota
Bogor. Tes Pap Smear bertujuan untuk melihat kondisi
kenormalan sel – sel leher Rahim dengan adanya HPV ataupun
2
sel karsinoma penyebab Kanker Leher Rahim. Tes Pap Smear
sebaiknya dilakukan satu kali setahun oleh setiap wanita yang
sudah melakukan hubungan seksual (kotabogor.go.id). Salah satu
faktor yang menjadikan resiko terjangkitnya kanker serviks
menjadi besar adalah tidak rutinnya tes Pap Smear tersebut (Mc
Cormick, 2011).
Faktor resiko adalah faktor atau variabel yang diduga mampu
meningkatkan resiko terkena penyakit. Usia yang rawan terserang
penyakit ini adalah perempuan berusia 35-55 tahun, perempuan
yang berusia > 65 tahun persentase terserang penyakit adalah
20%. Selain faktor usia, penggunaan kontrasepsi jenis hormonal
seperti pil dan suntik juga meningkatkan resiko terserang kanker
serviks, terutama untuk penggunaan yang lama . Faktor lain,
perempuan yang sering melahirkan anak (paritas) dan ganti-ganti
pasangan seksual meningkatkan resiko kanker ini
(health.detik.com). Adanya riwayat kanker pada keluarga juga
meningkatkan resiko terjangkit kanker serviks (asiacancer.com).
Faktor resiko lain adalah merokok, karena rokok dapat
mengganggu sistem imun tubuh dalam melawan virus (Mc
Cormick, 2011).
Beragamnya faktor resiko penyakit kanker serviks, maka
untuk mengetahui faktor resiko yang berpengaruh signifikan
terhadap kanker serviks tersebut peneliti menggunakan Regresi
Logistik Biner. Regresi logistik biner bermanfaat untuk penelitian
dengan variabel respon biner (dua outcome), seperti ya-tidak,
benar-salah, normal-abnormal, dan lain-lain. Pada penelitian
tentang kanker serviks oleh Intansari (2012) menggunakan
Bagging Logistik menunjukkan faktor yang paling berpengaruh
signifikan terhadap kanker serviks adalah usia, jumlah anak, usia
pertama melahirkan, dan penggunaan kontrasepsi. Disamping
mendapatkan faktor resiko yang berpengaruh signifikan, Regresi
Logistik Biner mampu membuat model klasifikasi untuk
memprediksi / mendeteksi diagnosa kanker serviks / tidak.
Keunggulan Regresi Logistik Biner adalah tidak memiliki asumsi
normalitas atas variabel bebas (X) yang digunakan dalam model.
3
Jadi variabel penjelas tidak harus memiliki distribusi normal,
linier, maupun memiliki varian yang sama dalam setiap group
(identik). Selain itu variabel bebas dalam regresi logistik bisa
campuran dari variabel kontinyu, diskrit dan dikotomis.
Pada penelitian Intansari (2012) tersebut didapatkan akurasi
ketepatan klasifikasi menggunakan Bagging Logistic sebesar
70,74%. Nilai tersebut masih tergolong rendah, sehingga hasil
klasifikasi menggunakan Bagging Logistic belum bisa dijadikan
referensi. Untuk mengatasi hal tersebut dibutuhkan metode
klasifikasi lain yang memiliki ketepatan klasifikasi tinggi, yaitu
Support Vector Machine (SVM). SVM adalah metode learning
machine yang bekerja atas prinsip Structural Risk Minimization
(SRM) dengan tujuan menemukan pemisah (hyperplane) terbaik
yang memisahkan dua buah class pada input space. Keunggulan
SVM adalah memiliki tingkat akurasi klasifikasi yang tinggi
dibanding metode lain seperti Logistic Regression, Neural
Netwotk (NN) dan Discriminant Analysis (Nugroho & Handoko,
2003). Pada penelitian Rahman (2012) tentang Kanker Payudara
menggunakan Regresi Logistik Ordinal dan SVM, hasil
pengukuran klasifikasi kedua metode, akurasi SVM sebesar 98,11
% jauh lebih tinggi dari pada Regresi Logistik Ordinal yang
bernilai 56,60%.
1.2 Perumusan Masalah
Permasalahan yang akan dibahas pada penelitian ini
berdasarkan latar belakang di atas adalah sebagai berikut.
1. Apa saja faktor-faktor yang mempengaruhi terjangkitnya
penyakit kanker serviks di Kota Bogor menggunakan Regresi
Logistik Biner?
2. Bagaimana klasifikasi penyakit kanker servik berdasarkan
faktor-faktor yang mempengaruhi menggunakan Regresi
Logistik Biner dan Support Vector Machine (SVM)?
3. Bagaimana ketepatan klasifikasi menggunakan metode
Regresi Logistik Biner dan Support Vector Machine (SVM)?
4
1.3 Tujuan
Berdasarkan permasalahan di atas, maka tujuan dari
penelitian ini adalah sebagai berikut.
1. Untuk mendapatkan faktor-faktor yang mempengaruhi ter-
jangkitnya penyakit kanker serviks di Kota Bogor menggu-
nakan Regresi Logistik Biner.
2...Untuk mendapatkan model klasifikasi penyakit kanker serviks
berdasarkan faktor-faktor yang mempengaruhi menggunakan
Regresi Logistik Biner dan Support Vector Machine (SVM).
3...Untuk mendapatkan model terbaik dari perbandingan
ketepatan klasifikasi metode Regresi Logistik Biner dan
Support Vector Machine (SVM).
1.4 Manfaat Manfaat yang diharapkan dari penelitian ini antara lain.
1. .Menambah khazanah penerapan ilmu Statistika dalam bidang
kesehatan.
2...Dengan mengetahui faktor – faktor yang mempengaruhi
penyakit kanker serviks bisa memberikan masukan kepada
instansi kesehatan untuk rutin memberikan penyuluhan dan
fasilitas kesehatan terkait kanker serviks kepada masyarakat.
3...Dengan mengetahui model deteksi kanker serviks, bisa
menjadi informasi penting bagi para tenaga medis untuk
memprediksi / mendeteksi terjangkitnya kanker serviks.
5
BAB II
TINJAUAN PUSTAKA
2.1. Statistika Deskriptif
Statistika deskriptif adalah metode yang digunakan untuk
mendeskripsikan atau menggambarkan data, meliputi pengumpu-
lan, pengorganisasian, serta penyajian data dengan menggunakan
ukuran pemusatan, ukuran keragaman, ukuran bentuk, dan ukuran
relatif sehingga dapat memberikan informasi yang jelas, berguna,
dan mudah dimengerti. (Walpole, 1995). Penelitian ini meng-
gunakan data kategorik sehingga mengunakan tabulasi silang
(crosstab).
Ciri penggunaan crosstab adalah data input yang berskala
nominal atau ordinal, seperti tabulasi antara gender seseorang
dengan tingkat pendidikan orang tersebut, pekerjaan seseorang
dengan sikap orang tersebut dengan suatu produk tertentu, dan
lainnya. Pembuatan crosstab dapat juga disertai dengan penghitu-
ngan tingkat hubungan (asosiasi) antar variabel.
2.2 Regresi Logistik Biner
Analisis Regresi adalah suatu metode yang mendiskripsi-
kan antara variabel respon dan satu atau lebih variabel penjelas
atau prediktor (Hosmer dan Lemeshow, 2000). Regresi Logistik
Biner adalah metode regresi yang mampu menyelesaikan kasus di
mana variabel respon berupa dichotomous, ya-tidak, sukses-
gagal, normal-cacat, hidup-mati, benar-salah, laki-laki-perempu-
an, dan sebagainya. Variabel respon adalah data kategorik
(Agresti, 2002).
Outcome variabel y yang terdiri dari 2 kategori, yaitu
“sukses” dan “gagal” dinotasikan dengan y = 1 (sukses) dan y = 0
(gagal). Variabel y tersebut mengikuti distribusi Bernaulli untuk
setiap observasi tunggal. Fungsi probabilitas untuk setiap obser-
vasi adalah : yyyf 1)1()( y = 0, 1 (2.1)
6
Di mana jika y = 0 maka f(y) = 1 – π dan jika y = 1 maka
f(y) = π. Fungsi regresi logistiknya dapat ditulis sebagai berikut :
zezf
1
1)( ekuivalen
z
z
e
ezf
1)( (2.1)
dengan z = pp xx ...110
.
Nilai z antara – sampai + sehingga nilai f(z) terletak
antara 0 dan 1 untuk setiap nilai z yang diberikan. Hal tersebut
menunjukkan bahwa model Logistik sebetulnya menggambarkan
probabilitas atau resiko dari suatu objek. Model regresi logistik-
nya adalah sebagai berikut :
pxpx
pxpx
e
ex
...110
...110
1)( , (2.3)
di mana p = banyaknya prediktor.
Untuk mempermudah pendugaan parameter regresi maka
persamaan (2.3) di atas dapat diuraikan menggunakan transforma-
si logit dari π (x) sebagai berikut :
pp xxx
xxg
...
)(1
)(ln)( 110
, (2.4)
model tersebut merupakan fungsi linear dari parameter – parame-
ternya.
2.2.1 Estimasi Parameter
Estimasi parameter pada regresi Logistik menggunakan
Maximum Likelihood. Metode ini menduga parameter β dengan
cara memaksimumkan fungsi likelihood dan mensyaratkan data
harus mengikuti suatu distribusi tertentu. Pada regresi Logistik
biner, setiap percobaan mengikuti distribusi Bernaulli sehingga
dapat ditentukan fungsi likelihoodnya.
Jika xi dan yi adalah pasangan variabel respon dan
prediktor pada pengamatan ke-i dan diasumsikan bahwa setiap
pengamatan saling independen dengan pasangan pengamatan
7
lainnya, i = 1, 2, …, n maka fungsi probabilitas untuk setiap
pasangan adalah sebagai berikut :
iyi
iyii xxxf
1))(1()()( yi = 0, 1 (2.5)
dengan,
p
jjxj
p
jjxj
i
e
ex
1
1
1
)(
(2.6)
Ketika j = 0 maka xij = xi0 = 1 fungsi likelihoodnya adalah :
n
i
iyi
iyi
n
ii xxxfl
1
1
1
))(1()()()( (2.7)
Fungsi likelihood tersebut lebih mudah dimaksimumkan
dalam bentuk log l(β) dan dinyatakan dalam L(
).
L(
) = log l (
) =
p
jjxjn
ij
p
j
n
iiji exy 1
1
log
0 1
1
(2.8)
Nilai β didapatkan melalui turunan L(
) terhadap β dan
hasilnya disamadengankan 0.
p
jjxj
p
jjxj
n
iij
n
iiji
j
e
exxy
L
1
1
11
1
)(
(2.9)
Sehingga, 0)(11
ii
n
iij
n
iiji xxxy
j = 0, 1, …, p (2.10)
Untuk mencari turunan dari persamaan (2.10) –yang telah
disamadengankan nol– seringkali tidak mendapatkan hasil yang
eksplisit sehingga digunakan metode iterasi Newton Raphson un-
tuk mengatasinya.
8
Berikutnya adalah melakukan pengujian secara serentak
untuk mengetahui keberartian koefisien β secara serentak terha-
dap respon.
H0 : β1 = β2 = … = βp = 0
H1 : minimal ada satu βj ≠ 0 j = 1, 2, …, p
Statistik uji :
n
i
iyi
iyi
nn
n
n
n
n
G
1
1
00
11
)1(
ln2
(2.13)
Di mana,
n
iiyn
11
n
iiyn
10 )1( (2.14)
Statistik uji G merupakan Likelihood Rasio Test yang
mengikuti distribusi Chi Square sehingga tolak H0 jika G > 2(v,)
dengan v derajat bebas banyaknya parameter dalam model tanpa
β0.
Kemudian dilakukan pengujian keberartian terhadap koe-
fisien β secara univariat terhadap variabel respon yaitu dengan
membandingkan parameter hasil maksimum likelihood, dugaan β
dengan standard error parameter tersebut.
H0 : βi = 0
H1 : βi ≠ 0 i = 1, 2, …, p
Statistik uji : )( i
i
SEW
(2.11)
Rumus di atas biasa disebut Uji Wald, yang mengikuti
distribusi normal sehingga tolak H0 jika |W| > Z/2 dan dapat
diperoleh melalui persamaan berikut :
2
22
)( i
i
SEW
(2.12)
Statistik uji tersebut mengikuti distribusi chi square
sehingga tolak H0 jika W2 >
2(1) dengan v derajat bebas banyak-
nya prediktor.
9
Uji berikutnya adalah Uji Kesesuaian Model. Ini dimak-
sudkan untuk mendapatkan informasi apakah terdapat perbedaan
antara hasil pengamatan dengan kemungkinan hasil prediksi
model.
H0 : Model sesuai
H1 : Model tidak sesuai
Statistik uji :
g
k kkk
kkk
n
no
1'
2'
2
)1(
)(
(2.15)
Di mana;
ok : observasi pada grup ke – k
k : rata-rata taksiran peluang
g : jumlah grup 'kn : banyak observasi grup ke - k
Daerah penolakannya adalah, tolak H0 jika 2 <
2(p-1,)
2.2.2 Evaluasi Performansi Model
Performansi dalam melakukan klasifikasi kanker serviks
diuji ketepatannya menggunakan data testing. Pengukuran
ketepatan klasifikasi menggunakan sensitivitas, spesivisitas, dan
akurasi berdasarkan model yang terbentuk.
Tabel 2.1 Ketepatan klasifikasi
Observasi Prediksi
Gagal Sukses
Gagal n11 n12
Sukses n21 n22
n11: kategori gagal yang diprediksi gagal
n12: kategori gagal yang diprediksi sukses
n21: kategori sukses diprediksi gagal
n22: kategori sukses diprediksi sukses
Akurasi :
10
Specificity :
Sensitifity :
2.3 Support Vector Machine (SVM)
Metode klasifikasi modern Support Vector Machine (SVM)
pertama kali diperkenalkan oleh Vapnik pada tahun 1992, dipre-
sentasikan di Annual Workshop on Computational Learning
Theory. SVM adalah metode learning machine yang bekerja atas
prinsip Structural Risk Minimization (SRM) dengan tujuan me-
nemukan pemisah (hyperplane) terbaik yang memisahkan dua
buah class pada input space (Nugroho dan Handoko, 2003).
Metode SVM berbeda dengan klasifikasi neural network
yang mencari hyperplane antar class, namun SVM berusaha me-
nemukan hyperplane paling tepat pada input space. Prinsip dasar
SVM adalah linear classifier, dan selanjutnya dikembangkan agar
dapat digunakan untuk kasus non-linear dengan memasukkan
konsep Kernel. Dengan begitu, ada suatu jaminan bahwa klasi-
fikasi menggunakan SVM akan menghasilkan pemetaan yang
sangat akurat (Lin, 2003).
2.3.1 Konsep Support Vector
Seperti yang dijelaskan di atas, SVM mencari hyperplane
paling tepat yang berfungsi sebagai pemisah dua buah class pada
input space, dalam hal ini adalah class : +1 dan –1. Pattern yang
tergabung pada class –1 disimbolkan dengan warna merah
(kotak), sedangkan pattern pada class +1, disimbolkan dengan
warna kuning (lingkaran). Metode klasifikasi berupaya untuk
menemukan garis (hyperplane) yang memisahkan antara kedua
kelompok tersebut.
11
Gambar 2.1 SVM mendapatkan hyperplane terbaik yang memisahkan
class –1 dan +1
Alternatif garis pemisah (discrimination boundaries) di-
tunjukkan pada gambar (1a). Pemisah terbaik antara kedua class
dapat ditemukan dengan mengukur margin hyperplane tersebut.
dan mencari titik maksimalnya. Margin adalah jarak antara hyper-
plane tersebut dengan pattern terdekat dari masing-masing class.
Garis solid pada gambar (1b) menunjukkan hyperplane yang
terbaik, yaitu yang terletak tepat pada tengah-tengah kedua class,
sedangkan titik merah dan kuning yang berada dalam lingkaran
hitam adalah support vector.
2.3.2 Support Vector Classification
Data yang ada dinotasikan sebagai sedangkan
untuk respon/target masing-masing dinotasikan sebagai
…………………………, yang mana l adalah banyaknya data.
Diketahui bahwa X memiliki pola tertentu, yaitu apabila
…..termasuk ke dalam class maka
diberikan label
(target) 1iy dan 1iy . Diasumsikan +1 dan –1 dapat
terpisah secara sempurna oleh hyperplane berdimen-i d, yang
didefinisikan :
0. bxw
(2.16)
(1b) (1a)
liyi ,...,2,1,1,1
d
ix
ixix
12
Pattern ix
yang termasuk class –1 (sampel negatif) dapat
dirumuskan sebagai pattern yang memenuhi pertidaksamaan se-
bagai berikut :
1. bxw
(2.17)
Pattern ix
yang masuk class +1(sampel positif) dapat
dirumuskan sebagai pattern yang memenuhi pertidaksama-an :
1. bxw
(2.18)
Margin terbesar dapat ditemukan dengan memaksimalkan
nilai jarak antara hyperplane dan titik terdekatnya, yaitu 1/ w
.
Hal ini dapat dirumuskan sebagai Quadratic Programming (QP)
problem, yaitu mencari titik minimal persamaan (2.19), dengan
memperhatikan constraint persamaan (2.20).
2
2
1min ww
w
(2.19)
libxwyi ,...,1,0.
(2.20)
Problem ini dapat diselesaikan dengan teknik metode
Lagrange Multiplier.
l
iiii bxwywbwL
1
21.
2
1,,
(i=1,2,…) (2.21)
Di mana i adalah Lagrange Multiplier yang bernilai nol
atau positif (i ≥ 0). Nilai optimal dari persamaan (2.21) dapat
dihitung dengan meminimalkan L terhadap w
dan b, dan
memaksimalkan L terhadap i. Dengan memperhatikan sifat
bahwa pada titik optimal gradient L = 0, persamaan (2.21) dapat
dimodifikasi sebagai maksimalisasi problem yang hanya
mengandung saja i, sebagaimana persamaan (2.22) di bawah.
Maximize :
l
jijijiji
l
ii xxyy
1,1 2
1 , (2.22)
yang mana, i ≥ 0 (i=1,2,..l)
13
l
iii y
1
= 0. (2.23)
Dari hasil dari perhitungan ini diperoleh i yang kebanya-
kan bernilai positif. Data yang berkorelasi dengan i yang positif
inilah yang disebut sebagai support vector.
2.3.3 Soft Margin
Teorema di atas berjalan atas asumsi bahwa kedua class
dapat terpisah secara sempurna oleh hyperplane. Namun umum-
nya dua buah class pada input space tidak dapat terpisah secara
sempurna. Hal ini menyebabkan constraint pada persamaan
(2.20) tidak terpenuhi, sehingga optimisasi tidak dapat dilakukan.
Gambar 2.2 Pemisah non Linier SVM
Untuk mengatasi masalah ini, SVM dirumuskan ulang
dengan memperkenalkan teknik soft margin. Dalam soft margin,
persamaan (2.20) dimodifikasi dengan memasukkan slack
variabel , dengan ( > 0).
iii bxwy 1.
(2.24)
Sehingga persamaan (2.19) diubah menjadi :
l
ii
wCww
1
2
2
1,min
(2.25)
Paramater C dipilih untuk mengontrol trade off antara
margin dan error klasifikasi . Nilai C yang besar berarti akan
memberikan penalti yang lebih besar terhadap error klasifikasi
tersebut.
14
2.3.4 Fungsi Kernel pada SVM
Pada hakikatnya masalah dalam domain dunia nyata jarang
yang bersifat linear separable. Kebanyakan dari kasus tersebut
bersifat non linear. Untuk menyelesaikan problem non linear,
SVM dimodifikasi dengan memasukkan Fungsi Kernel.
Dalam non linear SVM, pertama-tama data x
dipetakan
oleh fungsi Φ( x
) ke ruang vektor yang berdimensi lebih tinggi.
Pada ruang vektor yang baru ini, hyperplane yang memisahkan
kedua class tersebut dapat dikonstruksikan. Hal ini sejalan dengan
teori Cover yang menyatakan “Jika suatu transformasi bersifat
non linear dan dimensi dari feature space cukup tinggi, maka data
pada input space dapat dipetakan ke feature space yang baru,
dimana pattern-pattern tersebut pada probabilitas tinggi dapat
dipisahkan secara linear” (Nugroho dan Handoko, 2003).
Pada gambar 2.2 (kiri) diperlihatkan data pada class
kuning dan data pada class merah yang berada pada input space
berdimensi dua tidak dapat dipisahkan secara linear. Selanjutnya
gambar 2 (kanan) menunjukkan bahwa fungsi Φ memetakan tiap
data pada input space tersebut ke ruang vektor baru yang
berdimensi lebih tinggi (dimensi 3), dimana kedua class dapat
dipisahkan secara linear oleh sebuah hyperplane. Notasi
matematika dari mapping ini adalah :
qd : d < q (2.26)
Input space X Feature Space Φ(X)
Gambar 2.3 Fungsi Φ memetakan data ke ruang vektor yang
berdimensi lebih tinggi
15
Pemetaan ini dilakukan dengan menjaga topologi data,
dalam artian dua data yang berjarak dekat pada input space akan
berjarak dekat juga pada feature space, sebaliknya dua data yang
berjarak jauh pada input space akan juga berjarak jauh pada
feature space. Selanjutnya proses pembelajaran pada SVM dalam
menemukan titik-titik support vector, hanya bergantung pada dot
product dari data yang sudah ditransformasikan pada ruang baru
yang berdimensi lebih tinggi, yaitu Φ( ix
).Φ( jx
).
Disebabkan transformasi Φ ini tidak diketahui dan sangat
sulit untuk difahami, maka perhitungan dot product tersebut
sesuai teori Mercer dapat digantikan dengan Fungsi Kernel
),( ji xxK
yang mendefinisikan secara implisit transformasi Φ.
Fungsi Kernel dirumuskan sebagai berikut (Gunn, 1998) :
),( ji xxK
= Φ( ix
).Φ( jx
) (2.27)
Fungsi Kernel memberikan berbagai kemudahan, karena
dalam proses pembelajaran SVM, untuk menentukan support
vector, kita hanya cukup mengetahui Fungsi Kernel yang dipakai,
dan tidak perlu mengetahui wujud dari fungsi non linear Φ.
Berbagai jenis Fungsi Kernel dikenal sebagaimana dirangkumkan
pada Tabel 2.2.
Tabel 2.2 Fungsi Kernel yang umum pada SVM
Jenis Kernel Fungsi
Polynomial pjiji xxxxK 1,),(
dimana p=1,…
Gaussian Radial
Basis Function
(RBF)
2
2
2exp),(
ji
ji
xxxxK
Sigmoid ).tanh(),( jiji xxxxK
Selanjutnya hasil klasifikasi dari data x
diperoleh dari
persamaan berikut :
f [Φ( x
)] = w
Φ( x
) + b
(2.28)
16
f [Φ( x
)] bxxySVsi
ii
,1i )().( (2.29)
f[Φ( x
)] = SVsi
iy,1
i ),( ji xxK
+ b
(2.30)
Nilai SV pada persamaan di atas adalah subset dari
training set yang terpilih sebagai support vector, dengan kata lain
data ix
yang berkorespondensi pada i ≥ 0.
2.4 Kanker Serviks
Leher rahim (serviks) adalah bagian dari sistem reproduk-
si perempuan yang terletak di bagian bawah yang sempit dari
rahim (uterus atau womb) (www.kankerleherrahim.com). Kanker
ini merupakan kanker ganas yang terbentuk dalam jaringan ser-
viks (organ yang menghubungkan uterus dengan vagina). Ada
beberapa tipe kanker serviks. Tipe yang paling umum dikenal
adalah squamous cell carcinoma (SCC), yang merupakan 80
hingga 85 persen dari seluruh jenis kanker serviks. Infeksi Hu-
man Papilloma Virus (HPV) merupakan salah satu faktor utama
tumbuhnya kanker jenis ini (www.parkwaycancercentre.com).
Gambar 2.4 Kanker Serviks pada Sistem Reproduksi Wanita
Faktor Resiko Kanker Serviks
Menurut penjelasan dr Junita Indarti, SpOG (K), Pimpi-
nan Unit Women Health Center, RSCM (2014) faktor resiko
bukanlah penyebab mutlak akan terjangkitnya kanker rahim,
namun faktor – faktor tersebut mampu meningkatkan resiko ter-
17
kena penyakit kanker serviks menjadi lebih besar. Berbagai studi
telah menemukan faktor-faktor yang bisa meningkatkan resiko
terjangkitnya kanker serviks. Faktor resiko tersebut adalah :
1. Human Papploma Virus (HPV)
Virus ini adalah faktor utama terjangkitnya kanker ser-viks
dan bisa ditularkan kepada orang lain melalui hubungan
seksual (Mc Cormick, 2011). Upaya preventif adalah melalui
tes Pap Smear untuk melihat kondisi kenormalan sel – sel
leher ra-him.
2. Tidak adanya tes Pap Smear Umumnya kanker serviks terjadi pada perempuan yang tidak
melakukan uji Pap Smear secara teratur. Tes pap ini adalah
upaya menemukan sel – sel sebelum bersifat kanker
(precance-rous cells) (Mc Cormick, 2011). Tes Pap sebaiknya
dilakukan rentang waktu 10-20 hari pasca periode menstruasi.
3. Menikah dini
Menikah dini juga menjadi faktor risiko kanker serviks.
Karena menikah muda, yakni ketika dilakukan di usia belasan
tahun, umumnya diikuti kegiatan seksual di usia muda juga
(Rouzeau, 2012). Padahal pada saat seseorang masih muda
terjadi perubahan sel yang sangat agresif.
4. Usia
Kanker serviks paling sering terjadi pada perempuan yang
berusia lebih dari 40 tahun. Namun tidak menutup kemung-
kinan terjadi pula pada usia produktif 25-40 tahun. Perempuan
yang berusia di atas 65 tahun, angka kejadiannya sekitar 20%
(www.parkwaycancercentre.com).
5. Hubungan seksual Perempuan yang memiliki banyak pasangan seksual bere-siko
tinggi menderitaa kanker serviks. Demikian pula perempuan
yang berhubungan seksual dengan laki-laki yang banyak pasa-
ngan seksual juga beresiko tinggi teridap kanker serviks
(Rouzeau, 2012).
18
6. Merokok
Perempuan perokok yang terinfeksi HPV mempunyai resiko
yang lebih tinggi karena rokok dapat melemahkan sistem
imun. (Mc Cormick, 2011).
7. Penggunaan kontrasepsi
Penggunaan pil-pil pengontrol kehamilan untuk jangka waktu
lama beresiko terjangkit kanker serviks. Jenis yang bere-siko
adalah kontrasepsi hormonal, seperti pil, suntik, implant, dan
IUD (Rouzeau, 2012).
8. Hamil muda
Usia pertama melahirkan yang terlalu dini juga menjadi factor
resiko kanker serviks (Rouzeau, 2012).
9. Banyak anak
Pada saat kehamilan, sel-sel mulut rahim kondisinya ber-beda,
menjadi tidak tahan kalau seandainya terpapar berulang ka-li,
sehingga HPV mudah masuk. Kalau makin berulang kali
hamil maka makin berulang risiko masuknya infeksi HPV
(Rouzeau, 2012).
10. Riwayat Keluarga
Kanker serviks dapat berjalan dalam beberapa keluarga. Jika
ada anggota keluarga memiliki kanker serviks, resiko seseo-
rang terkena kanker ini bisa 2 atau 3x lipat dari orang lain.
(asiacancer.com).
19
BAB III
METODOLOGI PENELITIAN
3.1 Sumber Data
Data yang digunakan merupakan data sekunder mengenai
Kanker Leher Rahim yang didapatkan dari Studi Kohort Faktor
Resiko Penyakit Tidak Menular di Kota Bogor 2011 oleh Kemen-
kes RI dengan banyak data 729 responden. Unit penelitian adalah
perempuan usia 25-65 tahun di Bogor. Data awal sebanyak 1032
responden, peneliti mengurangi jumlah responden karena adanya
missing data.
3.2 Variabel Penelitian
Tabel 3.1 Variabel Penelitian
Kode Variabel Definisi
Y Diagnosa kanker serviks 1: Terjangkit
2: Tidak terjangkit
X1 Usia Usia responden saat survey
X2 Status Pernikahan 1: Iya 2: Tidak
X3 Jumlah pasangan seksual 1: 1 pasangan
2: > 1 pasangan
X4 Pendarahan saat menstruasi 1: Iya
2: Tidak
X5 Usia pertama melahirkan Usia saat melahirkan anak
pertama
X6 Banyak anak Jumlah anak yang dilahirkan
X7 Jenis kontrasepsi 1: Hormonal
2: Tidak hormonal
X8 Waktu kontrasepsi Lama penggunaan kontrasepsi
X9 Riwayat kangker pada
keluarga
1: Ada
2: Tidak
X10 Vaksinasi HPV 1: Pernah
2: Tidak pernah
X11 Usia menikah Usia pertama menikah
X12 Uji Pap Smear 1: Pernah
2: Tidak
X13 Merokok 1: Iya
2: Tidak
20
Penelitian ini menggunakan variabel respon (Y) biner, yaitu
Terjangkit Kanker Serviks (y=1) ada sebanyak 4 responden dan
Tidak Terjangkit Kanker Serviks (y=2) sebanyak 725 responden.
Pada variabel Status Pernikahan (X2) dalam Kuesioner Kohort
terdapat empat pilihan jawaban :
1: Belum Menikah [dikoding 2]
2: Menikah [dikoding 1]
3: Cerai hidup [dikoding 1]
4: Cerai mati [dikoding 1],
untuk pilihan 3 dan 4 peneliti memasukkan ke pilihan Menikah
karena pada dasarnya yang telah bercerai telah menikah
sebelumnya. Variable Pendarahan [X4] saat Menstruasi
dihilangkan observasi yang memiliki nilai 0.
Variabel Banyak anak yang dilahirkan (X6) pada Kuesioner
Kohort terdapat pilihan pengisian :
1: Lahir Hidup
2: Lahir Mati,
dalam penelitian ini dua pilihan tersebut digabungkan, karena
sama-sama memiliki informasi yang dibutuhkan, yaitu jumlah
anak yang telah lahir.
Variabel Penggunaan Kontrasepsi [X7] dihapus karena
semua responden menggunakan kontrasepsi, atau semua
observasi bernilai X7=1.
Variabel Usia pertama menikah (X12) pada Kuesioner
diwakili oleh pertanyaan “umur pertama kali berhubungan intim”
pada kode Gc.04.
3.3 Langkah Analisis Data
Langkah-langkah analisis data yang digunakan dalam
penelitian ini adalah :
1. Melakukan pengumpulan data sekunder dari penelitian
Kohort Litbangkes 2011.
2. Melakukan statistika deskriptif untuk melihat karakteristik
data.
21
3. Mendapatkan faktor-faktor yang mempengaruhi terjangkitnya
penyakit kanker serviks di Kota Bogor menggunakan Regresi
Logistik Biner, dengan langkah analisis:
a. Seleksi kandidat dengan Uji Univariabel
b. Estimasi Parameter βj
c. Melakukan Pengujian Parameter
d. Uji Kesesuaian Model
4. Membuat model klasifikasi penyakit kanker serviks
menggunakan Regresi Logistik Biner, dengan kombinasi :
a. Training-testing 90:10
b. Training-testing 70:30
c. Training-testing 50:50
5. Menghitung performansi klasifikasi Regresi Logistik Biner
dengan pengukuran Accuracy, Specificity, dan Sensitifity.
6. Membuat model klasifikasi penyakit kanker serviks
menggunakan Support Vector Machine (SVM). Dengan
langkah analisis :
a. Menentukan data training-testing dengan 3 kombinasi;
I. Training-testing 90:10
II. Training-testing 70:30
III. Training-testing 50:50
b. Menentukan Fungsi Kernel yang dipakai, dalam
penelitian kali ini menggunakan Gaussian Radial Basis
Function (RBF).
c. Menentukan parameter C=10 dan σ=2.
7. Menghitung klasifikasi beserta ketepatan akurasinya dengan
pengukuran Accuracy, Specificity, dan Sensitifity..
8. Membandingkan performansi antara ketepatan klasifikasi
Regresi Logistik Biner dengan Support Vector Machine
(SVM).
Dari langkah tersebut didapatkan diagram alir penelitian
sebagai berikut :
22
Gambar 3.1 Flowchart Penelitian
Statistika Deskriptif
Mencari Variabel yang Berpengaruh
Signifikan dengan Regresi Logistik Biner
Membuat model
Klasifikasi
Regresi Logistik Biner Support Vector Machine
Model Terbaik
Pengumpulan Data
Prediksi
Evaluasi Ket epatan
Klasifikasi
23
BAB IV
ANALISIS DAN PEMBAHASAN
4.1 Deskripsi Faktor Resiko Kanker Serviks
Pada analisis ini didapatkan gambaran umum mengenai
karakteristik faktor resiko penyakit kanker serviks di kota
Bogor menggunakan Statistika Deskriptif dan tabulasi silang
(crosstab). Statistika deskriptif digunakan untuk variabel yang
berskala interval/rasio, sedangkan tabulasi silang digunakan
untuk variabel berskala nominal/ordinal.
Tabel 4.1 Statistika Deskriptif variabel berskala rasio
Variabel Diagnosa Mean Stdev Min Max
Usia (tahun)
[X1]
Terjangkit 43 12,57 26 53
Tidak
terjangkit 42,19 10,01 25 65
Usia pertama
melahirkan
(tahun) [X5]
Terjangkit 23,5 3,12 19 26
Tidak
terjangkit 22,35 3,92 13 40
Jumlah anak
(anak) [X6]
Terjangkit 4 2,38 2 7
Tidak
terjangkit 3 1,87 1 13
Lama kontra-
sepsi (hari) [X9]
Terjangkit 22,75 25,81 0 48
Tidak
terjangkit 97,74 92,02 0 926
Usia saat menikah
(tahun) [X12]
Terjangkit 23 3,37 18 25
Tidak
terjangkit 21,05 5,24 12 88
Dari tabel di atas didapatkan informasi bahwa usia rata-
rata responden yang terjangkit adalah 43 tahun, sedangkan
yang tidak terjangkit adalah 42,19 tahun. Rata-rata usia
pertama kali responden yang terjangkit melahirkan adalah 23,5
tahun, sedangkan yang tidak terjangkit adalah 22,35 tahun.
Rata-rata banyaknya anak yang dimiliki responden yang
24
terjangkit adalah 4 anak, sedangkan yang tidak terjangkit 3
anak.
Dari responden yang terjangkit, usia pertama
melahirkan yang paling muda adalah 19 tahun, sedangkan
paling tua berusia 26 tahun. Dari responden yang tidak
terjangkit, usia pertama melahirkan yang paling muda adalah
13 tahun, sedangkan paling tua berusia 40 tahun. Dari respon-
den yang terjangkit, usia saat menikah yang paling muda
adalah 18 tahun, sedangkan paling tua berusia 25 tahun.
Responden yang tidak terjangkit, usia saat menikah yang
paling muda adalah 12 tahun, yang paling tua 88 tahun.
Berikut ini hasil tabulasi silang variabel independen
yang berskala kategorikal terhadap Diagnosa Penyakit Kanker
Serviks.
Tabel 4.2 Tabulasi silang variabel kategorik
Variabel
Diagnosa
Terjangkit Tidak
terjangkit
Status pernikahan
(X2)
Nikah 0,549% 99,314%
Tidak 0,000% 0,137%
Jumlah pasangan
seksual (X3)
1 pasang 0,412% 88,889%
> 1 pasang 0,137% 10,562%
Pendarahan saat
menstruasi (X4)
Iya 0,000% 6,447%
Tidak 0,549% 93,004%
Jenis kontrasepsi (X7) Hormonal 0,412% 81,481%
Non hormonal 0,137% 17,970%
Riwayat keluarga
(X9)
Ada 0,137% 3,978%
Tidak 0,412% 95,473%
Vaksinasi HPV (X10) Pernah 0,000% 0,274%
Tidak 0,549% 99,177%
Tes Pap Smear (X12) Pernah 0,137% 6,584%
Tidak 0,412% 92,867%
Merokok (X13) Iya 0,274% 27,160%
Tidak 0,274% 72,291%
25
Tabel tersebut memperlihatkan karakteristik hubungan
antara variabel faktor resiko dengan diagnosa penyakit kanker
serviks. Responden yang terjangkit kanker serviks 0,549%
belum pernah vaksinasi HPV. Terlihat pula bahwa responden
perokok yang tidak pernah mengalami pendarahan saat
menstruasi terjangkit kanker serviks sebesar 0,274%. Respon-
den yang tidak terjangkit kanker serviks 92,87% belum pernah
uji Pap Smear dan 95,5% tidak memiliki riwayat kanker pada
keluarga.
4.2 Analisis Faktor Resiko Kanker Serviks dengan
Regresi Logistik Biner
Pada penelitian ini peneliti menggunakan 729 data
untuk uji univariabel dan uji signifikasi parameter model.
Untuk klasifikasi menggunakan data training sebagai pemben-
tukan model dan data testing untuk mengukur ketepatan klasi-
fikasi Logistik Biner. Kombinasi data training-testing adalah
90-10, 70-30, dan 50-50. Dengan total 729 responden maka
kombinasi 90-10 membagi 656 data training dan 73 data
testing. Kombinasi 70-30 membagi 510 data training dan 219
data testing. Kombinasi 50-50 membagi 365 data training dan
364 data testing. Pada pengujian Regresi Logistik Biner kali
ini menggunakan = 0,2 dan = 0,1.
4.2.1 Uji Univariabel
Langkah pertama adalah dilakukan seleksi kandidat
dengan metode Stepwise manual untuk variabel yang akan
dimasukkan model Logisitk Biner dengan Uji Variabel.
Hipotesis yang digunakan adalah :
H0 : βi=0 (Variabel indepependen ke-i tidak mempengaruhi
..variabel dependen)
H1 : Minimal satu βi≠0 (Variabel indepependen ke-i mempe-
..ngaruhi variabel dependen), i = 1,2,3,…,13
Tolak H0 jika nilai P-value < 0,2
26
Tabel 4.3 Hasil Uji Univariabel Variabel B df P-value
Y dengan X1 Usia -0,008 1 0,870
Constant 5,547 1 0,012
Y dengan X2 Status.nikah -16,004 1 1,000
Constant 21,203 1 1,000
Y dengan X3 Jumlah.pasangan.seks 1,031 1 ,374
Constant 4,344 1 0,000
Y dengan X4 Pendarahan.mens 16,070 1 0,998
Constant 5,133 1 0,000
Y dengan X5 Usia.melahirkan1 -0,068 1 0,557
Constant 6,761 1 0,015
Y dengan X6 Banyak.anak -0,072 1 0,765
Constant 5,441 1 0,000
Y dengan X7 Jenis.kont 0,413 1 0,721
Constant 4,875 1 0,000
Y dengan X8 Lama.kont 0,031 1 0,119
Constant 3,796 1 0,000
Y dengan X9 Riwayat.keluarga -2,079 1 0,076
Constant 5,447 1 0,000
Y dengan X10 Vaksin.HPV 16,006 1 1,000
Constant 5,197 1 0,000
Y dengan X11 Usia.nikah -0,033 1 0,474
Constant 5,928 1 0,000
Y dengan X12 PapSmear -1,548 1 0,184
Constant 5,419 1 0,000
Y dengan X13 Merokok -0,979 1 0,329
Constant 5,574 1 0,000
27
Dari tabel di atas terlihat bahwa variabel yang signifikan
pada taraf nyata 80% ( = 0,2) dalam Uji Univariabel adalah
Lama Pemakaian Kontrasepsi (X8), Riwayat Kanker pada
Keluarga (X9), dan Tes Pap Smear (X12). Ketiga variabel yang
signi-fikan tersebut akan dimasukkan dalam model dan diuji
secara serentak dan parsial.
4.2.2 Uji Serentak
Pada Uji Parameter baik serentak maupun individu
peneliti menggunakan taraf signifikasi 90% (=0,1).
Tabel 4.4 Nilai Overall test
Chi-square df P-value
Step 10,057 3 0,018
Block 10,057 3 0,018
Model 10,057 3 0,018
Hipotesis yang digunakan adalah :
H0 : β8=β9=β12=0 (Variabel independen tidak mempengaruhi
variabel dependen)
H1 : Minimal satu βi≠0 (Minimal satu variabel independen
yang berpengaruh)
i = 8,9,12
Statistik uji : G =
n
i
y
i
y
i
nn
ii
i
n
n
n
n
1
)1(
01
)ˆ1(ˆ
0
Tolak H0 jika ),1(2
ppG atau nilai P-value < 0,1.
Keputusan :
Terlihat dari tabel bahwa nilai P-value 0,087 yang
berarti kurang dari (0,1). Maka keputusannya adalah tolak
H0. Jadi ketiga prediktor secara bersama-sama berpengaruh
terhadap terjangkitnya penyakit kanker serviks. Juga bisa
disimpulkan minimal ada satu dari tiga variabel independen
yang mempengaruhi variabel dependen.
28
4.2.3 Uji Parsial dan Estimasi Parameter
Berikut ini akan dilakukan uji segnifikasi secara
individu dari tiga prediktor yang lulus uji univariabel.
Pengujian ini menggunakan taraf signifikasi 90% (=0,1).
Tabel 4.5 Hasil Uji Individu dan estimasi parameter
Variabel Β Wald P-value Exp (B)
Lama kontrasepsi 0,035 2,826 0,093 1,036
Riwayat keluarga -2,354 3,668 0,055 0,095
Tes PapSmear -2,218 3,253 0,071 0,109
Constant 4,265 29,737 0,000 71,170
Terlihat dari Tabel 4.5 nilai koefisien parameter (βi) adalah :
T : [β0, β8, β9, β12]
: [4.265, 0.035, -2.354, -2.218]
Setiap penambahan satu satuan waktu Lama kontrasepsi
akan menambah peluang terjangkitnya kanker serviks sebesar
0,035. Seorang wanita yang tidak memiliki riwayat kanker
pada keluarga kemungkinan terserang kanker serviks adalah
10,5 kali (lebih besar) dari pada yang memiliki riwayat
keluarga. Seorang wanita yang tidak rutin tes Pap Smear
kemungkinan terserang kanker serviks adalah 9,2 kali (lebih
besar) dari pada yang pernah tes Pap Smear.
Dari nilai tabel di atas juga terlihat bahwa seluruh
variabel memiliki nilai P-value < =0,1. Jadi semua variabel
yang lolos Uji Univariabel, yaitu Lama Kontrasepsi, Riwayat
Keluarga, dan Tes Pap Smear, berpengaruh signifikan
terhadap diagnosa kanker serviks.
4.2.3.1 Hipotesis variabel X8
H0 : β8 = 0 (Lama kontrasepsi tidak berpengaruh terhadap
kanker serviks)
H1 : β8 ≠ 0 (Lama kontrasepsi berpengaruh terhadap kanker
serviks)
29
Daerah penolakan; tolak H0 jika ),1(22
pW atau nilai P-
value < 0,1
Statistik Uji : W2 =
2
2
)ˆ(
ˆ
i
i
SE
Keputusan : Terlihat nilai P-value = 0,093 < 0,1. Maka
keputusannya adalah tolak H0. Jadi Lama kontrasepsi berpe-
ngaruh signifikan terhadap kanker serviks.
4.2.3.2 Hipotesis variabel X9
H0 : β9 = 0 (Riwayat keluarga tidak berpengaruh terhadap
kanker serviks)
H1 : β9 ≠ 0 (Riwayat keluarga berpengaruh terhadap kanker
serviks)
Daerah penolakan; tolak H0 jika ),1(22
pW atau nilai P-
value < 0,1
Statistik Uji : W2 =
2
2
)ˆ(
ˆ
i
i
SE
Keputusan : Terlihat nilai P-value = 0,055 < 0,1. Maka
keputusannya adalah tolak H0. Jadi Riwayat keluarga
berpengaruh signifikan terhadap kanker serviks.
4.2.3.3 Hipotesis variabel X12
H0 : β12 = 0 (Tes Pap Smear tidak berpengaruh terhadap
kanker serviks)
H1 : β12 ≠ 0 (Tes Pap Smear berpengaruh terhadap kanker
serviks)
Daerah penolakan; tolak H0 jika ),1(22
pW atau nilai P-
value < 0,1
Keputusan :
Terlihat nilai P-value = 0,071 < 0,1. Maka
keputusannya adalah tolak H0. Jadi Tes Pap Smear
berpengaruh signifikan terhadap kanker serviks.
30
4.2.4 Uji Kebaikan Model
Langkah berikutnya adalah uji kelayakan model dengan
Hosmer and Lemeshow Test. Untuk mengetahui apakah model
sudah sesuai kenyataan.
Tabel 4.6 Uji Goodness of fit
Chi-square df P-value
2,639 8 ,955
Hipotesis yang digunakan adalah :
H0: Model telah sesuai (tidak ada perbedaan signifikan antara
hasil pengamatan dengan kemungkinan nilai prediksi)
H1: Model tidak sesuai (ada perbedaan signifikan antara hasil
pengamatan dengan kemungkinan nilai prediksi)
Daerah penolakan; tolak H0 jika 2
),( vG atau nilai P-value
< 0,1
Statistik Uji:
i
i
j
j ij
ij
ijkm
nnG
0 0
2
ˆlog2
Keputusan :
Terlihat bahwa nilai P-value lebih dari 0,1, maka
keputusannya adalah gagal tolak H0. Jadi pada keyakinan 90%
model yang terbentuk telah sesuai, atau model tersebut mampu
menjelaskan data dan (tidak ada perbedaan signifikan antara
hasil pengamatan dengan kemungkinan nilai prediksi.
4.2.5 Model Regresi Logistik Biner
Variabel yang dimasukkan sebagai model akhir Regresi
Logistik Biner adalah parameter yang signifikan pada Uji
Parsial, yaitu konstanta, X8, X9 dan X12. Model yang terbentuk
adalah :
Model Logit :
g(x)=4 265 0 035 8(1 2,354 9(1 2,218 12(1
31
Model Regresi Logistiknya sebagai berikut :
( )=e4 265 0 035 8(1 -2,354 9(1 -2,218 12(1
1 e4 265 0 035 8(1 -2,354 9(1 -2,218 12(1
, )(ˆ1)(ˆ 10 xx
Berikut adalah contoh interpretasi model terbaik yang
didapatkan dari variabel X8, X9, dan X12 :
432,0)1,1,1(ˆ1 , 568,0)1,1,1(ˆ0
Peluang seorang perempuan yang lama menggunakan
kontrasepsi, mempunyai riwayat kanker pada keluarga, dan
tes PapSmear, untuk terjangkit kanker serviks sebesar 0,43.
Sedangkan peluang untuk tidak terserang sebesar 0,57.
987,0)0,0,0(ˆ1 , 013,0)0,0,0(ˆ0
Peluang seorang perempuan yang tidak lama menggunakan
kontrasepsi, tidak mempunyai riwayat kanker pada
keluarga, dan tidak tes PapSmear, untuk terjangkit kanker
serviks sebesar 0,987. Sedangkan peluang untuk tidak
terserang sebesar 0,013.
875,0)0,1,1(ˆ1 , 124,0)0,1,1(ˆ0
Peluang seorang perempuan yang lama menggunakan
kontrasepsi, mempunyai riwayat kanker pada keluarga, dan
tidak tes PapSmear, untuk terjangkit kanker serviks sebesar
0,88. Sedangkan peluang tidak terserang sebesar 0,12.
886,0)1,0,0(ˆ1 , 114,0)1,0,0(ˆ0
Peluang seorang perempuan yang tidak lama menggunakan
kontrasepsi, tidak mempunyai riwayat kanker pada kel-
uarga, dan tes PapSmear, untuk terjangkit kanker serviks
sebesar 0,43. Sedangkan peluang untuk tidak terserang
sebesar 0,57.
Uji Kelayakan Model tiap kombinasi
Berikutnya akan diuji signifikasi parameter secara
serentak maupun individu dan uji kebaikan model. Pengujian
ini menggunakan =0,1.
32
B df Sig. Overall
Test
Hosmer-
Lemeshow
Test
Lama Kontrasepsi -0,006 1 0,861
0,085 1,000 Riwayat Keluarga -3,183 1 0,053
Tes Pap Smear -2,988 1 0,076
Constant 6,759 1 0,000
Dari Tabel 4.7 terlihat bahwa dengan data training 50%
ketiga variabel secara serentak berpengaruh terhadap respon.
Secara individu yang berpengaruh signifikan adalah Riwayat
Keluarga dan Tes Pap Smear. Diketahui juga bahwa model
yang terbentuk telah dianggap baik/layak.
Tabel 4.8 Hasil uji data Training set 70%
Training set 50 B df Sig. Overall
Test
Hosmer-
Lemeshow Test
Lama Kontrasepsi 0,024 1 0,287
0,085 0,076 Riwayat Keluarga -2,774 1 0,035
Tes Pap Smear -2,619 1 0,048
Constant 5,085 1 0,000
Dari tabel 4.8 terlihat bahwa dengan data training 70%
ketiga variabel secara serentak berpengaruh terhadap respon.
Secara individu yang berpengaruh signifikan adalah Riwayat
Keluarga dan Tes Pap Smear. Diketahui juga bahwa model
yang terbentuk telah dianggap baik/layak.
Tabel 4.9 Hasil uji data Training set 90%
Training set 50 B df Sig. Overall
Test
Hosmer-
Lemeshow Test
Lama Kontrasepsi 0,027 1 0,166
0,046 0,987 Riwayat Keluarga -2,777 1 0,035
Tes Pap Smear -2,627 1 0,048
Constant 5,007 1 0,000
Tabel 4.7 Hasil uji data Training set 50%
33
Dari tabel 4.9 terlihat bahwa dengan data training 90%
ketiga variabel secara serentak berpengaruh terhadap respon.
Secara individu yang berpengaruh signifikan adalah Riwayat
Keluarga dan Tes Pap Smear. Diketahui juga bahwa model
yang terbentuk telah dianggap baik/layak.
4.3 Performansi Klasifikasi Logistik Biner
Mengevaluasi hasil Klasifikasi untuk mengetahui
ketepatan hasil klasifikasi pada penelitian ini ada beberapa
cara, yaitu dengan sensitivity, specificity, dan accuracy.
Testing prediksi menggunakan model yang telah terbentuk.
Hasil prediksi Logistik Biner kombinasi 50:50 adalah sebagai
berikut :
Tabel 4.10 Hasil Prediksi data testing 50%
Observasi
Prediksi
Total Terjangkit
Tidak
Terjangkit
Terjangkit 2 0 2
Tidak
Terjangkit 162 200 362
Total 364
Accuracy : n11 n22
n11 n12 n21 n22=202
364=0,555=55,5
Specivicity : n11
n11 n12=2
2=1=100%
Sensitivity : n22
n21 n22=200
362=0,552=55,2
Hasil prediksi Logistik Biner kombinasi 70:30 adalah sebagai
berikut :
34
Tabel 4.11 Hasil Prediksi data testing 30%
Observasi
Prediksi
Total Terjangkit
Tidak
Terjangkit
Terjangkit 1 0 1
Tidak
Terjangkit 27 191 218
Total 219
Accuracy : n11 n22
n11 n12 n21 n22=192
219=0,877=87,7
Specivicity : n11
n11 n12=1
1=1=100
Sensitivity : n22
n21 n22=191
218=0,876=87,6
Hasil prediksi Logistik Biner kombinasi 90:10 adalah sebagai
berikut :
Tabel 4.12 Hasil Prediksi data testing 10%
Observasi
Prediksi
Total Terjangkit
Tidak
Terjangkit
Terjangkit 1 0 1
Tidak
Terjangkit 0 72 72
Total 73
Accuracy : n11 n22
n11 n12 n21 n22=73
73=1=100
Specivicity : n11
n11 n12=1
1=1=100
Sensitivity : n22
n21 n22=72
72=1=100
35
4.3.1 Evaluasi Performansi Klasifikasi Tiap Kombinasi
Untuk mengetahui kombinasi mana yang menghasilkan
ketepatan klasifikasi paling tinggi perlu dibandingkan ketiga
kombinasi tersebut. Tabel 4.13 Perbandingan ketepatan klasifikasi
Kombinasi Akurasi Specivicity Sensitivity 50-50 55,5% 100% 55,2%
70-30 87,7% 100% 87,6%
90-10 100% 100% 100%
Dari tabel di atas terlihat bahwa tingkat akurasi
klasifikasi paling tinggi dihasilkan kombinasi traning:testing
90:10 yaitu sebesar 100%. Kombinasi 70:30 menghasilkan
akurasi sebesar 87,7%. Sedangkan untuk kombinasi 90:10
menghasilkan akurasi 55,5%. Nilai specificity semua 100%.
Dari hasil perhitungan di atas ada indikasi bahwa semakin
banyak data training maka akan menghasilkan performansi
klasifikasi yang lebih tinggi.
4.4 Klasifikasi menggunakan Support Vector Machine
(SVM)
Analisis SVM pada penelitian ini menggunakan fungsi
kernel Gaussian Radial Basis Function (RBF) dengan
parameter =2. Parameter SVM sebagai titik penalti dengan
C=10. Agar bisa dibandingkan dengan ketepatan klasifikasi
Regresi Logistik Biner, maka analisis SVM ini juga
menggunakan kombinasi data training-testing 50:50, 70:30,
dan 90:10.
Pada fungsi pengalih Lagrange Multiplier
l
i
iii bxwywbwL1
21.
2
1,,
terdapat nilai i
yang bernilai positif. Nilai optimal persamaan tersebut adalah
dengan memaksimalkan L terhadap i. Nilai parameter i pada
Lagrange Multiplier yang didapatkan nilai 10 pada semua
observasi.
36
Hasil prediksi SVM kombinasi 50:50 adalah sebagai berikut :
Tabel 4.14 Hasil Prediksi kombinasi 50:50
Observasi
Prediksi
Total Terjangkit
Tidak
Terjangkit
Terjangkit 0 0 0
Tidak
Terjangkit 0 364 364
Total 364
Accuracy : n11 n22
n11 n12 n21 n22=364
364=1=100
Specivicity : n11
n11 n12=0
0=0=0%
Sensitivity : n22
n21 n22=364
364=1=100
Hasil prediksi SVM kombinasi 70:30 adalah sebagai berikut :
Tabel 4.15 Hasil Prediksi kombinasi 70:30
Observasi
Prediksi
Total Terjangkit
Tidak
Terjangkit
Terjangkit 0 0 0
Tidak
Terjangkit 0 219 219
Total 219
Accuracy : n11 n22
n11 n12 n21 n22=219
219=1=100
Specivicity : n11
n11 n12=0
0=0=0
Sensitivity : n22
n21 n22=219
219=1=100
Hasil prediksi SVM kombinasi 90:10 adalah sebagai berikut :
37
Tabel 4.16 Hasil Prediksi kombinasi 90:10
Observasi
Prediksi
Total Terjangkit
Tidak
Terjangkit
Terjangkit 0 0 0
Tidak
Terjangkit 0 73 73
Total 73
Accuracy : n11 n22
n11 n12 n21 n22=73
73=1=100
Specivicity : n11
n11 n12=0
0=0=0
Sensitivity : n22
n21 n22=73
73=1=100
Ketepatan klasifikasi dengan metode Support Vector
Machine adalah sebagai berikut :
Tabel 4.17 Ketepatan Klasifikasi SVM
Kombinasi Akurasi Specivicity Sensitivity
50-50 100% 0% 100%
70-30 100% 0% 100% 90-10 100% 0% 100%
Dari tabel tersebut terlihat bahwa tingkat akurasi
klasifikasi semua kombinasi training-testing adalah sama yaitu
sebesar 100%. Nilai Specificity sebesar 0% karena tidak ada
observasi Terjangkit yang diprediksi Terjangkit. Semua
observasi (pada data testing) dan prediksi menunjuk pada
kategori Tidak Terjangkit.
4.5 Perbandingan Performansi Regresi Logistik Biner
dengan Support Vector Machine (SVM)
Akan dibandingkan performansi klasifikasi Diagnosa
Penyakit Kanker Serviks antara Regresi Logistik Biner dengan
Support Vector Machine.
38
Dari tabel 4.13 dan 4.17 terlihat bahwa pada penelitian
kali ini tingkat akurasi Support Vector Machine mempunyai
nilai akurasi yang sangat tinggi jika dibandingkan Logistik
Biner, baik proporsi 90:10, 70:30, maupun 50:50. Hal ini
terjadi overfitting karena proporsi kategori respon yang tidak
seimbang. Dari total 729 responden, hanya 4 orang yang
terjangkit. Selebihnya 725 responden tidak terjangkit kanker
serviks.
Data dengan proporsi respon yang tidak seimbang ini
menyebabkan prediksi secara keseluruhan mengarah kepada
prediksi ”tidak terjangkit” , atau prediksi bahwa responden
tidak terjangkit kanker serviks. Karena tidak ada prediksi ke
”terjangkit” maka nilai Specivicity adalah 0%, sedangkan nilai
Sensitivity sebesar 100%. Hal ini berlaku baik untuk SVM
maupun Regresi Logistik Biner.
39
BAB V
KESIMPULAN DAN SARAN
5.1 Kesimpulan
Berdasarkan tujuan penelitian serta hasil analisis dan
pembahasan, maka diperoleh kesimpulan sebagai berikut :
1. Faktor resiko yang berpengaruh signifikan pada taraf
signifikasi 90% terhadap Kanker Serviks pada Analisis
Regresi Logistik Biner adalah Lama penggunaan
kontrasepsi, Riwayat Keluarga dan Tes Pap Smear. Model
Logit yang terbentuk dengan memodelkan respon dengan
prediktor yang signifikan dalam uji univariabel (Riwayat
Keluarga, Tes Pap Smear, dan Merokok) adalah
( ) - - . Dari Mo-
del Logit tersebut didapatkan model Logistik yang
menggambarkan proba-bilitas atau resiko dari suatu objek.
2. Akurasi klasifikasi menggunakan Logistik Biner tertinggi
adalah kombinasi 90:10 sebesar 100%, kombinasi 70:30
sebesar 87,7%, sedangkan kombinasi 50:50 sebesar 55,5%.
Nilai specificity Logistik Biner semua 100%, jadi
responden yang terjangkit semua bisa diprediksi terjangkit.
3. Performansi klasifikasi menggunakan SVM pada semua
kombinasi baik 90:10, 70:30, dam 50:50 adalah sebesar
100%, sedangkan nilai specificity semua 0%. Klasifikasi
pada SVM tidak mampu memprediksi kategori “terjan kit”
sehingga nilai specificity sebesar 0%, sedangkan sensitifity
sebesar 100%. Didapatkan juga nilai akurasi klasifikasi
menggunakan SVM lebih tinggi dari pada klasifikasi
menggunakan Regresi Logistik Biner.
40
5.2 Saran
Saran untuk penelitian selanjutnya adalah :
1. Jika terdapat kasus dengan kategori respon yang tidak
seimbang, maka untuk mendapatkan hasil yang lebih baik
dan tidak terjadi over fitting perlu digunakan metode
pengembangan SVM untuk inballanced data.
2. Perlu dilakukan adanya komunikasi lebih baik antara
peneliti dengan pihak yang memberikan data agar lebih
memahami kasus, tertama metode sampling yang dipakai
oleh lembaga terkait hingga munculnya data.
41
DAFTAR PUSTAKA
Agresti, Alan. (2002), Categorical Data Analysis Second Edition.
New York: John Wiley & Son’s, Inc.
Canhope. (2014). Apa itu Kanker Serviks?. Retrieved March,
2014, from Web Site: http://www.parkwaycancercentre
.com
Evennet, Karen. (2003). Pap Smear, Apa yang Perlu Anda Ke-
tahui. Jakarta : Arcan Publisher
Gunn, Steve. (1998). Support Vector Machine for Classification
and Regression. Taiwan : National Taiwan University
Hosmer, D.,W., Lemeshow, S. (2000). Applied Regression Logis-
tic, Second Edition. Canada: John Wiley & Son’s, Inc.
Hsu, C.W., Chang, C.C., Lin, C.J. (2003). A Practical Guide to
Support Vector Classification. England : University of
Southampton
Intansari, I.A.S. (2012). Klasifikasi Pasien Hasil pap Smear Test
sebagai Pendeteksi Awal Upaya Penanganan Dini pada
Penyakit Kanker Serviks di RS “X” Surabaya dengan
metode Bagging Logistc Regression. Surabaya: Institut
Teknologi Sepuluh Nopember.
Junita. (2014). Faktor Resiko Kanker Rahim. Retrieved March,
2014, from Web Site: www.health.detik.com
Kota Bogor. (2011). Seminar Kesehatan "Peduli Perempuan:
Cintai Diri, Cegah, Dan Deteksi Kanker Serviks Sejak
Dini". Retrieved March, 2014, from Web Site:
http://www.kotabogor.go.id
Mc Cormick, C.,C., Giuntoli, R., L. (2011). Patient’s Guide to
Cervical Cancer. Baltimore : The John Hopkins Health
Corporation
Modern Cancer Hospital Guangzhou. (2014). Faktor Resiko
Kanker Rahim. Retrieved March, 2014, from Web Site:
www.asiancancer.com
42
Nugroho, A.S., Handoko, D., Witarto, A.B. (2003). Support
Vector Machine – Teori dan Aplikasinya dalam
Bioinformatika. BPPT
Rouzeau, Vanessa. (2012). Cervical Cancer : A Review. Florida :
Herzing University
Rahman, Farizi. (2012). Klasifikasi Tingkat Keganasan Breast
Cancer Dengan Menggunakan Regresi Logistik Ordinal
Dan Support Vector Machine. Surabaya: Institut
Teknologi Sepuluh Nopember.
Susanti, Desi. (2012). Pemeriksaan Pap Smear. Riau : STIKES
Tuanku Tambusai Bakinang
Walpole, R. E. (1995). Pengantar Statistika Edisi ke-3(Sumantri,
Bambang). Jakarta: PT Gramedia Pustaka Utama
World Health Organization. (2001). Effective Screening
Programmes for Cervical Cancer in Low- and Middle-
Income Developing Countries. India : Bulletin of WHO
55
LAMPIRAN
Lampiran 1 : Data Studi Kohort PTM 2011 kanker serviks
Y X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13
1 52 1 1 2 26 7 1 0 2 2 25 2 2
2 27 1 1 2 20 2 1 0 2 2 19 2 2
2 50 1 1 2 23 4 2 0 2 2 22 2 2
2 45 1 1 2 25 2 2 0 2 2 22 2 2
2 36 1 1 2 28 3 2 0 2 2 24 2 2
1 26 1 1 2 19 3 1 1 2 2 18 2 2
2 50 1 1 2 19 4 1 1 2 2 18 2 2
2 28 1 1 2 20 3 1 1 2 2 19 2 1
2 60 1 1 2 21 5 1 1 2 2 20 2 2
2 48 1 1 2 22 4 1 1 2 2 20 2 1
2 46 1 1 2 22 2 1 1 2 2 21 2 2
2 45 1 1 2 23 3 1 1 2 2 22 2 2
2 31 1 1 2 24 2 1 1 2 2 88 2 2
2 31 1 1 2 25 1 1 1 2 2 23 2 2
2 32 1 1 2 27 2 1 1 2 2 25 2 2
2 46 1 1 2 28 2 1 1 2 2 17 2 2
2 30 1 1 2 28 1 1 1 2 2 27 2 2
2 29 1 1 1 29 1 1 1 2 2 28 2 2
2 31 1 1 2 31 1 2 1 2 2 27 2 2
2 31 1 1 2 20 3 1 2 2 2 20 2 2
2 40 1 1 2 21 2 1 2 2 2 20 2 2
2 51 1 2 1 19 7 1 3 2 2 14 2 2
2 35 1 1 2 19 5 1 3 2 2 18 2 2
2 37 1 1 2 19 4 2 3 2 2 18 2 2
2 27 1 1 2 19 2 1 3 2 2 17 2 1
44
2 26 1 1 2 20 2 1 3 2 2 19 2 2
2 46 1 1 2 21 5 1 3 2 2 20 2 2
2 50 1 1 2 21 3 1 3 2 2 20 2 2
2 43 1 1 2 22 10 1 3 2 2 21 2 2
2 44 1 1 2 22 4 1 3 2 2 20 2 2
2 32 1 1 2 22 3 1 3 2 2 21 2 2
2 27 1 1 1 22 2 1 3 2 2 21 2 2
2 27 1 1 2 22 2 1 3 2 2 21 2 1
2 32 1 1 2 22 1 1 3 2 2 22 2 1
2 39 1 1 2 23 2 1 3 2 2 22 2 2
2 29 1 1 2 23 1 1 3 2 2 22 2 2
2 29 1 1 2 24 2 1 3 2 2 23 2 2
2 28 1 1 2 24 2 1 3 2 2 24 2 2
…
2 27 1 1 2 25 1 1 3 2 2 22 2 2
2 25 1 1 2 25 1 1 3 2 2 23 2 2
Lampiran 2 : Uji Univariabel (seleksi kandidat variabel
yang masuk model)
Variables in the Equation
B S.E. Wald df Sig. Exp(B)
Step 1
a
Usia -,013
,048 ,077 1 ,781
,987
Constant 5,440
2,211 6,055
1 ,014
230,356
Step 2
a
Constant 4,852
,502 93,439
1 ,000
128,000
a. Variable(s) entered on step 1: Usia.
45
Variables in the Equation
B S.E. Wald df Sig. Exp(B)
Step 1
a
Status.nikah(1)
,728 1,162 ,392 1 ,531 2,070
Constant 4,263 1,007 17,918
1 ,000 71,000
Step 2
a
Constant 4,852 ,502 93,439
1 ,000 128,000
a. Variable(s) entered on step 1: Status.nikah.
Variables in the Equation
B S.E. Wald df Sig. Exp(B)
Step 1a Jumlah.pasan
gan.seks(1) ,940 1,16
3 ,653 1 ,419 2,559
Constant 4,08 1,01 16,349 1 ,000 59,000
Step 2a Constant 4,85 ,502 93,439 1 ,000 128,00
a. Variable(s) entered on step 1: Jumlah.pasangan.seks.
Variables in the Equation
B S.E. Wald df Sig. Exp(B)
Step 1
a
Pendarahan.mens(1)
16,399
8204,356
,000 1 ,998
13241597,249
Constant 4,804
,502 91,564
1 ,000
122,000
Step 2
a
Constant 4,852
,502 93,439
1 ,000
128,000
a. Variable(s) entered on step 1: Pendarahan.mens.
Variables in the Equation
B S.E. Wald df Sig. Exp(B)
Step 1a Usia.melahir
kan1 -,019 ,065 ,085 1 ,771 ,981
Constant 5,243 1,47 12,75 1 ,000 189,22
Step 2a Constant 4,852 ,502 93,44 1 ,000 128,00
a. Variable(s) entered on step 1: Usia.melahirkan1.
46
Variables in the Equation
B S.E. Wald df Sig. Exp(B)
Step 1a Banyak.ana
k ,137 ,287 ,230 1 ,632 1,147
Constant 4,509 ,818 30,366 1 ,000 90,841
Step 2a Constant 4,852 ,502 93,439 1 ,000 128,0
a. Variable(s) entered on step 1: Banyak.anak.
Variables in the Equation
B S.E. Wald df Sig. Exp(B)
Step 1a Kontrsepsi(
1) -,051 1,15
9 ,002 1 ,965 ,950
Constant 4,890 1,004
23,737 1 ,000 133,000
Step 2a Constant 4,852 ,502 93,439 1 ,000 128,000
a. Variable(s) entered on step 1: Kontrsepsi.
Variables in the Equation
B S.E. Wal
d df Sig. Exp(B)
Step 1
a
Jenis.kont(1) ,331 1,004 ,109 1 ,742
1,393
Constant 4,673
,710 43,266
1 ,000
107,000
Step 2
a
Constant 4,852
,502 93,439
1 ,000
128,000
a. Variable(s) entered on step 1: Jenis.kont.
Variables in the Equation
B S.E. Wal
d df Sig. Exp(B)
Step 1
a
Lama.kont ,014 ,013 1,110
1 ,292
1,014
Constant 4,292
,583 54,234
1 ,000
73,100
Step 2
a
Constant 4,852
,502 93,439
1 ,000
128,000
a. Variable(s) entered on step 1: Lama.kont.
47
Variables in the Equation
B S.E. Wald df Sig. Exp(B)
Step 1a Riwayat.kel
uarga(1) -1,871 1,17
3 2,545 1 ,111 ,154
Constant 5,090 ,579 77,238
1 ,000 162,333
Step 2a Constant 4,852 ,502 93,44 1 ,000 128,00
a. Variable(s) entered on step 1: Riwayat.keluarga.
Variables in the Equation
B S.E. Wald df Sig. Exp(B)
Step 1a Vaksin.HPV
(1) 16,355 2842
0,722
,000 1 1,000
12670391,09
3 Constant 4,848 ,502 93,28
5 1 ,000 127,50
0 Step 2
a Constant 4,852 ,502 93,44 1 ,000 128,00
a. Variable(s) entered on step 1: Vaksin.HPV.
Variables in the Equation
B S.E. Wald df Sig. Exp(B)
Step 1a Usia.nikah ,004 ,053 ,006 1 ,939 1,004
Constant 4,766 1,215
15,390 1 ,000 117,462
Step 2a Constant 4,852 ,502 93,439 1 ,000 128,00
a. Variable(s) entered on step 1: Usia.nikah.
Variables in the Equation
B S.E. Wald df Sig. Exp(B)
Step 1a PapSmear(1
) -1,545 1,16
8 1,748 1 ,186 ,213
Constant 5,071 ,579 76,664
1 ,000 159,333
Step 2a Constant 4,852 ,502 93,43
9 1 ,000 128,00
a. Variable(s) entered on step 1: PapSmear.
48
Variables in the Equation
B S.E. Wal
d df Sig. Exp(B)
Step 1
a
Merokok(1) -2,13
6
1,159 3,395
1 ,065
,118
Constant 5,935
1,001 35,130
1 ,000
378,000
a. Variable(s) entered on step 1: Merokok.
Lampiran 3 : Uji Kesesuaian Model
Hosmer and Lemeshow Test
Step Chi-square df Sig.
1 ,716 2 ,699
Lampiran 4 : Uji Serentak (Overall Test)
Omnibus Tests of Model Coefficients
Chi-square df Sig.
Step 1
Step 6,576 3 ,087
Block 6,576 3 ,087
Model 6,576 3 ,087
Lampiran 5: Uji Individu & Estimasi Parameter
Variables in the Equation
B S.E. Wald df Sig. Exp(B)
Step
1a
Riwayat.keluarga(1) -1,805 1,231 2,149 1 ,143 ,164
PapSmear(1) -1,478 1,225 1,455 1 ,228 ,228
Merokok(1) -1,929 1,169 2,722 1 ,099 ,145
Constant 6,285 1,077 34,066 1 ,000 536,574
a. Variable(s) entered on step 1: Riwayat.keluarga, PapSmear, Merokok.
49
Lampiran 6 : Syntax dan output SVM pembentukan model
[nsv, alpha, b0] = svc(xtr,ytr,'poly',2,10) predictedY = svcoutput(xtr,ytr,xts,'poly',1,alpha,b0,1) Support Vector Classification #50:50 _____________________________ Constructing ... Optimising ... Execution time: 70.7 seconds Status : OPTIMAL_SOLUTION |w0|^2 : 0.000006 Margin : 837.463831 Sum alpha : 5119.999984 Support Vectors : 512 (99.2%) nsv = 512
50
Support Vector Classification #70:30 _____________________________ Constructing ... Optimising ... Execution time: 176.9 seconds Status : OPTIMAL_SOLUTION |w0|^2 : 0.000009 Margin : 679.357193 Sum alpha : 7159.999978 Support Vectors : 716 (99.2%) nsv = 716 Support Vector Classification #90:10 _____________________________ Constructing ... Optimising ... Execution time: 381.1 seconds Status : OPTIMAL_SOLUTION |w0|^2 : 0.000011 Margin : 610.366601 Sum alpha : 9229.999971 Support Vectors : 923 (99.4%) nsv = 923
BIODATA DIRI
AGIL DARMAWAN, lahir di
Kabupaten Kediri pada tanggal
20 Februari 1990. Penulis
adalah anak bungsu dari
pasangan Masykur Idris, S.H
dan Siti Khudewi Azzah
Zuhriah, S.Pd. Penulis
memulai pendidikan formalnya
dari SDI Al Huda Kediri, MTs
N 2 Kediri, MAN 3 Kediri,
dan akhirnya diterima sebagai
mahasiswa S1 Statistika ITS pada tahun 2008 melalui jalur
SNMPTN. Pada tahun 2014 penulis berhasil menyelesaikan
Tugas Akhir dengan judul “Deteksi Dini Penyakit Kanker
Leher Rahim (Serviks) di Kota Bogor Mengunakan Support
Vector Machine (SVM)”. Selama kuliah penulis aktif di
beberapa organisasi kemahasiswaan antara lain sebagai staf
PPSDM Forum Studi Islam Statistika (FORSIS) ITS, staf
PSDM Himpunan Mahasiswa Statistika (HIMASTA) ITS, staf
Professional Statistics (PST), serta organisasi terbesar di ITS
yaitu Jama’ah Masjid Manarul Ilmi (JMMI) ITS.
Alhamdulillah penulis pernah memperoleh prestasi non
akademik, yaitu Juara III Karya Tulis Al Qur'an (KKTA) ITS
dan tulisan penulis tentang Ramadhan masuk 45 tulisan
terbaik oleh Gramedia Grup. Bagi yang memiliki saran, kritik,
atau ingin berdiskusi lebih lanjut bisa menghubungi penulis
melalui email [email protected] atau melalui
facebook “Agil Darmawan”.
(Halaman ini sengaja dikosongkan)