Skripsi M0509004 Deteksi Web Berkonten Porno dengan Metode ... · tertinggi deteksi web berkonten...
Transcript of Skripsi M0509004 Deteksi Web Berkonten Porno dengan Metode ... · tertinggi deteksi web berkonten...
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
DETEKSI WEB BERKONTEN PORNO DENGAN METODE BAYESIAN
FILTERING DAN PRINCIPAL COMPONENT ANALYSIS
SKRIPSI
Diajukan untuk Memenuhi Sebagian Persyaratan Mendapatkan Gelar
Strata Satu Program Studi Informatika
Disusun oleh :
AFIF RIZKA WANDALA
NIM. M0509004
PROGRAM STUDI INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
SURAKARTA
2015
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
i
DETEKSI WEB BERKONTEN PORNO DENGAN METODE BAYESIAN
FILTERING DAN PRINCIPAL COMPONENT ANALYSIS
SKRIPSI
Diajukan untuk Memenuhi Sebagian Persyaratan Mendapatkan Gelar
Strata Satu Program Studi Informatika
Disusun oleh :
AFIF RIZKA WANDALA
NIM. M0509004
PROGRAM STUDI INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
SURAKARTA
2015
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
ii
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
iii
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
iv
DETEKSI WEB BERKONTEN PORNO DENGAN METODE BAYESIAN
FILTERING DAN PRINCIPAL COMPONENT ANALYSIS
AFIF RIZKA WANDALA
Program Studi Informatika, Fakultas Matematika dan Ilmu Pengetahuan Alam,
Universitas Sebelas Maret
ABSTRAK
Saat ini konten porno banyak bertebaran di sebuah website baik dalam bentuk
konten utama maupun iklan. Salah satu cara untuk mencegah konten yang tidak
diinginkan tersebut adalah dengan pendeteksian konten. Pendeteksian konten
dilakukan dengan proses text mining. Setiap website diprediksi dengan
mempertimbangkan karakteristik text yang ada didalamnya. Metode yang
digunakan untuk mempredeksi web porno dalam penelitian ini adalah bayesian
filtering, Bayesian filtering berrfungsi memperhitungkan probabilitas kemiripan
suatu website dengan membandingkan munculnya tiap keyword pada data latih.
Namun, banyaknya keyword atau variable mempengaruhi efisiensi dan keakuratan
deteksi. Untuk mengatasi hal tersebut, peneilitan ini menggunakan Principal
component analysis untuk mengurangi dan mencari variable yang memiliki
pengaruh penting terhadap deteksi. Dari penelitian ini diperoleh tingkat akurasi
tertinggi deteksi web berkonten porno dengan metode bayesian filtering sebesar
89.22%, hasil deteksi tersebut menggunakan 51 variable hasil ekstraksi Principal
component analysis.
Kata kunci : Bayesian Filtering, Text mining, Deteksi, PCA, Porno
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
v
PORN WEBSITE DETECTION USING BAYESIAN FILTERING AND
PRINCIPAL COMPONENT ANALYSIS METHOD
AFIF RIZKA WANDALA
Department of Informatics, Faculty of Mathematics and Natural Science
Sebelas Maret University
ABSTRACT
Now days many pornographic content on a website is not only in the
form of main content but also in advertisement. One way to prevent it is using
content detection . The detection of content can be done with text mining
process. Each website is predicted inside by the characteristics of the text. This
research using Bayesian filtering to predicting of pornographic web. The
function of Bayesian filtering is to calculate the similarity’s of probability in a
website by comparing the appearance of each keyword in the training data.
However, the number of keywords or variables influence the efficiency and
accuracy of detection. To prefent it this research using Principal component
analysis to reduce and looking for the variables have an important influence on
detection. From this research, the highest level of accuracy of detection of
pornographic web with Bayesian filtering method amounted to 89.22%, the
detection results using 51 variables from extraction result of Principal
component analysis.
Keyword : Bayesian Filtering, Detection, PCA, Porn, Text mining.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
vi
MOTTO
La tahzan Allohu ma’ana
“Sebaik-baik manusia adalah yang paling bermanfaat bagi orang lain .”
-(HR. Ahmad)
sesungguhnya bersama dengan kesulitan, ada kemudahan.. bersama dengan
kesulitan, ada kemudahan..
(Al-Insyirah : 6-7)
“With great power comes great responsibility”
-Spiderman
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
vii
PERSEMBAHAN
Karya ini Penulis persembahkan kepada :
“Bapak dan Ibu yang jasanya tidak akan pernah terbalaskan sedikitpun”
“Kakak dan adik saya yang telah memberi support yang tiada hentinya”
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
viii
KATA PENGANTAR Segala puji dan syukur penulis ucapkan kepada Allah SWT, yang hanya karena
rahmat dan karunia-Nya, penulis dapat menyelesaikan penelitian dan pembuatan
laporan penelitian ini dengan judul “DETEKSI WEB BERKONTEN PORNO
DENGAN METODE BAYESIAN FILTERING DAN PRINCIPAL
COMPONENT ANALYSIS”, yang merupakan salah satu syarat mendapatkan
gelar strata satu Informatika Universitas Sebelas Maret Surakarta.
Skripsi ini tidak akan selesai tanpa adanya bantuan dari banyak pihak.
Untuk itu penulis ingin menyampaikan ucapan terima kasih kepada :
1. Allah SWT atas limpahan segala rahmat dan karuniaNya sehingga karya tulis
ini dapat terselesaikan.
2. Bapak Palgunadi selaku dosen pembimbing yang telah memberikan
bimbingan, masukan, serta pengarahan.
3. Bapak Abdul Aziz selaku dosen pembimbing yang telah memberikan
bimbingan, masukan, serta pengarahan.
4. Bapak Afrizal dan Bapak Bambang Harjito selaku dosen penguji yang telah
memberikan penilaian dan masukan untuk tugas akhir ini.
5. Bapak, Ibu, dan keluarga yang selalu memberikan dukungan.
6. Teman-teman dan adik-adik semua yang memberi bantuan serta nasehat.
7. Keluarga besar S1 Informatika UNS, khususnya angkatan 2009 atas kiriman
semangat dan motivasi skripsi.
Semoga penelitian yang telah dilakukan penulis dapat bermanfaat.
Surakarta, 29 September 2015
Penulis
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
ix
DAFTAR ISI HALAMAN JUDUL ........................................................................................................... i
HALAMAN PERSETUJUAN ........................................................................................... ii
HALAMAN PERSETUJUAN .......................................................................................... iii
ABSTRAK ......................................................................................................................... iv
ABSTRACT .......................................................................................................................... v
MOTTO .............................................................................................................................. vi
PERSEMBAHAN ............................................................................................................. vii
KATA PENGANTAR ..................................................................................................... viii
DAFTAR ISI ...................................................................................................................... ix
DAFTAR TABEL .............................................................................................................. xi
DAFTAR GAMBAR ........................................................................................................ xii
DAFTAR LAMPIRAN .................................................................................................... xiii
BAB I PENDAHULUAN ................................................................................................... 1
1.1 Latar Belakang .................................................................................................... 1
1.2 Rumusan Masalah ............................................................................................... 3
1.3 Batasan Masalah ................................................................................................. 3
1.4 Tujuan Penelitian ................................................................................................ 3
1.5 Manfaat Penelitian .............................................................................................. 3
1.6 Sistematika Penulisan ......................................................................................... 4
BAB II TINJAUAN PUSTAKA ........................................................................................ 5
2.1 Dasar Teori .......................................................................................................... 5
2.1.1 Text mining .................................................................................................. 5
2.1.2 Web Crawling ............................................................................................. 6
2.1.3 Text Preprocessing ...................................................................................... 6
2.1.4 Web Mining ................................................................................................. 8
2.1.5 Information Gain......................................................................................... 9
2.1.6 Bayesian Filtering ..................................................................................... 10
2.1.7 Multikolinieritas ........................................................................................ 12
2.2 Penelitian terkait ............................................................................................... 15
2.3 Rencana Penelitian ............................................................................................ 17
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
x
BAB III METODOLOGI .................................................................................................. 18
3.1 Pengumpulan Data ............................................................................................ 18
3.2 Implementasi ..................................................................................................... 19
3.2.1 Preprocessing ........................................................................................... 19
3.2.2 Reducing Variable..................................................................................... 20
3.2.3 Feature Selection ...................................................................................... 21
3.2.4 Bayesian Filtering ..................................................................................... 23
3.3 Pengujian........................................................................................................... 24
3.3.1 Kombinasi data dan variabel ..................................................................... 24
3.3.2 Correctness ............................................................................................... 24
BAB IV HASIL DAN PEMBAHASAN .......................................................................... 25
4.1 Hasil pengumpulan data dan Crawling ............................................................. 25
4.2 Preprocessing ................................................................................................... 25
4.3 Variable extraction ........................................................................................... 26
4.3.1 Analisis PCA data training 100 porn :400 safe ......................................... 26
4.3.2 Analisis PCA data training 250 porn : 250 safe ........................................ 28
4.3.3 Analisis PCA data training 400 porn : 100 safe ........................................ 30
4.4 Hasil Pengujian deteksi dengan Bayesian filtering .......................................... 32
BAB V PENUTUP ........................................................................................................... 34
5.1 Kesimpulan ....................................................................................................... 34
5.2 Saran ................................................................................................................. 34
DAFTAR PUSTAKA ....................................................................................................... 35
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
xi
DAFTAR TABEL
Tabel 2.1 Penelitian Terkait .................................................................................. 15
Tabel 3.1. Contoh nilai covarians variabel PCA ................................................... 22
Tabel 4.1 Total keyword ........................................................................................ 25
Tabel 4.2 Keyword hasil estraksi PCA data 100:400 ........................................... 27
Tabel 4.3 Keyword hasil estraksi PCA data 250 porn : 250 safe ......................... 28
Tabel 4.4 Keyword hasil estraksi PCA data 400 porn : 100 safe ......................... 30
Tabel 4.5 Perbandingan akurasi non PCA ........................................................... 32
Tabel 4.6 Perbandingan akurasi ekstraksi PCA ................................................... 33
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
xii
DAFTAR GAMBAR
Gambar 2.1 Proses text mining .............................................................................. 6
Gambar 2.2 Contoh tokenizing ............................................................................... 7
Gambar 2.4 Contoh stemming ................................................................................ 8
Gambar 3.1 Alur metodologi penelitian................................................................ 18
Gambar 3.2 Grafik nilai eigen PCA ...................................................................... 21
Gambar 4.1 Grafik nilai eigen PCA 100 web porno: 400 web safe ...................... 26
Gambar 4.2 Grafik nilai eigen PCA 250 web porno: 250 web safe ...................... 28
Gambar 4.3 Grafik nilai eigen PCA 400 web porno: 100 web safe ...................... 30
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
xiii
DAFTAR LAMPIRAN
Lampiran 1. Nilai gain 1000 keyword 100 porn : 400 safe .................................. 37
Lampiran 2. Nilai gain 1000 keyword 250 porn : 250 safe .................................. 45
Lampiran 3. Nilai gain 1000 keyword 400 porn : 100 safe .................................. 54