DETEKSI SPAMMER DI TWITTER DENGAN MEMPELAJARI TWEET … · perpustakaan.uns.ac.id digilib.uns.ac.id...

14
perpustakaan.uns.ac.id digilib.uns.ac.id commit to user DETEKSI SPAMMER DI TWITTER DENGAN MEMPELAJARI TWEET-BASED FEATURES SKRIPSI Diajukan untuk memenuhi sebagian persyaratan mendapatkan gelar Strata Satu Jurusan Informatika disusun oleh: YULIA WARDHANI M0508012 JURUSAN INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET SURAKARTA 2012

Transcript of DETEKSI SPAMMER DI TWITTER DENGAN MEMPELAJARI TWEET … · perpustakaan.uns.ac.id digilib.uns.ac.id...

  • perpustakaan.uns.ac.id digilib.uns.ac.id

    commit to user

    DETEKSI SPAMMER DI TWITTER

    DENGAN MEMPELAJARI TWEET-BASED FEATURES

    SKRIPSI

    Diajukan untuk memenuhi sebagian persyaratan mendapatkan

    gelar Strata Satu

    Jurusan Informatika

    disusun oleh:

    YULIA WARDHANI

    M0508012

    JURUSAN INFORMATIKA

    FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

    UNIVERSITAS SEBELAS MARET

    SURAKARTA

    2012

  • perpustakaan.uns.ac.id digilib.uns.ac.id

    commit to user

    ii

  • perpustakaan.uns.ac.id digilib.uns.ac.id

    commit to user

    iii

    MOTTO

    ”If you have God on your side, everything becomes clear.”

    (Ayrton Senna )

    “True heroism is minutes, hours, weeks, year upon year of the quiet, precise, judicious

    exercise of probity and care—with no one there to see or cheer. This is the world.”

    (David Foster Wallace, The Pale King)

    “Mengalah bukan berarti kalah, hanya orang-orang besarlah yang berani mengalah untuk

    mencapai kemenangan yang hakiki.”

    (Ali Bin Abi Thalib)

  • perpustakaan.uns.ac.id digilib.uns.ac.id

    commit to user

    iv

    PERSEMBAHAN

    Untuk Ibu, Bapak,dan Kakak-kakakku...

  • perpustakaan.uns.ac.id digilib.uns.ac.id

    commit to user

    v

    KATA PENGANTAR

    Puji syukur penulis ucapkan pada Allah SWT, yang telah membimbing dan

    menemani penulis hingga dapat menyelesaikan skripsi yang berjudul ”Deteksi

    Spammer di Twitter dengan mempelajari Tweet-Based Features” yang disusun

    sebagai persyaratan mendapatkan gelar Starata Satu jurusan Informatika Universitas

    Sebelas Maret.

    Penyusunan skripsi ini juga tak lepas dari bimbingan dan bantuan yang tidak ada

    habisnya dari segenap pihak. Untuk itu perkenankan penulis mengucapkan

    terimakasih yang sebesar-besarnya kepada:

    1. Bapak dan Ibu di rumah, atas dukungan, doa restu, dan kepercayaan yang telah

    diberikan selama ini,

    2. Ibu Dewi Wisnu Wardani, S. Kom, M. S, selaku dosen pembimbing I yang

    selalu mengarahkan penulis ke arah yang benar dan selalu menimbulkan sikap

    optimis pada penulis akan selesainya skripsi ini,

    3. Bapak Didiek S. Wiyono, S. T, M. T, selaku dosen pembimbing II yang selalu

    membimbing dan memberikan ide maupun koreksi pada penulis sehingga

    mampu mewujudkan skripsi ini,

    4. Ibu Sari Widya Sihwi, S. Kom, M. TI, selaku penguji I dan Bapak Meiyanto

    Eko Sulistyo, S. T, M. Eng, selaku penguji II yang telah meluangkan waktunya

    dan memberikan saran untuk perbaikan skripsi ini,

    5. Ibu Umi Salamah, S. Si, M. Kom, selaku pembimbing akademik, yang selalu

    memberikan dorongan semangat dan bimbingannya.

    6. Kakak-kakakku, @playgroundpilot khususnya, untuk doa, dorongan, bantuan

    yang tiada henti.

    7. Teman-teman, @ndrer atas mottonya, @christinethuel, @rikybagoes,

    @agathariyadi, @ifantraadindo, bintang7, tbcfamily, dan teman-teman

    informatika UNS atas dukungan tiada henti.

  • perpustakaan.uns.ac.id digilib.uns.ac.id

    commit to user

    vi

    8. Semua pihak yang turut terlibat baik secara langsung maupun tidak langsung

    dalam penulisan skripsi ini yang tidak dapat disebutkan satu persatu,

    terimakasih banyak atas semua bantuannya.

    Semoga Allah SWT membalas budi baik semua pihak yang telah membantu dalam

    penulisan skripsi ini, Amin ya robbal ’alamin. Penulis menyadari bahwa kemampuan

    dan pengalaman penulis masih sangat terbatas. Akan tetapi penulis berharap skripsi ini

    dapat bermanfaat bagi semua pihak.

    Penulis

  • perpustakaan.uns.ac.id digilib.uns.ac.id

    commit to user

    vii

    DETEKSI SPAMMER DI TWITTER

    DENGAN MEMPELAJARI TWEET-BASED FEATURES

    Yulia Wardhani

    Jurusan Informatika. Fakultas Matematika dan Ilmu Pengetahuan Alam.

    Universitas Sebelas Maret

    ABSTRAK

    Spam merupakan penyalahgunaan dalam pengiriman berita dari jaringan

    komunikasi dan memiliki berbagai bentuk dan definisi yang berbeda tergantung pada

    jenis jaringannya. Dengan jutaan pengguna di seluruh dunia, Twitter menyediakan

    berbagai berita dan peristiwa yang terjadi. Namun, dengan adanya kemudahan dalam

    penyebaran berita dan memungkinkan pengguna untuk membahas berita tersebut

    dalam status mereka, layanan ini juga membuka peluang terbentuknya spam.

    Pada penelitian ini dilakukan deteksi spammer untuk mengklasifikasikan akun ke

    dalam spammer atau nonspammer dengan mempelajari tweet-based features (jumlah

    follower, following, URL, @mention dan #hashtag).

    Hasil penelitian menunjukkan bahwa algoritma yang dibangun mempunyai

    kesalahan (error) lebih sedikit dibanding dengan algoritma pembandingnya (algoritma

    C5.0), yaitu sebesar 11% untuk dataset 1, 14% untuk dataset 2, dan 6,3% untuk

    dataset 3. Ketelitian mengklasifikasikan sebesar 87,8% untuk dataset 1, 82,35% untuk

    dataset 2, dan 92,10% untuk dataset 3. Keakurasian sebesar 89% untuk dataset 1, 86%

    untuk dataset 2, dan 93,67% untuk dataset 3.

    Kata Kunci: Algoritma C5.0, Deteksi Spammer, Tweet-based Features, Twitter.

  • perpustakaan.uns.ac.id digilib.uns.ac.id

    commit to user

    viii

    DETECTING SPAMMERS ON TWITER

    BY IDENTIFYING TWEET-BASED FEATURES

    Yulia Wardhani

    Department of Informatics. Mathematic and Science Faculty.

    Sebelas Maret University

    ABSTRACT

    Spam is the abuse in the delivery of news and communication networks. It has

    different shapes and different definitions depending on the type of network. With

    millions of users worldwide, Twitter provides a variety of news and events. However,

    with the ease of dissemination of news, and allow users to discuss the stories in their

    status, these services also open opportunities for another kind of spam.

    In this study, spammer detection algorithm is applied to classify accounts into a

    spammer or non spammer by identifying tweet-based features (number of followers,

    followings, URLs, @mentions and #hashtags).

    The results showed that the algorithm has constructed an error 11% (dataset 1),

    14% (dataset 2), 6,3% (dataset 3) is less than the comparison algorithm (C5.0

    algorithm), achieve 87.8% precision (dataset 1), 82,35% precision (dataset 2),

    92,10% precision (dataset 3) and 89% accuracy (dataset 1), 86% accuracy (dataset 2),

    93,67% accuracy (dataset 3).

    Keywords: C.50 Algorithm, Spammer Detection, Tweet-based Features, Twitter.

  • perpustakaan.uns.ac.id digilib.uns.ac.id

    commit to user

    ix

    DAFTAR ISI

    Halaman

    HALAMAN JUDUL .............................................................................................. i

    HALAMAN PENGESAHAN ................................................................................ ii

    HALAMAN MOTTO ............................................................................................ iii

    HALAMAN PERSEMBAHAN ............................................................................. iv

    KATA PENGANTAR ........................................................................................... v

    ABSTRAK ............................................................................................................. vii

    ABSTRACT ........................................................................................................... viii

    DAFTAR ISI .......................................................................................................... ix

    DAFTAR GAMBAR ............................................................................................. xi

    DAFTAR TABEL .................................................................................................. xii

    DAFTAR LAMPIRAN .......................................................................................... xiii

    BAB I PENDAHULUAN .................................................................................. 1

    1.1 Latar Belakang Masalah........................................................ 1

    1.2 Perumusan Masalah............................................................... 2

    1.3 Batasan Masalah................................................................... 2

    1.4 Tujuan dan Manfaat Penelitian............................................. 3

    1.4.1 Tujuan Penelitian....................................................... 3

    1.4.2 Manfaat Penelitian..................................................... 3

    1.5 Sistematika Penulisan............................................................ 3

    BAB II LANDASAN TEORI.............................................................................. . 5

    2.1 Dasar Teori................................................................................ 5

    2.1.1. Microbloging.................................................................. 5

    2.1.1.1 Twitter................................................................ 5

    2.1.1.2 Twitter API......................................................... 6

    2.1.2 Spam............................................................................... 6

    2.1.2.1 Spam di Twitter .................................................. 7

    2.1.3. Metode Pendeteksian Spammer di Twitter..................... 8

    2.1.3.1 Web Crawler....................................................... 8

    2.1.3.2 Pemilihan Fitur untuk Pendeteksian Spammer... 9

    2.1.3.3 Decision Tree .................................................... 10

  • perpustakaan.uns.ac.id digilib.uns.ac.id

    commit to user

    x

    2.1.3.3.1 Algoritma C5.0 ................................. 10

    2.1.4. Evaluasi…..................................................................... 11

    2.2 Penelitian Terkait……............................................................. 12

    2.2.1. Detecting Spammers on Twitter ................................... 12

    2.2.2. Mutually Reinforcing Spam Detection on Twitter

    and Web……………………………………………….. 13

    2.2.3. Detecting Spam Bots in Online Social Networking

    Sites: A Machine Learning Approach ........................... 14

    2.3 Rencana Penelitian …….......................................................... 15

    BAB III METODE PENELITIAN ....................................................................... 16

    3.1 Kerangka Pemikiran…............................................................. 16

    3.1.1 Studi Pustaka............................................................ 16

    3.1.2 Perancangan Web Crawler........................................ 16

    3.1.3 Pengumpulan Data.................................................... 17

    3.1.4 Eksperimen…............................................................ 17

    3.1.5 Evaluasi..................................................................... 19

    BAB IV HASIL DAN PEMBAHASAN. ............................................................. 20

    4.1 Perancangan Web Crawler........................................……........ 20

    4.2 Pengumpulan Data…………………………………..……...... 24

    4.3 Eksperimen…………………………………………...……..... 25

    4.3.1 Anotasi Data…….......................................................... 25

    4.3.2 Proses Pendeteksian....................................................... 26

    4.3.2.1 Algoritma Pendeteksian Spammer……………. 26

    4.3.2.2 Algoritma C5.0……………………………….. 28

    4.3.2.2.1 Features Importance Analysis…….…. 28

    4.4 Evaluasi….…………………………………………...……..... 32

    BAB V KESIMPULAN DAN SARAN .............................................................. 35

    5.1 Kesimpulan……...................................................................... 35

    5.2 Saran……................................................................................ 35

    DAFTAR PUSTAKA ............................................................................................ 37

    LAMPIRAN ........................................................................................................... 39

  • perpustakaan.uns.ac.id digilib.uns.ac.id

    commit to user

    xi

    DAFTAR GAMBAR

    Halaman

    Gambar 2.1 Klasifikasi sebagai pemetaan sebuah atribut input x

    ke dalam label kelas ........................................................................ 10

    Gambar 2.2 Confusion Matrix ................................................................................ 12

    Gambar 2.3 Twitter Graph.. ................................................................................... 14

    Gambar 3.1 Kerangka Pemikiran Penelitian .......................................................... 16

    Gambar 3.2 Gambaran umum sistem deteksi spam di Twitter .............................. 17

    Gambar 4.1 Interface aplikasi web-based untuk labeling data ....................... 26

    Gambar 4.2 Grafik distribusi berdasar ishashtag .............................................. 27

    Gambar 4.3 Grafik distribusi berdasar ismention ............................................. 27

    Gambar 4.4 Grafik distribusi berdasar URL ...................................................... 28

    Gambar 4.5 Grafik distribusi berdasar friend .................................................... 28

    Gambar 4.6 Hasil Klasifikasi dengan algoritma C5 menggunakan

    weka classifier dalam bentuk decision tree ................................. 31

  • perpustakaan.uns.ac.id digilib.uns.ac.id

    commit to user

    xii

    DAFTAR TABEL

    Halaman

    Tabel 4.1 Keterangan atribut Friends, Isurl,

    Ismention, Ishashtag .......................................................................... 25

    Tabel 4.2 Contoh instances dengan atribut terpilih .......................................... 25

    Tabel 4.3 Contoh data dengan kelas spammer dan nonspammer berdasar

    atribut Ishashtag ................................................................................. 29

    Tabel 4.4 Confusion Matrix: Deteksi spammer dengan menggunakan

    algoritma pendeteksi spammer (Data testing 1, 100 records) ..... 32

    Tabel 4.5 Confusion Matrix: Deteksi spammer dengan menggunakan

    algoritma pendeteksi spammer (Data testing 2, 150 records)..... 32

    Tabel 4.6 Confusion Matrix: Deteksi spammer dengan menggunakan

    algoritma pendeteksi spammer (Data testing 3, 300 records) ..... 32

    Tabel 4.7 Confusion Matrix: Deteksi spammer dengan menggunakan

    algoritma C5.0 (Data testing 1, 100 records) ................................ 33

    Tabel 4.8 Confusion Matrix: Deteksi spammer dengan menggunakan

    algoritma C5.0 (Data testing 2, 150 records) .............................. 33

    Tabel 4.9 Confusion Matrix: Deteksi spammer dengan menggunakan

    algoritma C5.0 (Data testing 3, 300 records) ................................ 33

    Tabel 4.10 Persentase hasil klasifikasi berdasarkan alat ukur evaluasi

    confussion matrix ............................................................................... 34

  • perpustakaan.uns.ac.id digilib.uns.ac.id

    commit to user

    xiii

    DAFTAR LAMPIRAN

    Halaman

    Hasil Klasifikasi: Algoritma Pendeteksian Spammer (data testing 1)……. 38

    Hasil Klasifikasi: Algoritma Pendeteksian Spammer (data testing 2).......... 40

    Hasil Klasifikasi: Algoritma Pendeteksian Spammer (data testing 3).......... 44

    Hasil Klasifikasi: Algoritma C5.0 (data testing 1) .......................................... 51

    Hasil Klasifikasi: Algoritma C5.0 (data testing 2) .......................................... 54

    Hasil Klasifikasi: Algoritma C5.0 (data testing 3) .......................................... 58

  • perpustakaan.uns.ac.id digilib.uns.ac.id

    commit to user