PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI...

13
PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI MENGGUNAKAN METODE TF-IDF TUGAS AKHIR Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang Disusun Oleh : PUTRI FITRIYAH 09560483 JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS MUHAMMADIYAH MALANG 2013

Transcript of PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI...

Page 1: PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI ...eprints.umm.ac.id/28016/2/jiptummpp-gdl-putrifitri... · “PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI MENGGUNAKAN METODE TF-IDF”

PENGARUH PEMBOBOTAN PADA TWEET DI MESIN

PENCARI MENGGUNAKAN METODE TF-IDF

TUGAS AKHIR

Diajukan Untuk Memenuhi

Persyaratan Guna Meraih Gelar Sarjana Strata 1

Teknik Informatika Universitas Muhammadiyah Malang

Disusun Oleh :

PUTRI FITRIYAH

09560483

JURUSAN TEKNIK INFORMATIKA

FAKULTAS TEKNIK

UNIVERSITAS MUHAMMADIYAH MALANG

2013

Page 2: PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI ...eprints.umm.ac.id/28016/2/jiptummpp-gdl-putrifitri... · “PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI MENGGUNAKAN METODE TF-IDF”

LEMBAR PERSETUJUAN

PENGARUH PEMBOBOTAN PADA TWEET DI MESIN

PENCARI MENGGUNAKAN METODE TF-IDF

TUGAS AKHIR

Oleh :

Putri Fitriyah

0 9 5 6 0 4 8 3

Telah Direkomendasikan Untuk Diajukan Sebagai Judul Tugas Akhir Di

Teknik Informatika Universitas Muhammadiyah Malang

Menyetujui,

Pembimbing I

Yuda Munarko, S.kom., M.Sc.

NIP : 108.0611.0443

Pembimbing II

Gita Indah Marthasari, ST

NIP : 108.0611.0442

Page 3: PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI ...eprints.umm.ac.id/28016/2/jiptummpp-gdl-putrifitri... · “PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI MENGGUNAKAN METODE TF-IDF”

LEMBAR PENGESAHAN

PENGARUH PEMBOBOTAN PADA TWEET DI MESIN

PENCARI MENGGUNAKAN METODE TF-IDF

TUGAS AKHIR

Diajukan Untuk Memenuhi

Persyaratan Guna Meraih Gelar Sarjana Strata 1

Teknik Informatika Universitas Muhammadiyah Malang

Disusun Oleh :

Putri Fitriyah

0 9 5 6 0 4 8 3

Tugas Akhir ini telah diuji dan dinyatakan lulus oleh tim penguji pada

tanggal 18 Oktober 2013

Mengetahui/Menyetujui

Penguji I Penguji II

(Ir. Lailis Syafa'ah, MT) (Sofyan Arifianto, S.Si, M.Kom)

Mengetahui

Ketua Jurusan Teknik Informatika

Eko Budi Cahyono, S.Kom, MT

NIP : 108.9504.0330

Page 4: PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI ...eprints.umm.ac.id/28016/2/jiptummpp-gdl-putrifitri... · “PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI MENGGUNAKAN METODE TF-IDF”

LEMBAR PERNYATAAN

Yang bertanda tangan di bawah ini:

Nama : Putri Fitriyah

Tempat / Tgl Lahir : Lamongan, 18 Maret 1990

NIM : 0 9 5 6 0 4 8 3

Fakulats / Jurusan : Teknik / Teknik Informatika

Dengan ini saya menyatakan bahwa Tugas Akhir dengan judul

“PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI

MENGGUNAKAN METODE TF-IDF” beserta seluruh isinya adalah karya

saya sendiri dan bukan merupakan karya tulis orang lain, baik sebagian maupun

keseluruhan, kecuali dalam bentuk kutipan yang telah disebutkan sumbernya.

Demikian surat pernyataan ini saya buat dengan sebenar-benarnya.

Apabila kemudian ditemukan adanya pelanggaran terhadap etika keilmuan dalam

karya saya ini, atau ada klaim dari pihak lain terhadap keaslian karya saya ini

maka saya siap menanggung segala bentuk resiko/sanksi yang berlaku.

Malang, 9 Oktober 2013

Yang Membuat Pernyataan

Putri Fitriyah

Mengetahui,

Dosen Pembimbing I

Yuda Munarko, S.kom., M.Sc.

NIP : 108.0611.0443

Dosen Pembimbing II

Gita Indah Marthasari, ST

NIP : 108.0611.0442

Page 5: PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI ...eprints.umm.ac.id/28016/2/jiptummpp-gdl-putrifitri... · “PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI MENGGUNAKAN METODE TF-IDF”

KATA PENGANTAR

Puji syukur kehadirat Allah SWT, yang telah memberi kekuatan dan petunjuk

serta melimpahkan rahmat, dan hidayah-Nya, sehingga penulis dapat

menyelesaikan Tugas Akhir yang berjudul “PENGARUH PEMBOBOTAN

PADA TWEET DI MESIN PENCARI MENGGUNAKAN METODE TF-IDF”.

Dengan menyadari adanya keterbatasan kemampuan, pengetahuan,

referensi dan pengalaman, Tugas Akhir ini masih jauh dari sempurna. Untuk itu

saran dan masukkan untuk kesempurnaan sangat penulis harapkan.

Akhir kata penulis berharap semoga Tugas Akhir ini dapat bermanfaat dan

menjadi tambahan ilmu pengetahuan.

Malang, 9 Oktober 2013

Penulis

Page 6: PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI ...eprints.umm.ac.id/28016/2/jiptummpp-gdl-putrifitri... · “PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI MENGGUNAKAN METODE TF-IDF”

LEMBAR PERSEMBAHAN

Dalam penulisan tugas akhir ini tidak akan terselesaikan dengan baik tanpa

adanya bimbingan dan motivasi dari berbagai pihak. Pada kesempatan ini

penulis ingin menyampaikan terima kasih kepada :

• Ir. Sudarman, MT, selaku Dekan Fakultas Teknik, yang telah mengijinkan

peneliti untuk mengikuti Ujian Skripsi sehingga dapat memperlancar

terselesaikannya skripsi ini.

• Eko Budi Cahyono, S.Kom, MT, selaku Ketua Jurusan Teknik Informatika

yang telah mengijinkan peneliti untuk mengikuti Ujian Skripsi sehingga dapat

memperlancar terselesaikannya skripsi ini.

• Ir. Hj. Lailis Syafa'ah, MT, dan Sofyan Arifianto, S.Si, M.Kom, Selaku

dosen penguji yang telah memberikan masukan guna kesempurnaan skripsi

ini.

• Yuda munarko, S.kom., M.Sc. selaku dosen pembimbing I yang telah

mengorbankan waktu dan tenaga untuk membimbing, mengarahkan,

memotivasi, dan memberi bantuan dengan penuh kesabaran dan ketulusan.

• Gita Indah Marthasari, ST selaku dosen pembimbing II yang telah membantu,

membimbing, mengarahkan dan memotivasi penulis dengan iklas.

• Kedua orang tua saya ( Ayahanda tercinta H.Jembar dan Ibunda tersayang

Hj.Suliyanah ) serta saudara-saudara saya beserta keluarga besar saya di

rumah yang sering memberikan doa, semangat dan dukungan baik moril

maupun materil sehingga membuat penulis termotivasi untuk menyelesaikan

skripsi ini.

• AbieQ (Mahfudi, S.Pd,) yang selalu memberi motivasi, inspirasi, dan

semangat dalam menyelesaikan skripsi ini.

• Teman-teman seperjuangan s1 Neny, bude (Lina), Hanum, mbak les (Tari)

dan Bedebah-bedebah Informatika kelas J. Selaku teman yang banyak

membantu dalam menyelesaikan skripsi ini.

Page 7: PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI ...eprints.umm.ac.id/28016/2/jiptummpp-gdl-putrifitri... · “PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI MENGGUNAKAN METODE TF-IDF”

DAFTAR ISI

Lembar Persetujuan .................................................................................................. i

Lembar Pengesahan ................................................................................................ ii

Lembar Pernyataan................................................................................................. iii

Abstraksi ................................................................................................................ iv

Abstract ................................................................................................................... v

Kata Pengantar ....................................................................................................... vi

Lembar Persembahan ............................................................................................ vii

Daftar Isi.................................................................................................................. 7

Daftar Gambar ......................................................................................................... 9

Daftar Tabel .......................................................................................................... 10

BAB I PENDAHULUAN ....................................................................................... 1

1.1 LATAR BELAKANG ..................................................................................... 1

1.2 RUMUSAN MASALAH ................................................................................. 2

1.3 TUJUAN ..................................................................................................... 2

1.4 BATASAN MASALAH .................................................................................. 3

1.5 METODE PENELITIAN ................................................................................. 3

1.6 SISTEMATIKA PENULISAN .......................................................................... 5

BAB II LANDASAN TEORI ................................................................................. 6

2.1 TWITTER .................................................................................................... 6

2.2 TEXT MINING ............................................................................................ 6

2.2.1 Definisi Text Mining ............................................................................ 6

2.2.2 Tahapan Text Mining............................................................................ 7

2.3 PEMBOBOTAN .......................................................................................... 11

2.4 ALGORITMA TF-IDF ............................................................................... 11

2.4.1 Definisi Metode TF-IDF ...................................................................... 11

2.4.2 Term Frequency ( TF ) ........................................................................ 12

2.4.3 Inverted Document Frequency (IDF) .................................................. 12

2.4.4 Ilustrasi Algoritma TF-IDF ................................................................. 13

2.4.5 BM25 ................................................................................................... 15

2.4.6 Cosine Similarity ................................................................................ 15

2.5 EVALUASI ................................................................................................ 16

2.5.1 Confusion Matrik ................................................................................ 16

2.5.2 Recall .................................................................................................. 16

2.5.3 Precision.............................................................................................. 16

2.6 MESIN PENCARI ....................................................................................... 17

Page 8: PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI ...eprints.umm.ac.id/28016/2/jiptummpp-gdl-putrifitri... · “PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI MENGGUNAKAN METODE TF-IDF”

2.6.1 Definisi Mesin Pencari........................................................................ 17

2.6.2 Cara Kerja Mesin Pencari ................................................................... 18

BAB III ANALISA DAN PERANCANGAN SISTEM ....................................... 19

3.1 ANALISA MASALAH ................................................................................ 19

3.2 ANALISA SISTEM ..................................................................................... 20

3.2.1 Use Case Diagram .............................................................................. 20

3.3 PERANCANGAN SISTEM ........................................................................... 25

3.3.1 Perancangan Data ............................................................................... 25

3.3.2 Class Diagram ..................................................................................... 27

3.3.3 Entity Relationship Diagram .............................................................. 30

3.3.4 Sequence Diagram .............................................................................. 31

3.4 PERANCANGAN DATABASE ..................................................................... 32

3.5 PERANCANGAN PENGUJIAN ..................................................................... 38

3.6 DESAIN INTERFACE ................................................................................. 38

3.6.1 Form Menu Pencarian ......................................................................... 38

BAB IV IMPLEMENTASI DAN HASIL PENGUJIAN ..................................... 40

4.1 SPESIFIKASI KEBUTUHAN HARDWARE DAN SOFTWARE .......................... 40

4.2 IMPLEMENTASI SISTEM ............................................................................ 40

4.2.1. Pembuatan Basis Data ..................................................................... 41

4.2.2. Pembuatan Fungsi Koneksi Database ............................................. 44

4.2.3. Pembuatan Class-Class yang Dibutuhkan ....................................... 44

4.3 IMPLEMENTASI KODE PROGRAM ............................................................. 45

4.3.1 Kode Program Preprocessing.............................................................. 45

4.3.2 Kode Program Pembobotan ................................................................ 47

4.3.3 Kode Program Pencarian .................................................................... 49

4.4 PENGUJIAN .............................................................................................. 53

4.4.1 Pengujian Sistem................................................................................. 53

4.4.1.1 Pengujian Class Preprocessing untuk Data Training .................. 53

4.4.1.2 Pengujian Class Pembobotan ...................................................... 54

4.4.1.3 Pengujian Class Pencarian ........................................................... 55

4.4.2 Analisa Hasil Pengujian ...................................................................... 57

BAB V KESIMPULAN DAN SARAN ................................................................ 63

5.1 KESIMPULAN ........................................................................................... 63

5.2 SARAN ..................................................................................................... 64

DAFTAR PUSTAKA ........................................................................................... 65

LAMPIRAN-LAMPIRAN .................................................................................... 67

BIOGRAFI PENULIS .......................................................................................... 79

Page 9: PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI ...eprints.umm.ac.id/28016/2/jiptummpp-gdl-putrifitri... · “PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI MENGGUNAKAN METODE TF-IDF”

DAFTAR GAMBAR

Gambar 2. 1 Tahapan Text Mining ......................................................................... 7

Gambar 2. 2 Contoh Case Folding .......................................................................... 8

Gambar 2. 3 Contoh Tokenizing ............................................................................. 9

Gambar 2. 4 Contoh Filtering ................................................................................. 9

Gambar 2. 5 Contoh Stemming ............................................................................. 10

Gambar 2. 6 Ilustrasi Algoritma TF-IDF .............................................................. 13

Gambar 3. 1 Use Case Diagram Sistem ................................................................ 20

Gambar 3. 2 Activity Diagram Proses Data Training ........................................... 21

Gambar 3. 3 Activity Diagram Melakukan Pencarian .......................................... 24

Gambar 3. 4 Class Diagram Pengaruh Pembobotan pada Tweet di Mesin Pencari

............................................................................................................................... 28

Gambar 3. 5 Entity Relationship Diagram ............................................................ 30

Gambar 3. 6 Sequence Diagram Proses Data Training ........................................ 31

Gambar 3. 7 Sequence Diagram Melakukan Pencarian ........................................ 32

Gambar 3. 8 Form Pencarian ................................................................................ 38

Gambar 4. 1 Data Tabel MySQL .......................................................................... 41

Gambar 4. 2Script Koneksi Basis Data ................................................................. 44

Gambar 4. 3 Class-Class yang Dibutuhkan .......................................................... 45

Gambar 4. 4 Kode Program Kode Program Preprocessing Data (Case Folding,

Tokenizing dan Filtering) ...................................................................................... 45

Gambar 4. 5 Kode Program Preprocessing Data (Stemming) .............................. 46

Gambar 4. 6 Kode Program Preprocessing Data (Pemanggilan method-method) 47

Gambar 4. 7 Kode Program Mapping Data Membaca file txt ............................. 58

Gambar 4. 8 Kode Program Mapping Data untuk Memproses Data ................... 48

Gambar 4. 9 Kode Program Mapping Data menyimpan ke Database ................. 49

Gambar 4. 10 Kode Program Preprocessing pada Class Pencarian ..................... 49

Gambar 4. 11 Kode Program Pencarian .............................................................. 50

Gambar 4. 12 Kode Program Query Perhitungan ................................................ 50

Gambar 4. 13 Kode Program Perhitungan IDF .................................................... 51

Gambar 4. 14 Kode Program Scoring dalam Pencarian menggunkan BM25....... 51

Gambar 4. 15 Kode Program method view pada Class Pencarian ....................... 52

Gambar 4. 16 Data Mentah yang belum di preprocess ........................................ 53

Gambar 4. 17 Data hasil Filtering ........................................................................ 54

Gambar 4. 18 Data hasil Stemming ...................................................................... 54

Gambar 4. 19 Tabel TF hasil mapping kata dari stemming.txt ............................ 55

Gambar 4. 20 Tampilan Awal Form Pencarian .................................................... 55

Gambar 4. 21 Tampilan Form Pencarian User Menginputkan kata kunci ............ 56

Gambar 4. 22 Tampilan Hasil Form Pencarian ..................................................... 56

Gambar 4. 23 Hasil Aplikasi Pencarian Tweet ..................................................... 60

Gambar 4. 24 Tampilan Hasil Pencarian di Twitter ............................................. 61

Gambar 4. 25 Tampilan Hasil Pencarian di Twitter ............................................. 61

Page 10: PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI ...eprints.umm.ac.id/28016/2/jiptummpp-gdl-putrifitri... · “PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI MENGGUNAKAN METODE TF-IDF”

DAFTAR TABEL

Tabel 3. 1 Contoh Pembobotan TF-IDF ............................................................ 23

Tabel 3. 2 Kriteria Tweet Subjective dan Objective ............................................ 26

Tabel 3. 3 Contoh Anotasi Tweet ........................................................................ 27

Tabel 3. 4 Daftar Tabel yang digunakan dalam Aplikasi .................................... 33

Tabel 3. 5 Tabel Tweet ......................................................................................... 33

Tabel 3. 6 Tabel Tf ............................................................................................... 34

Tabel 3. 7 Tabel Kata ........................................................................................... 35

Tabel 3. 8 Tabel Pencarian ................................................................................... 35

Tabel 3. 9 Tabel Idf ............................................................................................... 36

Tabel 3. 10 Tabel Tweet_Baru ............................................................................. 37

Tabel 3. 11 Tabel Hasil_Pencarian ...................................................................... 37

Tabel 4. 1 Pengujian dengan Kata Kunci Chatib Basri ......................................... 58

Tabel 4. 2 Pengujian dengan Menghitung Recall dan Precision .......................... 59

Page 11: PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI ...eprints.umm.ac.id/28016/2/jiptummpp-gdl-putrifitri... · “PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI MENGGUNAKAN METODE TF-IDF”

DAFTAR PUSTAKA

[1] Abror, Fikri K., dan Suadi Wahyu. Komputasi Pembobotan Dokumen

Berbahasa Indonesia Menggunakan Mapreduce. Jurnal Komputasi

Modern. [Online] Unduh: http://thiodream.blogspot.com/2012/03/1.pdf

[maret 2013]

[2] Cosine Similarity (TF-idf) universitas trunojoyo [Online]

http://myblackparade.files.wordpress.com [april 2013]

[3] Definisi Text Mining-member of EEPIS-ITS [Online] http://lecture.eepis-

its.edu/../text%20mining [april 2013]

[4] Dwi, Hendratmo, W., Sunni, Ismail. Analisis Sentimen dan Ekstrasi Topik

PenentuSentimen pada Opini Terhadap Tokoh Publik. Jurnal Sarjana

Institut Teknologi Bandung Bidang Elektro dan Informatika, 2012.

[Online] Unduh: http://stei.itb.ac.id/jurnal/ [maret 2013]

[5] Fitri, Meisya. Perancangan Sistem Temu Balik Informasi dengan Metode

Pembobotan Kombinasi TF-IDF untuk Pencarian Dokumen Berbahasa

Indonesia. Jurnal Informatika, 2013. [Online] Unduh:

http://jurnal.untan.ac.id/index.php/justin/11.pdf [maret 2013]

[6] Jenis-jenis Search Engine TPA www.upp-tpa.com/../menakar-urgensi

[april 2013]

[7] Karmayasa, Oka, dan Bagus, Ida,M. Implementasi Vector Space Model

dan Beberapa Notasi Metode Term Frequency Inverse Documen

Frequency (TF-IDF) Pada Sistem Temu Kembali Informasi. Jurnal.

[Online] unduh : http://ojs.unud.ac.id/index.php/JLK/../2787 [maret 2013]

[8] Mandala, Rila, dan Setiawan, Hendra. Peningkatan Performansi Sistem

Temu Kembali Informasi dengan Perluasan Query secara Otomatis. Jurnal,

2002 . [Online] unduh : http://mirror.kios.undip.ac.id/.. [april 2013]

[9] Okapi BM25 BAB III Metode Penelitian_G11kpa.pdf

http://repository.ipb.ac.id/../.. [maret 2013]

Page 12: PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI ...eprints.umm.ac.id/28016/2/jiptummpp-gdl-putrifitri... · “PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI MENGGUNAKAN METODE TF-IDF”

[10] Pembobotan TF-IDF Belajar TKI

http://temukembaliinformasi.wordpress.com/2009/08/26/pembobotan-tf-

idf [maret 2013]

[11] Pembobotan (WEIGHTING) ibprastdp.staff.ipb.ac.id/../10-Skoring.pdf

[april 2013]

[12] Recall & Precision|ilmu perpustakaan

http://iperpin.wordpress.com/2008/03/27/ recall-precisio/

[13] REST API v1.1 Resources Twitter Developers.html

[14] Romelta, Edwin. Opinion Mining di Twitter untuk Customer

FeedbackSmartphone dengan Pembelajaran Mesin. Jurnal Sarjana Institut

Teknologi Bandung Bidang Elektro dan Informatika, 2012. [Online]

Unduh: http://stei.itb.ac.id/jurnal/ [februari 2013]

[15] Safriadi, Novi, dan Wibowo, Ari. Uji Relevansi dan Performansi Sistem

Temu Balik Informasi pada Giggle Search Engine. Jurnal ELKHA, 2011.

[Online] unduh : http://jurnal.untan.ac.id/index.php/Elkha/../33 [maret

2013].

[16] Saraswati, Ni.W.S. Text Mining dengan Metode Naïve Bayes Classified

an Support Vector Machine untuk Sentiment Analys. Tesis, 2011. [Online]

Unduh: www.pps.unud.ac.id/../unud-209 [april 2013]

[17] Suriadnyana, S.G., dan Widiartha.I.M. Perancangan dan Implementasi

Customer Information Gathering Menggunakan Model Ruang Vektor dan

Perluasan Query. Proceeding Seminar Nasional Teknologi Informasi

&Aplikasinya, 2012. [Online] unduh :

http://staff.unud.ac.id/../file/../sang%gede [april 2013]

[18] Susanto, Budi. Text Mining – Kuliah Teknik Informatika UKDW

Yogyakarta lecturer.ukdw.ac.id/../textwebmining. [april 2013]

[19] Text Mining

http://digilib.ittelkom.ac.id/index.php?view=article&catid=20% [april

2013]

Page 13: PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI ...eprints.umm.ac.id/28016/2/jiptummpp-gdl-putrifitri... · “PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI MENGGUNAKAN METODE TF-IDF”

[20] Twitter-wikipedia http://id.m.wikipedia.org/wiki/Twitter [maret 2013]

[21] Vemby : Text Mining http://vemby-yoel.blogspot.com/2011/05/text-

mining.html?m=1 [april 2013]