POS TAGGER TWITTER BAHASA INDONESIA ... - core.ac.uk · POS TAGGER TWITTER BAHASA INDONESIA...

11
POS TAGGER TWITTER BAHASA INDONESIA MENGGUNAKAN STANFORD NLP TUGAS AKHIR Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang Disusun oleh : SUSI SETYOWATI 201110370311138 JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS MUHAMMADIYAH MALANG 2015

Transcript of POS TAGGER TWITTER BAHASA INDONESIA ... - core.ac.uk · POS TAGGER TWITTER BAHASA INDONESIA...

Page 1: POS TAGGER TWITTER BAHASA INDONESIA ... - core.ac.uk · POS TAGGER TWITTER BAHASA INDONESIA MENGGUNAKAN STANFORD NLP. TUGAS AKHIR . Diajukan Untuk Memenuhi . Persyaratan Guna Meraih

POS TAGGER TWITTER BAHASA INDONESIA MENGGUNAKAN

STANFORD NLP

TUGAS AKHIR

Diajukan Untuk Memenuhi

Persyaratan Guna Meraih Gelar Sarjana Strata 1

Teknik Informatika Universitas Muhammadiyah Malang

Disusun oleh :

SUSI SETYOWATI

201110370311138

JURUSAN TEKNIK INFORMATIKA

FAKULTAS TEKNIK

UNIVERSITAS MUHAMMADIYAH MALANG

2015

Page 2: POS TAGGER TWITTER BAHASA INDONESIA ... - core.ac.uk · POS TAGGER TWITTER BAHASA INDONESIA MENGGUNAKAN STANFORD NLP. TUGAS AKHIR . Diajukan Untuk Memenuhi . Persyaratan Guna Meraih
Page 3: POS TAGGER TWITTER BAHASA INDONESIA ... - core.ac.uk · POS TAGGER TWITTER BAHASA INDONESIA MENGGUNAKAN STANFORD NLP. TUGAS AKHIR . Diajukan Untuk Memenuhi . Persyaratan Guna Meraih
Page 4: POS TAGGER TWITTER BAHASA INDONESIA ... - core.ac.uk · POS TAGGER TWITTER BAHASA INDONESIA MENGGUNAKAN STANFORD NLP. TUGAS AKHIR . Diajukan Untuk Memenuhi . Persyaratan Guna Meraih
Page 5: POS TAGGER TWITTER BAHASA INDONESIA ... - core.ac.uk · POS TAGGER TWITTER BAHASA INDONESIA MENGGUNAKAN STANFORD NLP. TUGAS AKHIR . Diajukan Untuk Memenuhi . Persyaratan Guna Meraih

KATA PENGANTAR

Puji Syukur kepada Tuhan Yang Maha Esa yang melimpahkan rahmat dan

hidayah-Nya sehingga penulis dapat menyelesaikan Tugas Akhir dengan judul

“POS Tagger Twitter Bahasa Indonesia Menggunakan Stanford NLP”

Pada penelitian ini menggunakan sebuah sistem dari Stanford NLP yang

dimana nantinya akan membantu memberi tag atau bagian-bagian kata pada tweet-

tweet yang menggunakan bahasa Indonesia.

Penulis menyadari bahwa penelitian ini masih jauh dari sempurna. Oleh

karena itu penulis mengharapkan saran dan kritik guna untuk menyempurnakan

sistem ini kedepannya. Perangkat lunak ini juga masih membutuhkan

pengembangan lebih lanjut sehingga dapat lebih bermanfaat.

Akhir kata penulis mengucapkan terima kasih kepada semua pihak yang telah

membantu hingga tugas akhir ini selesai.

Malang, 02 0ktober 2015

Penulis

Susi Setyowati

Page 6: POS TAGGER TWITTER BAHASA INDONESIA ... - core.ac.uk · POS TAGGER TWITTER BAHASA INDONESIA MENGGUNAKAN STANFORD NLP. TUGAS AKHIR . Diajukan Untuk Memenuhi . Persyaratan Guna Meraih

DAFTAR ISI

Lembar Persetujuan ……………………………………………………... i

Lembar Pengesahan …………………………………………………….. ii

Lembar Pernyataan ……………………………………………………… iii

Lembar Persembahan …………………………………………………… iv

Kata Pengantar …………………………………………………………... vi

Abstrak …………………………………………………………………… vii

Daftar Isi …………..……………………………………………………... ix

Daftar Gambar …………………………………………………………... xii

Daftar Tabel ……………………………………………………………… xiii

Bab 1 Pendahuluan ……………………………………………………... 1

1.1 Latar Belakang Masalah ………………………………………. 1

1.2 Rumusan Masalah……………………………………………… 2

1.3 Tujuan ………………………………………………………..... 3

1.4 Batasan Masalah ………………………………………………. 3

1.5 Metodelogi …………………………………………………….. 3

1.6 Sistematis Penulisan …………………………………………... 4

Bab 2 Landasan Teori …………………………………………………... 6

2.1 Twitter ………………………………………………………… 6

2.2 Bahasa Indonesia Formal ……………………………………... 7

2.3 Aturan Tata Bahasa …………………………………………… 8

2.3.1 Kalimat ……………………………………………… 8

2.3.2 Kelas Kata …………………………………………… 8

2.3.3 KBBI ………………………………………………… 10

2.3.4 TAG …………………………………………………. 10

2.4 Natural Languange Processing ……………...………………... 12

Page 7: POS TAGGER TWITTER BAHASA INDONESIA ... - core.ac.uk · POS TAGGER TWITTER BAHASA INDONESIA MENGGUNAKAN STANFORD NLP. TUGAS AKHIR . Diajukan Untuk Memenuhi . Persyaratan Guna Meraih

2.4.1 Part-Of-Speech Tagger ……………………………… 15

2.4.2 Stanford NLP ………………………………………... 15

2.4.3 Tokenisasi …………………………………………… 17

2.4.3.1 Twokenize …………………………………. 17

Bab 3 Analisis dan Perancangan Sistem ................................................... 19

3.1 Analisis Sistem ………………………………………………... 19

3.1.1 Analisis Kebutuhan Fungsional ……………………... 20

3.1.2 Analisis Kebutuhan Non Fungsional ………………... 20

3.1.3 Analisis Tweet Berbahasa Indonesia Formal ………... 21

3.2 Perancangan Sistem …………………………………………… 24

Bab 4 Implementas dan Pengujian ………………………………………30

4.1 Implementasi …………………………………………………... 30

4.1.1 Kebutuhan Fungsional ………………………………. 30

4.1.2 File Yang Digunakan ………………………………... 31

4.1.2.1 Model ……………………………………… 32

4.1.2.2 Train ……………………………………….. 33

4.1.2.3 Props ………………………………………. 34

4.1.3 Implementasi Membuat Model POS Tagger Stanford

NLP ………………………………………………………... 34

4.1.3.1 Kode pada Command Prompt ……………... 34

4.1.3.2 Tampilan File Model Setelah di Implementasi

Pada Command Prompt …………………………… 35

4.1.4 Melakukan Tag ……………………………………… 36

4.1.4.1 File Test ………………………………….... 36

4.1.4.2 Kode pada Command Prompt ……………... 37

4.1.4.3 Hasil Test ………………………………….. 37

4.2 Pengujian ……………………………………………………… 38

Page 8: POS TAGGER TWITTER BAHASA INDONESIA ... - core.ac.uk · POS TAGGER TWITTER BAHASA INDONESIA MENGGUNAKAN STANFORD NLP. TUGAS AKHIR . Diajukan Untuk Memenuhi . Persyaratan Guna Meraih

4.2.1 Per Kalimat ………………………………………….. 39

4.2.2 Per Kata ……………………………………………… 39

4.1.3 Per Tag ………………………………………………. 39

4.3 Hasil pengujian ……………………………………………….. 40

4.3.1 Per Kalimat ………………………………………….. 40

4.3.2 Per Kata ……………………………………………... 41

4.3.3 Per Tag ………………………………………………. 41

4.3.4 Analisa Hasil Kesimpulan ……………………………49

Bab 5 Penutup ……..……………………………………………………... 50

5.1 Kesimpulan ……………………………………………………. 50

5.2 Saran …………………………………………………………... 50

Daftar Pustaka …………………………………………………………… 51

Page 9: POS TAGGER TWITTER BAHASA INDONESIA ... - core.ac.uk · POS TAGGER TWITTER BAHASA INDONESIA MENGGUNAKAN STANFORD NLP. TUGAS AKHIR . Diajukan Untuk Memenuhi . Persyaratan Guna Meraih

DAFTAR GAMBAR

2.1 Logo Twitter …………………………………………………………... 7

2.2 Proses Tokenisasi ……………………………………………………… 17

2.3 Tahap Twokenize Tweet NLP ………………………………………… 18

3.1 Flowchart Pembuatan Model ………………………………………….. 20

3.2 Flowchart Tes File …………………………………………………….. 21

3.3 Arsitektur Sistem ……………………………………………………… 24

3.4 Cotoh Tweet …………………………………………………………… 25

3.5 KBBI Online …………………………………………………………... 27

3.6 KBBI Offline ………………………………………………………….. 28

3.7 Contoh Data Yang Telah Di tag ……………….……………………... 28

4.1 File-file Yang Digunakan ……………………………………………... 31

4.2 File Model ……………………………………………………………... 32

4.3 File Train ………...……………………………………………………. 33

4.4 File Props ……………………………………………………………… 34

4.5 Kode Diterapkan Pada CMD ………………………………………….. 35

4.6 Perubahan File Model …………………………………………………. 35

4.7 File Test ……………………………………………………………….. 36

4.8 Kode Pada CMD ………………………………………………………. 37

4.9 Hasil Data Yang Telah Di Tag Menggunakan POS Tagger Stanford

NLP ……………………………………………………………………. 37

4.10 Proses Percobaan 1…………………………………………………… 38

4.11 Proses Percobaan 2 …………………………………………………... 38

4.12 Grafik Nilai Precision ………………………………………………... 45

4.13 Grafik Nilai Recall …………………………………………………… 46

4.14 Grafik Nilai F-Measure ……………………………………………… 47

4.15 Grafik Nilai Akurasi …………………………………………………. 48

Page 10: POS TAGGER TWITTER BAHASA INDONESIA ... - core.ac.uk · POS TAGGER TWITTER BAHASA INDONESIA MENGGUNAKAN STANFORD NLP. TUGAS AKHIR . Diajukan Untuk Memenuhi . Persyaratan Guna Meraih

DAFTAR TABEL

Tabel 1.1 Tagset [7] ……………………………………………………….. 10

Tabel 1.2 Tagset [8] ……………………………………………….. ………12

Tabel 3.1 Tagset …………………………………………………………… 25

Tabel 4.1 Spesifikasi Perangkat Keras Untuk Implementasi ……………… 30

Tabel 4.2 Spesifikasi Perangkat Lunak Untuk Implementasi …………...… 31

Tabel 4.3 Confusion Matrix ……………………………………………….. 40

Tabel 4.4 Hasil Nilai Per Kalimat …………………………………………. 40

Tabel 4.5 Hasil Nilai Per Kata …………………………………………….. 41

Tabel 4.6 Hasil Nilai Per Tag ……………………………………………... 41

Tabel 4.7 Nilai Rata-rata …………………………………………............... 43

Page 11: POS TAGGER TWITTER BAHASA INDONESIA ... - core.ac.uk · POS TAGGER TWITTER BAHASA INDONESIA MENGGUNAKAN STANFORD NLP. TUGAS AKHIR . Diajukan Untuk Memenuhi . Persyaratan Guna Meraih

DAFTAR PUSTAKA

[1] Herny Februariyanti, “Membangun Aplikasi Natural Language Processing

Menggunakan Instant Messenger untuk Informasi Bencana”.

[2] Jayanti, Santi Dwi. (2011) “Twitter Sebagai Bentuk Citizen Journalism

Baru di Internet.

[3] Twitter, https://about.twitter.com/company/brand-assets , diakses pada

tanggal 4 Agustus 2015.

[4] Windu Anggara, Dian Memory, Doddy Rivay, Maro Bimo, Nikson Aldino.

(200). “Penggunaan Bahasa Yang Baik danBenar”.

[5] Alwi H, Dardjowidjojo S, Lapoliwa H, Moeliono A M. (2003) “Tata Bahasa

Baku Bahasa Indonesia. Balai Pustaka. Jakarta, Indonesia.

[6] Kridalaksana H. (2007) “Kelas Kata Dalam Bahasa Indonesia. Ed 2.

Gramedia. Jakarta.

[7] Alfan Farizki Wicaksono, Ayu Purwarianti. (). “HMM Based Part-of-

Speech Tagger for Bahasa Indonesia”.

[8] Kevin Gimoel, Nathan Schneider, Brendan O’Connor, Dipanjan Das,

Daniel Mills, Jacob Eisenstein, Michael Heilman, Dani Yogatama, Jeffrey

Flanigan, and Noah A. Smith. (2011). “Part-of-Speech Tagging for Twitter:

Annotation, Features, and Experiments.

[9] Vini Christanti M, Jeanny Pragantha, Endah Purnamasari. (2012).

“Implementasi Brill Tagger untuk memberikan POS-Tagging pada Dokumen

Bahasa Indonesia.

[10] The Stanford Natural Language Processing Group, Stanford Log-Linier

Part-of-Speech Tagger, http://nlp.stanford.edu/software/tagger.shtml , diakses pada

tanggal 5 Agustus 2015.

[11] Raymond J. (2006). Machine Learning Text. University of Text at Austin.

[12] Tweet NLP, Part-of-Speech Taging.

http://www.ark.cs.cmu.edu/TweetNLP/ , diakses pada tanggal 5 Agustus 2015.