Post on 01-Apr-2019
PEMBUATAN MODEL NAMED ENTITY RECOGNITION
UNTUK TWITTER BAHASA INDONESIA
DENGAN MENGGUNAKAN STANFORD NER
TUGAS AKHIR
Diajukan Untuk Memenuhi
Persyaratan Guna Meraih Gelar Sarjana Strata 1
Teknik Informatika Universitas Muhammadiyah Malang
Oleh:
Mar’ie Saniy
201210370311172
JURUSAN TEKNIK INFORMATIKA
FAKULTAS TEKNIK
UNIVERSITAS MUHAMMADIYAH MALANG
Juli 2016
vi
KATA PENGANTAR
Assalamu’alaikum Wr. Wb.
Puji syukur ke hadirat Allah SWT yang telah memberi kekuatan dan
petunjuk serta melimpahkan rahmat dan hidayah-Nya sehingga penulis dapat
menyelesaikan tugas akhir yang berjudul “Pembuatan Model Named Entity
Recognition Untuk Twitter Bahasa Indonesia Dengan Menggunakan Stanford
NER”, dimana tugas akhir ini adalah persyaratan untuk menyelesaikan studi di
Jurusan Teknik Informatika jenjang Strata-1 Universitas Muhammadiyah Malang.
Dengan segala kerendahan hati, penulis menyadari bahwa dalam
menyelesaikan tugas akhir ini tidak lepas dari peran berbagai pihak yang telah
banyak memberikan bantuan, bimbingan dan dukungan. Dalam kesempatan ini
penulis ingin mengucapkan terima kasih yang tak terhingga kepada:
1. Bapak Yuda Munarko, S.Kom., M.Sc selaku Ketua Jurusan Teknik
Informatika dan dosen pembimbing I yang telah memberikan pengarahan,
bimbingan, serta masukan selama pelaksanaan tugas akhir dan penelitian
serta penulisan laporan.
2. Bapak Ilyas Nuryasin, S.Kom., M.Kom selaku dosen pembimbing II yang
telah memberikan pengarahan, bimbingan, serta masukan selama
pelaksanaan tugas akhir dan penelitian serta penulisan laporan.
3. Ayah dan Ibuku tercinta dan tersayang yang telah banyak memberikan cinta,
kasih, sayangnya dan tak pernah berhenti kiriman doanya kepada penulis,
hingga penulis mampu menyelesaikan skripsi ini, serta untuk dua adikku
tersayang terima kasih buat doa, dorongan semangat dan keceriaan yang
diberikan kepada penulis.
4. Sahabat–sahabat dan teman–teman di Universitas Muhammadiyah Malang,
khususnya teman-teman di jurusan Teknik Informatika angkatan 2012 dan
teman-teman KKN kelompok 116 tahun 2015.
5. Serta semua pihak yang mungkin belum saya sebutkan dan sahabat-sahabat
yang telah membantu penulis hingga terselesaikannya tugas akhir ini,
semoga Allah SWT memberikan balasan yang sesuai atas jasa dan bantuan
yang telah diberikan.
vii
Penulis menyadari sepenuhnya bahwa sebagai manusia biasa tentunya tidak
akan luput dari kekurangan dan keterbatasan. Maka dengan segenap kerendahan
hati, penulis mengharapkan saran dan kritik yang dapat menyempurnakan
penulisan ini sehingga dapat bermanfaat dan berguna untuk pengembangan ilmu
pengetahuan.
Malang, Juli 2016
Penulis
viii
DAFTAR ISI
Halaman Judul
Lembar Persetujuan .............................................................................................i
Lembar Pengesahan ............................................................................................ii
Lembar Pernyataan..............................................................................................iii
Abstrak ................................................................................................................iv
Abstract ...............................................................................................................v
Kata Pengantar ....................................................................................................vi
Daftar Isi..............................................................................................................viii
Daftar Gambar .....................................................................................................x
Daftar Tabel ........................................................................................................xii
BAB I PENDAHULUAN ...................................................................................1
1.1. Latar Belakang ....................................................................................1
1.2. Rumusan Masalah ...............................................................................2
1.3. Tujuan .................................................................................................2
1.4. Batasan Masalah .................................................................................2
1.5. Sistematika Penulisan .........................................................................3
BAB II LANDASAN TEORI .............................................................................4
2.1. Twitter.................................................................................................4
2.2. Bahasa Indonesia Formal ....................................................................7
2.3. Bahasa Indonesia Informal .................................................................8
2.4. Conditional Random Field .................................................................9
2.5. Natural Language Processing ............................................................9
2.6. Named Entity Recognition ..................................................................10
2.7. Stanford NER ......................................................................................11
2.8 Teknik Pengujian .................................................................................12
2.8.1. Recall ........................................................................................12
2.8.2. Presisi .......................................................................................12
ix
BAB III ANALISA DAN PERANCANGAN SISTEM .....................................13
3.1. Analisa Tweet......................................................................................13
3.1.1. Tweet Bahasa Indonesia Formal ...............................................13
3.1.2. Tweet Bahasa Indonesia Informal.............................................14
3.2. Analisa Kebutuhan Hardware ............................................................14
3.3. Analisa Kebutuhan Software ..............................................................15
3.4. Perancangan Sistem ............................................................................15
3.4.1. Pengumpulan Data ....................................................................15
3.4.2. Pengelompokan Data ................................................................16
3.4.3. Tagging Data ............................................................................17
3.4.4. Training Data Dengan Stanford NER .......................................18
BAB IV IMPLEMENTASI DAN PENGUJIAN SISTEM .................................28
4.1. Implementasi Model pada Stanford NER ...........................................28
4.1.1. Model Formal ...........................................................................28
4.1.2. Model Informal .........................................................................30
4.1.3. Model Umum ............................................................................32
4.2. Perhitungan Nilai Recall dan Presisi ..................................................34
4.3. Hasil Perhitungan................................................................................35
4.3.1. Pengujian Model Formal ..........................................................35
4.3.2. Pengujian Model Informal ........................................................38
4.3.3. Pengujian Model Umum ...........................................................41
4.4. Pengujian Cross Validation ................................................................45
4.5. Kesimpulan Hasil Perhitungan ...........................................................47
BAB V PENUTUP ..............................................................................................48
5.1. Kesimpulan .........................................................................................48
5.2. Saran ...................................................................................................48
DAFTAR PUSTAKA .........................................................................................49
x
DAFTAR GAMBAR
Gambar 2.1. Lambang Twitter .............................................................................. 4
Gambar 2.2. Contoh Tweet.................................................................................... 5
Gambar 2.3. Contoh Penggunaan Hashtag ........................................................... 5
Gambar 2.4. Contoh Trending Topic .................................................................... 6
Gambar 2.5. Contoh Re Tweet .............................................................................. 7
Gambar 2.6. Contoh Reply .................................................................................... 7
Gambar 2.7. Contoh Implementasi CRF ............................................................... 9
Gambar 2.8. Stanford NER.................................................................................... 11
Gambar 2.9. Alur Pembuatan Model pada Stanford NER .................................... 12
Gambar 3.1. Arsitektur Sistem .............................................................................. 15
Gambar 3.2. Kode Program PHP Untuk Pencarian Sesuai Kata Kunci................ 16
Gambar 3.3. Kode Program PHP Untuk Pencarian Sesuai Username ................. 16
Gambar 3.4. Dataset Tweet Bahasa Indonesia Formal .......................................... 17
Gambar 3.5. Dataset Tweet Bahasa Indoensia Informal ....................................... 17
Gambar 3.6. Data yang sudah ditandai ................................................................. 18
Gambar 3.7. Flowchart Pembuatan Model ........................................................... 19
Gambar 3.8. Hasil Tokenisasi Data Formal .......................................................... 20
Gambar 3.9. Hasil Penghilangan Tanda Slash Data Formal ................................. 20
Gambar 3.10. File Prop Formal............................................................................. 21
Gambar 3.11. File Model Formal .......................................................................... 22
Gambar 3.12. Hasil Tokenisasi Data Informal...................................................... 22
Gambar 3.13. Hasil Penghilangan Tanda Slash Data Informal ............................ 23
Gambar 3.14. File Prop Informal .......................................................................... 23
Gambar 3.15. File Model Informal ....................................................................... 24
Gambar 3.16. Hasil Tokenisasi Data Umum ........................................................ 25
Gambar 3.17. Hasil Penghilangan Tanda Slash Data Umum ............................... 25
Gambar 3.18. File Prop Umum ............................................................................. 26
Gambar 3.19. File Model Umum .......................................................................... 27
Gambar 4.1. Membuka Tweet Formal................................................................... 28
Gambar 4.2. Membuka Model Formal .................................................................. 29
xi
Gambar 4.3. Hasil Tag Model Formal .................................................................. 29
Gambar 4.4. Membuka Tweet Informal ................................................................ 30
Gambar 4.5. Membuka Model Informal ............................................................... 31
Gambar 4.6. Hasil Tag Model Informal ................................................................ 31
Gambar 4.7. Membuka Tweet Umum ................................................................... 32
Gambar 4.8. Membuka Model Umum .................................................................. 33
Gambar 4.9. Hasil Tag Model Umum ................................................................... 33
Gambar 4.10. Perbandingan Kalimat Formal dan Kalimat Informal .................... 34
Gambar 4.11. Grafik Perbandingan Rata-rata Nilai Recall Model Formal ........... 37
Gambar 4.12. Grafik Perbandingan Rata-rata Nilai Presisi Model Formal .......... 38
Gambar 4.13. Grafik Perbandingan Rata-rata Hasil Pengujian Model Formal .... 38
Gambar 4.14. Grafik Perbandingan Rata-rata Nilai Recall Model Informal ........ 40
Gambar 4.15. Grafik Perbandingan Rata-rata Nilai Presisi Model Informal ........ 41
Gambar 4.16. Grafik Perbandingan Rata-rata Hasil Pengujian Model Informal .. 41
Gambar 4.17. Grafik Perbandingan Rata-rata Nilai Recall Model Umum ........... 43
Gambar 4.18. Grafik Perbandingan Rata-rata Nilai Presisi Model Umum ........... 44
Gambar 4.19. Grafik Perbandingan Rata-rata Hasil Pengujian Model Umum ..... 44
Gambar 4.20 Grafik Perbandingan Rata-rata Hasil Pengujian Cross Validation . 47
xii
DAFTAR TABEL
Tabel 3.1. Tabel Pengelompokan Data ................................................................. 17
Tabel 3.2. Aturan (Tagset) .................................................................................... 17
Tabel 4.1. Hasil Pengujian Model Formal + Data Tes Formal ............................. 35
Tabel 4.2. Hasil Recall dan Presisi Model Formal + Data Tes Formal ................ 36
Tabel 4.3. Hasil Pengujian Model Formal + Data Tes Informal ........................... 36
Tabel 4.4. Hasil Recall dan Presisi Model Formal + Data Tes Informal .............. 36
Tabel 4.5. Hasil Pengujian Model Formal + Data Tes Umum ............................. 37
Tabel 4.6. Hasil Recall dan Presisi Model Formal + Data Tes Umum ................. 37
Tabel 4.7. Hasil Pengujian Model Informal + Data Tes Informal ........................ 38
Tabel 4.8. Hasil Recall dan Presisi Model Informal + Data Tes Informal............ 39
Tabel 4.9. Hasil Pengujian Model Informal + Data Tes Formal ........................... 39
Tabel 4.10. Hasil Recall dan Presisi Model Informal + Data Tes Formal ............ 39
Tabel 4.11. Hasil Pengujian Model Informal + Data Tes Umum ......................... 40
Tabel 4.12. Hasil Recall dan Presisi Model Informal + Data Tes Umum ............ 40
Tabel 4.13. Hasil Pengujian Model Umum + Data Tes Umum ............................ 41
Tabel 4.14. Hasil Recall dan Presisi Model Umum + Data Tes Umum ............... 42
Tabel 4.15. Hasil Pengujian Model Umum + Data Tes Formal............................ 42
Tabel 4.16. Hasil Recall dan Presisi Model Umum + Data Tes Formal ............... 42
Tabel 4.17. Hasil Pengujian Model Umum + Data Tes Informal ......................... 43
Tabel 4.18. Hasil Recall dan Presisi Model Umum + Data Tes Informal ............ 43
Tabel 4.19. Hasil Recall dan Presisi Model Formal + 1.000 Data Tes Formal .... 45
Tabel 4.20. Hasil Recall dan Presisi Model Formal + 500 Data Tes Formal ....... 45
Tabel 4.21. Pembagian Data Untuk Pengujian Cross Validation ......................... 46
Tabel 4.22. Hasil Rata-rata Pengujian Cross Validation ...................................... 46
49
DAFTAR PUSTAKA
[1] H. Kwak, C. Lee, H. Park, and S. Moon, “What is Twitter, a Social Network
or a News Media ? Categories and Subject Descriptors,” Www 2010, pp.
591–600, 2010.
[2] Lukman, Enricko. 2014., Twitter-close-20-million-active-users-indonesia.
https://www.techinasia.com/ . Diakses pada 16 Juni 2016.
[3] Jurafsky, D. and Martin, J. “Speech and language processing”, Prentice
Hall, 2008.
[4] The Stanford Natural Natural Language Processing Group.
http://nlp.stanford.edu/ . Diakses pada 26 Januari 2016.
[5] Budi, I. et al., 2005. Named Entity Recognition for the Indonesian language:
Combining contextual, morphological and part-of-speech features into a
knowledge engineering approach. Lecture Notes in Computer Science
(including subseries Lecture Notes in Artificial Intelligence and Lecture
Notes in Bioinformatics), 3735 LNAI, pp.57–69.
[6] _____ . 2015. Mengenal Kode dan Istilah Twitter.
http://strukturkode.blogspot.co.id/ . Diakses pada 16 Juni 2016.
[7] Fitria, Ayu Mirza ___. Bahasa Indonesia Baku dan Tidak Baku.
https://violet06.wordpress.com/ . Diakses pada 16 Juni 2016.
[8] _____ . 2014. Definisi, Fungsi dan Ciri-ciri Bahasa Baku.
http://www.ebahasaindonesia.com/ . Diakses pada 16 Juni 2016.
[9] Lim, R., Wibowo, A., Sutjiadi, R., & Oktian, Y. E. (2012). Pengembangan
Paper Citation Extraction Bahasa Indonesia Berbasis Parscit. Seminar
Nasional Teknologi Informasi SNTI 2012.
[10] Lafferty, J., McCallum, A., Pereira, F., 1999, “Conditional random fields:
Probabilistic models for segmenting and labeling sequence data", Computer,
pp. 282-289.
[11] Mozict. 2013., Natural Language Processing.
http://mozictapps.blogspot.co.id/ . Diakses pada 16 Juni 2016.
[12] Twitter. http://www.twitter.com/ . Diakses pada 16 Juni 2016.
50
[13] J. Ling and T. B. Oka, “ANALISIS SENTIMEN MENGGUNAKAN
METODE NAÏVE BAYES CLASSIFIER DENGAN SELEKSI FITUR
CHI SQUARE,” vol. 3, no. 3, pp. 92–99, 2014.
[14] D. Benikova, S. Muhie, Y. Prabhakaran, and S. Chris, “GermaNER : Free
Open German Named Entity Recognition Tool,” vol. 1, no. 1, 2010.
[15] _____ . 2014. Kalimat Baku dan Tidak Baku: Ciri, Syarat, dan Contohnya.
http://www.prbahasaindonesia.com/ . Diakses pada 2 Juli 2016.