Pos Tagging Review Paper

22
Part-Of-Speech Tagging Irene Ully (0606101515) Laras Anggun B (0606101603)

description

This presentation is a review of 2 papers about POS Tagging

Transcript of Pos Tagging Review Paper

Page 1: Pos Tagging Review Paper

Part-Of-Speech Tagging

Irene Ully (0606101515)Laras Anggun B (0606101603)

Page 2: Pos Tagging Review Paper

Apa itu POS tagging?

•Part-of-speech tag (POS tag)▫Suatu label yang mengidentifikasi kategori

linguistik atau kelas kata dari suatu kata atau token pada suatu teks

•Tagging▫Proses asosiasi setiap token yang ada pada

teks dengan tag atau label yang bersesuaian dengannya

Page 3: Pos Tagging Review Paper

•POS tag dapat memberikan berbagai informasi tentang kelas kata dari suatu kata dan kata-kata lain yang terdapat di sekitar kata tersebut dalam suatu teks.▫Informasi ini berguna untuk kegiatan-

kegiatan yang berhubungan dengan bidang linguistik.

▫Contoh: ‘bisa’ -> tag: kata benda -> arti:racun‘bisa’ -> tag: verba modal -> arti:kemampuan melakukan sesuatu

Page 4: Pos Tagging Review Paper

•Kegunaan dan tujuan lain:▫Menentukan imbuhan apa saja yang bias

ditambahkan pada suatu kata.▫Menentukan kata-kata apa saja yang biasa

muncul di sekitar suatu kata.•Bidang pemrosesan bahasa natural:

▫Speech recognition▫Information retrieval▫Question answering

Page 5: Pos Tagging Review Paper

Tagset

•Tagset▫Kumpulan atau koleksi tag untuk tujuan

dan keperluan tertentu.•Contoh:

▫Penn Treebank tagset dengan 45 jenis tag▫Brown Corpus tagset dengan 87 jenis tag▫Lancaster UCREL C5 dengan 61 jenis tag▫Lancaster C7 dengan 145 jenis tag

Page 6: Pos Tagging Review Paper

•Tagset bahasa Indonesia?▫Hingga saat ini belum ada suatu tagset

yang baku dan formal yang dapat digunakan sebagai suatu standar.

▫Sering dibuat tagset-tagset baru yang mengacu pada suatu tagset bahasa Inggris yang sudah umum dan disesuaikan dengan aturan bahasa Indonesia

Page 7: Pos Tagging Review Paper

Metode-Metode POS Tagger• Statistikal : ”probabilitas”

▫Generative Model : joint probability▫Conditional Model : conditional probability

Hidden Markov Model Maximum Entropy Markov Model Conditional Random Fields

• Rule-Based : ”aturan baku”

• Transformation Based Learning : ”belajar sendiri”

Page 8: Pos Tagging Review Paper

Hidden Markov Model Tagger

•Pemodelan statistik •Sistem menghasilkan urutan symbol

tertentu yang dapat diamati berdasarkan sebuah proses probabilistik yang parameternya tersembunyi

•Digambarkan sebagai sebuah Finite State Automata (FSA)

Page 9: Pos Tagging Review Paper

•HMM tagger tidak hanya akan memilih tag terbaik untuk suatu kata namun juga sebarisan tag terbaik untuk kata-kata dalam suatu kalimat▫Ť = argmax Tϵτ P(T|W)

•Dapat diselesaikan dengan algoritma forward dan Viterbi

Page 10: Pos Tagging Review Paper

Conditional Random Fields

•Tipe conditional model▫“Probabilitas tag NN jika diketahui kata

payung”

•Berdasarkan konsep maximum entropy▫Mengefisienkan model generatif HMM

•Memperhitungkan seluruh rangkaian status, tidak hanya satu status sebelumnya▫Mengatasi masalah label bias MEMM

Page 11: Pos Tagging Review Paper

•Menggunakan fitur sisi dan fitur titik▫Fitur sisi : “true jika kata yang diamati adalah

‘payung’ dan dua kata selanjutnya adalah ‘hujan’”

▫Fitur titik : “true jika kata yang diamati adalah ‘payung’ dan tag yang berasosiasi adalah ‘kata benda’”

• Juga konstanta untuk kedua fitur▫‘Seberapa benar’ fitur tersebut▫Diperbaharui hingga konvergen

Page 12: Pos Tagging Review Paper

Transformation Based Learning

•Mempelajari aturan sintaktis dan posisional dari korpus

•Lexical Learning▫“kata berawalan ’me-’ adalah kata kerja”

•Contextual Learning▫“tag ’kata kerja’ diikuti oleh tag ’kata

benda’”

Page 13: Pos Tagging Review Paper

Pengembangan POS Tagger untuk Bahasa Indonesia

•Chandrawati, Triastuti•Perbandingan berbagai metode POS

Tagger untuk Bahasa Indonesia•CRF || TBL || CRF-TBL•49 artikel surat kabar•4 jenis dokumen fitur CRF

Page 14: Pos Tagging Review Paper

CRF-TBL• Pembelajaran

▫CRF : learning Korpus Pembelajaran I + fitur Model Leksikal

▫CRF : tagging Korpus Pembelajaran II▫TBL : compare Korpus Pemb II + Korpus Pemb

II ‘asli’ Contextual Rule

• Pengujian▫CRF -> Lexical Tagging▫TBL -> Contextual Tagging

Page 15: Pos Tagging Review Paper

Kesimpulan Penelitian

•TBL : metode yang paling akurat (90%)▫Persentase kesalahan tagging lebih kecil

dibanding metode CRF dan CRF-TBL

•Mistag oleh CRF terutama disebabkan oleh tidak ditemukannya regularitas dalam tata Bahasa Indonesia▫“Saya membeli sebuah payung”▫“Saya membeli payung”

Page 16: Pos Tagging Review Paper

Kritik

•Penentuan fitur-fitur untuk CRF tidak dijelaskan asal-usul linguistiknya

•Beberapa kesalahan analisa mistag

Page 17: Pos Tagging Review Paper

Saran

•Perbanyak korpus untuk data pelatihan

•Ikutsertakan linguist Bahasa Indonesia

Page 18: Pos Tagging Review Paper

Unsupervised Multilingual Learning for POS Tagging

•Synder, Naseem, Jacob, dan Barzilay•Membuktikan keefektifan multilingual

learning ketika diaplikasiakn ke pasangan dua bahasa baik yang berelasi dekat maupun yang berelasi jauh

•Didasari dari pola ambiguitas dalam pemberian POS tagging antar bahasa yang berbeda

Page 19: Pos Tagging Review Paper

•Kenapa multilingual learning?▫Membuat struktur suatu bahasa menjadi

lebih jelas dengan mengkombinasikan isyarat-isyarat dari berbagai bahasa lainnya

•Model▫Dapat mempelajari fitur-fitur dari bahasa

tertentu sekaligus menangkap pola-pola yang ada antar bahasa dalam distrubusi tag

▫Hierarki Bayesian

Page 20: Pos Tagging Review Paper

•Dievaluasi dalam korpus parallel▫bahasa Inggris, bahasa Bulgaria, bahasa

Serbia, dan bahasa Slovania•Dilatih menggunakan model bilingual

dalam korpus•Dievaluasi dengan tes monolingual

Page 21: Pos Tagging Review Paper

Kesimpulan Penelitian

•Peningkatan dibandingkan dengan model monolingual untuk semua bahasa dan semua pasangan

•Untuk bahasa Serbia dan Slovania▫Error turun hingga 53%

•Mengurangi gap antara proses tagging yang unsupervised dan yang supervised

•Untuk bahasa Slovania ▫gap turun hingga 71%

Page 22: Pos Tagging Review Paper

Kesimpulan

• POS tagging dapat memberi informasi mengenai kelas kata

• Informasi mengenai kelas kata berguna untuk proses linguistik

• Salah satu dasar pemrosesan bahasa natural adalah penggunaan POS tagging

• Ada empat metode POS tagger▫Statistikal (HMM, Maximum Entropy,

Conditional Random Fields)▫Rule-Based▫Transformation Based Learning