Pemanfaatan Kategorisasi Teks Otomatis dalam Agregasi...

9

Click here to load reader

Transcript of Pemanfaatan Kategorisasi Teks Otomatis dalam Agregasi...

Page 1: Pemanfaatan Kategorisasi Teks Otomatis dalam Agregasi ...ir.cs.ui.ac.id/inacl2016/paper/INACL_2016_paper_2-1-1.pdf · Tantangan dalam makalah ini adalah kinerja ... tweet yang dibangun,

Pemanfaatan Kategorisasi Teks Otomatis dalam Agregasi Berita dan

Informasi Pelengkap Bahasa Indonesia

Masayu Leylia Khodra1, Yudi Wibisono

2, Dyah Rahmawati

1, Fawwaz Muhammad

1

1Sekolah Teknik Elektro dan Informatika ITB

2Ilmu Komputer Universitas Pendidikan Indonesia

Email: [email protected]

Makalah ini bertujuan untuk menginvestigasi berbagai model kategorisasi teks untuk agregasi berita dan

informasi pelengkapnya dari media sosial (Twitter). Model kategorisasi biner, multikelas, dan multilabel

dibangun untuk sistem agregasi ini. Untuk setiap artikel berita, diaplikasikan kategorisasi multilabel

untuk kategorisasi berita, sedangkan kategorisasi multikelas untuk ekstraksi event 5W1H (Who, What,

Where, When, Why, How). Kinerja terbaik model pemrosesan berita adalah Fmeasure 76.13% untuk

kategorisasi berita dan Fmeasure 66.6% untuk kategorisasi ekstraksi 5W1H. Untuk setiap tweet sebagai

informasi pelengkap, diaplikasikan kategorisasi biner untuk mendapatkan tweet yang relevan dan

kategorisasi multikelas ke dalam 10 kategori berita. Kinerja terbaik model pemrosesan tweet adalah

akurasi 79.29% untuk kategorisasi relevansi dan Fmeasure 52.4% untuk kategorisasi tweet. Kategorisasi

multilabel hirarki sedang dieksplorasi untuk meningkatkan kinerja model kategorisasi berita.

Kata kunci: kategorisasi teks, berita, tweet, biner, multilabel, multikelas

1. Pendahuluan

Sistem agregasi berita dikembangkan untuk membantu pembaca berita dengan mengumpulkan

informasi berita dari berbagai sumber dan menyajikannya dalam satu tempat. Dengan sistem ini,

pembaca tidak perlu mencari berita dari berbagai sumber, dan aplikasi dapat mengambil berita sesuai

kebutuhan dari pembaca (Lasica, 2003). Berbeda dengan agregator berita konvensional yang hanya

menyajikan daftar topik berita dan kumpulan berita dari setiap topik, sistem ini bertujuan

mendeskripsikan agregator berita yang dilengkapi dengan fasilitas analisis teks meliputi kategorisasi

berita dan tweet, clustering berita, ekstraksi informasi 5W1H (Who, What, Where, When, Why, How),

dan peringkasan kumpul berita. Makalah ini akan difokusan pada pemanfaatan kategorisasi teks dalam

kategorisasi berita, kategorisasi tweet, dan ekstraksi informasi 5W1H. Gambar 1 memperlihatkan

contoh ideal salah satu kategori dengan cluster seputar putusan tentang kebakaran hutan.

Kategorisasi teks bertujuan menstrukturkan koleksi teks ke dalam kelas-kelas yang telah ditentukan

sebelumnya. Kategorisasi teks dapat juga didefinisikan sebagai kegiatan melabeli nilai boolean terhadap

setiap pasangan <teksi, kelasj>, dengan teksi ∈ set dokumen, dan kelasj ∈ set kelas. Secara formal,

pemodelan kategorisasi teks mengestimasi fungsi target pelabelan teks oleh manusia dengan fungsi

hampiran h: DxC→boolean (Sebastiani, 2002).

Dalam makalah ini, kategorisasi teks dimanfaatkan dalam berbagai task pada sistem agregasi berita dan

tweet berbahasa Indonesia yang dikembangkan. Tantangan dalam makalah ini adalah kinerja sistem

agar dapat digunakan secara operasional dalam menganalisis artikel berita dan tweet.

Page 2: Pemanfaatan Kategorisasi Teks Otomatis dalam Agregasi ...ir.cs.ui.ac.id/inacl2016/paper/INACL_2016_paper_2-1-1.pdf · Tantangan dalam makalah ini adalah kinerja ... tweet yang dibangun,

Terdapat dua model kategorisasi teks yang dibangun untuk pemrosesan artikel berita,

kategorisasi teks untuk pemrosesan tweet. Berdasarkan jumlah kelas yang ada pada set kelas, terdapat

kategorisasi biner dan kategorisasi multikelas. Berdasarkan jumlah kelas hasil kategorisasi teks, terdapat

kategorisasi label tunggal dan kategorisasi multilabel.

Penelitian kategorisasi teks berbahasa Indonesia sudah banyak dilakukan dan bukan merupakan topik

baru. Namun, semua penelitian yang ada masih mengasumsikan kategorisasi label tunggal yaitu setiap

teks hanya berasosiasi tepat satu ke

dimasukkan ke dalam dua kelas yaitu Politik dan Hiburan.

KEDIRI - Artis Hengki Kurniawan menegaskan siap maju sebagai kandidat Bupati Kediri

dalam pilkada serentak 9 Desember 2015. Hengki m

lima partai politik yang siap mengalahkan incumbent Haryanti Soetrisno. "Saya masih

berkomitmen untuk maju sebagai calon bupati Kediri," ujarnya kepada wartawan Sabtu

(27/6/2015). Lima partai yang siap mengantarkannya men

(SINDONEWS)

Gambar 2. Contoh artikel berita yang dikategorisasi ke dalam dua kelas yaitu Politik dan Hiburan

Kategorisasi multilabel diaplikasikan ke setiap artikel berita. Terdapat 10 kelas berita yang didefinisikan

yaitu pendidikan, politik, hukum & kriminal, sosial budaya, olahraga, teknologi & sains, hiburan, bisnis &

ekonomi, kesehatan, dan bencana & kecelakaan. Setiap artikel berita dapat masuk ke dalam satu atau

Gambar 1. Contoh keluaran sistem

Terdapat dua model kategorisasi teks yang dibangun untuk pemrosesan artikel berita,

kategorisasi teks untuk pemrosesan tweet. Berdasarkan jumlah kelas yang ada pada set kelas, terdapat

kategorisasi biner dan kategorisasi multikelas. Berdasarkan jumlah kelas hasil kategorisasi teks, terdapat

egorisasi multilabel.

Penelitian kategorisasi teks berbahasa Indonesia sudah banyak dilakukan dan bukan merupakan topik

baru. Namun, semua penelitian yang ada masih mengasumsikan kategorisasi label tunggal yaitu setiap

teks hanya berasosiasi tepat satu kelas. Pada Gambar 2, diperlihatkan contoh artikel berita yang dapat

dimasukkan ke dalam dua kelas yaitu Politik dan Hiburan.

Artis Hengki Kurniawan menegaskan siap maju sebagai kandidat Bupati Kediri

dalam pilkada serentak 9 Desember 2015. Hengki mengklaim mendapat dukungan koalisi

lima partai politik yang siap mengalahkan incumbent Haryanti Soetrisno. "Saya masih

berkomitmen untuk maju sebagai calon bupati Kediri," ujarnya kepada wartawan Sabtu

(27/6/2015). Lima partai yang siap mengantarkannya menjadi orang nomor

Gambar 2. Contoh artikel berita yang dikategorisasi ke dalam dua kelas yaitu Politik dan Hiburan

Kategorisasi multilabel diaplikasikan ke setiap artikel berita. Terdapat 10 kelas berita yang didefinisikan

politik, hukum & kriminal, sosial budaya, olahraga, teknologi & sains, hiburan, bisnis &

ekonomi, kesehatan, dan bencana & kecelakaan. Setiap artikel berita dapat masuk ke dalam satu atau

Terdapat dua model kategorisasi teks yang dibangun untuk pemrosesan artikel berita, dan dua model

kategorisasi teks untuk pemrosesan tweet. Berdasarkan jumlah kelas yang ada pada set kelas, terdapat

kategorisasi biner dan kategorisasi multikelas. Berdasarkan jumlah kelas hasil kategorisasi teks, terdapat

Penelitian kategorisasi teks berbahasa Indonesia sudah banyak dilakukan dan bukan merupakan topik

baru. Namun, semua penelitian yang ada masih mengasumsikan kategorisasi label tunggal yaitu setiap

las. Pada Gambar 2, diperlihatkan contoh artikel berita yang dapat

Artis Hengki Kurniawan menegaskan siap maju sebagai kandidat Bupati Kediri

engklaim mendapat dukungan koalisi

lima partai politik yang siap mengalahkan incumbent Haryanti Soetrisno. "Saya masih

berkomitmen untuk maju sebagai calon bupati Kediri," ujarnya kepada wartawan Sabtu

jadi orang nomor ….

Gambar 2. Contoh artikel berita yang dikategorisasi ke dalam dua kelas yaitu Politik dan Hiburan

Kategorisasi multilabel diaplikasikan ke setiap artikel berita. Terdapat 10 kelas berita yang didefinisikan

politik, hukum & kriminal, sosial budaya, olahraga, teknologi & sains, hiburan, bisnis &

ekonomi, kesehatan, dan bencana & kecelakaan. Setiap artikel berita dapat masuk ke dalam satu atau

Page 3: Pemanfaatan Kategorisasi Teks Otomatis dalam Agregasi ...ir.cs.ui.ac.id/inacl2016/paper/INACL_2016_paper_2-1-1.pdf · Tantangan dalam makalah ini adalah kinerja ... tweet yang dibangun,

beberapa kelas. Walaupun menggunakan set kelas yang sama, tweet hanya diproses dengan

kategorisasi label tunggal, tepatnya kategorisasi multikelas biasa. Selain itu, kategorisasi multikelas

diaplikasikan juga untuk setiap term dalam artikel berita untuk mengekstraksi informasi 5W1H.

Kategorisasi biner diaplikasikan untuk filtering tweet sehingga hanya tweet yang relevan akan diproses

untuk masuk dalam salah satu dari 10 kelas berita yang telah didefinisikan.

Setiap model kategorisasi teks dibangun dengan pendekatan berbasis koleksi yang memanfaatkan

pembelajaran mesin. Konstruksi korpus dilakukan dengan semi-supervised learning, yaitu pelabelan

manual dilakukan terhadap sejumlah teks, lalu pemodelan, kategorisasi berdasarkan model, evaluasi

hasil, dan koreksi label yang salah. Proses pemodelan, kategorisasi, evaluasi, dan koreksi label dilakukan

secara iteratif selama penelitian dilakukan.

Untuk kategorisasi berita, sebuah korpus 3.226 artikel berita berlabel dikonstruksi berdasarkan korpus

awal 690 artikel dengan 1000 pasangan artikel-kelas. Untuk ekstraksi 5W1H, korpus 22.769 term

dikonstruksi dari 90 artikel berita dengan menggunakan anotasi BIO (Begin In Other). Selain korpus

berita, dikonstruksi juga korpus 19.386 tweet berlabel relevan atau tidak relevan, dan korpus 3.622

tweet berlabel 10 kelas berita. Tweet berasal dari 2000 account Twitter tokoh-tokoh yang dapat

dipercaya sesuai bidangnya: wartawan, pengacara, pejabat, olahragawan, artis.

Pada bagian selanjutnya, akan dibahas kajian terkait. Bagian 3 membahas sistem agregasi berita dan

tweet yang dibangun, sedangkan bagian 4-6 akan membahas setiap komponen yang memanfaatkan

kategorisasi teks termasuk korpus dan hasil eksperimen. Bagian 7 berisi penutup dan rencana kegiatan

riset lanjutan.

2. Kajian Terkait

Sebuah sistem agregasi berita merupakan situs yang mengambil berita beberapa situs berita online

lainnya dan menampilkannya pada satu tempat. Isbel dkk (2010) mengelompokkan sistem ini ke dalam

empat kategori yaitu feed aggregators (seperti Yahoo! News dan Google News), speciality aggregators

(seperti Techmeme), user-curated aggregators (seperti Digg), dan blog aggregators (seperti Gawker).

Secara umum, agregator berita memiliki fitur kategorisasi berita, fitur pengelompokan berita (clustering)

untuk mendapatkan topik per kategori, dan fitur penyajian. Karhendana (2008) telah

mengimplementasikan sistem Agata, sistem agregasi berita berbahasa Indonesia, tetapi sistem ini hanya

memiliki fitur konvensional dan belum memiliki fasilitas peringkasan. McKeown dkk (2002) telah

mengembangkan Columbia Newsblaster sebagai sistem agregasi berita yang dilengkapi dengan fitur

peringkasan multidokumen berbahasa Inggris.

Terdapat dua pendekatan untuk kategorisasi multilabel yaitu transformasi persoalan dan adaptasi

algoritma (Tsoumakas dkk, 2010). Transformasi persoalan mengubah persoalan multilabel menjadi satu

atau beberapa persoalan label tunggal, contohnya Binary Relevance, Label Powerset, dan Calibrated

Label Ranking. Adaptasi algoritma mengembangkan algoritma untuk diaplikasikan langsung ke persoalan

kategorisasi multilabel, contohnya Adaboost.MH dan MLkNN. Kategorisasi multilabel berita telah

dilakukan dengan BR-Naïve Bayes (Chase dkk ) dan CLR-Perceptron (Furnkranz dkk, 2008).

Kategorisasi artikel berita bahasa Indonesia sudah dilakukan oleh banyak peneliti, tetapi masih

mengasumsikan klasifikasi tunggal untuk setiap berita. Buana dkk (2012) melakukan kategorisasi berita

dari korpus 802 artikel ke dalam 6 kelas berita (Umum, EkonomiBisnis, EdukasidanSains, Kesehatan,

Olahraga, dan Teknologi) dengan Fmeasure rata-rata 80.29%.

Page 4: Pemanfaatan Kategorisasi Teks Otomatis dalam Agregasi ...ir.cs.ui.ac.id/inacl2016/paper/INACL_2016_paper_2-1-1.pdf · Tantangan dalam makalah ini adalah kinerja ... tweet yang dibangun,

3. Sistem Agregasi Berita dan Tweet

Kategorisasi teks merupakan salah satu task analisis teks dalam sistem agregasi berita dan informasi

pelengkapnya ini. Pada Gambar 3, ditunjukkan 7 komponen utama sistem agregasi yang dikembangkan,

dan 4 komponen melakukan kategorisasi teks. Selain kategorisasi teks, terdapat task clustering dan

peringkasan teks.

Gambar 3. Komponen utama sistem agregasi berita dan informasi pelengkapnya

Komponen pertama, Crawler dan HTML parser, memanfaatkan informasi RSS (

situs berita online berbahasa Indonesia. Hasil penelusuran link berupa file HTML tid

mengandung konten berita, tetapi masih mengandung

pada situs berita tersebut. Untuk itu, dilakukan parsing HTML untuk mendapatkan hanya teks konten

berita dan foto yang terkait berita tersebut.

Komponen kedua, categorizer, berfungsi menentukan kategori dari setiap artikel berita dan tweet.

Beberapa situs telah menentukan kategori dari setiap artikel beritanya, tetapi informasi ini tidak dapat

diakses melalui RSS. Selain itu, label kategori dapat berbed

makalah ini menggunakan 10 kategori berita yang telah disebutkan di bagian Pendahuluan. Selain itu,

komponen relevance berfungsi memfilter tweet untuk mendapatkan tweet yang relevan (memiliki

informasi pelengkap).

Komponen ketiga, 5W1H Extractor, berfungsi untuk mendapatkan informasi terstruktur 5W1H dari

setiap teks konten berita yang tidak terstruktur. Dalam ekstraksi informasi ini, dilakukan ekstraksi entitas

dengan menggunakan pendekatan

dari setiap artikel berita yaitu Who, What, Where, When, Why, How.

Sistem Agregasi Berita dan Tweet

Kategorisasi teks merupakan salah satu task analisis teks dalam sistem agregasi berita dan informasi

pelengkapnya ini. Pada Gambar 3, ditunjukkan 7 komponen utama sistem agregasi yang dikembangkan,

melakukan kategorisasi teks. Selain kategorisasi teks, terdapat task clustering dan

Gambar 3. Komponen utama sistem agregasi berita dan informasi pelengkapnya

Komponen pertama, Crawler dan HTML parser, memanfaatkan informasi RSS (Rich Site Summary

situs berita online berbahasa Indonesia. Hasil penelusuran link berupa file HTML tid

mengandung konten berita, tetapi masih mengandung header, footer, iklan, dan tambahan informasi

pada situs berita tersebut. Untuk itu, dilakukan parsing HTML untuk mendapatkan hanya teks konten

berita dan foto yang terkait berita tersebut.

, berfungsi menentukan kategori dari setiap artikel berita dan tweet.

Beberapa situs telah menentukan kategori dari setiap artikel beritanya, tetapi informasi ini tidak dapat

diakses melalui RSS. Selain itu, label kategori dapat berbeda antar situs media online. Oleh karena itu,

makalah ini menggunakan 10 kategori berita yang telah disebutkan di bagian Pendahuluan. Selain itu,

berfungsi memfilter tweet untuk mendapatkan tweet yang relevan (memiliki

Komponen ketiga, 5W1H Extractor, berfungsi untuk mendapatkan informasi terstruktur 5W1H dari

setiap teks konten berita yang tidak terstruktur. Dalam ekstraksi informasi ini, dilakukan ekstraksi entitas

dengan menggunakan pendekatan sequence labeling. Terdapat 6 jenis informasi yang akan diekstraksi

dari setiap artikel berita yaitu Who, What, Where, When, Why, How.

Kategorisasi teks merupakan salah satu task analisis teks dalam sistem agregasi berita dan informasi

pelengkapnya ini. Pada Gambar 3, ditunjukkan 7 komponen utama sistem agregasi yang dikembangkan,

melakukan kategorisasi teks. Selain kategorisasi teks, terdapat task clustering dan

Rich Site Summary) dari

situs berita online berbahasa Indonesia. Hasil penelusuran link berupa file HTML tidak hanya

, iklan, dan tambahan informasi

pada situs berita tersebut. Untuk itu, dilakukan parsing HTML untuk mendapatkan hanya teks konten

, berfungsi menentukan kategori dari setiap artikel berita dan tweet.

Beberapa situs telah menentukan kategori dari setiap artikel beritanya, tetapi informasi ini tidak dapat

a antar situs media online. Oleh karena itu,

makalah ini menggunakan 10 kategori berita yang telah disebutkan di bagian Pendahuluan. Selain itu,

berfungsi memfilter tweet untuk mendapatkan tweet yang relevan (memiliki

Komponen ketiga, 5W1H Extractor, berfungsi untuk mendapatkan informasi terstruktur 5W1H dari

setiap teks konten berita yang tidak terstruktur. Dalam ekstraksi informasi ini, dilakukan ekstraksi entitas

rdapat 6 jenis informasi yang akan diekstraksi

Page 5: Pemanfaatan Kategorisasi Teks Otomatis dalam Agregasi ...ir.cs.ui.ac.id/inacl2016/paper/INACL_2016_paper_2-1-1.pdf · Tantangan dalam makalah ini adalah kinerja ... tweet yang dibangun,

Komponen selanjutnya, Clusterer berfungsi mengelompokkan kumpulan berita dalam setiap kategori

yang sama untuk mendapatkan topik-topik utamanya. Komponen Summarizer menghasilkan ringkasan

untuk setiap topik. Pada sistem saat ini, ringkasan dibentuk dengan membentuk kalimat berdasarkan

template informasi 5W1H.

Pada bagian selanjutnya, makalah ini hanya akan membahas bagian kategorisasi teksnya saja.

4. Kategorisasi Multilabel untuk Kategorisasi Artikel Berita

Pembangunan model kategorisasi multilabel dilakukan dengan menggunakan kedua pendekatan

transformasi persoalan multilabel dan adaptasi algoritma (Rahmawati & Khodra, 2015). Gambar 4

menunjukkan arsitektur kategorisasi multilabel. Eksperimen dilakukan dengan korpus 3.226 artikel

berita berlabel sebagai data pembelajaran, dengan 100 artikel berita berlabel sebagai data pengujian.

Gambar 4. Proses kategorisasi multilabel dengan pendekatan transformasi persoalan dan adaptasi algoritma

Eksperimen yang dilakukan menunjukkan bahwa classifier terbaik didapatkan dengan

mengkombinasikan TF-IDF, seleksi fitur symmetrical uncertainty, dan algoritma CLR-SVM. Kinerja terbaik

pembelajaran mencapai Fmeasure rata-rata 85.13% dengan skema 10-fold cross validation, dan kinerja

pengujian Fmeasure 76.73%.

Tabel 1. Fmeasure data pengujian dari 3 iterasi pembangunan model

Label Iterasi 1 Iterasi 2 Iterasi 3

Pendidikan 85.710% 92.310% 92.310%

Politik 82.350% 78.260% 70.000%

Page 6: Pemanfaatan Kategorisasi Teks Otomatis dalam Agregasi ...ir.cs.ui.ac.id/inacl2016/paper/INACL_2016_paper_2-1-1.pdf · Tantangan dalam makalah ini adalah kinerja ... tweet yang dibangun,

Hukum dan Kriminal 83.330% 77.420% 66.670%

Sosial Budaya 0.000% 54.550% 42.860%

Olahraga 100.000% 100.000% 97.300%

Teknologi dan sains 71.430% 61.540% 54.550%

Hiburan 46.150% 50.000% 44.440%

Bisnis dan Ekonomi 68.180% 59.460% 66.670%

Kesehatan 90.910% 88.890% 75.000%

Bencana dan Kecelakaan 84.210% 84.210% 88.890%

Gambar 5 menunjukkan contoh artikel berita yang berhasil dikategorisasi ke semua kelas sesuai pelabelan yang

dilakukan manusia, sedangkan Gambar 6 memberikan contoh artikel berita yang hasil kategorisasi teksnya

sebagian benar.

Jakarta - Windows XP adalah sistem operasi lama Microsoft yang diluncurkan sekitar 14

tahun lalu dan sudah diberhentikan dukungannya. Tapi Angkatan Laut Amerika Serikat

(AS) masih memakainya dan rela membayar mahal Microsoft agar tetap mendapatkan

support. Microsoft sejatinya telah menghentikan dukungan terhadap Windows XP sejak

April tahun lalu. Karenanya, Windows XP lebih rentan diserang hacker karena tidak lagi

mendapat update jika ada celah keamanan. Agar tetap mendapatkan dukungan, Angkatan

Laut AS rela membayar USD 9 juta atau di kisaran Rp 120 miliar per tahun. …. (fyk/fyk)

Gambar 5. Contoh artikel berita yang berhasil dikategorisasi ke kelas Teknologi & Sains, dan Bisnis & Ekonomi.

Jakarta - Selepas pensiun dari Microsoft, Bill Gates aktif di berbagai kegiatan amal.

Salah satunya adalah dalam program riset untuk mencari obat AIDS. Lewat Bill and

Melinda Gates Foundation, sang pendiri raksasa teknologi Microsoft itu menghabiskan

USD 400 juta atau sekitar Rp 5,2 triliun (USD 1 = Rp 13.000) setiap tahunnya untuk

penelitian dari penyakit yang belum ditemukan obatnya tersebut. Gates pun berharap,

vaksin untuk memerangi virus HIV yang menyebabkan AIDS dapat ditemukan dalam jangka

waktu 5-10 tahun ke depan. ... (ash/ash)

Gambar 6. Contoh artikel berita yang dikategorisasi ke kelas Teknologi & Sains, dan Kesehatan. Seharusnya hanya kelas

Kesehatan saja.

5. Kategorisasi Label Tunggal untuk Filtering dan Kategorisasi Tweet

Pembangunan model filtering tweet menggunakan SVM dan korpus 6.386 tweet yang menghasilkan

akurasi 79.29%. Saat ini korpus telah dianotasi sebanyak 19.386 tweet berlabel relevan atau tidak

relevan.

Dari korpus 3.622 tweet berlabel 10 kelas berita, pemodelan baru memanfaatkan 1.653 tweet berlabel.

Pembangunan model kategorisasi tweet menggunakan SVM yang menghasilkan Fmeasure 83.61%

dengan skema 10-fold cross validation, dan pengujian hanya mencapai Fmeasure 52.4%. Gambar 7,

Gambar 8, dan Gambar 9 menunjukkan contoh-contoh tweet hasil filtering dan kategorisasi tweet.

Page 7: Pemanfaatan Kategorisasi Teks Otomatis dalam Agregasi ...ir.cs.ui.ac.id/inacl2016/paper/INACL_2016_paper_2-1-1.pdf · Tantangan dalam makalah ini adalah kinerja ... tweet yang dibangun,

Pemerintah pusat, daerah, TNI, Polri dan masyarakat bahu membahu mengatasi kabut asap

di Sumatera & Kalimantan -Jkw

Gambar 7. Contoh tweet yang berhasil dikategorisasi sebagai tweet relevan dan masuk kelas Bencana & Kecelakaan

Kita berduka atas jatuhnya banyak korban jiwa di Mina, Arab Saudi, tmsk WNI. Semoga

para syuhada hidup tenang di sisi Allah Swt. *SBY*

Gambar 8. Contoh tweet yang salah dikategorisasi sebagai tweet relevan dan masuk kelas Bencana & Kecelakaan. Seharusnya

tweet ini dianggap tidak relevan karena tidak mengandung informasi pelengkap.

GIGABYTE GA-Z170X Gaming 7: Mudah Di-Overclock, Stabil, dan Kaya Fitur via @metro_tv

http://t.co/6m5KeSSgk8

Gambar 9. Contoh tweet yang salah dikategorisasi sebagai tidak relevan. Seharusnya tweet ini dianggap relevan dan masuk

kategori Teknologi & Sains

6. Kategorisasi Multikelas untuk Ekstraksi Event 5W1H

Ekstraksi event mengidentifikasi who did what, when, where, why, and how, atau 5W1H sebagai

persoalan sequence labeling dengan notasi BIO (Begin Inside Other). Setiap token dari artikel diproses

dengan kategorisasi multikelas ke salah satu dari 13 kelas yang terdefinisi. Setiap jenis informasi 5W1H

terdiri atas dua kategori yaitu kategori begin-<jenis informasi> untuk token pertama yang mengandung

informasi tersebut dan in-<jenis informasi> untuk token kedua dan berikutnya yang mengandung

informasi tersebut. Kategori tambahan other didefinisikan untuk token lain yang tidak berlabel. Total

kategori untuk 6 jenis informasi yang telah didefinisikan tersebut adalah 6*2+1=13 kategori. Model

klasifikasi akan menganalisis setiap token pada artikel dan menentukan kategori token tersebut. Berikut

merupakan contoh potongan artikel pada korpus yang setiap tokennya telah ditentukan kategorinya.

TEMPO.CO/O ,/O Jakarta/B-Where -/O Forum/B-Who Indonesia/I-Who untuk/I-Who

Transparansi/I-Who Anggaran/I-Who (/I-Who Fitra/I-Who ) /I-Who telah/O menduga/B-What

PT/I-What Ghalia/I-What Indonesia/I-What Printing/I-What tak/I-What akan/I-What

berhasil/I-What menyelesaikan/I-What tender/I-What naskah/I-What ujian/I-What

nasional/I-What ./O ... "/O Dari/O awal/O saya/O sudah/O menduga/O ini/O bermasalah/O

,/O "/O katanya/O saat/O dihubungi/O ,/O Ahad/B-When ,/I-When 14/I-When April/I-When

2013/I-When ./O ... Menurut/O Uchok/O ,/O ini/O merupakan/O bukti/O Ghalia/B-Why

tak/I-Why mempertimbangkan/I-Why kapasitas/I-Why perusahannya/I-Why ./O ...

Pada potongan artikel di atas, terdapat 5 jenis informasi yaitu Who, What, Where, When, Why. Token

pertama setiap informasi mendapat awalan B (begin) seperti kategori B-Who, dan B-What. Jika

informasi tersebut mengandung lebih dari satu token, kategori yang digunakan diawali dengan I (in)

seperti I-When. Vektor fitur untuk token didefinisikan berdasarkan atribut leksikal token tersebut dan 2

atribut token tetangganya (2 sebelum dan 2 sesudah). Gambar 10 menunjukkan contoh hasil ekstraksi

5W1H dari sebuah berita.

Tabel 2 menunjukkan distribusi data setiap label. Korpus ini termasuk dataset yang tidak seimbang

dengan kelas mayoritas adalah other, dan kelas minoritas adalah beg_how.

Eksperimen yang dilakukan terhadap korpus 22.769 term berlabel ini menunjukkan bahwa C4.5

memberikan kinerja Fmeasure 66.6% yang lebih baik daripada AdaboostM1 (Khodra, 2015). Walaupun

begitu, Adaboost dapat mengidentifikasi beberapa label minoritas lebih baik daripada C4.5.

Page 8: Pemanfaatan Kategorisasi Teks Otomatis dalam Agregasi ...ir.cs.ui.ac.id/inacl2016/paper/INACL_2016_paper_2-1-1.pdf · Tantangan dalam makalah ini adalah kinerja ... tweet yang dibangun,

Empat Bank Biayai Proyek Kereta Komuter Jakarta

TEMPO.CO, Jakarta - Bank Mandiri mengucurkan pinjaman untuk proyek

pengembangan kereta commuter Jabodetabek. Kredit tersebut disalurkan melalui

sindikasi perbankan bersama BRI, BNI, dan BCA. Direktur Institutional Banking

Bank Mandiri Abdul Rachman mengatakan kredit sindikasi ini berjangka waktu 14

tahun. Keempat bank menyalurkan pembiayaan dengan porsi kredit yang sama,

yaitu masing-masing sebesar Rp 760,97 miliar. Dengan demikian total pinjaman

yang disalurkan mencapai Rp 3,04 triliun. (Baca: Subsidi KRL Jabodetabek

Ditambah Rp 88 Miliar) "Kredit sindikasi tersebut merupakan salah satu upaya

Bank Mandiri untuk berperan dalam pengembangan transportasi massal," kata dia

melalui keterangan tertulis, Senin, 10 November 2014. (Baca: Hari Ini PT KCJ

Datangkan 32 Kereta Rel Listrik) Abdul Rachman mengatakan transportasi massal

yang baik merupakan salah satu komponen utama untuk mendorong

pertumbuhan ekonomi yang berkelanjutan. Keberadaan transportasi massal, kata

dia, mempercepat arus pergerakan masyarakat karena waktu tempuh akan

semakin cepat sehingga berbagai aktivitas produktif dapat terlaksana secara

efektif dan efisien. "Transaksi ekonomi yang terjadi pun dapat bertambah

banyak." FERY F. Berita

What: mengucurkan

pinjaman untuk proyek

pengembangan kereta

commuter Jabodetabek

Who: Bank Mandiri

Where: Jakarta

When: 10 November 2014

Why: berbagai aktivitas

produktif dapat terlaksana

secara efektif dan efisien .

How: -

Gambar 10. Contoh hasil ekstraksi 5W 1H pada berita

Tabel 2. Korpus 5W1H dengan notasi BIO

Label Count Description

Beg_who 87 Beginning token of who filler

In_who 356 Inside token of who filler

Beg _what 90 Beginning token of who filler

In_what 933 Inside token of who filler

Beg _when 86 Beginning token of who filler

In_when 229 Inside token of who filler

Beg _where 89 Beginning token of who filler

In_where 178 Inside token of who filler

Beg _why 84 Beginning token of who filler

In_why 771 Inside token of who filler

Beg _how 75 Beginning token of who filler

In_how 849 Inside token of who filler

Other 18,942 Outside token

7. Penutup

Makalah ini telah membahas pemanfaatan berbagai model kategorisasi teks untuk agregasi berita dan

informasi pelengkapnya mulai dari kategorisasi berita dan tweet ke dalam 10 kelas berita, sampai

dengan ekstraksi 5W1H. Kinerja yang telah dicapai saat pengujian adalah Fmeasure 76.73% untuk

kategorisasi berita, akurasi 79.29% untuk filtering tweet, Fmeasure 52.4% untuk kategorisasi tweet, dan

Fmeasure 66.6% untuk kategorisasi term dalam ekstraksi event 5W1H.

Page 9: Pemanfaatan Kategorisasi Teks Otomatis dalam Agregasi ...ir.cs.ui.ac.id/inacl2016/paper/INACL_2016_paper_2-1-1.pdf · Tantangan dalam makalah ini adalah kinerja ... tweet yang dibangun,

Penelitian selanjutnya akan memperbaiki kinerja setiap model. Salah satunya dengan melanjutkan semi-

supervised learning untuk mengkonstruksi korpus yang lebih baik. Penanganan imbalanced dataset perlu

juga dilakukan karena distribusi kelas pada korpus yang tidak seimbang.

Referensi

Buana, P.W., Jannet, S.D.R.M., Putra, I.K.G.D (2012). Combination of K-Nearest Neighbor and K-Means

based on Term Re-weighting for Classify Indonesian News

Isbell, K. (2010). The Rise Of The Agregator berita: Legal Implications And Best Practices. The Berkman

Center for Internet & Society at Harvard University.

Karhendana, A. (2008). Pemanfaatan Document Clustering Pada Agregator Berita. Laporan Tugas Akhir

Program Studi Teknik Informatika STEI ITB, Institut Teknologi Bandung, Bandung.

Khodra, M.L., Event Extraction on Indonesian News Article using Multiclass Categorization, ICAICTA,

Chonburi, 20-21 August 2015.

Khodra, M.L., Wibisono, Y., Automatic Extraction of Who-What-When-Where-Why-How on Indonesian

News Article, The 8th International Conference on Applied Linguistics, Bandung, 19-20 August 2015

Lasica, J. (2003, January 23). News That Comes to You. Retrieved from USC Annenberg Online Journalism

Review

McKeown, K. R., Barzilay, R., Evans, D., Hatzivassiloglou, V., Klavans, J. L., Nenkova, A. (2002). T racking

and Summarizing News on a Daily Basis with Columbia's Newsblaster. Proceedings of the second

international conference on Human Language Technology Research (pp. 280-285). Morgan Kaufmann

Publishers Inc.

Rahmawati, D., Khodra, M.L., Automatic Multilabel Classification for Indonesian News Articles, ICAICTA,

Chonburi, 20-21 August 2015.

G. Tsoumakas, I. Katakis, and I. Vlahavas, “Mining multi-label data,” in Data mining and knowledge

discovery handbook, Springer, 2010, pp. 667–685.

Sebastiani, F., Machine Learning in Automated Text Categorization, ACM Computing Surveys, 34 (1),

pp.1-47, 2002.

Sebastiani, F., Text Categorization, 2005.

Z. Chase, N. Genain, and O. Karniol-Tambour, “Learning Multi-Label Topic Classification of News

Articles.”

J. Fürnkranz, E. Hüllermeier, E. L. Mencía, and K. Brinker, “Multilabel classification via calibrated label

ranking,” Mach. Learn., vol. 73, no. 2, pp. 133–153, 2008.