Pemanfaatan Kategorisasi Teks Otomatis dalam Agregasi...
Click here to load reader
-
Upload
trinhkhuong -
Category
Documents
-
view
216 -
download
3
Transcript of Pemanfaatan Kategorisasi Teks Otomatis dalam Agregasi...
Pemanfaatan Kategorisasi Teks Otomatis dalam Agregasi Berita dan
Informasi Pelengkap Bahasa Indonesia
Masayu Leylia Khodra1, Yudi Wibisono
2, Dyah Rahmawati
1, Fawwaz Muhammad
1
1Sekolah Teknik Elektro dan Informatika ITB
2Ilmu Komputer Universitas Pendidikan Indonesia
Email: [email protected]
Makalah ini bertujuan untuk menginvestigasi berbagai model kategorisasi teks untuk agregasi berita dan
informasi pelengkapnya dari media sosial (Twitter). Model kategorisasi biner, multikelas, dan multilabel
dibangun untuk sistem agregasi ini. Untuk setiap artikel berita, diaplikasikan kategorisasi multilabel
untuk kategorisasi berita, sedangkan kategorisasi multikelas untuk ekstraksi event 5W1H (Who, What,
Where, When, Why, How). Kinerja terbaik model pemrosesan berita adalah Fmeasure 76.13% untuk
kategorisasi berita dan Fmeasure 66.6% untuk kategorisasi ekstraksi 5W1H. Untuk setiap tweet sebagai
informasi pelengkap, diaplikasikan kategorisasi biner untuk mendapatkan tweet yang relevan dan
kategorisasi multikelas ke dalam 10 kategori berita. Kinerja terbaik model pemrosesan tweet adalah
akurasi 79.29% untuk kategorisasi relevansi dan Fmeasure 52.4% untuk kategorisasi tweet. Kategorisasi
multilabel hirarki sedang dieksplorasi untuk meningkatkan kinerja model kategorisasi berita.
Kata kunci: kategorisasi teks, berita, tweet, biner, multilabel, multikelas
1. Pendahuluan
Sistem agregasi berita dikembangkan untuk membantu pembaca berita dengan mengumpulkan
informasi berita dari berbagai sumber dan menyajikannya dalam satu tempat. Dengan sistem ini,
pembaca tidak perlu mencari berita dari berbagai sumber, dan aplikasi dapat mengambil berita sesuai
kebutuhan dari pembaca (Lasica, 2003). Berbeda dengan agregator berita konvensional yang hanya
menyajikan daftar topik berita dan kumpulan berita dari setiap topik, sistem ini bertujuan
mendeskripsikan agregator berita yang dilengkapi dengan fasilitas analisis teks meliputi kategorisasi
berita dan tweet, clustering berita, ekstraksi informasi 5W1H (Who, What, Where, When, Why, How),
dan peringkasan kumpul berita. Makalah ini akan difokusan pada pemanfaatan kategorisasi teks dalam
kategorisasi berita, kategorisasi tweet, dan ekstraksi informasi 5W1H. Gambar 1 memperlihatkan
contoh ideal salah satu kategori dengan cluster seputar putusan tentang kebakaran hutan.
Kategorisasi teks bertujuan menstrukturkan koleksi teks ke dalam kelas-kelas yang telah ditentukan
sebelumnya. Kategorisasi teks dapat juga didefinisikan sebagai kegiatan melabeli nilai boolean terhadap
setiap pasangan <teksi, kelasj>, dengan teksi ∈ set dokumen, dan kelasj ∈ set kelas. Secara formal,
pemodelan kategorisasi teks mengestimasi fungsi target pelabelan teks oleh manusia dengan fungsi
hampiran h: DxC→boolean (Sebastiani, 2002).
Dalam makalah ini, kategorisasi teks dimanfaatkan dalam berbagai task pada sistem agregasi berita dan
tweet berbahasa Indonesia yang dikembangkan. Tantangan dalam makalah ini adalah kinerja sistem
agar dapat digunakan secara operasional dalam menganalisis artikel berita dan tweet.
Terdapat dua model kategorisasi teks yang dibangun untuk pemrosesan artikel berita,
kategorisasi teks untuk pemrosesan tweet. Berdasarkan jumlah kelas yang ada pada set kelas, terdapat
kategorisasi biner dan kategorisasi multikelas. Berdasarkan jumlah kelas hasil kategorisasi teks, terdapat
kategorisasi label tunggal dan kategorisasi multilabel.
Penelitian kategorisasi teks berbahasa Indonesia sudah banyak dilakukan dan bukan merupakan topik
baru. Namun, semua penelitian yang ada masih mengasumsikan kategorisasi label tunggal yaitu setiap
teks hanya berasosiasi tepat satu ke
dimasukkan ke dalam dua kelas yaitu Politik dan Hiburan.
KEDIRI - Artis Hengki Kurniawan menegaskan siap maju sebagai kandidat Bupati Kediri
dalam pilkada serentak 9 Desember 2015. Hengki m
lima partai politik yang siap mengalahkan incumbent Haryanti Soetrisno. "Saya masih
berkomitmen untuk maju sebagai calon bupati Kediri," ujarnya kepada wartawan Sabtu
(27/6/2015). Lima partai yang siap mengantarkannya men
(SINDONEWS)
Gambar 2. Contoh artikel berita yang dikategorisasi ke dalam dua kelas yaitu Politik dan Hiburan
Kategorisasi multilabel diaplikasikan ke setiap artikel berita. Terdapat 10 kelas berita yang didefinisikan
yaitu pendidikan, politik, hukum & kriminal, sosial budaya, olahraga, teknologi & sains, hiburan, bisnis &
ekonomi, kesehatan, dan bencana & kecelakaan. Setiap artikel berita dapat masuk ke dalam satu atau
Gambar 1. Contoh keluaran sistem
Terdapat dua model kategorisasi teks yang dibangun untuk pemrosesan artikel berita,
kategorisasi teks untuk pemrosesan tweet. Berdasarkan jumlah kelas yang ada pada set kelas, terdapat
kategorisasi biner dan kategorisasi multikelas. Berdasarkan jumlah kelas hasil kategorisasi teks, terdapat
egorisasi multilabel.
Penelitian kategorisasi teks berbahasa Indonesia sudah banyak dilakukan dan bukan merupakan topik
baru. Namun, semua penelitian yang ada masih mengasumsikan kategorisasi label tunggal yaitu setiap
teks hanya berasosiasi tepat satu kelas. Pada Gambar 2, diperlihatkan contoh artikel berita yang dapat
dimasukkan ke dalam dua kelas yaitu Politik dan Hiburan.
Artis Hengki Kurniawan menegaskan siap maju sebagai kandidat Bupati Kediri
dalam pilkada serentak 9 Desember 2015. Hengki mengklaim mendapat dukungan koalisi
lima partai politik yang siap mengalahkan incumbent Haryanti Soetrisno. "Saya masih
berkomitmen untuk maju sebagai calon bupati Kediri," ujarnya kepada wartawan Sabtu
(27/6/2015). Lima partai yang siap mengantarkannya menjadi orang nomor
Gambar 2. Contoh artikel berita yang dikategorisasi ke dalam dua kelas yaitu Politik dan Hiburan
Kategorisasi multilabel diaplikasikan ke setiap artikel berita. Terdapat 10 kelas berita yang didefinisikan
politik, hukum & kriminal, sosial budaya, olahraga, teknologi & sains, hiburan, bisnis &
ekonomi, kesehatan, dan bencana & kecelakaan. Setiap artikel berita dapat masuk ke dalam satu atau
Terdapat dua model kategorisasi teks yang dibangun untuk pemrosesan artikel berita, dan dua model
kategorisasi teks untuk pemrosesan tweet. Berdasarkan jumlah kelas yang ada pada set kelas, terdapat
kategorisasi biner dan kategorisasi multikelas. Berdasarkan jumlah kelas hasil kategorisasi teks, terdapat
Penelitian kategorisasi teks berbahasa Indonesia sudah banyak dilakukan dan bukan merupakan topik
baru. Namun, semua penelitian yang ada masih mengasumsikan kategorisasi label tunggal yaitu setiap
las. Pada Gambar 2, diperlihatkan contoh artikel berita yang dapat
Artis Hengki Kurniawan menegaskan siap maju sebagai kandidat Bupati Kediri
engklaim mendapat dukungan koalisi
lima partai politik yang siap mengalahkan incumbent Haryanti Soetrisno. "Saya masih
berkomitmen untuk maju sebagai calon bupati Kediri," ujarnya kepada wartawan Sabtu
jadi orang nomor ….
Gambar 2. Contoh artikel berita yang dikategorisasi ke dalam dua kelas yaitu Politik dan Hiburan
Kategorisasi multilabel diaplikasikan ke setiap artikel berita. Terdapat 10 kelas berita yang didefinisikan
politik, hukum & kriminal, sosial budaya, olahraga, teknologi & sains, hiburan, bisnis &
ekonomi, kesehatan, dan bencana & kecelakaan. Setiap artikel berita dapat masuk ke dalam satu atau
beberapa kelas. Walaupun menggunakan set kelas yang sama, tweet hanya diproses dengan
kategorisasi label tunggal, tepatnya kategorisasi multikelas biasa. Selain itu, kategorisasi multikelas
diaplikasikan juga untuk setiap term dalam artikel berita untuk mengekstraksi informasi 5W1H.
Kategorisasi biner diaplikasikan untuk filtering tweet sehingga hanya tweet yang relevan akan diproses
untuk masuk dalam salah satu dari 10 kelas berita yang telah didefinisikan.
Setiap model kategorisasi teks dibangun dengan pendekatan berbasis koleksi yang memanfaatkan
pembelajaran mesin. Konstruksi korpus dilakukan dengan semi-supervised learning, yaitu pelabelan
manual dilakukan terhadap sejumlah teks, lalu pemodelan, kategorisasi berdasarkan model, evaluasi
hasil, dan koreksi label yang salah. Proses pemodelan, kategorisasi, evaluasi, dan koreksi label dilakukan
secara iteratif selama penelitian dilakukan.
Untuk kategorisasi berita, sebuah korpus 3.226 artikel berita berlabel dikonstruksi berdasarkan korpus
awal 690 artikel dengan 1000 pasangan artikel-kelas. Untuk ekstraksi 5W1H, korpus 22.769 term
dikonstruksi dari 90 artikel berita dengan menggunakan anotasi BIO (Begin In Other). Selain korpus
berita, dikonstruksi juga korpus 19.386 tweet berlabel relevan atau tidak relevan, dan korpus 3.622
tweet berlabel 10 kelas berita. Tweet berasal dari 2000 account Twitter tokoh-tokoh yang dapat
dipercaya sesuai bidangnya: wartawan, pengacara, pejabat, olahragawan, artis.
Pada bagian selanjutnya, akan dibahas kajian terkait. Bagian 3 membahas sistem agregasi berita dan
tweet yang dibangun, sedangkan bagian 4-6 akan membahas setiap komponen yang memanfaatkan
kategorisasi teks termasuk korpus dan hasil eksperimen. Bagian 7 berisi penutup dan rencana kegiatan
riset lanjutan.
2. Kajian Terkait
Sebuah sistem agregasi berita merupakan situs yang mengambil berita beberapa situs berita online
lainnya dan menampilkannya pada satu tempat. Isbel dkk (2010) mengelompokkan sistem ini ke dalam
empat kategori yaitu feed aggregators (seperti Yahoo! News dan Google News), speciality aggregators
(seperti Techmeme), user-curated aggregators (seperti Digg), dan blog aggregators (seperti Gawker).
Secara umum, agregator berita memiliki fitur kategorisasi berita, fitur pengelompokan berita (clustering)
untuk mendapatkan topik per kategori, dan fitur penyajian. Karhendana (2008) telah
mengimplementasikan sistem Agata, sistem agregasi berita berbahasa Indonesia, tetapi sistem ini hanya
memiliki fitur konvensional dan belum memiliki fasilitas peringkasan. McKeown dkk (2002) telah
mengembangkan Columbia Newsblaster sebagai sistem agregasi berita yang dilengkapi dengan fitur
peringkasan multidokumen berbahasa Inggris.
Terdapat dua pendekatan untuk kategorisasi multilabel yaitu transformasi persoalan dan adaptasi
algoritma (Tsoumakas dkk, 2010). Transformasi persoalan mengubah persoalan multilabel menjadi satu
atau beberapa persoalan label tunggal, contohnya Binary Relevance, Label Powerset, dan Calibrated
Label Ranking. Adaptasi algoritma mengembangkan algoritma untuk diaplikasikan langsung ke persoalan
kategorisasi multilabel, contohnya Adaboost.MH dan MLkNN. Kategorisasi multilabel berita telah
dilakukan dengan BR-Naïve Bayes (Chase dkk ) dan CLR-Perceptron (Furnkranz dkk, 2008).
Kategorisasi artikel berita bahasa Indonesia sudah dilakukan oleh banyak peneliti, tetapi masih
mengasumsikan klasifikasi tunggal untuk setiap berita. Buana dkk (2012) melakukan kategorisasi berita
dari korpus 802 artikel ke dalam 6 kelas berita (Umum, EkonomiBisnis, EdukasidanSains, Kesehatan,
Olahraga, dan Teknologi) dengan Fmeasure rata-rata 80.29%.
3. Sistem Agregasi Berita dan Tweet
Kategorisasi teks merupakan salah satu task analisis teks dalam sistem agregasi berita dan informasi
pelengkapnya ini. Pada Gambar 3, ditunjukkan 7 komponen utama sistem agregasi yang dikembangkan,
dan 4 komponen melakukan kategorisasi teks. Selain kategorisasi teks, terdapat task clustering dan
peringkasan teks.
Gambar 3. Komponen utama sistem agregasi berita dan informasi pelengkapnya
Komponen pertama, Crawler dan HTML parser, memanfaatkan informasi RSS (
situs berita online berbahasa Indonesia. Hasil penelusuran link berupa file HTML tid
mengandung konten berita, tetapi masih mengandung
pada situs berita tersebut. Untuk itu, dilakukan parsing HTML untuk mendapatkan hanya teks konten
berita dan foto yang terkait berita tersebut.
Komponen kedua, categorizer, berfungsi menentukan kategori dari setiap artikel berita dan tweet.
Beberapa situs telah menentukan kategori dari setiap artikel beritanya, tetapi informasi ini tidak dapat
diakses melalui RSS. Selain itu, label kategori dapat berbed
makalah ini menggunakan 10 kategori berita yang telah disebutkan di bagian Pendahuluan. Selain itu,
komponen relevance berfungsi memfilter tweet untuk mendapatkan tweet yang relevan (memiliki
informasi pelengkap).
Komponen ketiga, 5W1H Extractor, berfungsi untuk mendapatkan informasi terstruktur 5W1H dari
setiap teks konten berita yang tidak terstruktur. Dalam ekstraksi informasi ini, dilakukan ekstraksi entitas
dengan menggunakan pendekatan
dari setiap artikel berita yaitu Who, What, Where, When, Why, How.
Sistem Agregasi Berita dan Tweet
Kategorisasi teks merupakan salah satu task analisis teks dalam sistem agregasi berita dan informasi
pelengkapnya ini. Pada Gambar 3, ditunjukkan 7 komponen utama sistem agregasi yang dikembangkan,
melakukan kategorisasi teks. Selain kategorisasi teks, terdapat task clustering dan
Gambar 3. Komponen utama sistem agregasi berita dan informasi pelengkapnya
Komponen pertama, Crawler dan HTML parser, memanfaatkan informasi RSS (Rich Site Summary
situs berita online berbahasa Indonesia. Hasil penelusuran link berupa file HTML tid
mengandung konten berita, tetapi masih mengandung header, footer, iklan, dan tambahan informasi
pada situs berita tersebut. Untuk itu, dilakukan parsing HTML untuk mendapatkan hanya teks konten
berita dan foto yang terkait berita tersebut.
, berfungsi menentukan kategori dari setiap artikel berita dan tweet.
Beberapa situs telah menentukan kategori dari setiap artikel beritanya, tetapi informasi ini tidak dapat
diakses melalui RSS. Selain itu, label kategori dapat berbeda antar situs media online. Oleh karena itu,
makalah ini menggunakan 10 kategori berita yang telah disebutkan di bagian Pendahuluan. Selain itu,
berfungsi memfilter tweet untuk mendapatkan tweet yang relevan (memiliki
Komponen ketiga, 5W1H Extractor, berfungsi untuk mendapatkan informasi terstruktur 5W1H dari
setiap teks konten berita yang tidak terstruktur. Dalam ekstraksi informasi ini, dilakukan ekstraksi entitas
dengan menggunakan pendekatan sequence labeling. Terdapat 6 jenis informasi yang akan diekstraksi
dari setiap artikel berita yaitu Who, What, Where, When, Why, How.
Kategorisasi teks merupakan salah satu task analisis teks dalam sistem agregasi berita dan informasi
pelengkapnya ini. Pada Gambar 3, ditunjukkan 7 komponen utama sistem agregasi yang dikembangkan,
melakukan kategorisasi teks. Selain kategorisasi teks, terdapat task clustering dan
Rich Site Summary) dari
situs berita online berbahasa Indonesia. Hasil penelusuran link berupa file HTML tidak hanya
, iklan, dan tambahan informasi
pada situs berita tersebut. Untuk itu, dilakukan parsing HTML untuk mendapatkan hanya teks konten
, berfungsi menentukan kategori dari setiap artikel berita dan tweet.
Beberapa situs telah menentukan kategori dari setiap artikel beritanya, tetapi informasi ini tidak dapat
a antar situs media online. Oleh karena itu,
makalah ini menggunakan 10 kategori berita yang telah disebutkan di bagian Pendahuluan. Selain itu,
berfungsi memfilter tweet untuk mendapatkan tweet yang relevan (memiliki
Komponen ketiga, 5W1H Extractor, berfungsi untuk mendapatkan informasi terstruktur 5W1H dari
setiap teks konten berita yang tidak terstruktur. Dalam ekstraksi informasi ini, dilakukan ekstraksi entitas
rdapat 6 jenis informasi yang akan diekstraksi
Komponen selanjutnya, Clusterer berfungsi mengelompokkan kumpulan berita dalam setiap kategori
yang sama untuk mendapatkan topik-topik utamanya. Komponen Summarizer menghasilkan ringkasan
untuk setiap topik. Pada sistem saat ini, ringkasan dibentuk dengan membentuk kalimat berdasarkan
template informasi 5W1H.
Pada bagian selanjutnya, makalah ini hanya akan membahas bagian kategorisasi teksnya saja.
4. Kategorisasi Multilabel untuk Kategorisasi Artikel Berita
Pembangunan model kategorisasi multilabel dilakukan dengan menggunakan kedua pendekatan
transformasi persoalan multilabel dan adaptasi algoritma (Rahmawati & Khodra, 2015). Gambar 4
menunjukkan arsitektur kategorisasi multilabel. Eksperimen dilakukan dengan korpus 3.226 artikel
berita berlabel sebagai data pembelajaran, dengan 100 artikel berita berlabel sebagai data pengujian.
Gambar 4. Proses kategorisasi multilabel dengan pendekatan transformasi persoalan dan adaptasi algoritma
Eksperimen yang dilakukan menunjukkan bahwa classifier terbaik didapatkan dengan
mengkombinasikan TF-IDF, seleksi fitur symmetrical uncertainty, dan algoritma CLR-SVM. Kinerja terbaik
pembelajaran mencapai Fmeasure rata-rata 85.13% dengan skema 10-fold cross validation, dan kinerja
pengujian Fmeasure 76.73%.
Tabel 1. Fmeasure data pengujian dari 3 iterasi pembangunan model
Label Iterasi 1 Iterasi 2 Iterasi 3
Pendidikan 85.710% 92.310% 92.310%
Politik 82.350% 78.260% 70.000%
Hukum dan Kriminal 83.330% 77.420% 66.670%
Sosial Budaya 0.000% 54.550% 42.860%
Olahraga 100.000% 100.000% 97.300%
Teknologi dan sains 71.430% 61.540% 54.550%
Hiburan 46.150% 50.000% 44.440%
Bisnis dan Ekonomi 68.180% 59.460% 66.670%
Kesehatan 90.910% 88.890% 75.000%
Bencana dan Kecelakaan 84.210% 84.210% 88.890%
Gambar 5 menunjukkan contoh artikel berita yang berhasil dikategorisasi ke semua kelas sesuai pelabelan yang
dilakukan manusia, sedangkan Gambar 6 memberikan contoh artikel berita yang hasil kategorisasi teksnya
sebagian benar.
Jakarta - Windows XP adalah sistem operasi lama Microsoft yang diluncurkan sekitar 14
tahun lalu dan sudah diberhentikan dukungannya. Tapi Angkatan Laut Amerika Serikat
(AS) masih memakainya dan rela membayar mahal Microsoft agar tetap mendapatkan
support. Microsoft sejatinya telah menghentikan dukungan terhadap Windows XP sejak
April tahun lalu. Karenanya, Windows XP lebih rentan diserang hacker karena tidak lagi
mendapat update jika ada celah keamanan. Agar tetap mendapatkan dukungan, Angkatan
Laut AS rela membayar USD 9 juta atau di kisaran Rp 120 miliar per tahun. …. (fyk/fyk)
Gambar 5. Contoh artikel berita yang berhasil dikategorisasi ke kelas Teknologi & Sains, dan Bisnis & Ekonomi.
Jakarta - Selepas pensiun dari Microsoft, Bill Gates aktif di berbagai kegiatan amal.
Salah satunya adalah dalam program riset untuk mencari obat AIDS. Lewat Bill and
Melinda Gates Foundation, sang pendiri raksasa teknologi Microsoft itu menghabiskan
USD 400 juta atau sekitar Rp 5,2 triliun (USD 1 = Rp 13.000) setiap tahunnya untuk
penelitian dari penyakit yang belum ditemukan obatnya tersebut. Gates pun berharap,
vaksin untuk memerangi virus HIV yang menyebabkan AIDS dapat ditemukan dalam jangka
waktu 5-10 tahun ke depan. ... (ash/ash)
Gambar 6. Contoh artikel berita yang dikategorisasi ke kelas Teknologi & Sains, dan Kesehatan. Seharusnya hanya kelas
Kesehatan saja.
5. Kategorisasi Label Tunggal untuk Filtering dan Kategorisasi Tweet
Pembangunan model filtering tweet menggunakan SVM dan korpus 6.386 tweet yang menghasilkan
akurasi 79.29%. Saat ini korpus telah dianotasi sebanyak 19.386 tweet berlabel relevan atau tidak
relevan.
Dari korpus 3.622 tweet berlabel 10 kelas berita, pemodelan baru memanfaatkan 1.653 tweet berlabel.
Pembangunan model kategorisasi tweet menggunakan SVM yang menghasilkan Fmeasure 83.61%
dengan skema 10-fold cross validation, dan pengujian hanya mencapai Fmeasure 52.4%. Gambar 7,
Gambar 8, dan Gambar 9 menunjukkan contoh-contoh tweet hasil filtering dan kategorisasi tweet.
Pemerintah pusat, daerah, TNI, Polri dan masyarakat bahu membahu mengatasi kabut asap
di Sumatera & Kalimantan -Jkw
Gambar 7. Contoh tweet yang berhasil dikategorisasi sebagai tweet relevan dan masuk kelas Bencana & Kecelakaan
Kita berduka atas jatuhnya banyak korban jiwa di Mina, Arab Saudi, tmsk WNI. Semoga
para syuhada hidup tenang di sisi Allah Swt. *SBY*
Gambar 8. Contoh tweet yang salah dikategorisasi sebagai tweet relevan dan masuk kelas Bencana & Kecelakaan. Seharusnya
tweet ini dianggap tidak relevan karena tidak mengandung informasi pelengkap.
GIGABYTE GA-Z170X Gaming 7: Mudah Di-Overclock, Stabil, dan Kaya Fitur via @metro_tv
http://t.co/6m5KeSSgk8
Gambar 9. Contoh tweet yang salah dikategorisasi sebagai tidak relevan. Seharusnya tweet ini dianggap relevan dan masuk
kategori Teknologi & Sains
6. Kategorisasi Multikelas untuk Ekstraksi Event 5W1H
Ekstraksi event mengidentifikasi who did what, when, where, why, and how, atau 5W1H sebagai
persoalan sequence labeling dengan notasi BIO (Begin Inside Other). Setiap token dari artikel diproses
dengan kategorisasi multikelas ke salah satu dari 13 kelas yang terdefinisi. Setiap jenis informasi 5W1H
terdiri atas dua kategori yaitu kategori begin-<jenis informasi> untuk token pertama yang mengandung
informasi tersebut dan in-<jenis informasi> untuk token kedua dan berikutnya yang mengandung
informasi tersebut. Kategori tambahan other didefinisikan untuk token lain yang tidak berlabel. Total
kategori untuk 6 jenis informasi yang telah didefinisikan tersebut adalah 6*2+1=13 kategori. Model
klasifikasi akan menganalisis setiap token pada artikel dan menentukan kategori token tersebut. Berikut
merupakan contoh potongan artikel pada korpus yang setiap tokennya telah ditentukan kategorinya.
TEMPO.CO/O ,/O Jakarta/B-Where -/O Forum/B-Who Indonesia/I-Who untuk/I-Who
Transparansi/I-Who Anggaran/I-Who (/I-Who Fitra/I-Who ) /I-Who telah/O menduga/B-What
PT/I-What Ghalia/I-What Indonesia/I-What Printing/I-What tak/I-What akan/I-What
berhasil/I-What menyelesaikan/I-What tender/I-What naskah/I-What ujian/I-What
nasional/I-What ./O ... "/O Dari/O awal/O saya/O sudah/O menduga/O ini/O bermasalah/O
,/O "/O katanya/O saat/O dihubungi/O ,/O Ahad/B-When ,/I-When 14/I-When April/I-When
2013/I-When ./O ... Menurut/O Uchok/O ,/O ini/O merupakan/O bukti/O Ghalia/B-Why
tak/I-Why mempertimbangkan/I-Why kapasitas/I-Why perusahannya/I-Why ./O ...
Pada potongan artikel di atas, terdapat 5 jenis informasi yaitu Who, What, Where, When, Why. Token
pertama setiap informasi mendapat awalan B (begin) seperti kategori B-Who, dan B-What. Jika
informasi tersebut mengandung lebih dari satu token, kategori yang digunakan diawali dengan I (in)
seperti I-When. Vektor fitur untuk token didefinisikan berdasarkan atribut leksikal token tersebut dan 2
atribut token tetangganya (2 sebelum dan 2 sesudah). Gambar 10 menunjukkan contoh hasil ekstraksi
5W1H dari sebuah berita.
Tabel 2 menunjukkan distribusi data setiap label. Korpus ini termasuk dataset yang tidak seimbang
dengan kelas mayoritas adalah other, dan kelas minoritas adalah beg_how.
Eksperimen yang dilakukan terhadap korpus 22.769 term berlabel ini menunjukkan bahwa C4.5
memberikan kinerja Fmeasure 66.6% yang lebih baik daripada AdaboostM1 (Khodra, 2015). Walaupun
begitu, Adaboost dapat mengidentifikasi beberapa label minoritas lebih baik daripada C4.5.
Empat Bank Biayai Proyek Kereta Komuter Jakarta
TEMPO.CO, Jakarta - Bank Mandiri mengucurkan pinjaman untuk proyek
pengembangan kereta commuter Jabodetabek. Kredit tersebut disalurkan melalui
sindikasi perbankan bersama BRI, BNI, dan BCA. Direktur Institutional Banking
Bank Mandiri Abdul Rachman mengatakan kredit sindikasi ini berjangka waktu 14
tahun. Keempat bank menyalurkan pembiayaan dengan porsi kredit yang sama,
yaitu masing-masing sebesar Rp 760,97 miliar. Dengan demikian total pinjaman
yang disalurkan mencapai Rp 3,04 triliun. (Baca: Subsidi KRL Jabodetabek
Ditambah Rp 88 Miliar) "Kredit sindikasi tersebut merupakan salah satu upaya
Bank Mandiri untuk berperan dalam pengembangan transportasi massal," kata dia
melalui keterangan tertulis, Senin, 10 November 2014. (Baca: Hari Ini PT KCJ
Datangkan 32 Kereta Rel Listrik) Abdul Rachman mengatakan transportasi massal
yang baik merupakan salah satu komponen utama untuk mendorong
pertumbuhan ekonomi yang berkelanjutan. Keberadaan transportasi massal, kata
dia, mempercepat arus pergerakan masyarakat karena waktu tempuh akan
semakin cepat sehingga berbagai aktivitas produktif dapat terlaksana secara
efektif dan efisien. "Transaksi ekonomi yang terjadi pun dapat bertambah
banyak." FERY F. Berita
What: mengucurkan
pinjaman untuk proyek
pengembangan kereta
commuter Jabodetabek
Who: Bank Mandiri
Where: Jakarta
When: 10 November 2014
Why: berbagai aktivitas
produktif dapat terlaksana
secara efektif dan efisien .
How: -
Gambar 10. Contoh hasil ekstraksi 5W 1H pada berita
Tabel 2. Korpus 5W1H dengan notasi BIO
Label Count Description
Beg_who 87 Beginning token of who filler
In_who 356 Inside token of who filler
Beg _what 90 Beginning token of who filler
In_what 933 Inside token of who filler
Beg _when 86 Beginning token of who filler
In_when 229 Inside token of who filler
Beg _where 89 Beginning token of who filler
In_where 178 Inside token of who filler
Beg _why 84 Beginning token of who filler
In_why 771 Inside token of who filler
Beg _how 75 Beginning token of who filler
In_how 849 Inside token of who filler
Other 18,942 Outside token
7. Penutup
Makalah ini telah membahas pemanfaatan berbagai model kategorisasi teks untuk agregasi berita dan
informasi pelengkapnya mulai dari kategorisasi berita dan tweet ke dalam 10 kelas berita, sampai
dengan ekstraksi 5W1H. Kinerja yang telah dicapai saat pengujian adalah Fmeasure 76.73% untuk
kategorisasi berita, akurasi 79.29% untuk filtering tweet, Fmeasure 52.4% untuk kategorisasi tweet, dan
Fmeasure 66.6% untuk kategorisasi term dalam ekstraksi event 5W1H.
Penelitian selanjutnya akan memperbaiki kinerja setiap model. Salah satunya dengan melanjutkan semi-
supervised learning untuk mengkonstruksi korpus yang lebih baik. Penanganan imbalanced dataset perlu
juga dilakukan karena distribusi kelas pada korpus yang tidak seimbang.
Referensi
Buana, P.W., Jannet, S.D.R.M., Putra, I.K.G.D (2012). Combination of K-Nearest Neighbor and K-Means
based on Term Re-weighting for Classify Indonesian News
Isbell, K. (2010). The Rise Of The Agregator berita: Legal Implications And Best Practices. The Berkman
Center for Internet & Society at Harvard University.
Karhendana, A. (2008). Pemanfaatan Document Clustering Pada Agregator Berita. Laporan Tugas Akhir
Program Studi Teknik Informatika STEI ITB, Institut Teknologi Bandung, Bandung.
Khodra, M.L., Event Extraction on Indonesian News Article using Multiclass Categorization, ICAICTA,
Chonburi, 20-21 August 2015.
Khodra, M.L., Wibisono, Y., Automatic Extraction of Who-What-When-Where-Why-How on Indonesian
News Article, The 8th International Conference on Applied Linguistics, Bandung, 19-20 August 2015
Lasica, J. (2003, January 23). News That Comes to You. Retrieved from USC Annenberg Online Journalism
Review
McKeown, K. R., Barzilay, R., Evans, D., Hatzivassiloglou, V., Klavans, J. L., Nenkova, A. (2002). T racking
and Summarizing News on a Daily Basis with Columbia's Newsblaster. Proceedings of the second
international conference on Human Language Technology Research (pp. 280-285). Morgan Kaufmann
Publishers Inc.
Rahmawati, D., Khodra, M.L., Automatic Multilabel Classification for Indonesian News Articles, ICAICTA,
Chonburi, 20-21 August 2015.
G. Tsoumakas, I. Katakis, and I. Vlahavas, “Mining multi-label data,” in Data mining and knowledge
discovery handbook, Springer, 2010, pp. 667–685.
Sebastiani, F., Machine Learning in Automated Text Categorization, ACM Computing Surveys, 34 (1),
pp.1-47, 2002.
Sebastiani, F., Text Categorization, 2005.
Z. Chase, N. Genain, and O. Karniol-Tambour, “Learning Multi-Label Topic Classification of News
Articles.”
J. Fürnkranz, E. Hüllermeier, E. L. Mencía, and K. Brinker, “Multilabel classification via calibrated label
ranking,” Mach. Learn., vol. 73, no. 2, pp. 133–153, 2008.