Mendeteksi Topik Berita Pada Aliran Berita Online Berbahasa Indonesia

13
1 MENDETEKSI TOPIK BERITA PADA ALIRAN BERITA ONLINE BERBAHASA INDONESIA Muhammad Ammar Shadiq Program Studi Ilmu Komputer Universitas Pendidikan Indonesia [email protected] Yudi Wibisono Dosen Program Studi Ilmu Komputer Universitas Pendidikan Indonesia [email protected] Jajang Kusnendar Dosen Program Studi Ilmu Komputer Universitas Pendidikan Indonesia [email protected] ABSTRAK Pengelompokan dokumen-dokumen berita kedalam topik-topik yang lebih spesifik membutuhkan waktu dan sumber daya manusia yang tidak sedikit. Untuk mengatasi permasalahan waktu dan sumber daya manusia tersebut, dibutuhkan pengelompokan dokumen-dokumen berita berdasarkan topik-topiknya secara otomatis, selain itu, untuk lebih memudahkan dalam menemukan informasi yang diinginkan, dibutuhkan juga pemberian deskripsi dari kelompok berita. Penelitian ini mencoba untuk mengatasi permasalahan tersebut dengan menjadikan pengelompokan topik-topik berita secara otomatis dengan algoritma Group-Average Hierarchical Aglomerative Clustering (GA-HAC) dan pemberian deskripsi secara otomatis dengan Mutual Information (MI). Eksperimen implementasi dari algoritma ini terhadap 509 dokumen berita menunjukkan bahwa GA-HAC dapat mengelompokkan dokumen-dokumen berita yang memiliki topik yang sama dengan nilai akurasi precision 84,4% dan MI dapat memberikan nilai akurasi rata-rata partial match Match@N 70,81% untuk seluruh topik dan 90% untuk 10 topik terpopuler. Kata Kunci: Clustering, Cluster Labeling, Group- Average Hierarchical Agglomerative Clustering, Mutual Information, News Topic Detection. 1 PENDAHULUAN 1.1 Latar Belakang Saat ini teknologi informasi di Indonesia berkembang dengan sangat pesat, masyarakat sudah banyak yang menggunakan internet untuk berkomunikasi dan mendapatkan informasi, salah satu informasi yang bisa didapatkan oleh pengguna internet adalah berita. Berita di internet bisa didapatkan dari banyak situs khusus berita yang selalu menyediakan dokumen- dokumen berita terbaru. Dengan banyaknya situs-situs tersebut, informasi yang bisa didapatkan oleh pengguna sangat banyak, namun tidak semua informasi tersebut dibutuhkan oleh pengguna. Sering kali pengguna layanan berita hanya membutuhkan informasi seperti “apa yang terjadi?” atau “berita apa yang populer sekarang?” atau “bagaimana perkembangan terbaru dari topik .....?”. Untuk memudahkan pengguna dalam memenuhi kebutuhan informasinya, situs-situs berita umumnya mengelompokkan berita-berita kedalam kelas-kelas umum seperti regional, bisnis, internasional, kesehatan dan kelas-kelas umum lainnya. Namun jumlah dokumen berita pada tiap kelas-kelas tersebut masih sangat banyak dan berisi berita dengan berbagai topik yang lebih spesifik. Pengelompokan dokumen- dokumen berita kedalam topik-topik yang lebih spesifik membutuhkan waktu dan sumber daya manusia yang tidak sedikit, sebagai hasilnya, hanya kejadian-kejadian besar seperti “Pemilihan Presiden 2009” dan “Piala Dunia 2010” yang dipilih oleh redaksi berita untuk diciptakan kelompok tersendiri. Penelitian ini mencoba mengatasi permasalahan tersebut dengan mengaplikasikan metode clustering dokumen dengan Group Average - Hierarchical Agglomerative Clustering (GA-HAC) untuk mengotomatisasikan pengelompokan dokumen- dokumen berita berdasarkan topik-topiknya dan cluster labeling dengan Mutual Information (MI) untuk memberikan deskripsi dari topik tersebut. Kedua pengaplikasian metode ini dilakukan dalam lingkungan time window yang memandang aliran berita melalui “jendela” dengan dokumen-dokumen pada interval waktu 24 jam. 2 METODOLOGI 2.1 Time Window Time window adalah suatu metode yang digunakan untuk menangani aliran berita. Time window memandang sebuah aliran dokumen berita melalui “jendela” dengan jumlah dokumen atau interval waktu tertentu [1] [5] [6] [15] [22].

description

Pengelompokan dokumen-dokumen berita kedalam topik-topik yang lebih spesifik membutuhkan waktu dan sumber daya manusia yang tidak sedikit. Untuk mengatasi permasalahan waktu dan sumber daya manusia tersebut, dibutuhkan pengelompokan dokumen-dokumen berita berdasarkan topik-topiknya secara otomatis, selain itu, untuk lebih memudahkan dalam menemukan informasi yang diinginkan, dibutuhkan juga pemberian deskripsi dari kelompok berita. Penelitian ini mencoba untuk mengatasi permasalahan tersebut dengan denjadikan pengelompokan topik-topik berita secara otomatis dengan algoritma Group-Average Hierarchical Aglomerative Clustering (GA-HAC) dan pemberian deskripsi secara otomatis dengan Mutual Information (MI). Eksperimen implementasi dari algoritma ini terhadap 509 dokumen berita menunjukkan bahwaGA-HAC dapat mengelompokkan dokumen-dokumen berita yang memiliki topik yang sama dengan nilai akurasi precision 84,4% dan MI dapat memberikan nilai akurasi rata-rata partial match Match@N 70,81% untuk seluruh topik dan 90% untuk 10 topik terpopuler

Transcript of Mendeteksi Topik Berita Pada Aliran Berita Online Berbahasa Indonesia

Page 1: Mendeteksi Topik Berita Pada Aliran Berita Online Berbahasa Indonesia

1

MENDETEKSI TOPIK BERITA PADA ALIRAN BERITA

ONLINE BERBAHASA INDONESIA

Muhammad Ammar Shadiq

Program Studi Ilmu Komputer

Universitas Pendidikan Indonesia

[email protected]

Yudi Wibisono

Dosen Program Studi Ilmu Komputer

Universitas Pendidikan Indonesia

[email protected]

Jajang Kusnendar

Dosen Program Studi Ilmu Komputer

Universitas Pendidikan Indonesia

[email protected]

ABSTRAK

Pengelompokan dokumen-dokumen berita kedalam

topik-topik yang lebih spesifik membutuhkan waktu

dan sumber daya manusia yang tidak sedikit. Untuk mengatasi permasalahan waktu dan sumber daya

manusia tersebut, dibutuhkan pengelompokan

dokumen-dokumen berita berdasarkan topik-topiknya

secara otomatis, selain itu, untuk lebih memudahkan

dalam menemukan informasi yang diinginkan,

dibutuhkan juga pemberian deskripsi dari kelompok

berita. Penelitian ini mencoba untuk mengatasi

permasalahan tersebut dengan menjadikan

pengelompokan topik-topik berita secara otomatis

dengan algoritma Group-Average Hierarchical

Aglomerative Clustering (GA-HAC) dan pemberian deskripsi secara otomatis dengan Mutual Information

(MI). Eksperimen implementasi dari algoritma ini

terhadap 509 dokumen berita menunjukkan bahwa

GA-HAC dapat mengelompokkan dokumen-dokumen

berita yang memiliki topik yang sama dengan nilai

akurasi precision 84,4% dan MI dapat memberikan

nilai akurasi rata-rata partial match Match@N

70,81% untuk seluruh topik dan 90% untuk 10 topik

terpopuler.

Kata Kunci: Clustering, Cluster Labeling, Group-Average Hierarchical Agglomerative Clustering,

Mutual Information, News Topic Detection.

1 PENDAHULUAN

1.1 Latar Belakang Saat ini teknologi informasi di Indonesia berkembang

dengan sangat pesat, masyarakat sudah banyak yang

menggunakan internet untuk berkomunikasi dan mendapatkan informasi, salah satu informasi yang bisa

didapatkan oleh pengguna internet adalah berita.

Berita di internet bisa didapatkan dari banyak situs

khusus berita yang selalu menyediakan dokumen-

dokumen berita terbaru. Dengan banyaknya situs-situs

tersebut, informasi yang bisa didapatkan oleh

pengguna sangat banyak, namun tidak semua

informasi tersebut dibutuhkan oleh pengguna. Sering

kali pengguna layanan berita hanya membutuhkan

informasi seperti “apa yang terjadi?” atau “berita apa

yang populer sekarang?” atau “bagaimana

perkembangan terbaru dari topik .....?”.

Untuk memudahkan pengguna dalam memenuhi

kebutuhan informasinya, situs-situs berita umumnya

mengelompokkan berita-berita kedalam kelas-kelas

umum seperti regional, bisnis, internasional, kesehatan dan kelas-kelas umum lainnya. Namun jumlah

dokumen berita pada tiap kelas-kelas tersebut masih

sangat banyak dan berisi berita dengan berbagai topik

yang lebih spesifik. Pengelompokan dokumen-

dokumen berita kedalam topik-topik yang lebih

spesifik membutuhkan waktu dan sumber daya

manusia yang tidak sedikit, sebagai hasilnya, hanya

kejadian-kejadian besar seperti “Pemilihan Presiden

2009” dan “Piala Dunia 2010” yang dipilih oleh

redaksi berita untuk diciptakan kelompok tersendiri.

Penelitian ini mencoba mengatasi permasalahan

tersebut dengan mengaplikasikan metode clustering

dokumen dengan Group Average - Hierarchical

Agglomerative Clustering (GA-HAC) untuk

mengotomatisasikan pengelompokan dokumen-

dokumen berita berdasarkan topik-topiknya dan

cluster labeling dengan Mutual Information (MI)

untuk memberikan deskripsi dari topik tersebut. Kedua

pengaplikasian metode ini dilakukan dalam

lingkungan time window yang memandang aliran

berita melalui “jendela” dengan dokumen-dokumen pada interval waktu 24 jam.

2 METODOLOGI

2.1 Time Window Time window adalah suatu metode yang digunakan

untuk menangani aliran berita. Time window

memandang sebuah aliran dokumen berita melalui

“jendela” dengan jumlah dokumen atau interval waktu tertentu [1] [5] [6] [15] [22].

Page 2: Mendeteksi Topik Berita Pada Aliran Berita Online Berbahasa Indonesia

2

Gambar 0.1 Ilustrasi Time Window pada Aliran

Dokumen Berita

Konsep time window diadopsi dengan cara membagi

aliran dokumen berita kedalam segmen-segmen dimana tiap segmen berisi dokumen-dokumen pada

interval waktu 1 jam. Koleksi dokumen terbaru

dibangun dengan menggunakan segmen-segmen 24

jam terakhir saja, hal ini dilakukan dengan

menambahkan segmen terbaru dan membuang segmen

yang telah melebihi 24 jam. Proses perubahan koleksi

dokumen terbaru ini dirumuskan dengan:

𝐾w =

𝑆i

w

i=1

, 1 ≤ w ≤ τ

(2.1)

𝑆i

w

i=w−τ

, w > τ

dimana

w adalah waktu terakhir

Si adalah segmen pada waktu i

Kw adalah koleksi dokumen pada waktu w

τ adalah 24 jam

2.2 Tokenization Tokenization adalah proses pemotongan rangkaian

kata menjadi bagian-bagian yang dinamakan token,

sebuah token adalah kejadian dari urutan karakter

dalam dokumen tertentu yang dikelompokkan bersama sebagai sebuah unit pemrosesan semantik yang

berguna. Token ini umumnya disebut juga sebagai

sebuah term [17]. Pada penelitian ini proses

tokenization dilakukan dengan membagi-bagi teks

dokumen berdasarkan karakternya. Untuk dapat

mendeteksi apakah suatu urutan karakter merupakan

sebuah term atau simbol, karakter-karakter

diklasifikasikan kedalam tiga kelas karakter.

2.2.1 Klasifikasi Kelas Karakter 1. Kelas karakter yang pertama adalah kelas karakter

spasi. Karakter-karakter pada kelas ini merupakan

karakter-karakter yang umumnya digunakan

sebagai pemisah kata dan paragraph.

2. Kelas karakter yang kedua adalah karakter

berjenis simbol. Kelas karakter ini umumnya

berbentuk tanda baca, seperti “;” (titik koma) dan

“?” (tanda tanya).

3. Kelas karakter yang ketiga adalah karakter-

karakter yang berjenis non-simbol. Karakter-

karakter pada kelas ini merupakan karakter-

karakter utama dalam pembentukan sebuah term.

2.2.2 Proses Tokenizer Secara Umum Proses tokenizer diawali membagi-bagi teks

berdasarkan karakter-karakternya, lalu dilakukan

penelusuran satu persatu dari awal dokumen dan

melakukan operasi sesuai dengan sifat tiap karakter

tersebut. Contoh proses tokenizer secara umum adalah

misalkan diketahui sebuah dokumen dengan isi teks:

Apakah dia sedih? "Saya lihat biasa

saja," lanjut bapak.

Hasil proses tokenizer ini adalah:

Tabel 2.1 Contoh Hasil Tokenizer Sebuah Dokumen

Token Tipe Token Tipe

Apakah Term biasa Term

dia Term saja Term

sedih Term , Simbol

? Simbol ” Simbol

” Simbol lanjut Term

Saya Term bapak Term

lihat Term . Simbol

2.2.3 Penanganan Simbol-Simbol Tertentu Aturan pemisahan sederhana diatas akan mengalami

kendala untuk term yang seharusnya menyatu seperti

nama orang yang menggunakan kutip tunggal

“Safi'i”, yang akan menghasilkan token safi, ', i

ataupun alamat email seperti “email@server” yang

akan menghasilkan token email, @, server. Untuk

menghindari kendala tersebut, dilakukan penyesuaian

aturan terhadap karakter-karakter simbol [.], ['], [-],

[@] dan [#], yaitu:

Untuk karakter simbol [.], ['] dan [-]

Aturan logika 1: Jika karakter simbol [.], ['] atau [-]

tidak terletak pada awal dokumen dan akhir dokumen

dan diawali oleh karakter spasi atau (inklusif) diikuti

karakter spasi atau simbol, maka karakter simbol

tersebut bukan bagian dari token term. Aturan ini

dapat dituliskan dengan ekspresi logika: ((a ˄ b) ˄ ((c

˅ d) ⊕ e)) dengan proporsi-proporsi:

a = karakter simbol [.], ['] dan [-] tersebut bukan karakter pertama.

b = masih ada karakter selanjutnya.

c = karakter selanjutnya adalah spasi.

d = karakter selanjutnya adalah simbol.

e = karakter sebelumnya adalah spasi.

Page 3: Mendeteksi Topik Berita Pada Aliran Berita Online Berbahasa Indonesia

3

Aturan logika 2: Jika karakter simbol [.], ['] atau [-]

terletak pada awal dokumen, maka karakter simbol

tersebut bukan bagian dari token term.

Aturan logika 3: Jika aturan Logika 1 dan 2 diatas

tidak memenuhi, maka karakter simbol tersebut

merupakan bagian dari token term.

Contoh pengaplikasian dari aturan-aturan ini adalah:

1. “www.situs.com” dianggap sebagai sebuah

token utuh: www.situs.com.

2. “masih bisa. Selain itu” menjadi:

masih, bisa, ., Selain, itu.

3. “safi'i” dianggap sebagai sebuah token utuh:

safi'i.

4. “Mike 'Leher Beton” menjadi: Mike, ',

Leher, Beton.

5. “Leher Beton' Tyson” menjadi: Leher,

Beton, ' , Tyson.

6. “rumah-rumah” dianggap sebagai sebuah token

utuh: rumah-rumah.

7. “-Polisi membekuk” menjadi: -, Polisi,

membekuk.

Untuk karakter simbol [@]

Aturan logika 1: Jika karakter simbol [@] tidak terletak pada akhir dokumen dan diikuti karakter spasi

atau (inklusif) simbol, maka karakter simbol tersebut

bukan bagian dari token term. Aturan ini dapat

dituliskan dengan ekspresi logika: (a ˄ (b ˅ c)) dengan

proporsi-proporsi:

a = masih ada karakter selanjutnya

b = karakter selanjutnya adalah spasi

c = karakter selanjutnya adalah simbol

Aturan logika 2: Jika aturan Logika 1 diatas tidak

memenuhi, maka karakter simbol tersebut merupakan

bagian dari token term.

Contoh pengaplikasian dari aturan-aturan ini adalah:

1. “email@server” dianggap sebagai sebuah token email@server

2. “pada twitternya @akuntwit” menjadi:

pada, twitternya, @akuntwit.

3. “ini@ itu” menjadi: ini, @, itu.

4. “ini@ itu” menjadi: ini, @, itu.

Untuk karakter simbol [#]

Aturan logika 1: Jika karakter simbol [#] tidak terletak pada akhir dokumen dan diikuti karakter spasi

atau (inklusif) simbol, maka karakter simbol tersebut

bukan bagian dari token term. Aturan ini dapat

dituliskan dengan ekspresi logika: (a ˄ b) ˄ ((c ˅ d) ˄

e) dengan proporsi-proporsi:

a = Karakter simbol [#] tersebut bukan karakter pertama.

b = Masih ada karakter selanjutnya.

c = Karakter selanjutnya adalah spasi.

d = Karakter selanjutnya adalah simbol.

e = Karakter sebelumnya adalah spasi.

Aturan Logika 2: Jika aturan logika 1 diatas tidak memenuhi, maka karakter simbol tersebut adalah

bagian dari token term.

Contoh pengaplikasian dari aturan-aturan ini adalah:

1. “topik populer #hashtag” menjadi: topik,

populer, #hashtag.

2. “ini# itu” menjadi: ini, #, itu.

3. “ini#itu” menjadi: ini, #, itu.

2.3 Representasi Dokumen

Tiap dokumen berita direpresentasikan sebagai vektor

pada ruang vektor dengan jumlah komponen vektor

sebanyak term unik yang dihasilkan pada proses

tokenization. Vektor dokumen beranggotakan bobot

tiap term yang dihitung dengan skema pembobotan

Term Frequency – Inverse Document Frequency (TF-

IDF). TF-IDF adalah skema pembobotan yang

menghitung bobot term secara relatif berdasarkan jumlah kemunculannya pada suatu dokumen dan

seluruh koleksi dokumen [9] [17] [23] [24]. TF-IDF

dinotasikan dengan tf-idft,d dan dihitung dengan:

𝑡𝑓-𝑖𝑑𝑓𝑡 ,𝑑 = 𝑡𝑓𝑡 ,𝑑 × log𝑒𝑛𝑘𝑑𝑓𝑡

(2.2)

dimana

t adalah term

d adalah dokumen

tft,d adalah frekuensi kemunculan term t pada

dokumen d

dft adalah jumlah dokumen yang mengandung

term t pada koleksi dokumen

nk adalah jumlah dokumen di dalam koleksi

Nilai bobot hasil perhitungan TF-IDF lalu digunakan

untuk mengukur tingkat kemiripan antar dokumen

(document similarity) dengan metode Cosine

Similarity [2] [4] [7] [11] [12] [16] [17] [20] [21] [25]

[30] [31]. Nilai cos 𝜃 sebagai kemiripan dokumen antara dokumen di dan dj dihitung dengan:

cos𝜃 =𝑣 𝑑𝑖 ∙ 𝑣 𝑑𝑗

𝑣 𝑑𝑖 𝑣 𝑑𝑗 = 𝑠𝑖𝑚(𝑑𝑖 , 𝑑𝑗 ) (2.3)

Page 4: Mendeteksi Topik Berita Pada Aliran Berita Online Berbahasa Indonesia

4

2.4 Clustering dengan GA-HAC Group Average (GA) adalah suatu metode

penggabungan yang digunakan pada proses clustering

dengan Hierarchical Agglomerative Clustering (HAC)

[10] [14] [33] [34]. Metode GA mengevaluasi

kemiripan cluster berdasarkan combination similarity.

Combination similarity antara cluster Ci dan Cj

didapatkan dengan menghitung nilai rata-rata

document similarity antara seluruh pasangan dokumen

di di cluster Ci dan dj di cluster Cj dengan persamaan:

𝑠𝑖𝑚-𝑔𝑎(𝐶𝑖 ,𝐶𝑗 )

=1

𝑛𝐶𝑖 × 𝑛𝑐𝑗 𝑠𝑖𝑚 𝑑𝑖 ,𝑑𝑗

𝑑𝑗∈𝐶𝑗𝑑𝑖∈𝐶𝑖

(2.4)

dimana

𝑛𝐶𝑖 dan 𝑛𝐶𝑗 adalah jumlah dokumen pada cluster

Ci dan Cj

sim (di,dj) adalah nilai document similarity antara

dokumen di dan dj.

Algoritma metode penggabungan HAC dengan GA

adalah sebagai berikut:

1. Inisialisasi tiap dokumen sebagai sebuah cluster dengan document similarity sebagai initial

combination similarity antar cluster.

2. Hitung nilai combination similarity antar

pasangan cluster dengan SIM-GA

3. Gabungkan pasangan cluster dengan nilai

combination similarity yang paling besar sebagai

cluster baru.

4. Ulangi langkah 2 dan 3 sampai keadaan seluruh

cluster telah digabungkan.

2.3.1 Natural Clustering Untuk mendapatkan hasil cluster yang terpisah seperti

pada flat clustering, dilakukan pemotongan pada

dendogram hierarki cluster hasil algoritma GA-HAC. Pemotongan dendogram hierarki cluster ini dilakukan

pada bagian dendogram yang menggabungkan cluster

dengan combination similarity terkecil, ini ditentukan

berdasarkan nilai kelayakan tiap dokumen (document

fitness) terhadap cluster yang menampungnya [17].

Nilai document fitness dari dokumen di terhadap

cluster Ci dinotasikan dengan f(di). f(di) dihitung

dengan membandingkan nilai combination similarity

antara dokumen di terhadap cluster terdekat kedua Cj

dan rata-rata document similarity di dengan dokumen-

dokumen lain pada cluster Ci. Jika Ci adalah singleton

cluster (cluster yang hanya berisi di), maka nilai f(di)

adalah 0. Sedangkan jika Ci bukan singleton cluster,

maka nilai f(di) dihitung dengan persamaan:

𝑓 𝑑𝑖 =𝑏 𝑑𝑖 − 𝑎(𝑑𝑖)

max{𝑎 𝑑𝑖 ,𝑏 𝑑𝑖 } (2.5)

dimana

𝑎 𝑑𝑖 =1

𝐶𝑖 −1 𝑑𝑖𝑠(𝑑𝑖 ,𝑑𝑗 )𝑑𝑗∈𝐶𝑖

,

𝑏 𝑑𝑖 = arg min𝐶𝑖1

𝐶𝑗 𝑑𝑖𝑠(𝑑𝑖 , 𝑑𝑗 )𝑑𝑗∈𝐶𝑗

𝑑𝑖𝑠 𝑑𝑖 , 𝑑𝑗 = 1− cos 𝜃 = 1− 𝑠𝑖𝑚(𝑑𝑖 ,𝑑𝑗 )

Penghitungan document fitness ini dilakukan pada tiap

langkah penggabungan cluster di hierarki, dimana

seluruh nilai document fitness tiap dokumen pada

langkah penggabungan cluster tersebut kemudian di

rata-ratakan. Pemotongan hierarki untuk mendapatkan

natural clusters didapatkan dengan melakukan

pemotongan pada langkah penggabungan cluster dengan rata-rata nilai document fitness terbesar.

2.5 Cluster Labeling dengan MI Setelah pengelompokan dokumen berita dengan topik yang sama dengan clustering, cluster label digunakan

sebagai deskripsi topik dari dokumen-dokumen berita

yang terkandung didalam sebuah cluster. Proses ini

meliputi: Part-Of-Speech Tagger dengan perangkat

lunak iPOSTagger [25] yang hasilnya digunakan

untuk mengidentifikasi frasa-frasa nomina, ekstraksi

frasa calon cluster label dan penghitungan nilai

deskriptif frasa-frasa calon cluster label dengan

Mutual Information menggunakan Laplace

Correction. Nilai deskriptif calon cluster label

tertinggi kemudian dapat dipilih sebagai label dari cluster tersebut.

2.5.1 Identifikasi Frasa-Frasa Calon Cluster

Label Frasa-frasa untuk calon cluster label yang

mendeskripsikan isi inti dari suatu cerita ditentukan dengan mengambil bagian-bagian dokumen yang

memenuhi sifat-sifat tertentu [8] [13] [18] [19] [26]

[29]. Pada penelitian ini, sifat-sifat untuk menentukan

frasa-frasa calon cluster label adalah:

1. Tidak melewati batas klausa atau kalimat berupa

tanda baca seperti “.”, “,”, “!” dan“?”.

2. Tidak diawali atau diakhiri dengan stopwords.

Stopwords adalah kata-kata yang terlalu sering digunakan pada seluruh dokumen.

3. Merupakan frasa nomina (frasa kata benda atau

noun phrase). Frasa nomina adalah frasa dengan

unsur pusat kata berupa nomina atau kata benda.

Pengidentifikasian frasa nomina dilakukan dengan

mengacu pada POS Tag tiap kata dalam frasa.

4. Merupakan complete phrase, yaitu frasa lengkap yang tidak bisa diperluas lagi dengan

menambahkan elemen kata sesudah atau sebelum

frasa tersebut.

Page 5: Mendeteksi Topik Berita Pada Aliran Berita Online Berbahasa Indonesia

5

2.5.2 Mutual Information Mutual Information (MI) adalah salah satu metode

yang dapat digunakan untuk menghitung nilai

deskriptif suatu calon cluster label. MI dihitung dengan persamaan:

𝑀𝐼 𝑋,𝑌 = 𝑝(𝑥,𝑦) log2 𝑝(𝑥,𝑦)

𝑝1 𝑥 𝑝2(𝑦)

𝑦∈𝑌𝑥∈𝑋

(2.6)

dimana

p(x,y) adalah distribusi probabilitas gabungan dari

variable X dan Y

p1(x) adalah distribusi probabilitas X

p2(y) adalah distribusi probabilitas Y

Dalam cluster labeling, varibel X berhubungan dengan keanggotaan dalam sebuah cluster dan variable Y

berhubungan dengan kehadiran dari sebuah term.

Kedua variable tersebut hanya dapat memiliki nilai 0

atau 1, sehingga persamaan (2.6) dapat ditulis sebagai:

𝑀𝐼 𝐶, 𝑇 = 𝑝(𝐶𝑐 ,𝑇𝑡) log2 𝑝(𝐶𝑐 ,𝑇𝑡)

𝑝 𝐶𝑐 𝑝(𝑇𝑡)

𝑡∈0,1𝑐∈0,1

𝑀𝐼 𝐶, 𝑇 = 𝑝 𝐶1 , 𝑇1 log2 𝑝 𝐶1 ,𝑇1

𝑝 𝐶1 × 𝑝 𝑇1

+𝑝 𝐶1 ,𝑇0 log2 𝑝 𝐶1, 𝑇0

𝑝 𝐶1 × 𝑝 𝑇0

+𝑝 𝐶0, 𝑇1 log2 𝑝 𝐶0,𝑇1

𝑝 𝐶0 × 𝑝 𝑇1

+ 𝑝 𝐶0 ,𝑇0 log2 𝑝 𝐶0,𝑇0

𝑝 𝐶0 × 𝑝 𝑇0

(2.7)

dimana

p(C1) merepresentasikan probabilitas bahwa

sebuah dokumen adalah anggota dari suatu cluster.

p(C0) merepresentasikan probabilitas bahwa

sebuah dokumen bukan anggota dari suatu cluster

p(T1) merepresentasikan probabilitas bahwa

sebuah dokumen mengandung suatu term.

p(T0) merepresentasikan probabilitas bahwa

sebuah dokumen tidak mengandung suatu term.

2.5.3 Laplace Collection Mutual information tidak memperbolehkan jumlah

dokumen pada contingency table berjumlah nol,

karena nilai nol pada salah satu elemen contingency

table akan menyebabkan perhitungan MI

menghasilkan nilai yang tidak terdefinisi.

Laplace correction mengasumsikan bahwa ada

tambahan satu dokumen untuk tiap jumlah dokumen

pada cotingency table. Karena nilai Log2 1 = 0, maka hasil perhitungan nilai MI tidak terdefinisi (N/A) dapat

dihindari.

3 EKSPERIMEN DAN EVALUASI Eksperimen-eksperimen yang diteliti pada penelitian

ini adalah:

1. Performa clustering GA-HAC dengan pemotongan

natural clustering dan pengaruh penggunaan

stopwords dalam proses clustering.

2. Performa cluster labeling dengan algoritma Mutual

Information.

3. Performa algoritma Mutual Information dalam

pendeteksian 10 topik terpopuler dengan hanya

melibatkan 10 cluster dengan jumlah dokumen terbanyak pada tiap hasil clustering.

3.1 Data Eksperimen Sumber data yang digunakan pada eksperimen ini adalah 509 dokumen yang diambil dari aliran berita

selama 48 jam dari tanggal 2011-04-25 jam 14:00

sampai dengan 2011-04-27 jam 13:00 dari situs-situs

berita:

http://nasional.kompas.com/

http://nasional.vivanews.com

http://www.antaranews.com/berita

http://www.republika.co.id/berita/nasional

Dokumen-dokumen berita tersebut telah dibersihkan

dari artefak-artefak seperti navigasi, iklan, tautan

berita lain, komentar, tag html dan lain-lain. Bagian

dokumen berita yang digunakan hanyalah judul dan isi

berita saja, informasi-informasi lain seperti lokasi,

keterkaitan berita berdasarkan tautan-tautan artikel

yang berhubungan, tanggal dan waktu berita tidak

digunakan.

Karena keterbatasan sumber daya manusia untuk

melakukan cluster labeling secara manual, penelitian

ini hanya meneliti data pada jam ke 24, 36 dan 48 saja.

Tabel 3.1 Data Eksperimen

Jam Jumlah Dokumen

24 292

36 288

48 268

3.2 Proses Clustering dan Cluster Labeling

Secara Manual Untuk melakukan evaluasi dan analisa, data-data penelitian melalui proses clustering dan cluster

labeling secara manual.

3.2.1 Proses Clustering Secara Manual Proses clustering secara manual dilakukan oleh 2

orang evaluator yang membaca secara utuh seluruh

509 dokumen berita yang didapatkan pada proses

perolehan data, kemudian secara bersama-sama menujuk tiap dokumen pada tepat satu cluster. Proses

Page 6: Mendeteksi Topik Berita Pada Aliran Berita Online Berbahasa Indonesia

6

clustering secara manual ini menghasilkan 157 cluster

yang kemudian digunakan untuk menentukan tiap

cluster untuk data-data pada jam ke 24, 36 dan 48.

3.2.2 Proses Cluster Labeling Secara Manual Proses cluster labeling secara manual dilakukan oleh 3

orang evaluator yang secara terpisah meneliti tiap

cluster dokumen yang dihasilkan oleh algoritma

clustering otomatis dari data-data jam ke 24, 36 dan

48. Proses ini dilakukan dengan memberikan frasa-

frasa yang dianggap dapat mewakili topik dokumen-

dokumen berita dari tiap cluster sebagai label dari

cluster tersebut. Frasa yang digunakan sebagai cluster

label manual dapat berjumlah lebih dari satu, baik berupa sinonim, singkatan, maupun frasa berbeda yang

secara intuitif sama-sama dapat mewakili topik dari

cluster tersebut. Syarat dari proses cluster labeling

manual ini adalah tiap frasa yang digunakan sebagai

cluster label manual harus terkandung dalam dokumen

berita dari cluster tersebut, syarat ini digunakan karena

sistem tidak akan bisa menghasilkan frasa yang tidak

terkandung pada dokumen manapun didalam cluster.

3.3 Metrik-Metrik Evaluasi Untuk mengukur hasil eksperimen, evaluasi dibagi

menjadi dua bagian, evaluasi clustering dan evaluasi

cluster labeling, kedua evaluasi tersebut mengacu

pada perbandingan relevansi hasil yang dihasilkan

secara otomatis oleh algoritma dengan hasil yang

dilakukan secara manual oleh evaluator manusia.

3.3.1 Evaluasi Hasil Clustering

Untuk mengevaluasi hasil clustering, digunakan empat

metrik evaluasi yaitu purity, precision, recall dan F1-Measure. Perhitungan precision dan recall pada

clustering metrik evaluasi clustering ini menggunakan

metode B-Cubed metric [3].

Purity dihitung dengan:

𝑃𝑢𝑟𝑖𝑡𝑦 =1

𝑛 max

𝑗|𝐶𝑘 ∩𝑀𝑗 |

𝑘

(3.1)

dimana

n adalah jumlah dokumen pada koleksi.

k adalah cluster otomatis

j adalah cluster manual (dari gold standard)

Ck adalah cluster otomatis ke-k

Mj adalah cluster manual ke-j (dari gold standard)

precision dan recall dari tiap dokumen di dihitung

dengan:

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑑𝑖 =𝑀𝑖 ∩ 𝐶𝑖𝐶𝑖

(3.2)

𝑅𝑒𝑐𝑎𝑙𝑙 𝑑𝑖 =𝑀𝑖 ∩𝐶𝑖𝑀𝑖

(3.3)

dimana

Ci adalah cluster otomatis dimana dokumen di

berada

Mi adalah cluster manual dimana dokumen di

berada (dari gold standard)

Seluruh nilai precision dan recall dari tiap dokumen

tersebut kemudian dijumlahkan dan dirata-ratakan

untuk mendapatkan nilai precision dan recall final.

Nilai F1-Measure didapatkan dengan menggabungkan

precision dan recall dengan penghitungan:

𝐹1 = 2 ×𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑒𝑐𝑎𝑙𝑙

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙 (3.4)

3.3.2 Evaluasi Hasil Cluster Labeling

Treeratpituk dan Callan [38] mendefinisikan cluster

labeling sebagai masalah ranking deskriptor. Dalam

mengevaluasi cluster labeling, Treeratpituk dan Callan

menggunakan dua definisi dari sebuah label yang

benar: exact match dan partial match dan

menggunakan empat metrik evaluasi: Match@N,

P@N, MRR dan MTRR.

2.5.3.1 Definisi label yang benar Exact Match: Sebuah label L adalah exact match dari

label yang sebenarnya S jika L sama persis atau

merupakan sinonim dari S. Sebagai contoh, untuk S

“motor gede”, L seperti “motor gede” dan “motor

besar” diklasifikasikan sebagai exact match.

Partial Match: Sebuah label L adalah partial match dari label yang sebenarnya S jika L mengandung

paling tidak sebuah term dari S. Sebagai contoh, untuk

S “manajemen analisis proses bisnis”, L seperti

“bisnis”, “proses”, “manajemen bisnis”, “analisis

manajemen” dan “analisis proses bisnis”

diklasifikasikan sebagai partial match.

2.5.3.2 Match at top N results (Match@N) Match@N mengindikasikan apakah N hasil teratas

mengandung label yang benar. Indikator ini bersifat

biner yaitu hanya dapat bernilai 0 atau 1, sehingga jika

ada satu, dua ataupun tiga label pada hasil teratas

merupakan label yang benar, maka nilai Match@N

adalah 1, namun jika sama sekali tidak ada label yang

benar, maka nilai Match@N adalah 0.

2.5.3.3 Precision at top N results (P@N) P@N adalah jumlah label-label pada hasil N teratas

yang cocok dengan label-label yang benar dibagi

dengan N. P@N mengukur persentase dari jawaban

benar yang dihasilkan pada peringkat 1 sampai dengan

N, sehingga, jika ada dua hasil dari lima hasil teratas

(N = 5) yang merupakan label yang benar, maka P@N

bernilai 2/5.

Page 7: Mendeteksi Topik Berita Pada Aliran Berita Online Berbahasa Indonesia

7

Tabel 3.2 Hasil Evaluasi Clustering dengan GA-HAC dan Natural Clustering

Jam Stopwords Purity Precision Recall F1

24

Tanpa Stopwords 0,978 0,977 0,454 0,620

20% Stopwords 0,975 0,974 0,461 0,626

Stopwords Umum 0,978 0,977 0,454 0,620

36

Tanpa Stopwords 0,943 0,924 0,634 0,752

20% Stopwords 0,946 0,928 0,615 0,740

Stopwords Umum 0,946 0,935 0,653 0,769

48

Tanpa Stopwords 0,552 0,447 0,841 0,584

20% Stopwords 0,718 0,628 0,810 0,708

Stopwords Umum 0,545 0,441 0,841 0,579

Rata-Rata

Tanpa Stopwords 0.825 0.783 0.643 0.652

20% Stopwords 0.88 0.844 0.629 0.691

Stopwords Umum 0.824 0.785 0.65 0.656

2.5.3.4 Mean Reciprocal Rank (MRR) Mean reciprocal rank adalah rata-rata dari reciprocal

rank (RR) dari peringkat label benar yang pertama.

Jika label benar yang pertama ada di peringkat ke tiga,

maka RR bernilai 1/3. Jika N respon pertama tidak

mengandung label yang benar, maka RR bernilai 0.

RR bernilai 1 label benar yang pertama ada di

peringkat ke satu.

2.5.3.5 Mean Total Reciprocal Rank (MTRR) Sebuah kategori dapat memiliki lebih dari satu aspek

yang benar, sebagai contoh, kategori "akupuntur dan

pengobatan alternatif" memiliki dua aspek yang benar

yaitu "akupuntur" dan "pengobatan alternatif". Jika

hasil algoritma cluster labeling meranking

"akupuntur" dan "pengobatan alternatif" sebagai label ke 2 dan ke 4, maka nilai total reciprocal rank (TRR)

adalah 1/2 + 1/4 = 3/4 sementara nilai RR adalah 1/2.

3.4 Penilaian Kinerja Hasil Clustering

dengan GA-HAC Pengukuran kinerja hasil clustering dokumen dengan

GA-HAC menggunakan metrik evaluasi Purity,

Precision, Recall dan F1 dengan B-Cubed Metric.

Eksperimen-eksperimen yang dilakukan pada

pengukuran kinerja hasil clustering dengan GA-HAC

adalah:

Tidak digunakannya pembuangan stopwords dalam

clustering (Tanpa Stopwords),

Menggunakan daftar stopword yang digunakan pada

penelitian efek stemming dalam information

retrieval untuk Bahasa Indonesia [27] dengan 357

kata dari corpus Bahasa Indonesia umum

(Stopwords Umum).

Menggunakan daftar stopwords yang diperoleh dari

koleksi seluruh dokumen penelitian dengan 20% term yang paling sering muncul (20% Stopwords).

Berdasarkan hasil evaluasi eksperimen-eksperimen

clustering pada tabel 3.2 diatas, dapat disimpulkan

bahwa:

1. GA-HAC dengan menggunakan stopwords yang

umum tidak memberikan perubahan yang signifikan

dibandingkan dengan GA-HAC tanpa menggunakan

stopwords, ini mengindikasikan penggunaan term

yang terlalu umum sebagai stopwords tidak

memberikan banyak perubahan terhadap

diskriminasi dokumen dibandingkan dengan tidak

menggunakan stopwords sama sekali.

2. GA-HAC dengan menggunakan 20% stopwords term paling sering muncul dari koleksi dokumen

yang diacu dapat memberikan diskriminasi

dokumen yang lebih baik dalam proses clustering

dibandingkan dengan menggunakan stopwords yang

terlalu umum dan tidak menggunakan stopwords

sama sekali.

3. Jumlah cluster yang paling sedikit yang juga hasil

evaluasi yang paling kecil didapatkan pada

clustering data jam ke 48. Hal yang menarik dari

hasil clustering data jam ke 48 ini adalah bahwa

penggunaan 20% stopwords menghasilkan jumlah

cluster yang paling mendekati dibandingkan dengan penggunaan stopwords lain, dimana total cluster

secara manual adalah 84 dan hasil clustering

otomatis dengan 20% stopwords adalah 45, dua kali

lipat dari jumlah cluster yang dihasilkan oleh

penggunaan stopwords yang lain, 20 cluster (tanpa

stopwords) dan 22 cluster (stopwords umum).

4. Hasil clustering dengan 20% stopwords yang

dihasilkan oleh pemotongan dendogram natural

clustering memberikan nilai evaluasi F1 = 0,691

dengan precision = 0,844 dan recall 0,629. Ini

mengindikasikan bahwa hasil clustering yang dihasilkan lebih memenuhi kebutuhan informasi

web surfer umum daripada kebutuhan informasi

intelegent analyst.

Page 8: Mendeteksi Topik Berita Pada Aliran Berita Online Berbahasa Indonesia

8

3.5 Penilaian Kinerja Cluster Labeling Pengukuran kinerja hasil cluster labeling

menggunakan metrik evaluasi cluster labeling

Treeratpituk dan Callan [28] dengan N = 5. Hasil

clustering yang digunakan sebagai acuan dalam

cluster labeling adalah hasil clustering otomatis yang

dihasilkan oleh GA-HAC dengan menggunakan 20%

term yang paling sering muncul sebagai stopwords.

Eksperimen-eksperimen yang dilakukan pada

pengukuran kinerja hasil clustering labeling dengan

MI adalah:

Cluster labeling dengan MI untuk seluruh cluster

hasil GA-HAC

Cluster labeling dengan MI untuk 10 cluster hasil

GA-HAC yang memiliki jumlah dokumen

terbanyak.

3.5.1 Penilaian Kinerja Cluster Labeling

dengan MI untuk seluruh Cluster Penilaian kinerja cluster labeling dengan MI ini

dilakukan untuk seluruh cluster termasuk seluruh

singleton cluster yang dihasilkan oleh algoritma

clustering GA-HAC dengan menggunakan 20%

stopwords. Hasil evaluasi cluster labeling dengan MI

jam ke 24, 36 dan 48 dapat dilihat pada tabel 3.3 sampai tabel 3.5, hasil evaluasi rata-rata dapat dilihat

pada tabel 3.6.

Tabel 3.3 Hasil Evaluasi Cluster Labeling Jam ke-24 Tabel 3.5 Hasil Evaluasi Cluster Labeling Jam ke-48

N = 1 N = 2 N = 3 N = 4 N = 5

Exact Match

Match@N 0,019 0,038 0,050 0,063 0,076

P@N 0,019 0,019 0,016 0,015 0,015

MRR 0,019 0,028 0,032 0,035 0,038

MTRR 0,019 0,028 0,032 0,035 0,038

Partial Match

Match@N 0,246 0,398 0,493 0,550 0,607

P@N 0,246 0,243 0,223 0,216 0,215

MRR 0,246 0,322 0,354 0,368 0,380

MTRR 0,246 0,367 0,428 0,477 0,519

N = 1 N = 2 N = 3 N = 4 N = 5

Exact Match

Match@N 0,244 0,311 0,333 0,377 0,400

P@N 0,244 0,177 0,125 0,105 0,093

MRR 0,244 0,277 0,285 0,296 0,300

MTRR 0,244 0,300 0,307 0,318 0,327

Partial Match

Match@N 0,511 0,644 0,688 0,688 0,777

P@N 0,511 0,422 0,363 0,311 0,306

MRR 0,511 0,577 0,592 0,592 0,610

MTRR 0,511 0,677 0,759 0,798 0,855

Tabel 3.4 Hasil Evaluasi Cluster Labeling Jam ke-36 Tabel 3.6 Hasil Evaluasi Cluster Labeling Rata-rata

N = 1 N = 2 N = 3 N = 4 N = 5

Exact Match

Match@N 0,024 0,049 0,057 0,082 0,090

P@N 0,024 0,024 0,019 0,020 0,018

MRR 0,024 0,037 0,039 0,046 0,047

MTRR 0,024 0,037 0,039 0,046 0,047

Partial Match

Match@N 0,206 0,355 0,429 0,512 0,578

P@N 0,206 0,202 0,173 0,167 0,160

MRR 0,206 0,281 0,305 0,326 0,339

MTRR 0,206 0,305 0,344 0,381 0,408

N = 1 N = 2 N = 3 N = 4 N = 5

Exact Match

Match@N 0,079 0,094 0,124 0,150 0,162

P@N 0,079 0,050 0,043 0,041 0,036

MRR 0,079 0,086 0,096 0,103 0,105

MTRR 0,079 0,090 0,100 0,108 0,112

Partial Match

Match@N 0,329 0,465 0,592 0,655 0,708

P@N 0,329 0,294 0,299 0,296 0,288

MRR 0,329 0,397 0,440 0,455 0,466

MTRR 0,329 0,459 0,562 0,634 0,685

Gambar 3.1 Grafik Hasil Evaluasi Cluster Labeling Rata-rata

0

0.2

0.4

0.6

0.8

1

Match@N (Exact)

P@N (Exact)

MRR (Exact)

MTRR (Exact)

Match@N (Partial)

P@N (Partial)

MRR (Partial)

MTRR (Partial)

N = 1

N = 2

N = 3

N = 4

N = 5

Page 9: Mendeteksi Topik Berita Pada Aliran Berita Online Berbahasa Indonesia

9

Tabel 3.7 Sampel Hasil Cluster Labeling Jam ke-48

Cluster Nomor dan Judul Dokumen Berita Cluster Label

Manual

Cluster Label

Otomatis

Cluster 1

1 Penanganan Lamban, NII Berkembang

1. NII

2. Negara

Islam

Indonesia

1. NII

2. NKRI

3. Kampus

4. Mahasiswa

5. Otak

2 Pemerintah Diharapkan Tegas Atasi NII

3 Polisi Sudah Petakan Kantong-kantong NII

4 NII Beraksi di Pinggiran Jakarta. Polda Sebar Intel

5 Waspadalah, Ini Kantong NII di Jakarta

6 NII Jangan Hanya Dibebankan kepada Polri

... ...

28 Kementerian Agama Redam Radikalisme Agama

29 PMII Tolak Ideologisasi Negara Islam

30 PBNU : Radikalisme di Indonesia Sudah "Lampu Merah"

31 PBNU : Perlu UU Antiterorisme yang Lebih Tajam

Cluster 2

1 Dulu Bertanding, Kini Bersanding....

1. Edhie

Baskoro

Yudhoyono

2. Siti Ruby

Aliya Rajasa

1. Edhie

Baskoro

Yudhoyono

2. Siti Rubi

Aliya

Rajasa

3. Hatta 4. Ibas

5. Pertunangan

2 'Jangan Kaitkan Besanan SBY-Hatta dengan Politik'

3 "Pertunangan Jangan Dikaitkan Politik!"

4 Ibas-Aliya Bukan Perjodohan Politik

5 Pernikahan Ibas-Aliya Hasil Perjodohan Politik?

... ...

27 Pengamanan di Kediaman Hatta Diperketat

28 Acara Ibas-Aliya Bernuansa Pesta Kebun

29 Saat Dirias, Aliya Degdegan

... ... ... ... ...

Cluster 14

1 Diknas: Tidak Ada Peserta UN Susulan Bojonegoro

1. UN

2. Ujian

Nasional

1. UN

2. Sekolah

3. Siswa

4. SMP 5. Kabupaten

2 312 Peserta UN di Jember Mengundurkan Diri

3 Ikut Ujian Nasional, Siswa SMP Barut Carter Kapal

4 Disdik Bekasi Jamin Tidak Ada Kebocoran Soal

5 Konflik SMA 70 Bulungan Sampai ke Pengadilan

6 Mendiknas: 20 Daerah Belum Salurkan BOS

... ... ... ... ...

Dari hasil-hasil evaluasi rata-rata pada Tabel 3.6 diatas dapat disimpulkan bahwa:

1. Nilai rata-rata exact match Match@N untuk N = 1

adalah 0,0791 dan nilai rata-rata partial match

Match@N untuk N = 1 adalah 0,3297. Ini artinya

untuk 100 cluster, dari 100 cluster label peringkat

pertama yang dihasilkan secara otomatis oleh

algoritma MI, algoritma ini secara rata-rata dapat

memprediksi dengan benar label untuk 7,91

cluster secara exact match dan 32,97 cluster secara partial match.

2. Nilai rata-rata exact match Match@N untuk N = 5

adalah 0,1620 dan nilai rata-rata partial match

Match@N untuk N = 5 adalah 0,7081. Ini artinya

untuk 100 cluster, dari 500 cluster label peringkat

teratas yang dihasilkan secara otomatis oleh

algoritma MI, algoritma ini secara rata-rata dapat

memprediksi dengan benar label untuk 16,2

cluster secara exact match dan 70,81 cluster

secara partial match.

3. Kualitas label rata-rata yang dihasilkan dari hasil

diatas dilihat dari nilai evaluasi P@N. Nilai exact

match P@N untuk N = 5 adalah 0,0368 dan nilai partial match P@N untuk N = 5 adalah 0,2880.

Ini artinya untuk 100 cluster, dari seluruh 500

cluster label yang dihasilkan secara otomatis oleh

algoritma MI, algoritma ini secara rata-rata dapat

menghasilkan 18,4 cluster label yang benar secara

exact match dan 144 cluster label yang benar

secara partial match.

4. Dari perbandingan antara jumlah cluster dengan

hasil yang diberikan oleh algoritma dari

eksperimen ini, algoritma MI tidak memberikan

hasil yang memuaskan.

Adapun hal yang menarik pada eksperimen ini adalah

hasil evaluasi cluster labeling pada jam ke 48, dimana

hampir seluruh metrik evaluasi bernilai lebih besar

dibandingkan dengan hasil evaluasi cluster labeling

pada jam ke 24 dan 36. Perbedaan yang cukup

signifikan dari hasil evaluasi cluster labeling pada jam

ke 48 ini ditambah lagi dengan perbedaan pada hasil

evaluasi clustering, dimana pada hasil evaluasi

clustering data jam ke 48 menunjukkan nilai evaluasi

Page 10: Mendeteksi Topik Berita Pada Aliran Berita Online Berbahasa Indonesia

10

yang paling kecil dibandingkan dengan data pada jam-

jam lainnya.

Perbedaan ini juga terjadi pada jumlah cluster yang

dihasilkan, dimana pada jam tersebut, jumlah cluster yang dihasilkan lebih sedikit dibandingkan dengan

data pada jam lainnya. Hal tersebut menyebabkan tiap

cluster pada jam ke 48 secara umum memiliki jumlah

dokumen yang lebih banyak dibandingkan dengan

hasil clustering pada jam-jam lainnya, jumlah

dokumen yang lebih banyak memungkinkan

pendeteksian frasa utama dapat dilakukan dengan

lebih baik karena jumlah frasa-frasa utama dari tiap

dokumen pada tiap cluster tersebut jumlahnya lebih

banyak. Untuk meneliti hal ini lebih mendalam,

dilakukan ekperimen lanjutan yang hanya

menggunakan 10 cluster dengan jumlah dokumen terbanyak dari tiap data jam ke 24, 36 dan 48.

3.5.2 Penilaian Kinerja Cluster Labeling

dengan MI untuk 10 Cluster Teratas Mayoritas cluster yang dihasilkan oleh proses

clustering otomatis GA-HAC berjenis singleton cluster, yaitu cluster yang hanya terdiri dari satu

dokumen berita dan umumnya merupakan dokumen

berita dengan topik yang tidak populer. Singleton

cluster yang hanya terdiri dari satu dokumen saja

memiliki jumlah frasa utama yang sedikit, hal tersebut

membuat penentuan frasa utama sebagai cluster label

secara otomatis sulit dilakukan. Untuk itu dilakukan

eksperimen lanjutan dengan meneliti kemampuan MI

dalam cluster labeling secara otomatis untuk hanya 10 cluster dengan jumlah dokumen terbanyak. Statistik

jumlah dokumen untuk 10 cluster dengan jumlah

dokumen terbanyak tersebut adalah:

Tabel 3.8 Jumlah dokumen untuk 10 Cluster dengan

jumlah dokumen terbanyak

Jam 10 Cluster Seluruh Cluster

24 75 292

36 96 288

48 175 268

Eksperimen-eksperimen yang sama dilakukan seperti

pada pengukuran hasil kinerja cluster labeling untuk

seluruh cluster dari hasil clustering dengan GA-HAC. Hasil eksperimen cluster labeling dengan MI jam ke

24, 36 dan 48 dapat dilihat pada tabel 3.9 sampai

dengan tabel 3.11, hasil eksperimen rata-rata dapat

dilihat pada tabel 3.12.

Tabel 3.9 Hasil Evaluasi Cluster Labeling Jam ke-24 Tabel 3.11 Hasil Evaluasi Cluster Labeling Jam ke-48

N = 1 N = 2 N = 3 N = 4 N = 5

Exact Match

Match@N 0,1 0,2 0,2 0,3 0,3

P@N 0,1 0,1 0,067 0,075 0,06

MRR 0,1 0,15 0,15 0,175 0,175

MTRR 0,1 0,15 0,15 0,175 0,175

Partial Match

Match@N 0,5 0,8 0,9 0,9 0,9

P@N 0,5 0,5 0,4 0,375 0,34

MRR 0,5 0,65 0,683 0,683 0,683

MTRR 0,5 0,75 0,816 0,891 0,931

N = 1 N = 2 N = 3 N = 4 N = 5

Exact Match

Match@N 0,5 0,7 0,7 0,7 0,7

P@N 0,5 0,45 0,3 0,225 0,18

MRR 0,5 0,6 0,6 0,6 0,6

MTRR 0,5 0,7 0,7 0,7 0,7

Partial Match

Match@N 0,8 0,9 0,9 0,9 0,9

P@N 0,8 0,75 0,567 0,425 0,38

MRR 0,8 0,85 0,85 0,85 0,85

MTRR 0,8 1,15 1,216 1,216 1,256

Tabel 3.10 Hasil Evaluasi Cluster Labeling Jam ke-36 Tabel 3.12 Hasil Evaluasi Cluster Labeling Rata-Rata

10 Cluster Teratas

N = 1 N = 2 N = 3 N = 4 N = 5

Exact Match

Match@N 0,1 0,2 0,4 0,4 0,4

P@N 0,1 0,1 0,133 0,1 0,08

MRR 0,1 0,15 0,216 0,216 0,216

MTRR 0,1 0,15 0,216 0,216 0,216

Partial Match

Match@N 0,6 0,7 0,9 0,9 0,9

P@N 0,6 0,45 0,367 0,35 0,28

MRR 0,6 0,65 0,716 0,716 0,716

MTRR 0,6 0,75 0,816 0,891 0,891

N = 1 N = 2 N = 3 N = 4 N = 5

Exact Match

Match@N 0,233 0,366 0,433 0,466 0,466

P@N 0,233 0,216 0,166 0,133 0,106

MRR 0,233 0,3 0,322 0,330 0,330

MTRR 0,233 0,333 0,355 0,363 0,363

Partial Match

Match@N 0,633 0,8 0,9 0,9 0,9

P@N 0,633 0,566 0,444 0,383 0,333

MRR 0,633 0,716 0,75 0,75 0,75

MTRR 0,633 0,883 0,95 1 1,026

Page 11: Mendeteksi Topik Berita Pada Aliran Berita Online Berbahasa Indonesia

11

Gambar 3.2 Grafik Hasil Evaluasi Cluster Labeling Rata-Rata 10 Cluster Teratas

Berdasarkan hasil eksperimen untuk menemukan frasa

utama pada 10 cluster dengan jumlah dokumen berita

terbanyak dapat disimpulkan bahwa:

1. Nilai rata-rata exact match Match@N untuk N = 1

adalah 0,2333 dan nilai rata-rata partial match

Match@N untuk N = 1 adalah 0,6333. Ini artinya untuk 10 cluster, dari 10 cluster label peringkat

pertama yang dihasilkan secara otomatis oleh

algoritma MI, algoritma ini secara rata-rata dapat

memprediksi dengan benar label untuk 2,333

cluster secara exact match dan 6,333 cluster

secara partial match.

2. Nilai rata-rata exact match Match@N untuk N = 5

adalah 0,4667 dan nilai rata-rata partial match

Match@N untuk N = 5 adalah 0,9. Ini artinya

untuk 10 cluster, dari 50 cluster label peringkat

teratas yang dihasilkan secara otomatis oleh

algoritma MI, algoritma ini secara rata-rata dapat memprediksi dengan benar label untuk 23,335

cluster secara exact match dan 45 cluster secara

partial match.

3. Kualitas label rata-rata yang dihasilkan dari hasil

diatas dilihat dari nilai evaluasi P@N. Nilai exact

match P@N untuk N = 5 adalah 0,1067 dan nilai

partial match P@N untuk N = 5 adalah 0,3333.

Ini artinya untuk 10 cluster, dari seluruh 50

cluster label yang dihasilkan secara otomatis oleh

algoritma MI, algoritma ini secara rata-rata dapat

menghasilkan 5,335 cluster label yang benar secara exact match dan 16,65 cluster label yang

benar secara partial match.

4. Secara umum, nilai-nilai evaluasi cluster labeling

membaik pada eksperimen dengan 10 cluster

dengan jumlah dokumen terbanyak, namun sama

seperti pada eksperimen cluster labeling untuk

seluruh cluster, nilai terbesar evaluasi didapatkan

pada data jam ke 48 yang jumlah dokumen pada

10 cluster teratasnya rata-rata berjumlah dua kali

lipat dibandingkan data pada jam-jam lainnya. Hal

ini menunjukkan bahwa jumlah dokumen memiliki pengaruh dalam algoritma cluster

labeling dengan Mutual Information dan

performanya lebih baik saat jumlah dokumen

yang terkandung pada tiap cluster yang diproses

cukup banyak.

4 KESIMPULAN DAN SARAN

4.1 Kesimpulan Berdasarkan hasil penelitian, dapat disimpulkan

beberapa hal berikut:

1. Algoritma GA-HAC dengan TF-IDF, Vector

Space Model, Cosine Similarity, penggunaan 20%

stopwords dan Natural Clustering dapat

menghasilkan sekumpulan cluster yang berisi

dokumen dengan topik berita yang sama dengan

rata-rata nilai evaluasi F1 = 0,691 dengan

precision = 0,844 dan recall 0,629. Ini mengindikasikan bahwa hasil clustering yang

dihasilkan lebih memenuhi kebutuhan informasi

web surfer umum daripada kebutuhan informasi

intelegent analyst.

2. Pemilihan frasa-frasa calon cluster label dengan

frasa kata benda hasil Part-of-Speech Tagger dan

algoritma Mutual Information yang

dikombinasikan dengan Laplace Correction dapat

digunakan untuk menghasilkan cluster label yang

merepresentasikan dokumen-dokumen berita dari

tiap cluster dan bekerja paling baik saat jumlah dokumen berita yang terkandung didalamnya

cukup banyak.

3. Jika topik-topik terpopuler ditentukan dengan

jumlah dokumen yang terkandung pada tiap

cluster, maka kombinasi algoritma-algoritma yang

digunakan pada penelitian ini dapat digunakan

untuk mendefinisikan topik-topik berita

terpopuler saat itu, selain itu, dengan

digunakannya time window dan segmentasi

koleksi dokumen, kebutuhan dalam pendefinisian

topik-topik terpopuler dapat dilakukan secara

dinamis baik untuk per-hari, per-minggu, per-bulan dan lain-lain.

00.20.40.60.8

11.2

Match@N (Exact)

P@N (Exact)

MRR (Exact)

MTRR (Exact)

Match@N (Partial)

P@N (Partial)

MRR (Partial)

MTRR (Partial)

N = 1

N = 2

N = 3

N = 4

N = 5

Page 12: Mendeteksi Topik Berita Pada Aliran Berita Online Berbahasa Indonesia

12

4.2 Saran Solusi yang dikembangkan pada penelitian masih

belum sempurna dan dapat dikembangkan dengan

penelitian-penelitian lanjutan. Adapun beberapa hal

yang disarankan untuk penelitian lanjutan mengenai

hal ini adalah:

1. Karena jumlah dokumen berpengaruh dalam

menentukan hasil cluster labeling, maka

disarankan untuk menggunakan jumlah dokumen

yang lebih banyak pada penelitian lanjutan

mengenai cluster labeling. 2. Penentuan frasa-frasa calon cluster label pada

penelitian ini dilakukan secara sederhana, yaitu

dengan mengikut sertakan token yang memiliki

kelas kata NN atau NNP dari hasil Part-Of-

Speech Tagger Penentuan frasa-frasa calon cluster

label yang sederhana ini dapat menyebabkan

frasa-frasa kata benda yang bukan merupakan

frasa penting disertakan sebagai calon cluster

label. Salah satu pengembangan yang dapat

dilakukan untuk menentukan frasa-frasa calon

cluster label adalah dengan menggunakan algoritma Named Entity Recognizer.

3. Penggunaan frasa-frasa untuk mewakili suatu

topik kadang tidak cukup untuk menjelaskan isi

dokumen-dokumen berita pada suatu cluster

kepada pembaca berita, dibutuhkan deskripsi

lebih mendetail berupa sebuah kalimat singkat

sehingga penjelasan isi dokumen-dokumen berita

dapat dilakukan dengan lebih baik. Salah satu

solusi yang dapat dikembangkan untuk

permasalahan ini adalah dengan mengaplikasikan

algoritma document summarizer pada tiap cluster

dokumen. 4. Penggunaan time window yang tidak menyertakan

dokumen-dokumen yang melebihi batas waktu

kadaluarsa menyebabkan tidak disertakannya

dokumen-dokumen tersebut dalam hasil

clustering. Ini menyebabkan hilangnya informasi

masa lampau mengenai topik tersebut sehingga

penelusuran topik pada dokumen masa lampau

tidak dapat dilakukan. Salah satu solusi yang

dapat dikembangkan untuk mengatasi

permasalahan ini adalah dengan menggunakan

pembobotan term yang berkurang secara berkala, dimana dokumen-dokumen pada masa lampau

diberikan faktor pembobotan yang lebih kecil

dibandingkan dengan dokumen-dokumen yang

lebih baru.

DAFTAR PUSTAKA

[1] Allan, James; Carbonell, Jaime; Doddington,

George; Yamron, Jonathan; & Tang, Yiming.

1998. Topic Detection and Tracking Pilot Study

Final Report. Proceedings of the DARPA

Broadcast News Transcription and

Understanding Workshop. 194-128.

[2] Arifin, Agus Zainal; & Setiono, Ari Novan. 2007.

Klasifikasi Dokumen Berita Kejadian Berbahasa Indonesia dengan algoritma Single

Pass Clustering. Surabaya, Indonesia: Institut

Teknologi Sepuluh November.

[3] Bagga, Amit; & Baldwin, Breck. 1998. Algorithms

for Scoring Coreference Chains. In The First

International Conference on Language

Resources and Evaluation Workshop on

Linguistics Coreference, pp. 563-566.

[4] Brants, Thorsten; Chen, Frencine; & Farat, Ayman.

2005. A System for New Event Detection.

California, USA: Palo Alto Research Center.

[5] Bun, Khoo Khyou; & Ishizuka, Mitsuru. 2006.

Emerging Topic Tracking System. Japan: The

University of Tokyo.

[6] Chun, Seokkyung; Jun Jongeun; & Mc Leod,

Dennis. 2006. Incremental Mining for News Stream. USA: University of Southern

California.

[7] Ernawati, Sari; Ardiyanti, Arie ST, MT; &

Setiawan, Erwin Budi. 2009. Klusterisasi

Dokumen Berita Berbahasa Indonesia

Menggunakan Document Index Graph.

Yogyakarta, Indonesia: Seminar Nasional

Aplikasi Teknologi Informasi 2009 (SNATI

2009).

[8] Gustafsson, Johan. 2009. New Methods for

Generation and Evaluation of Text Cluster

Descriptions. Master’s Thesis, Royal Institute

of Technology, Stockholm, Sweeden.

[9] Han, Jiawei; & Kamber, Micheline. 2006. Data

Mining Concept and Techniques. San

Fransisco, USA: Morgan Kaufmann Publisher.

[10] Hastie, Trevor; Tibshirani, Robert; Friedman,

Jerome (2010) “The Elements of Statistical

Learning: Data Mining, Inference and

Prediction”. 2nd Edition, Springer.

[11] Hu, Meishan; Sun, Aixin; & Lim, Ee-Peng. 2008.

Event Detection with Common User Interest.

Napa Valey, California, USA: WIDM 2008.

[12] Huang, Anna. 2008. Similarity Measures for Text

Document Clustering. Christchurch, New

Zealand: Departement of Computer Science,

The University of Waikato, NZCSRSC 2008.

[13] Huang, Chong; Tian, Yonghong; Zhou, Zhi; Ling,

Charles X.; & Huang, Tiejun. 2006. Keyphrase

Extraction using Semantic Networks Structure

Analysis. Proceedings of the sixth IEEE

Page 13: Mendeteksi Topik Berita Pada Aliran Berita Online Berbahasa Indonesia

13

International Conference on Data Mining

(ICDM 2006), Hong Kong, 2006., pp. 257-284,

IEEE press.

[14] Jain, A.K; & Dubes, R.C. 1988. Algorithm for Clustering Data. Prentice Hall Advance

Reference Series. Prentice Hall.

[15] Kontostathis, April; Galitsky, Leon M.;

Pottenger; William M.; Roy, Soma; & Phelps,

Daniel J. 1999. A Survey of Emerging Trend

Detection in Textual Data Mining. Michael

Berry (Editor), Springer-Verlag, 2003.

[16] Leuski, Anton; & Allan, James. 2002. Improving Realism of Topic Tracking Evaluation.

Tampere, Finland: SIGIR 2002.

[17] Manning, Christopher D.; Raghavan, Prabhakar;

& Schütze, Hinrich. 2009. An Introduction to

Information Retrieval. Cambridge, England:

Cambridge University Press.

[18] Nunes, Marcelo; Cabral, Luciano; Lima, Rinaldo;

Freitas, Fred; Rienaldo, Guilherme; & Prudêncio, Ricardo. 2008. Docs-Clustering: A

System for Hierarchical Clustering and

Document Labeling. Proceedings I Workshop

on Web and Text Intelligence 2008.

[19] Osiński, Stanislaw; Stefanowski, Jerzy; & Weiss,

Dawid. 2004. Lingo: Search Results Clustering

Algorithm Based on Singular Value

Decomposition. Proceedings of the

International Conference on Intelligent Information Systems (IIPWM), 2004.

[20] Pon, Raymond K.; Buttler, David; & Critchlow,

Terence. 2007. Tracking Multiple Topics for

Finding Interesting Articles. San Jose,

California, USA: KDD 2007.

[21] Rijsbergen, Keith van. 2004. The Geometry of

Information Retrieval. New York, USA:

Cambridge University Press.

[22] Roy, Soma; Gevry, David; & Pottenger, William

M. 2006. Methodologies for Trend Detection in

Textual Data Mining. USA: Leight University.

[23] Salton, G; Wong, A; & Yang, C.S. 1975. A

Vector Space Model for Automatic Indexing.

Communication of the ACM, Information

Retrieval and Language Processing, C.A. Montgomery Editor.

[24] Salton, Gerard; & Buckley, Christopher. 1988,

Term-Weighting Aproaches in Automatic Text

Retrieval. Ithaca, USA: Departement of

Computer Science, Cornell University.

[25] Smet, Wim De; & Moens, Marie-Francine. 2009.

An Aspect Based Document Representation for

Event Clustering. Proceedings of the 19th

Meeting of Computational Linguistics in the

Netherlands.

[26] Sukini. 2010. Sintaksis: Sebuah Panduan Praktis.

Yuma Pustaka, Kadipro, Surakarta.

[27] Tala, Fadilla Z. 2003. A Study of Stemming Effect

on Information Retrieval in Bahasa Indonesia.

Master’s thesis, University of Amsterdam.

[28] Treeratpituk, Pucktada; & Callan, Jamie. 2006.

Automatic Labeling Hierarchical Clusters. Proceedings of the 2006 International

Conference on Digital Government Research,

pp. 167-176, New York, NY, USA.

[29] Turney, Peter D. 2001. Learning Algorithms for

Keyphrase Extraction. NRC Publication

Archive. Published in J. Information Retrieval,

2(4): 303-336; 2000. NCR 44105. National

Research Council of Canada.

[30] Wang, Canhiu; Zhang, Min; Ma, Shaoping; &

Ru, Liyun. 2008. Automatic Online News Issue

Construction in Web Environment. Beijing,

China: State Key Lab of Intelligent Technology

& Systems, Tainghua National Laboratory for

Information Science and Technology, CS&T

Departement, Tainghua University.

[31] Wibisono, Yudi; & Khodra, Masayu Leyla. 2006.

Clustering Berita Berbahasa Indonesia. Jurnal FPMIPA UPI dan KK Informatika ITB.

Bandung, Indonesia.

[32] Wicaksono, Alfan Farizki; & Purwanti, Ayu.

2010. HMM Based Part-of-Speech Tagger for

Bahasa Indonesia. Proceedings The Forth

International MALINDO Workshop. Jakarta,

Indonesia.

[33] Zhao, Ying; & Karyapis, George. 2002. Evaluation of Hierarchical Clustering

Algorithm for Document Datasets. McLean,

Virginia, USA: CIKM 2002.

[34] Zhao, Ying; & Karyapis, George. 2002. Criterion

Functions for Document Clustering,

Experiment and Analysis. Minneapolis, USA:

Departement of Computer Science, University

of Minnesota / Army HPC Research Center.