G12mma
description
Transcript of G12mma
SISTEM PERINGKASAN DOKUMEN BERITA BAHASA INDONESIA
MENGGUNAKAN METODE REGRESI LOGISTIK BINER
MERI MARLINA
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
SISTEM PERINGKASAN DOKUMEN BERITA BAHASA INDONESIA
MENGGUNAKAN METODE REGRESI LOGISTIK BINER
MERI MARLINA
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2012
ABSTRACT
MERI MARLINA. Text Feature Weighting for Summarization of Document Bahasa Indonesia
Using binary logistic regression. Under direction of JULIO ADISANTOSO.
This thesis aims to perform text feature weighting for summarization of document bahasa
Indonesia using binary logistic regression. There are ten text features, i.e., sentence position (f1),
positive keywords in sentence (f2), negative keywords in sentence (f3), sentence centrality (f4),
sentence resemblance to the title (f5), sentence inclusion of name entity (f6), sentence inclusion of
numerical data (f7), sentence relative length (f8), bushy path of the node (f9), and summation of
similarities for each node (f10). Ten of these features will be used as an independent variable in
the calculation of the binary logistic regression. To denote that the sentence is not included in the
summary we use an output value of 0, an output value of 1, otherwise. To evaluate the text
summarization, we use N-Gram with compressin rate 30%. Research results show that the
accuracy of this method is 42.84%.
Keywords: text summarization, binary logistic regression, text features
Judul Skripsi : Sistem Peringkasan Dokumen Berita Bahasa Indonesia Menggunakan
MetodeRegresi Logistik Biner
Nama : Meri Marlina
NRP : G64080114
Menyetujui:
Pembimbing
Ir. Julio Adisantoso, M.Kom
NIP.19620714 198601 1 002
Mengetahui:
Ketua Departemen Ilmu Komputer
Dr. Ir. Agus Buono, M.Si, M.Kom
NIP. 19660702 199302 1 001
Tanggal Lulus :
KATA PENGANTAR
Alhamdulilahirobbil’alamin, segala puji bagi Allah subhanahu wata’ala atas segala
limpahan rahmat serta karunia-Nya sehingga penulis mampu menyelesaikan penelitian ini dengan
baik. Penulis juga menyampaikan terima kasih kepada seluruh pihak yang telah berperan dalam
penelitian ini, yaitu:
1 Orang tua tercinta, ayahanda Supriatna, ibunda Dedeh, dan kakak yang saya sayangi Deasy,
atas doa, kasih sayang, dukungan, serta motivasi kepada penulis untuk penyelesaian penelitian
ini.
2 Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir yang telah memberi
banyak ide, saran, bantuan, serta dukungan sampai selesainya penelitian ini.
3 Rekan-rekan seperjuangan di Ilmu Komputer IPB angkatan 45 atas segala kebersamaan,
bantuan, dukungan, serta kenangan bagi penulis selama menjalani masa studi. Semoga kita bisa
berjumpa kembali kelak sebagai orang-orang sukses.
4 Rekan-rekan satu bimbingan, Susi Handayani, Anita, Putri Dewi P, Fania Rahmania, Alfa
Nugraha P, Rizky Utama, Meriska Defriani, dan Hafizhia Dhikrul A,yang telah bersama
berjuang dalam mengerjakan tugas akhir mengenai Temu Kembali Informasi.
5 Senior dan sahabat, Tiara Mitra Lia, Ryanti Octaviani S, Annisa Anastasia, Anita, Cut Malisa
I, Niken Eka, Wangi Saraswati, Doni Suhartono, dan Ahmad Rivai yang telah menjadi mitra
dan bantuannya selama penyelesaikan tugas akhir ini.
6 Seluruh staf Departemen Ilmu Komputer IPB yang telah banyak membantu baik selama
penelitian maupun perkuliahan.
Penulis berharap penelitian ini dapat memberikan manfaat baik sekarang maupun di masa
mendatang.
Bogor, September 2012
Meri Marlina
RIWAYAT HIDUP
Meri Marlina dilahirkan di Karawang pada tanggal 20 Mei 1991. Penulis merupakan anak
pertama dari pasangan Supriatna dan Dedeh Endang Ratnawati. Pada tahun 2008, penulis lulus
dari Sekolah Menengah Atas 1 Cikampek. Penulis mengikuti tes SNMPTN pada tahun 2008 dan
diterima di Program Studi Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam.
Selama aktif menjadi mahasiswa, penulis menjadi salah satu pengurus Himpunan Mahasiswa
Ilmu Komputer (Himalkom) pada tahun 2010. Selama mengikuti perkuliahan penulis menjadi
asisten praktikum untuk Mata Kuliah Rekayasa Perangkat Lunak di Departemen Ilmu Komputer
Institut Pertanian Bogor. Penulis juga melakukan praktik kerja lapang di Kantor Kominfo Bogor
pada tahun 2011.
v
DAFTAR ISI Halaman
DAFTAR TABEL ............................................................................................................................ vi
DAFTAR GAMBAR ....................................................................................................................... vi
DAFTAR LAMPIRAN .................................................................................................................... vi
PENDAHULUAN
Latar Belakang .............................................................................................................................. 1
Tujuan Penelitian .......................................................................................................................... 1
Ruang Lingkup Penelitian ............................................................................................................ 1
METODE PENELITIAN
Pengumpulan Dokumen Teks ....................................................................................................... 1
Tahap Pelatihan ............................................................................................................................ 2
Tahap Pengujian ........................................................................................................................... 6
HASIL DAN PEMBAHASAN
Data Korpus .................................................................................................................................. 6
Format Dokumen .......................................................................................................................... 6
Implementasi Sistem ..................................................................................................................... 6
Pemodelan Regresi Logistik Biner ............................................................................................... 7
Pengujian Menggunakan N-gram ................................................................................................. 8
Hasil Perbandingan dengan Algoritme Genetika .......................................................................... 8
SIMPULAN DAN SARAN
Simpulan ....................................................................................................................................... 9
Saran ............................................................................................................................................. 9
DAFTAR PUSTAKA ....................................................................................................................... 9
LAMPIRAN .................................................................................................................................... 10
vi
DAFTAR TABEL
Halaman
1 Contoh paragraf, pemisahan kalimat dan case folding .................................................................. 7
2 Hasil akurasi menggunakan algoritme genetika ............................................................................ 8
DAFTAR GAMBAR
Halaman
1 Peringkasan teks otomatis. ............................................................................................................ 2
2 Ilustrasi kemiripan antar-kalimat. .................................................................................................. 3
3 Ilustrasi koneksi antar-kalimat. ..................................................................................................... 4
4 Kurva logistik (Kleinbaum & Klein 2010). ................................................................................... 6
5 Contoh code pembacaan dokumen. ............................................................................................... 7
DAFTAR LAMPIRAN
Halaman
1 Diagram alir algoritma genetika sederhana (Kusumadewi 2003). .............................................. 11 2 Format dokumen pada tahap pelatihan dan pengujian ................................................................ 12 3 Antarmuka sistem peringkasan teks ............................................................................................. 13 4 Contoh nilai nilai fitur untuk setiap kalimat dalam satu dokumen .............................................. 14 5 Tabel model persamaan regresi logistik biner .............................................................................. 15 6 Contoh dokumen berita 34.txt .................................................................................................... 16 7 Antarmuka hasil sistem dokumen berita 34.txt ............................................................................ 17 8 Hasil pengujian antara hasil peringkasan manual dan hasil peringkasan sistem
menggunakan N-gram ................................................................................................................. 18
PENDAHULUAN
Latar Belakang
Pada saat ini, arus informasi dari internet
berkembang dengan sangat cepat dan akan
terus bertambah. Pertambahan arus informasi
ini berbanding lurus dengan pertambahan
dokumen di internet. Sebagai contoh, dokumen
berita akan terus bertambah seiring dengan
bertambahnya peristiwa-peristiwa penting
mengenai suatu kejadian. Berita merupakan
suatu informasi yang penting dan terbaru
tentang suatu kejadian secara berkala.
Banyaknya isi dari dokumen berita di internet
membuat sebagian orang kurang tertarik untuk
membaca dokumen berita tersebut. Hal ini
dikarenakan setiap orang memiliki waktu yang
berbeda dan terbatas sehingga sebagian orang
cenderung tidak membaca dokumen berita
tersebut.
Membaca merupakan suatu proses
kegiatan fisik dan mental yang dilakukan untuk
mendapatkan sebuah informasi baru, namun
membaca dan memahami isi suatu dokumen
yang sangat banyak membutuhkan waktu yang
cukup lama. Oleh karena itu, ringkasan
dokumen menjadi hal yang penting karena
terbatasnya waktu yang dimiliki setiap orang.
Namun, meringkas dokumen secara manual
oleh manusia membutuhkan waktu dan biaya
yang besar bila dokumen memiliki kalimat
yang cukup banyak sehingga dibutuhkan suatu
sistem ringkasan secara otomatis yang dapat
meminimalisir waktu dan biaya yang
dibutuhkan untuk meringkas suatu dokumen
(Aristoteles 2011). Menurut Manning et al.
(2008), peringkasan teks adalah proses
penyaringan informasi yang paling penting dari
suatu sumber (atau beberapa sumber) untuk
menghasilkan dokumen yang ringkas untuk
pengguna.
Banyak penelitian yang telah dilakukan
tentang peringkasan teks, antara lain Fattah dan
Ren (2008) yang menghitung sepuluh
pembobotan fitur untuk setiap kalimat dalam
suatu dokumen menggunakan algoritme
genetika dan regresi matematika. Penelitian
selanjutnya dilakukan oleh Aristoteles (2011)
yang membuat pembobotan fitur pada
peringkasan teks bahasa Indonesia
menggunakan algoritme genetika dengan
melibatkan kalimat semantik pada pembobotan
fitur. Permasalahan dari peringkasan teks
adalah menentukan pembobotan dari setiap
kalimat.
Pada penelitian Aristoteles (2011),
penggunaan algoritme genetika memiliki
perhitungan yang rumit dan waktu komputasi
yang cukup lama dalam menghasilkan suatu
ringkasan dokumen sehingga dibutuhkan
metode yang dapat mempersingkat waktu
komputasi tersebut, yaitu dengan menggunakan
metode regresi logistik biner.
Pada kasus-kasus penelitian dengan tujuan
mengetahui hubungan antara suatu peubah
dependent berupa data kategorik dan peubah
independent berupa data numerik, analisis
regresi linear standar tidak bisa dilakukan.
Oleh karena itu, salah satu pendekatan yang
dapat dilakukan adalah regresi logistik biner.
Regresi logistik biner merupakan salah satu
alat statistik yang digunakan untuk
menganalisis beberapa faktor dengan sebuah
variabel yang bersifat biner.
Pada peringkasan dokumen secara
otomatis, kalimat-kalimat yang terpilih menjadi
hasil ringkasan merupakan kalimat yang
dianggap penting. Penting atau tidaknya suatu
kalimat tergantung pada nilai peluang dari hasil
perhitungan beberapa fitur. Oleh karena itu,
penelitian ini menelaah peringkasan teks
dengan membuat pembobotan fitur
menggunakan metode regresi logistik biner.
Hasil dari penelitian akan dibandingkan dengan
hasil penelitian dari Aristoteles (2011) yang
meneliti tentang pembobotan fitur pada
peringkasan teks bahasa Indonesia
menggunakan algoritme genetika.
Tujuan Penelitian
Tujuan penelitian ini ialah menentukan
pembobotan fitur menggunakan regresi logistik
biner pada peringkasan teks.
Ruang Lingkup Penelitian
Penelitian ini difokuskan pada peringkasan
dokumen berita dengan dokumen yang
digunakan berjenis teks bahasa Indonesia, tema
dokumen yang digunakan adalah berita
nasional, diasumsikan bahwa semua kalimat
dalam sebuah dokumen adalah benar, dan
dokumen yang digunakan adalah dokumen
berjenis teks.
METODE PENELITIAN
Penelitian ini dilakukan dengan beberapa
tahap yaitu tahap pengumpulan dokumen,
tahap pelatihan, dan tahap pengujian. Diagram
alur proses dapat dilihat pada Gambar 1.
Pengumpulan Dokumen Teks
Dokumen yang digunakan dalam
penelitian ini adalah 100 dokumen untuk tahap
2
pelatihan dan 50 dokumen untuk tahap
pengujian. Pada tahap pengujian, 50 dokumen
diringkas secara manual, tujuannya untuk
membandingkan ringkasan manual dengan
hasil ringkasan sistem. Dokumen yang
digunakan dalam penelitian ini adalah
dokumen yang berasal dari dokumen berita
online harian Kompas yang didapat dari korpus
penelitian Ridha (2002).
Tahap Pelatihan
Tahap pelatihan yang dilakukan ialah:
pembobotan fitur teks dan perhitungan skor
menggunakan regresi logistik biner.
Gambar 1 Peringkasan teks otomatis.
Tahap pembobotan fitur dilakukan untuk
mendapatkan nilai bobot tertinggi dari suatu
kalimat. Bobot yang memiliki nilai tinggi akan
dimasukkan dalam peringkasan.
Fitur teks merupakan suatu proses
perhitungan fitur-fitur untuk mendapatkan
bobot sehingga dapat diketahui kalimat yang
masuk dalam ringkasan dan tidak masuk
ringkasan. Menurut Fattah dan Ren (2008),
terdapat sepuluh fitur teks yang dapat dihitung
untuk setiap kalimat dari sebuah dokumen.
Fitur teks tersebut yaitu:
1 Posisi Kalimat (f1)
Posisi kalimat adalah kalimat pertama
yang paling penting dari sebuah paragraf.
Berikut ini adalah contoh fitur teks posisi
kalimat pada sebuah dokumen.
Jakarta, Kompas - Komisi Penyelidik
Pelanggaran Hak Asasi Manusia (KPP HAM)
Trisakti dan Semanggi I-II tetap akan membuat
kesimpulan dan menyampaikan rekomendasi
mengenai hasil penyelidikannya, meskipun
perwira TNI/Polri tidak mau memenuhi
panggilan KPP HAM. Namun, demikian,
panggilan kedua terhadap sejumlah perwira
TNI/Polri telah dilayangkan kepada mereka.
Hal itu dikatakan Ketua KPP HAM Albert
Hasibuan kepada Kompas di Jakarta akhir
pekan lalu. Hasibuan masih mengharapkan
perwira TNI/Polri itu memenuhi panggilan
KPP HAM. "Tapi, kalau mereka menolak, ya
sudah. Kita akan tetap membuat kesimpulan
dan rekomendasi berdasarkan keterangan
saksi-saksi lain yang telah kita dengar.
Rekomendasi itu tentunya akan merugikan
mereka sendiri," ujarnya.
Misal terdapat tiga kalimat dalam satu
paragraf. Kalimat pertama diberi bobot 3/3,
kalimat kedua 2/3 dan kalimat ketiga 1/3.
Kalimat terakhir tidak begitu penting sehingga
diberi bobot 0.
2 Positive Keyword (f2)
Positive keyword adalah suatu kata yang
sering muncul dalam suatu dokumen
(peringkasan).
P(keywordi)=
dengan s(E) adalah jumlah kata dalam suatu
kalimat yang mengandung keyword dan s(K)
adalah jumlah kata dalam kalimat lain yang
mengandung keyword, dengan keyword
merupakan banyaknya kata yang muncul dalam
suatu kalimat.
3 Negative Keyword (f3)
Kalimat negatif merupakan kalimat yang
jarang muncul dalam suatu dokumen
(peringkasan).
P(keywordi)=
II Tahap pelatihan
50 dokumen
Pengumpulan dokumen
150
dokumen
berita
I
100
dokumen
Fitur
teks
Perhitungan koefisien
(regresi logistik biner)
Model
Hasil ringkasan
sistem
Implementasi Tahap
pengujian
Ringkasan
manual
III
Evaluasi N-Gram
3
dengan s(N) adalah jumlah kata dalam suatu
kalimat yang mengandung keyword dan s(K)
adalah jumlah kata dalam kalimat lain yang
mengandung keyword, dengan keyword
merupakan kata yang jarang muncul dalam
suatu kalimat.
4 Kemiripan Antar-Kalimat (f4)
Kemiripan antar-kalimat merupakan
kalimat yang memiliki kata yang sama dengan
kata dalam kalimat lain. Skor fitur teks
kemiripan antar-kalimat dapat dihitung
menggunakan rumus berikut:
Score(s)=
dengan s(n) adalah keyword dalam s
keyword dalam antar kalimat dan s(u) adalah
keyword dalam s keyword dalam antar
kalimat dengan s adalah kalimat dalam
dokumen dan keyword merupakan banyaknya
kata yang mirip dalam suatu kalimat. Berikut
adalah contoh penerapan kemiripan antar-
kalimat:
1 Saya sedang mengerjakan skripsi
2 Saya pergi dengan teman
3 Saya sedang mengerjakan skripsi
dengan teman
Gambar 2 Ilustrasi kemiripan antar-kalimat.
Berdasarkan ketiga kalimat tersebut, skor
kalimat pertama adalah 4/7, skor kalimat
kedua adalah 3/7, dan skor kalimat ketiga
adalah 6/7. Kalimat pertama memiliki empat
kata yang sama dengan kalimat ketiga, yaitu
kata “saya, sedang, mengerjakan, skripsi”.
Kalimat kedua memiliki tiga kata yang sama
dengan kalimat ketiga, yaitu kata “saya,
dengan, teman”. Kalimat ketiga memiliki enam
kata yang sama dengan kalimat pertama dan
kedua, yaitu kata “saya, sedang, mengerjakan,
skripsi, dengan, teman”. Berdasarkan ketiga
kalimat tersebut, maka perhitungan skor fitur
teks kemiripan antar-kalimat diilustrasikan
pada Gambar 2.
5 Kalimat yang Menyerupai Judul
Dokumen (f5)
Kalimat yang menyerupai judul kalimat
adalah kata yang muncul dalam kalimat sama
dengan kata yang ada dalam judul dokumen.
Berikut ini merupakan contoh penerapan
kemiripan kalimat yang menyerupai judul
dokumen yaitu :
Judul dokumen : Skripsi Saya
1 Saya sedang mengerjakan skripsi
2 Saya pergi dengan teman
3 Saya sedang mengerjakan skripsi
dengan teman
Berdasarkan contoh tersebut, skor kalimat
pertama adalah skor kalimat kedua adalah ,
dan skor kalimat ketiga adalah 2/6. Kalimat
pertama memiliki dua kata yang sama dengan
judul dokumen yaitu “saya, skripsi”. Kalimat
kedua memiliki satu kata yang sama dengan
judul dokumen yaitu “saya”. Kalimat ketiga
memiliki dua kata yang sama dengan judul
dokumen yaitu “saya, skripsi”. Skor fitur teks
kalimat yang menyerupai judul dokumen dapat
dihitung menggunakan rumus berikut:
Score(s)=
dengan s(n) adalah keyword dalam s
keyword dalam judul dan s(u) adalah keyword
dalam s keyword dalam judul dengan asumsi
s adalah kalimat dalam suatu dokumen.
6 Kalimat yang Mengandung Nama Entity
(f6)
Kalimat yang mengandung nama entity
merupakan sebuah kumpulan kata yang
memiliki makna atau nama sebuah institusi,
nama orang, dan nama pulau. Berikut adalah
ilustrasi kalimat dalam dokumen yang
mengandung nama entity:
Jakarta, Kompas - Mantan anggota DPR
Bambang Warih Kusumo mengatakan,
penahanan mantan Mensesneg Akbar
Tandjung tidak memenuhi fatsoen politik.
Penahanan itu juga menyimpang dari Undang-
Undang (UU) Nomor 8/1987 tentang Protokol.
Seharusnya, sebelum menahan Akbar
Tandjung, Presiden Megawati Soekarnoputri
meminta fatwa Mahkamah Agung (MA) atau
mempersilakan DPR melepaskan Akbar
Tandjung sebagai Ketua DPR.
Berdasarkan contoh teks dokumen
tersebut, kalimat yang mengandung nama
dengan
pergi Saya
Kalimat 1 Kalimat 2
skripsi teman
mengerjakan
Sedang
Kalimat3
4
entity terdapat pada kalimat pertama dan
kalimat ketiga sehingga skor untuk kalimat
pertama adalah 2/14 dan skor kalimat ketiga
adalah 3/14 . Perhitungan fitur teks kalimat
yang mengandung nama entity adalah sebagai
berikut:
Score(s)=
dengan s(E) adalah nama entity dalam kalimat
dan s(K) adalah panjang kalimat.
7 Kalimat yang Mengandung Data Numerik
(f7)
Pada pemeringkasan teks, data numerik
dipertimbangkan karena kalimat yang berisi
data numerik merupakan kalimat yang penting.
Berikut ini merupakan ilustrasi kalimat dalam
dokumen yang mengandung data numerik:
Berapa sebenarnya APBD-nya? Tahun
2001 Rp 234,25 milyar, untuk tahun 2002
direncanakan naik Rp 6,3 milyar. Dari jumlah
itu, alokasi dana kesehatan dan kesejahteraan
sosial Rp 2,927 milyar, sebagian besar
digunakan untuk pemberantasan penyakit
menular malaria. Menurut catatan Jaringan
Kajian dan Advokasi Kebijakan Publik,
Yogyakarta Corruption Watch dan Dinamika
Kulon Progo, jumlah keluarga miskin di
kabupaten itu 40.904 keluarga, diasumsikan
mereka terdiri dari lima jiwa, jumlah orang
miskin 204.520 jiwa."Dengan anggaran
kesehatan Rp 2,927 milyar, masing-masing
keluarga miskin hanya akan menikmati Rp
47.000 per tahun, sangat timpang dibanding
anggaran tunjangan kesehatan anggota DPRD
Kulon Progo yang mencapai Rp 3,9 juta per
tahun," katanya.
Berdasarkan contoh teks dokumen
tersebut, kalimat yang mengandung data
numerik terdapat pada kalimat ketiga sehingga
skor untuk kalimat ketiga adalah 2/25
sedangkan skor untuk kalimat yang lainnya
adalah 0 karena tidak ada kalimat yang
mengandung data numerik. Perhitungan fitur
teks kalimat yang mengandung data numerik
adalah sebagai berikut:
Score (s)=
dengan s(A) adalah banyaknya kata numerik
dan s(P) adalah banyaknya kata dalam kalimat.
8 Panjang Kalimat (f8)
Panjang kalimat dihitung berdasarkan
jumlah kata dalam kalimat dibagi dengan
panjang dokumen. Perhitungan fitur teks
panjang kalimat adalah sebagai berikut:
Score (s)=
dengan s(K) adalah banyaknya kata dalam
suatu kalimat dan s(P) adalah banyaknya kata
dalam dokumen.
9 Koneksi Antar-Kalimat (f9)
Koneksi antar-kalimat dihitung
berdasarkan jumlah kata dalam suatu kalimat
dengan kata yang sama disetiap kalimat dalam
dokumen sehingga kata-kata tersebut
terkoneksi atau terhubung satu sama lain.
Berikut adalah contoh penerapan koneksi
antar-kalimat:
1 Saya sedang mengerjakan skripsi
2 Saya pergi dengan teman
3 Saya sedang mengerjakan skripsi
dengan teman
Gambar 3 Ilustrasi koneksi antar-kalimat.
Berdasarkan Gambar 3, skor untuk kalimat
pertama ialah 5. Kalimat pertama memiliki
kata yang sama dengan kalimat kedua dan
ketiga, yaitu “saya” sehingga jumlah skor
adalah 2 dan memiliki kata yang sama dengan
kalimat ketiga, yaitu “sedang”, “mengerjakan”,
dan“skripsi” sehingga jumlah skor adalah 3.
Penelitian ini menggunakan normalisasi agar
skor nilai pada tiap kalimat dalam jangkauan 0
dan 1. Perhitungan fitur teks koneksi antar-
kalimat adalah sebagai berikut:
Score(s)=#jumlah koneksi antar-kalimat
10 Penjumlahan Bobot Koneksi Antar-
Kalimat (f10)
Fitur ini berfungsi menjumlahkan kata
dalam suatu kalimat dengan kata yang sama
dari kalimat lain dalam suatu dokumen. Masih
menggunakan ilustrasi pada Gambar 3.
Berdasarkan ilustrasi tersebut, skor untuk
dengan
pergi Saya
Kalimat 1 Kalimat 2
skripsi teman
mengerjakan
Sedang
Kalimat3
5
kalimat pertama adalah 4. Seluruh kata dalam
kalimat pertama ada di kalimat lain dalam
dokumen tersebut dan memiliki jumlah kata 4,
yaitu “saya”, “sedang”, “mengerjakan”, dan
“skripsi”.
Perhitungan fitur teks penjumlahan bobot
koneksi antar-kalimat adalah sebagai berikut:
Score (s)=∑ koneksi antar-kalimat
Pemodelan Regresi Logistik Biner
Regresi matematika adalah model yang
baik untuk memperkirakan teks bobot fitur.
Dalam model ini fungsi matematika dapat
berhubungan dari output ke input (Fattah dan
Ren 2008).
Regresi logistik biner merupakan model
yang digunakan untuk menganalisis hubungan
antara variabel independent dengan variabel
dependent yang bersifat dua kategori atau
lebih. Menurut Hosmer dan Lemeshow (2000),
metode regresi logistik adalah suatu metode
analisis statistika yang mendeskripsikan
hubungan antara peubah respon yang memiliki
dua kategori atau lebih dengan satu atau lebih
peubah penjelas berskala kategori. Regresi
logistik biner telah banyak digunakan secara
luas sebagai salah satu alat analisis pemodelan
ketika variabel responsnya bersifat biner.
Istilah biner ini merujuk pada penggunaan dua
buah bilangan 0 dan 1 untuk menggantikan
kategori pada variabel respon.
Pada penelitian ini, variabel respons atau
variabel terikat (dependent variable) terdiri
atas dua kategori, yaitu y=1 yang menyatakan
“kalimat masuk ke dalam ringkasan” dan Y=0
yang menyatakan “kalimat tidak masuk dalam
ringkasan” untuk tahap pelatihan. Pada
penelitian ini diasumsikan tidak adanya
asumsi-asumsi yang ada pada regresi. Menurut
Hosmer dan Lemeshow (2000), model regresi
logistik adalah:
= i
i
untuk mempermudah menaksir parameter
regresi, maka (x) ditransformasikan dengan
menggunakan transformasi logit berikut:
g(x)=ln(
- )= + i
dengan nilai adalah nilai konstanta regresi,
merupakan nilai dugaan koefisien regresi, dan
xi merupakan nilai-nilai fitur. Persamaan
tersebut bertujuan menduga parameter yang
belum diketahui, yaitu parameter
Perbandingan Algoritme Genetika dan
Regresi Logistik Biner
Agoritme genetika atau genetic algorithm
adalah algoritme pencarian heuristic yang
didasarkan atas mekanisme evolusi biologis.
Keberagaman pada evolusi biologis adalah
variasi dari kromosom antar individu
organisme. Variasi kromosom ini akan
memengaruhi laju reproduksi dan tingkat
kemampuan organisme untuk tetap hidup
(Kusumadewi 2003). Algoritme genetika
beroperasi pada populasi yang potensial
memberikan solusi dengan prinsip survival of
the fittest untuk menghasilkan baik dan
semakin baik lagi sebagai perkiraan solusi.
Diagram alir algoritme sederhana dapat dilihat
pada Lampiran 1. Diagram alir ini terdiri atas
beberapa bagian yaitu: populasi awal, evaluasi
fitness, seleksi individu, pindah silang
(crossover), mutasi (mutation), dan populasi
baru.
Teknik pencarian dilakukan sekaligus atas
jumlah solusi yang mungkin yang dikenal
dengan istilah populasi. Individu yang terdapat
dalam satu populasi disebut dengan istilah
kromosom. Populasi awal dibangun secara
acak, sedangkan populasi berikutnya
merupakan hasil evolusi kromosom-kromosom
melalui iterasi yang disebut dengan istilah
generasi. Menurut Kusumadewi (2003), pada
setiap generasi, kromosom akan melalui proses
evaluasi dengan menggunakan alat ukur yang
disebut dengan fungsi fitness. Nilai fitnesss dari
suatu kromosom akan menunjukkan kualitas
kromosom dalam populasi tersebut.
Generasi berikutnya dikenal dengan istilah
anak (offspring) terbentuk dari gabungan dua
kromosom generasi sekarang yang bertindak
sebagai induk (parent) dengan menggunakan
operator penyilangan (crossover). Suatu
kromosom dapat juga dimodifikasi dengan
menggunakan operator mutasi. Populasi
generasi baru dibentuk dengan cara menyeleksi
nilai fitness dari kromosom induk dan nilai
fitness dari kromosom anak (offspring), serta
menolak kromosom-kromosom lain sehingga
ukuran populasi konstan.
Menurut Kleinbaum dan Klein (2010),
regresi logistik merupakan pendekatan model
matematika yang dapat digunakan untuk
menjelaskan hubungan antara beberapa
variabel prediktor x terhadap variabel respons
yang bersifat biner y
Kurva logistik dapat dilihat pada Gambar
4. Kurva logistik digambarkan dalam bentuk S
sigmoid dengan nilai z berkisar antara -∞
6
sampai dengan ∞ dan nilai f(z) bergerak dari
0 sampai 1. Nilai z merupakan jumlah dari
persamaan linear atau z =β0 β1X1 β2X2 …
βkXk. Kurva pada Gambar 4 menunjukkan jika
nilai z semakin mendekati -∞ maka nilai f(z)
akan bergerak mendekati nilai 0 dan jika nilai z
mendekati ∞ maka nilai f z bergerak
mendekati nilai 1.
Gambar 4 Kurva logistik (Kleinbaum & Klein,
2010).
Tahap Pengujian
Tahap pengujian menggunakan 50
dokumen berita berbahasa Indonesia (dokumen
yang digunakan untuk pengujian berbeda
dengan dokumen yang digunakan pada tahap
pelatihan). Dokumen ini kemudian diringkas
secara manual. Tujuannya ialah untuk
membandingkan ringkasan manual dengan
hasil ringkasan sistem.
Pengujian Menggunakan Metode N-gram
Pengujian dilakukan dengan menggunakan
metode N-gram. N-gram secara umum adalah,
Dice =
X merupakan banyaknya kalimat yang
dihasilkan sistem, Y merupakan banyaknya
kalimat yang diringkas secara manual.
Pengujian yang dilakukan untuk
membandingkan antara hasil ringkasan secara
manual dengan hasil ringkasan sistem.
Lingkungan Pengembangan
Lingkungan pengembangan yang akan
digunakan dalam penelitian ini terdiri atas
perangkat lunak dan perangkat keras.
Perangkat lunak yang digunakan antara lain:
Sistem operasi Windows 7 Ultimate.
Microsoft Office 2010.
SPSS 17.
PHP & Perl sebagai bahasa pemrograman.
XAMPP version 1.7.2 sebagai web server.
Notepad++.
Perangkat keras yang digunakan antara lain:
Prosesor intel Dual Core T4300 2.1 GHz.
RAM 1 GB.
Harddisk 160 GB.
HASIL DAN PEMBAHASAN
Data Korpus
Penelitian ini menggunakan korpus berita
nasional berbahasa Indonesia dari tanggal 11
Maret 2002 sampai 11 April 2002. Korpus
berita tersebut berasal dari berita online harian
Kompas yang didapat dari korpus penelitian
Ridha (2002). Dokumen yang digunakan pada
tahap pelatihan sebanyak 100 dokumen yang
dengan batas pemampatan (compression rate)
sebesar 30% dan berasal dari penelitian yang
telah dilakukan Aristoteles (2011). Dokumen
yang digunakan pada tahap pengujian sebanyak
50 dokumen dan ringkas secara manual yang
berasal dari dokumen penelitian Aristoteles
(2011).
Format Dokumen
Format dokumen pada penelitian ini
menggunakan jenis dokumen yang bertipe teks
dan memiliki format XML sederhana. Contoh
format dokumen dapat dilihat pada Lampiran
2.
Implementasi Sistem
Antarmuka sistem peringkasan dokumen
dapat dilihat pada Lampiran 3. Terdapat dua
bentuk ringkasan dalam suatu dokumen yaitu
ekstraksi dan abstraksi. Ekstraksi adalah suatu
ringkasan yang berasal dari kalimat – kalimat
paling penting dari suatu dokumen. Abstraksi
adalah mengambil intisari dari suatu teks
dokumen yang berasal dari kalimat – kalimat
baru (Jezek dan Steinberger 2008). Penelitian
ini menggunakan teknik ekstraksi dalam
membuat suatu ringkasan sehingga dibutuhkan
pemotongan kalimat yang baik.
Langkah-langkah dalam implementasi
sistem ini adalah pembacaan dokumen,
pemotongan kalimat, case folding, pemisahan
kata dan filtering kata. Langkah awal adalah
code yang berfungsi untuk pembacaan
dokumen. Code untuk pembacaan dokumen
dapat dilihat di Gambar 5.
Langkah selanjutnya adalah pemisahan
kalimat. Menurut Aristoteles (2011), Kalimat
adalah gabungan dari dua buah kata atau lebih
yang menghasilkan suatu arti dan pola intonasi
akhir yang diakhiri dengan suatu tanda
7
berhenti. Berikut merupakan bentuk
pemotongan kalimat dalam penelitian ini:
Batas kalimat setelah tanda baca seperti . ?
!
Batas kalimat sesudah tanda petik, bukan
setelah titik
Dapat mengenali singkatan seperti Hana, S.
Kom.
Gambar 5 Contoh code pembacaan dokumen.
Case folding berfungsi untuk
menyeragamkan kata yang bermakna sama
namun memiliki tulisan yang berbeda. Proses
case folding adalah mengubah huruf besar
menjadi kecil dalam suatu kalimat. Pemisahan
kata berguna untuk memotong kalimat menjadi
kata-kata dengan ciri antar kata adalah
whitespace (spasi, tab, dan newline). Contoh
Case folding dapat dilihat pada Tabel 1.
Filtering kata adalah memisahkan kata-
kata yang dibutuhkan dengan kata-kata yang
tidak bermakna (stopword) sehingga dapat
mengurangi kompleksitas perhitungan dari
fitur teks. Contoh kata stopword adalah yang,
di, pada, dengan, dan lain-lain. Penelitian ini
menggunakan bahasa pemrograman Perl dan
format data yang digunakan berjenis teks
XML.
Pemodelan Regresi Logistik Biner
Penelitian ini menggunakan data hasil dari
perhitungan penelitian Aristoteles (2011)
dengan CR 30% karena memiliki F-measure
paling besar dibandingkan dengan CR 10% dan
20% yaitu sebesar 4.81%. Data yang didapat
dari penelitian Aristoteles (2011) berupa data
.txt. Data tersebut dikonversi ke Microsoft
Excel agar mudah untuk mendapatkan
persamaan regresi logistik biner. Contoh data
yang digunakan dalam penelitian ini dapat
dilihat pada Lampiran 4. Diasumsikan dalam
satu tabel tersebut merupakan jumlah seluruh
kalimat dalam korpus, dengan S adalah
kalimat, x adalah pembobotan fitur, dan y
merupakan variabel respons (dependent) yang
bernilai 0 dan 1.
Jakarta, Kompas Kepala Pusat Penerangan
(Puspen) TNI Mayjen Sjafrie Sjamsoeddin
hingga saat ini belum mendapat informasi
dan otoritas untuk menyampaikan
mengenai pergantian pimpinan atas TNI. Ia
mengaku, justru mendapat informasi
mengenai perpanjangan masa dinas
Jenderal Endriartono Sutarto dari berita
media massa.
Pemotongan Kalimat
Jakarta, Kompas Kepala Pusat
Penerangan (Puspen) TNI Mayjen Sjafrie
Sjamsoeddin hingga saat ini belum
mendapat informasi dan otoritas untuk
menyampaikan mengenai pergantian
pimpinan atas TNI.
Ia mengaku, justru mendapat informasi
mengenai perpanjangan masa dinas
Jenderal Endriartono Sutarto dari berita
media massa.
Case Folding
jakarta, kompas kepala pusat penerangan
(puspen) tni mayjen sjafrie sjamsoeddin
hingga saat ini belum mendapat
informasi dan otoritas untuk
menyampaikan mengenai pergantian
pimpinan atas tni.
ia mengaku, justru mendapat informasi
mengenai perpanjangan masa dinas
jenderal endriartono sutarto dari berita
media massa.
Penelitian ini menggunakan variabel
respons yang terdiri atas dua kategori, yaitu
y=1 yang menyatakan “kalimat masuk ke
dalam ringkasan” dan y=0 yang menyatakan
“kalimat tidak masuk dalam ringkasan”. Nilai
y=1 didapat dari peringkasan secara manual
yang telah dilakukan pada penelitian
Aristoteles (2011). Nilai dari variabel
dependent ini untuk mengkategorikan suatu
kalimat masuk atau tidaknya dalam suatu
ringkasan dalam tahap pelatihan.
Peringkasan manual ini dapat menentukan
kalimat mana yang masuk dalam peringkasan
dan kalimat mana yang tidak masuk dalam
ringkasan untuk dilakukan perbandingan pada
main:{
open
(IN,">C:/xampp/htdocs/OS/tes.txt") || die
"FILE tidak bisa dibuka....$!\n";
while(<$file>) {
print IN $_;
}
Tabel 1 Contoh paragraf, pemisahan kalimat
dan case folding
8
tahap pengujian dengan hasil ringkasan sistem.
Dengan menggunakan perangkat lunak SPSS
17, data yang telah dikonversi ke Microsoft
Excel disalin ke SPSS 17 untuk mendapatkan
persamaan regresi logistik biner.
Dalam proses pemodelan regresi logistik,
data yang telah dikonversi ke Microsoft Excel
disalin dan diproses dengan menggunakan
SPSS 17 untuk menghasilkan persamaan
regresi logistik biner. Hasil output SPSS 17
pemodelan regresi logistik dapat dilihat dalam
Lampiran 5. Persamaan regresi logistik biner
yang telah dihasilkan oleh SPSS dimasukkan
ke dalam sistem. Pemodelan regresi logistik
menghasilkan persamaan sebagai berikut:
ln(
- )= -2.843 – 0.638x1 + 2.627x2 + 0.258x4
+ 1.713x5 - 0.160x6 - 0.08x7 -
0.462x8 + 1.831x9 - 0.213x10
Dimisalkan dokumen berita yang akan
diringkas adalah dokumen yang berada di
dalam korpus penelitian didalam direktori
“korpus_bener” dengan nama file 34.txt,
dokumen dapat dilihat pada Lampiran 6. Hasil
ringkasan dari dokumen 34.txt dapat dilihat
pada Lampiran 7. Hasil ringkasan pada
penelitian ini menggunakan menggunakan
compression rate sebesar 30%. Artinya hasil
ringkasan sebuah dokumen terdiri atas 30% isi
dokumen tersebut.
Pengujian Menggunakan N-gram
Tahap pengujian menggunakan 50
dokumen berita berbahasa Indonesia (dokumen
yang digunakan untuk pengujian berbeda
dengan dokumen yang digunakan pada tahap
pelatihan). Dalam tahap pengujian ini
ringkasan manual dibutuhkan sebagai
perbandingan antara hasil ringkasan sistem
dengan hasil ringkasan yang telah dilakukan
oleh penelitian Aristoteles (2011).
Pengujian dalam penelitian ini
menggunakan metode N-gram. Metode N-gram
menilai ketepatan dari peringkasan dokumen
dengan cara membandingkan apakah kalimat
hasil peringkasan sistem yang telah dihasilkan
sama dengan peringkasan manual. N-gram
secara umum adalah:
Dice =
x merupakan banyaknya kalimat yang
dihasilkan sistem dan y merupakan banyaknya
kalimat yang diringkas secara manual.
Pemodelan regresi logistik biner
menghasilkan akurasi sebesar 42.84% dari
perhitungan menggunakan metode N-gram.
Dalam penelitian ini terdapat beberapa faktor
yang memengaruhi besar kecilnya akurasi yaitu
ringkasan manual yang subjektif, jumlah
dokumen yang sedikit, dan jenis dokumen yang
digunakan. Perhitungan hasil pengujian antara
hasil peringkasan manual dan hasil
peringkasan sistem menggunakan n-gram
dapat dilihat pada Lampiran 8.
Hasil Perbandingan dengan Algoritme
Genetika
Hasil penelitian Aristoteles (2011) yang
dapat dilihat pada Tabel 2 Hasil akurasi pada
penelitian Aristoteles (2011) menggunakan
empat fitur teks pada tahap pengujian
meningkat 5.28% dibandingkan dengan
menggunakan dua fitur teks. Namun,
perbedaan tingkat akurasi dengan
menggunakan enam fitur teks, delapan fitur
teks, dan sebelas fitur teks adalah sebesar 1%.
Oleh karena itu, penggunaan empat fitur teks
(f5, f4, f2, f11) pada tahap pengujian dapat
merepresentasikan hasil akurasi dari sebelas
fitur teks. Nilai akurasi menggunakan
algoritme genetika adalah 45.91%.
Tabel 2 Hasil akurasi menggunakan
algoritme genetika
Hasil akurasi pengujian pemodelan regresi
logistik biner menggunakan metode N-gram
ialah sebesar 42.84%. Hasil dari penelitian
peringkasan menggunakan metode regresi
logistik tidak menghasilkan akurasi yang lebih
baik dari algoritme genetika. Hal ini
dikarenakan model yang telah dihasilkan tidak
sesuai dengan analisis regresi logistik. Analisis
regresi logistik tersebut terdiri atas uji
kelayakan model dan uji parameter model. Uji
kelayakan model digunakan untuk mengetahui
nilai perbedaan antara data dengan nilai yang
dihasilkan sistem. Hasil analisis uji kelayakan
No. Bobot Akurasi
1 w5, w4
w5, w4, w2, w1
w5, w4, w2, w11, w7, w6
w5, w4, w2, w11, w7,
w6, w10, w9
w5, w4, w2, w11, w7,
w6, w10, w9, w1, w8, w3
41.16%
2 46.44%
47.12%
47.20%
47.63%
3
4
5
Rata-rata 45.91%
9
model dapat dilihat dalam Lampiran 5 pada
tabel Hosmer dan Lemeshow (2000) terdapat
nilai sig 0,006. Nilai sig 0,006 menunjukkan
bahwa hasil prediksi model tidak sesuai dengan
hasil observasi. Uji parameter model
digunakan untuk mengetahui manakah variabel
independent yang memiliki pengaruh nyata
terhadap variabel dependent. Hasil analisis uji
parameter model dapat dilihat pada Lampiran 5
bagian tabel variables in the equation. Dapat
dilihat bahwa pada kolom sig (significant).
terdapat nilai- nilai sig di atas 0,05. Artinya
variabel independent tidak memiliki pengaruh
secara signifikan terhadap variabel
independent.
Persamaan yang telah didapat dalam
penelitian ini tidak sesuai dengan analisis
regresi logistik. Namun, parameter yang tidak
signifikan tersebut tetap dimasukkan dalam
persamaan untuk mengetahui hubungan
antarvariabel independent terhadap variabel
dependent yang bersifat biner. Persamaan
regresi yang telah didapat dari penelitian ini
digunakan untuk melihat kinerja dari metode
regresi logistik.
SIMPULAN DAN SARAN
Simpulan
Hasil penelitian yang telah dilakukan
dapat disimpulkan beberapa hal berikut:
regresi logistik biner dapat digunakan
untuk peringkasan dokumen selama
model yang dihasilkan sesuai dengan
analisis regresi logistik biner dan model
yang dihasilkan sesuai dengan data.
penelitian ini menghasilkan akurasi
sebesar 42.84%.
penelitian ini tidak menghasilkan akurasi
yang lebih baik dari penelitian
sebelumnya dengan menggunakan
algoritme genetika, yaitu sebesar 45.91%.
Saran
Terdapat saran setelah dilakukan
penelitian peringkasan teks bahasa Indonesia
menggunaakan regresi logistik biner yaitu,
dalam membuat peringkasan teks
menggunakan metode yang lain yang lebih
sederhana dan menghasilkan akurasi lebih
besar.
DAFTAR PUSTAKA
Aristoteles. 2011. Pembobotan fitur pada
peringkasan teks bahasa Indonesia
menggunakan algoritme genetika [tesis].
Bogor: sekolah Pascasarjana, Institut
Pertanian Bogor.
Fattah MA, Ren F. 2008. Automatic text
summarization. Di dalam: Proceeding of
World Academic of Science, Engineering
and Technology; 18-24 Feb 2007. hlm
192-195.
Hosmer D, Lemeshow S. 2000. Applied
Logistic Regression. Ed ke-2. Columbus:
A Wiley-Interscience Publ.
Jezek K, Steinberger J. 2008. Automatic text
summarization (The state of the art 2007
and new challenges). Di dalam: Znalosti
2008; Bratislave, 13-15 Feb 2008. hlm 1-
12.
Kleinbaum D, Klein M. 2010. Logistic
Regressiom, Ed ke-3. New York: Springer.
Kusumadewi Sri. 2003. Artificial Intelligence.
Yogyakarta: Graha Ilmu.
Manning CD, Raghavan P, Schutze H. 2008.
Introduction to Information Retrieval.
Cambridge: Cambridge University Press.
Ridha A. 2002. Pengindeksan otomatis dengan
istilah tunggal untuk dokumen berbahasa
Indonesia [skripsi]. Bogor: Fakultas
Matematika dan Ilmu Pengetahuan Alam,
Institut Pertanian Bogor.
LAMPIRAN
11
Lampiran 1 Diagram alir algoritme genetika sederhana (Kusumadewi 2003).
Bangkitkan
populasi awal
Evaluasi fungsi
tujuan
Individu-
individu
terbaik
Seleksi
Crossover
Mutasi
Mulai
Bangkitkan
populasi awal
Hasil
Apakah
kriteria
optimasi
12
Lampiran 2 Format dokumen pada tahap pelatihan dan pengujian
13
Lampiran 3 Antarmuka sistem peringkasan teks
14
Lampiran 4 Contoh nilai nilai fitur untuk setiap kalimat dalam satu dokumen
s\x x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 Y
s1 1.000 0.797 0.203 0.135 0.000 0.087 0.043 0.084 0.000 0.000 1.000
s2 0.750 0.147 0.853 0.203 0.014 0.000 0.042 0.088 0.417 0.680 1.000
s3 0.500 0.748 0.252 0.203 0.014 0.081 0.081 0.135 0.250 0.371 1.000
s4 0.250 0.211 0.789 0.257 0.027 0.156 0.031 0.117 0.000 0.000 1.000
s5 0.000 0.704 0.296 0.108 0.014 0.188 0.000 0.058 0.000 0.000 0.000
s6 0.000 0.126 0.874 0.027 0.000 0.100 0.000 0.036 0.000 0.000 0.000
s7 0.000 0.768 0.232 0.176 0.000 0.095 0.000 0.077 0.583 1.187 0.000
s8 0.000 0.042 0.958 0.041 0.000 0.000 0.111 0.033 0.000 0.000 0.000
s9 0.000 0.169 0.831 0.338 0.014 0.000 0.070 0.157 0.667 1.876 0.000
s10 0.000 0.136 0.864 0.054 0.000 0.000 0.000 0.036 0.000 0.000 0.000
s11 0.000 0.129 0.871 0.216 0.000 0.028 0.028 0.131 0.333 0.629 0.000
s12 0.000 0.034 0.966 0.014 0.000 0.077 0.000 0.047 0.000 0.000 0.000
15
Lampiran 5 Tabel model persamaan regresi logistik biner
Hosmer and Lemeshow Test
Chi-square df Sig. 21.499 8 0.006
Variables in the equation
B S.E. Wald df Sig. Exp(B)
x1 -0.638 0.247 6.698 1 0.010 0.528
x2 2.627 0.226 135.538 1 0.000 13.833
x4 0.258 1.274 0.041 1 0.839 1.295
x5 1.713 4.521 0.144 1 0.705 1.295
x6 -0.160 0.968 0.027 1 0.869 0.852
x7 -0.080 1.560 0.003 1 0.959 0.923
x8 -0.462 2.714 0.029 1 0.865 0.630
x9 1.831 2.007 0.832 1 0.362 6.239
x10 -0.213 0.407 0.273 1 0.601 0.808
Constant -2.843 0.207 188.089 1 0 0.058
16
Lampiran 6 Contoh dokumen berita 34.txt
17
Lampiran 7 Antarmuka hasil sistem dokumen berita 34.txt
18
Lampiran 8 Hasil pengujian antara hasil peringkasan manual dan hasil peringkasan sistem
menggunakan N-gram
Dok.
Ke-
Sistem Manual S
M
Hasil N-gram Dok.
Ke-
Sistem Manual S
M
Hasil N-gram
1 5 9 3 0.428571429 26 13 13 1 0.076923077
2 7 6 0 0.000000000 27 6 5 2 0.363636364
3 6 5 1 0.181818182 28 11 7 3 0.333333333
4 4 6 0 0.000000000 29 13 9 2 0.181818182
5 3 4 2 0.571428571 30 19 20 7 0.358974359
6 16 18 2 0.117647059 31 5 5 1 0.200000000
7 7 9 2 0.250000000 32 3 5 0 0.000000000
8 2 2 0 0.000000000 33 4 6 1 0.200000000
9 5 5 1 0.200000000 34 2 4 0 0.000000000
10 3 5 1 0.250000000 35 8 11 2 0.210526316
11 3 3 1 0.333333333 36 14 14 4 0.285714286
12 5 6 1 0.181818182 37 7 8 2 0.266666667
13 4 6 1 0.200000000 38 5 7 2 0.333333333
14 3 4 1 0.285714286 39 4 5 2 0.444444444
15 7 11 2 0.222222222 40 8 9 4 0.470588235
16 6 8 2 0.285714286 41 5 5 0 0.000000000
17 7 8 0 0.000000000 42 13 12 3 0.240000000
18 6 9 2 0.266666667 43 8 10 2 0.222222222
19 5 6 1 0.181818182 44 15 17 2 0.125000000
20 5 6 2 0.363636364 45 5 5 2 0.400000000
21 13 15 1 0.071428571 46 4 7 2 0.363636364
22 3 4 1 0.285714286 47 10 6 0 0.000000000
23 4 10 2 0.285714286 48 5 6 0 0.000000000
24 7 7 1 0.142857143 49 2 4 0 0.000000000
25 5 8 1 0.153846154 50 8 8 3 0.375000000
hasil n-gram 0.428470655