SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI...
Transcript of SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI...
TUGAS AKHIR
SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK
ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI
PROFIL DAN KONEKTIVAS KOMPONEN
Diajukan untuk memenuhi salah satu syarat
memperoleh gelar Sarjana Komputer pada
Program Studi Teknik Informatika
Jurusan Teknik Informatika
Falkultas Sains dan Teknologi, Universitas Sanata Dharma
FRANS YAKOBUS SURYAPRADIPTA
145314086
PROGRAM STUDI TEKNIK INFORMATIKA
JURUSAN TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2018
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ii
FINAL PROJECT
TITLE AND TEXT COLUMN SEGMENTATION IN A
NEWSPAPER ARTICLE USING PROJECTION PROFILE
AND CONNECTED COMPONENT
In a partial fulfilment of the requirements
for the degree of Sarjana Komputer
Department of Informatic Engineering
Faculty of Science and Technology, Sanata Dharma University
By:
FRANS YAKOBUS SURYAPRADIPTA
145314086
INFORMATICS ENGINEERING STUDY PROGRAM
INFORMATICS ENGINEERING DEPARTMENT
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2018
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
HALAMAN PERSETUJUAI\I
TUGAS AKHIR
SEGMENTASI JUDUL DANT KOLOM TEKS T'NTUKARTIKEL KORAN MENGGUNAKA}I METODE PROYEKSI
PROFIL DAFI KONEKTWAS KOMPONEN
(TITLE AI\ID TEXT COLUMN SSGMENTATION IN A NEWSPAPER ARTICLEUSING PROJECTTON PROFTLE ANr) CONIYECTED COMPONENT)
tu
ts;1= NurtYfouaoaiG
- r j=.- -#,kr*,gvE',. nsrsj^ '|*q"-# r; = \;i, 'bsFF+e-f,{--&tr*E = d E{ruR-'"
Dr.Ir. Linggo Sumarno, M.T. Tanggal:2 7 Jul; 2018
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
HALAMAN PENGESAHAN
SKRIPSI
SEGMENTASI JT]DUL DAI\I KOLOM TEKS IJNTUK
ARTIKEL KORAN MENGGUNAKAN METODN PROFIL
PROYEKSI DAI\[ KONEKTIYITAS KOMPONEN
DiPersiaPkan dan disusun oleh :
Frans Yakobus SurYaPradiPta
NIM: 145314086
Telah Dipertahankan di depeil Tim Penguji pada tanggal 25 juli 2018
dan dinYatakan memenuhi sYarat
Susunan Panitia Penguji :
Nama Lengkap
: Dr. Anastasia Rita Widiarti, M.Kom. /Ketua
Selretaris
Anggota
Eko Hari Farmadi, M.Kom
Dr.Ir. Linggo Sumarnr:, M.T.
Yogyakart4 3o Jut; ao$Fakultas Sains dan Teknologi
iversitas Sanata Dharma
Lc4.-Mungkasi, Ph.D. )
la**{t'g
ltJ ,r
xrv
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PERNYATAAN KEASLIAN KARYAsaya menyatakan dengan sesungguhnya bahwa tugas akhir yang saya tulis
tidak mengandung atau memuat karya orang lain, kecuali yang telah disebutkandalam daftar pustaka dan kutipan selayaknya karya ilmiah.
Yogyakart4 l6 Juli 2018
Penulis
Frans Yakobus Suryapradipta
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
LEMBAR PERNYATAAN PERSETUJUAI{ PUBLIKASI
KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS
Yang bertanda tangan di bawah ini, saya mahasiswa Universitas Sanata
Dharma:
Nama
NIM
: Frans Yakobus Suryapradipta
:145314086
Demi pengembangan ilmu pengetahuan, saya memberikan kepada Perpustakaan
Universitas Sanata Dharma karya ilmiah yang bedudul :
SEGMENTASI JUDT]L DAN KOLOM TEKS T}NTUK ARTIKEL KORAN
MENGGT]NAKAN METODE PROFIL PROYEKSI DA}{ KOI\EKTTWTAS
KOMPONEN
Dengan demikian saya memberikan kepada Perpustakaan Universitas Sanata
Dharma hak untuk menyimpan, mengalihkan dalam bentuk media lain,
mengelolanya dalam bentuk pangkalan dat4 mendistribusikan secara terbatas, dan
mempublikasikannya di intemet atau media lain untuk kepentingan akademis tanpa
perlu memintaizin dari saya meupun memberikan royalti kepada saya selama tetap
mencantumkan nama saya sebagai penulis.
Demikian pernyataan ini saya buat dengan sebenamya.
Yogyakart4 16 Juli 2018
Yang menyatakan
VI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
vii
INTISARI
Kompas Gramedia menerapkan proses pengarsipan koran-koran tua
menjadi sebuah perpustakaan digital yang berisi artikel-artikel koran Kompas.
Artikel-artikel tersebut diolah dan dikategorikan menjadi sebuah kumpulan data-
data berbentuk teks artikel. Arsip-arsip ini pada mulanya direncanakan untuk
kebutuhan internal instansi, seiring waktu arsip-arsip ini mulai digunakan untuk
kepentingan umum.
Penelitian ini mencoba untuk membuat sebuah prototipe sistem segmentasi
judul dan kolom teks artikel koran yang dapat membantu pengenalan karakter. Data
masukan untuk sistem diperoleh dari hasil pemotongan citra koran secara manual
dengan format *.bmp. Jumlah data yang digunakan adalah 100 citra artikel koran
dari periode 1980 dan 1990. Data training adalah 20 citra artikel dari tahun 1990
dan sisanya menjadi data testing. Kemudian sistem menyeleksi karakter-karakter
menggunakan atribut-atribut dari konektivitas komponen, diperoleh judul dan
kolom teks. Karakter-karakter judul dikelompokan dan disegmentasi sesuai daerah
barisnya menggunakan profil proyeksi. Citra masukan segmentasi kolom teks
adalah hasil segmentasi judul yaitu citra artikel tanpa judul, kemudian akan
disegmentasi dengan metode profil proyeksi untuk mensegmentasi kolom-kolom
teks.
Maka dari hasil penelitian segmentasi judul dan kolom teks untuk artikel
koran menggunakan metode profil proyeksi dan konektivitas komponen, diperoleh
hasil untuk segmentasi judul dengan tingkat keberhasilan 91,25%. Segmentasi
kolom teks secara vertikal meraih tingkat keberhasilan 100%. Pada beberapa artikel
yang mengandung sub-judul menyebabkan sistem gagal mensegmentasi kolom teks
secara horisontal.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
viii
ABSTRACT
Kompas Gramedia archive the old newspapers into a digital library which
contain newspaper article. The newspapers articles were processed and categorized
into a collection of text data. These archives were initially necessary for internal
agencies, then for a long time for public.
This research presented a prototype method of segmentation system that can
help character recognition. The system input was obtained by cropping articles of
newspaper and saved into *.bmp formats compression. There were 100 images of
newspaper article in 1980 and 1990 which was used for the research. The system
was trained by 20 articles of 1990 and tested by 80 articles of 1980. Furthermore,
characters connected component attributes were selected to distinguish between
title character and text column character. Those characters were
grouped(segmented) by their row region using projection profiles. The text column
segmentation input was the result image of title segmentation, finally it would be
segmented with projection profile.
The result, title segmentation achieved success rate 91.25%. The text
column segmentation vertically achieved 100% success rates. Unfortunately, some
articles contained sub-title caused the system failed in segmented the text column
horizontally.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ix
MOTTO
“ SKRIPSI BUKAN HANYA BUTUH KESIAPAN
MENTAL DAN FISIK, TETAPI JUGA KENEKATAN ”
(Frans Yakobus S.)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
KATA PENGANTAR
Puji syukur dan terima kasih kepada Tuhan Yang Maha Pengasih, sehingga tugas
akhir saya yang berjudul "Segmentasi Judul dan Kolom Teks untuk Artikel
Koran Menggunakan Metode Profil Proyeksi dan Konektivitas Komponen"
dapat terselesaikan. Tugas akhir ini disusun sebagai persyaratan untuk memperoleh
gelar Sarjana pada Program Studi Teknik Informatika Universitas Sanata Dharma.
Dalam menyelesaikan tugas akhir ini penulis mendapat dukungan dan
bimbingan dari berbagai pihak. Pada kesempatan ini penulis mengucapkan terima
kasih kepada:
1. Keluarga saya yang selalu memberikan dukungan untuk segera
menyelesaikan tugas akhir saya.
2. Bapak Dr. Ir. Linggo Surmarno, M.T. sebagai dosen pembimbing saya yang
bersedia meluangkan waktu untuk membimbing dan memberikan motivasi
selama proses mengerjakan tugas akhir.
3. Saudara Sekar Mirah yang selalu memberi semangat, masukan dan waktu
untuk belajar bersama selama menyelesaikan tugas akhir.
4. Seluruh dosen Teknik Informatika Universitas Sanata Dharma yang telah
mendidik dan memberikan ilmu ataupun pengalaman selama proses
perkuliahan.
5. Pihak Kompas Gramedia yang telah menjadi sponsor dalam penelitian ini,
terutama pada Bapak Agus Ramdhani.
6. Teman - teman angkatan 2014 yang memberikan semangat dan penghibur
dalam menyelesaikan tugas akhir.
Yogyakarta, 16 Juli 2018
Penu
/'/1/-4=9
lis
Frans Yakobus Suryapradipta
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xi
DAFTAR ISI
HALAMAN JUDUL ................................................................................................ i
HALAMAN JUDUL (ENGLISH) .......................................................................... ii
HALAMAN PERSETUJUAN ............................................................................... iii
LEMBAR PENGESAHAN ................................................................................... iv
PERNYATAAN KEASLIAN KARYA ................................................................. v
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI................................. vi
INTISARI .............................................................................................................. vii
ABSTRACT ......................................................................................................... viii
MOTTO ................................................................................................................. ix
KATA PENGANTAR ............................................................................................ x
DAFTAR ISI .......................................................................................................... xi
DAFTAR GAMBAR ........................................................................................... xiv
DAFTAR TABEL ................................................................................................ xvi
BAB I ...................................................................................................................... 1
1.1. Latar Belakang ......................................................................................... 1
1.2. Rumusan Masalah .................................................................................... 6
1.3. Tujuan ....................................................................................................... 6
1.4. Batasan Masalah ....................................................................................... 6
1.5. Manfaat ..................................................................................................... 6
1.6. Metodologi Penelitian .............................................................................. 7
1.7. Sistematika Penulisan ............................................................................... 7
BAB II ..................................................................................................................... 9
2.1. Koran ........................................................................................................ 9
2.1.1. Perbedaan Layouting Koran Kompas................................................ 9
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xii
2.1.2. Entitas-Entitas dalam Koran ........................................................... 10
2.2. Pengertian Citra ...................................................................................... 13
2.2.1. Citra Grayscale ............................................................................... 13
2.2.2. Citra Biner Hitam dan Putih ............................................................ 14
2.3. Pengolahan Citra .................................................................................... 15
2.4. Pengenalan Pola ..................................................................................... 15
2.5. Binerisasi ................................................................................................ 16
2.5.1. Binerisasi Citra dengan Metode Otsu ............................................. 17
2.6. Segmentasi pada Citra ............................................................................ 17
2.7. Profil Proyeksi ........................................................................................ 18
2.8. Konektivitas Komponen (Connected Components) ............................... 18
2.8.1. Pusat Massa (Centorid) ................................................................... 19
2.8.2. Luas Objek (Area) ........................................................................... 20
2.8.3. Kotak Pembatas (Bounding Box) .................................................... 20
BAB 3 ................................................................................................................... 22
3.1. Gambaran Umum ....................................................................................... 22
3.2. Desain Penelitian ........................................................................................ 23
3.2.1. Studi Literatur ...................................................................................... 23
3.2.2. Data Penelitian ..................................................................................... 23
3.2.3. Perancangan Alat uji ............................................................................ 28
3.3. Analisa Kebutuhan Proses .......................................................................... 29
3.4. Implementasi Perancangan ......................................................................... 30
3.4.1. Diagram Konteks (Context Diagram) ................................................. 30
3.4.2. Data Flow Diagram Level 1................................................................. 31
3.5. Penjelasan Proses dan Algoritma ............................................................... 32
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiii
3.5.1. Preprocessing ...................................................................................... 32
3.5.2. Segmentasi Judul ................................................................................. 32
3.5.3. Segmentasi Kolom Teks ...................................................................... 34
3.5.4. Menghitung Akurasi ............................................................................ 38
3.6. Perancangan Interface (Antar Muka) Alat uji ............................................ 39
3.7. Spesifikasi Hardware dan Software ........................................................... 40
3.7.1. Software (Perangkat Lunak) ................................................................ 40
3.7.2. Hardware (Perangkat Keras) ............................................................... 40
BAB 4 ................................................................................................................... 41
4.1. Data Masukan ............................................................................................. 41
4.2. Evaluasi Proses ........................................................................................... 42
4.3. Evaluasi Proses Segmentasi Judul .............................................................. 43
4.4. Evaluasi Proses Segmentasi Kolom Teks .................................................. 52
4.5. Hasil Pengujian ........................................................................................... 57
BAB 5 ................................................................................................................... 67
5.1. Kesimpulan ................................................................................................. 67
5.2. Saran ........................................................................................................... 68
Daftar Pustaka ....................................................................................................... 69
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiv
DAFTAR GAMBAR
Gambar 2.1. Contoh entitas teks. .......................................................................... 10
Gambar 2.2. Contoh entitas judul. ........................................................................ 11
Gambar 2.3. Contoh entitas judul terbalik. ........................................................... 11
Gambar 2.4. Contoh entitas foto. .......................................................................... 12
Gambar 2.5. Contoh entitas grafis......................................................................... 12
Gambar 2.8. Contoh citra grayscale. .................................................................... 14
Gambar 2.9. Contoh citra artikel biner.................................................................. 15
Gambar 2.10. Contoh penerapan proses binerisasi. .............................................. 16
Gambar 2.12. Contoh penerapan sentroid. ............................................................ 20
Gambar 2.13. Contoh pengaplikasian bounding box. ........................................... 21
Gambar 3.1. Diagram Blok Segmentasi Judul dan Kolom Teks untuk Artikel
Koran Menggunakan Metode Proyeksi Profil dan Konektivitas Komponen. ....... 22
Gambar 3.2. Pengaturan perubahan format dari PDF ke Bitmap. ........................ 24
Gambar 3.3. Contoh lokalisasi area artikel pada halaman koran. ......................... 26
Gambar 3.4. Contoh penamaan file gambar artikel koran. ................................... 27
Gambar 3.5. Diagram Proses segmentasi judul dan kolom teks untuk artikel koran
kompas menggunakan profil proyeksi dan konektivitas komponen. .................... 30
Gambar 3.6. Diagram Konteks.............................................................................. 30
Gambar 3.7. Data Flow Diagram level 1. ............................................................ 31
Gambar 3.8. Rancangan Interface alat uji. ............................................................ 39
Gambar 4.1. Contoh data testing (19800102-01-9.bmp) yang mengandung noise
salt. ........................................................................................................................ 41
Gambar 4.2. Contoh data testing (19800102-01-2) yang memiki noise pepper. .. 42
Gambar 4.3. Contoh data testing (19800102-02-2) yang karakternya mengalami
bleeding ink. .......................................................................................................... 42
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xv
Gambar 4.4. Potongan citra image4. ..................................................................... 49
Gambar 4.5. Potongan citra image6. ..................................................................... 50
Gambar 4.6. Potongan citra image5. ..................................................................... 52
Gambar 4.7. Potongan citra data training image2v. ............................................. 54
Gambar 4.8. Potongan citra data training image2v. ............................................. 54
Gambar 4.9. Data training image9. ....................................................................... 55
Gambar 4.10. Citra kolom teks hasil segmentasi kolom teks vertikal. .............. 55
Gambar 4.11. Segmentasi judul untuk citra 19800102-16-10 .............................. 60
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xvi
DAFTAR TABEL
Tabel 3.1. Spesifikasi Software. ............................................................................ 40
Tabel 3.2. Spesifikasi Hardware. .......................................................................... 40
Tabel 4.1. Daftar evaluasi proses. ......................................................................... 43
Tabel 4.2. Evaluasi ThresholdTinggi1 kandidat karakter judul > 1,5 * rerata tinggi
karakter. ................................................................................................................. 44
Tabel 4.3. Evaluasi ThresholdTinggi2 kandidat karakter judul < 7 * rerata tinggi
karakter. ................................................................................................................. 46
Tabel 4.4. Evaluasi ThresholdRasio1 dan ThresholdRasio2 aspek rasio kandidat
karater < =1,8.dan >= 0,1 ...................................................................................... 47
Tabel 4.5. Evaluasi ThresholdRBW, rasio hitam dan putih kandidat karakter
judul< 1,7. ............................................................................................................. 48
Tabel 4.6. Evaluasi ThresholdProyeksiBarisJudul1, nilai proyeksi < 40. ............ 50
Tabel 4.7. Evaluasi ThresholdProyeksiBarisJudul2, Tinggi proyeksi baris judul <
30. .......................................................................................................................... 51
Tabel 4.8. Evaluasi nilai objek noise < 30 piksel. ................................................. 53
Tabel 4.9. Evaluasi ThresholdLebarKolom, lebar kolom teks < 1,5 dari lebar
kolom teks terkecil. ............................................................................................... 56
Tabel 4.10. Citra hasil uji gagal disegmentasi judul ............................................. 57
Tabel 4.11. Evaluasi tinggi karakter untuk segmentasi judul ............................... 61
Tabel 4.12. Citra hasil uji berhasil judul ............................................................... 62
Tabel 4.13. Citra hasil uji segmentasi kolom teks yang gagal .............................. 63
Tabel 4.14. Citra hasil uji segmentasi kolom yang berhasil ................................. 65
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
1
BAB I
PENDAHULUAN
1.1. Latar Belakang
Koran adalah salah satu media cetak yang menjadi alat komunikasi utama
masyarakat modern. Sebagai salah satu media komunikasi tertua, koran atau
dikenal dengan istilah surat kabar, adalah media yang menyajikan berita dan
informasi terkini dalam bentuk cetak (Kurnianto, 2013). Koran telah menjadi
sarana penyampaian informasi yang aktual dan terpercaya. Keberadaan artikel-
artikel pada koran tersebut baiknya dipertahankan, dengan kata lain diarsipkan.
Pengarsipan koran bisa menjadi sebuah sumber ilmu yang berguna di masa depan
atau sekarang dan sebuah lahan bisnis penjualan informasi.
Kompas Gramedia menerapkan proses pengarsipan koran-koran tua
menjadi sebuah perpustakaan digital yang berisi artikel-artikel koran Kompas.
Artikel-artikel tersebut diolah dan dikategorikan menjadi sebuah kumpulan data-
data berbentuk teks artikel dari tahun 1965 hingga tahun ini. Arsip-arsip ini pada
mulanya direncanakan untuk kebutuhan internal instansi, seiring waktu mulai
digunakan untuk kepentingan umum. Rencana Kompas Gramedia adalah untuk
menampilkan teks-teks artikel koran tua ke sebuah web yaitu Kompasdata.id.
Kompas Data adalah layanan daring untuk mengakses koleksi data Kompas
berupa artikel, gambar, infografik, dan pustaka. Arsip artikel berisi kumpulan berita
dan artikel Kompas sejak tahun 1965. Arsip Gambar berisi koleksi foto karya
wartawan dan pewarta foto Kompas yang dipublikasikan. Poster Infografik berisi
koleksi data Kompas dalam bentuk visual grafis (KompasData, 2017).
Pada kasusnya koran harian Kompas pada periode sebelum 1990 memiliki
cara penyuntingan dengan diketik menggunakan mesin tik. Pengarsipan koran
berbentuk kliping-kliping yang dibuat sendiri oleh pihak Kompas. Saat ini citra
artikel–artikel tersebut hendaknya dipindahkan bentuk pengarsipanya ke media
digital. Sedangkan untuk melakukan konversi citra koran tua ke digital tidaklah
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2
mudah, koran harus dipindai melalui mesin pemindai dan dibaca dengan software
OCR (Optical Character Recognition).
Presentase keakuratan pengenalan karakter yang dimiliki disebut rendah
terutama pada artikel koran Kompas periode sebelum 1990. Hasil yang rendah
dikarenakan kualitas koran yang buruk, kondisi koran yang rusak, terlipat, tercoret,
basah dan proses penyuntingan yang manual menggunakan mesin tik. Alhasil
keluaran dari pengenalan teks tersebut terkadang memiliki urutan membaca yang
salah dan huruf-huruf yang gagal dikenali.
Kompas Gramedia telah mengupayakan hal ini sebelumnya, mereka
menggunakan piranti lunak OCR dari pengembang-pengembang ternama seperti
Adobe, Microsoft dan lain-lain, tetapi juga belum menemukan presentase
keakuratan yang memuaskan. Presentase keakuratan yang mereka dapatkan adalah
sekitar 60 persen, dimana nilai itu dianggap sangat kurang untuk memenuhi
kebutuhan mereka untuk melakukan pengarsipan koran-koran pada periode
sebelum koran terkomputerisasi.
Penulis ingin meningkatkan keakuratan hasil pengenalan karakter pada
koran Kompas dengan mengajukan penelitian mengenai segmentasi kolom teks dan
judul. Metode yang terusulkan akan mendukung proses pengenalan karakter-
karater pada judul artikel dan urutan membaca pada kolom teks. Sebuah proses
pengenalan bagian-bagian layout (entitas) ditentukan disini untuk mendasari proses
segmentasi.
B. Gatos, dkk (2009) melakukan proses segmentasi menggunakan
pendekatan proyeksi, mengusulkan sebuah strategi citra dokumen dapat dipisah-
pisah ke potongan-potongan baris dengan sekiranya dengan kesenjangan (gap)
diantara baris-baris. Metode lokal minima digunakan pada data hasil proyeksi baris,
yang akan menjadi batas segmentasi baris teks. Pendekatan ini didasarkan pada
asumsi topologi bahwa untuk setiap baris teks, ada jalur dari satu sisi gambar ke
sisi lain yang melintasi hanya satu baris teks. Pertama mengaburkan gambar dan
kemudian menggunakan pelacak untuk mengikuti jalur paling putih dan paling
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3
hitam dari kiri ke kanan dan juga dari kanan ke kiri untuk memisahkan citra menjadi
baris teks. Metode mereka mempunyai performa sebesar 98,6%. Kesalahan
segmentasi terjadi karena ditemui nilai variasi dari ukuran huruf yang besar.
Penelitian diatas menjadi acuan untuk segmentasi judul dan kolom teks.
Dianggap metodenya dapat menangani teks tulisan tangan secara baik, namun
kesalahan terjadi karena data yang diobservasi adalah tulisan tangan yang
kebanyakan mempunyai variasi ukuran huruf yang bermacam-macam. Maka jika
metode ini diterapkan pada kasus teks tercetak historis maka bisa sangat
memperbaiki peforma dari metode yang sudah baik menjadi lebih baik.
Hasil evaluasi dari algoritma segmentasi judul yang disampaikan oleh Lie,
dkk (2001) adalah 44,4 % dengan menerapkan sebuah proses pe-label-an di area-
area yang homogen dari sebuah citra dokumen. Dalam upaya mengajukan analisis
layout yang kompleks, penelitian ini mengusulkankan sebuah algoritma berbasis
komponen dengan pendekatan bottom-up. Penulis melakukan penentuan
homogenitas yang berhubungan dengan jarak, menghasilkan sebuah mekanisme
dinamis pengukuran jarak minimal untuk menentukan penggabungan komponen
secara berurut.
Mitchel dan Yan (2001) mencapai 66,7 % dengan menggunakan sebuah
algoritma yang dirancang untuk mensegmentasi dan mengklasifikasikan dokumen
koran. Sebuah firtur penting dari algoritma ini adalah kemampuan untuk
mendeteksi baris dalam dokumen, termasuk baris-baris yang terhubung dengan
komponen lain. Sebuah pendekatan bottom-up diterapkan untuk mensegmentasi
citra ke dalam sebuah pola, kemudian setiap pola diklasifikasikan ke satu dari tujuh
jenis entitas. Keseluruhan entitas akan terbentuk dari pola-pola yang
terklasifikasikan.
Hadjar, dkk (2001) menyajikan pendeketakannya untuk algoritma
penguraian halaman otomatis. Pendekatan penulis adalah dengan menguraikan citra
koran ke dalam area-area citra antara lain, garis horisontal dan vertikal, teks area
dan area judul.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4
Algoritma segmentasi daerah teks dari Lie, dkk (2001) adalah 40%,
sedangkan Mitchel dan Yan (2001) mencapai 12,9 %, Oleh Hadjar , dkk (2001)
28,8%. Beberapa dari peneliti tidak mengikuti pedoman entitas yang telah tersimpul
di dalam penelitian kontes segmentasi koran (B. Gatos, dkk, 2001), misalnya
Hadjar, dkk (2001) tidak memberikan hasil apapun untuk entitas foto (Photo).
Berdasarkan data yang disajikan pada Newspaper Segmentation Metric (NSM) ,
nilai-nilai untuk semua algoritma segmentasi menunjukkan bahwa algoritma Liu,
dkk (2001) memiliki kelebihan secara keseluruhan.
Chen, dkk (2004) melakukan penelitian yang bertujuan untuk mendeteksi
dan mengenali teks yang terdapat pada citra yang kompleks dan frame-frame video.
Deteksi teks dilakukan dengan melakukan dua langkah pendekatan yang
mengkombinasikan kecepatan dari lokalisasi teks, menerapkan normalisasi ukuran
teks , verifikasi teks dengan machine learning. Metode terbagi menjadi dua bagian
besar pertama, mendeteksi baris teks. Kedua yaitu pengenalan dari teks yang
terdapat di baris.
Penerapan metode machine learning untuk deteksi teks mengalami
kesulitan karena ukuran karakter dan variasi citra grayscale serta beratnya proses
komputasi (Chen, dkk, 2004). Menanggulangi masalah tersebut peneliti merancang
dua langkah skema lokalisasi/verifikasi. Langkah pertama bertujuan secara cepat
melokalisasi kandidat teks, menerapkan normalisasi pada karakter – karakter untuk
mendapatkan ukuran yang unik (Chen, 2004). Kemudian pada tahap kedua adalah
verifikasi, maka disini peneliti akan menerapkan sebuah proses segmentasi dan
verifikasi untuk mendukung kinerja dari algoritma yang saya usulkan.
Pada perkembangan penelitian ini menggunakan praproses Enhanced-
MSER karena dianggap dapat menghapus noise pepper pada citra, kemudian
ditiadakan dan digantikan dengan binerisasi metode Otsu dan penghapusan objek
dengan area tertentu, proses MSER dianggap terlalu rumit. Proses morfologi
digunakan untuk mengatasi karakter menempel, digantikan dengan profil proyeksi
karena hasil dari proses morfologi sulit diprediksi. Konektivitas komponen yang
digunakan adalah 8 ketetanggan, digantikan dengan 4 ketetanggan karena untuk
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5
mengurangi area noise dan karakter-karakter menempel. Metode konektivitas
komponen yang sebelumnya melibatkan perhitungan Eccentricity dihapus karena
dianggap tidak dibutuhkan, cukup dengan Bounding Box, Area dan Centroid.
Pada penelitian sebelumnya Chen, dkk (2004) melakukan sebuah lokalisasi
kandidat teks, yang memenuhi syarat seperti; yang memiliki area 75 sampai 9000
piksel, aspek rasio lebih dari 1,2, tinggi dari kandidat diantara 8 hingg 35 piksel.
Berdasarkan data yang digunakan untuk penelitian ini, disimpulkan syarat baru
sebagai berikut; karakter memiliki rasio 0,1 sampai 1,8 , tinggi 1,5 kali tinggi rerata
karakter sampai 7 kali tinggi rerata karakter, rasio hitam putih <= 1,7. Syarat
didapat dari eksperimen yang dilakukan sesuai data training penelitian. Syarat ini
juga dipengaruhi oleh penelitian dari Mitchel dan Yan yang menyumbangkan rasio
hitam putih untuk menseleksi kandidat karakter baik pada dokumen-dokumen
tertulis.
Penelitian ini mengusulkan sebuah metode segmentasi untuk memisahkan
entitas-entitas koran, seperti judul dan kolom teks. Kompas Gramedia memiliki
proses penyuntingan yang terkomputerisasi setelah tahun 1990. Arsip untuk koran
Kompas sebelum periode 1990 masih belum terkomputerisasi dan menggunakan
mesin tik sebagai sarana penyuntingan koran. Data penelitian yang digunakan
secara spesifik adalah citra koran harian Kompas periode 1990 dan periode 1980.
Peneliti menerapkan metode segmentasi judul dari penelitian B. Gatos
(2001), Chen (2004) dan Mitchel dan Yan (2001). B.Gatos menyumbangkan sebuah
kesimpulan bahwa tinggi karakter pada judul tingginya lebih besar dari pada tinggi
karakter dominan, Chen (2004) menyumbangkan bahwa rasio kandidat karakter
mendekati 1 serta Mitchel dan Yan menyumbangkan penggunaan rasio hitam dan
putih untuk mengenali kandidat karakter.
Metode profil proyeksi digunakan pada proses segmentasi judul untuk
mendukung metode konektivitas komponen dalam menyeleksi karakter-karakter
yang dibutuhkan. Segmentasi kolom teks menerapkan proses penghapusan area
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
6
dibawah 30 piksel dan profil proyeksi. Profil proyeksi dinilai efektif dan sederhana
dalam memilih piksel-piksel yang dibutuhkan.
1.2. Rumusan Masalah
Berdasarkan latar belakang di atas, rumusan masalah dalam penelitian ini
adalah berapa presentase keakuratan segmentasi judul dan kolom teks pada citra
artikel koran tua Kompas?
1.3. Tujuan
Tujuan dari penelitian ini adalah untuk mensegmentasi judul dan kolom
teks pada citra koran tua Kompas.
1.4. Batasan Masalah
Pada penelitian ini, batasan-batasan yang digunakan adalah sebagai
berikut:
1. Citra artikel yang menjadi bahan penelitian adalah citra artikel sebelum
tahun 1990 (belum terkomputerisasi).
2. Citra artikel yang digunakan sebagai penelitian adalah citra yang berformat
kompresi bitmap.
3. Segmentasi yang akan dilakukan pada setiap citra adalah citra yang
mengandung satu artikel.
4. Citra artikel yang digunakan adalah hasil pemotongan manual (image
cropping) dari citra halaman koran.
5. Proses segmentasi memfokuskan pada entitas judul dan kolom teks.
6. Entitas Foto, grafis, garis horisontal, garis vertikal, judul terbalik tidak
menjadi output penelitian dan dibiarkan (tidak dihapus).
1.5. Manfaat
Pihak Kompas Gramedia dapat menggunakan sistem ini sebagai sarana
segmentasi sebelum memasuki proses pengenalan karakter.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
7
1.6. Metodologi Penelitian
1. Studi Literatur
Studi literatur dilakukan untuk mendapatkan informasi terkait penelitian
yang dilakukan. Studi literatur dilakukan dengan cara mempelajari buku
referensi, artikel dan jurnal yang berkaitan dengan pengenalan teks pada
citra.
2. Perancangan Sistem
Pada penelitian ini tahap perancangan sistem dilakukan untuk membuat
rancangan umum dalam pembuatan pengenalan teks.
3. Pengumpulan Data
Pada tahap ini dilakukan pengumpulan data yang akan digunakan dalam
penelitian.
4. Pembuatan Sistem
Berdasarkan hasil perancangan sistem, maka tahap selanjutnya adalah
membuat sistem sesuai dengan rangan dan kebutuhan.
5. Pengujian dan Analisis
Pengujian dilakukan untuk mengetahui kinerja sistem yang telah
diimplementasikan. Pengujian dilakukan untuk mengetahui seberapa besar
akurasi dan seberapa cepat kinerja sistem pada saat melakukan pengenalan
teks pada artikel koran tua Kompas. Analisis dilakukan dengan melukan
percobaan dan memahami
6. Pembuatan Laporan
Laporan penelitian dibuat berdasarkan proses dan hasil dari penelitian yang
telah dilakukan.
1.7. Sistematika Penulisan
BAB I: PENDAHULUAN
Dalam bab ini dijelaskan mengenai latar belakang, rumusan masalah, tujuan
penelitian, batasan masalah, manfaat penelitian, metodologi penelitan dan
sistematika penulisan pada penelitian ini.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
8
BAB II: LANDASAN TEORI
Dalam bab ini dijelaskan mengenai teori-teori yang digunakan untuk
mendukung penelitian ini
BAB III: ANALISA DAN DESAIN PENELITIAN
Pada bab ini menjelaskan tentang gambaran umum penelitian, desian
penelitian, analisa kebutuhan proses, implementasi perancangan, penjelasan
proses, perancangan antar muka (user interface), serta spesifikasi hardware dan
software yang digunakan dalam melakukan implementasi
BAB IV: HASIL DAN PEMBAHASAN
Bab ini membahas hasil dan pembahasan yang didapat dari penelitian serta
percobaan yang telah dilakukan dalam penelitian ini.
BAB V: KESIMPULAN DAN SARAN
Bab ini berisi kesimpulan dan saran dari hasil analisa, implementasi dan
pengujian sistem.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
9
BAB II
LANDASAN TEORI
2.1. Koran
Koran adalah salah satu media cetak yang menjadi alat komunikasi utama
masyarakat modern. Sebagai salah satu media komunikasi tertua, koran atau
dikenal dengan istilah surat kabar, adalah media yang menyajikan berita dan
informasi terkini dalam bentuk cetak (Kurnianto, 2013).
Jenis koran umum biasanya diterbitkan setiap hari, kecuali pada hari-hari
libur. Koran sore juga umum di beberapa negara. Selain itu, juga terdapat koran
mingguan yang biasanya lebih kecil dan kurang prestisius dibandingkan dengan
koran harian dan isinya biasanya lebih bersifat hiburan.
2.1.1. Perbedaan Layouting Koran Kompas
Dalam konteks desain grafis, layout adalah sebuah metode dalam
menyusun atau mengorganisasi keseluruhan elemen visual dalam desain
yang terdiri atas grafis (graphic), tipografi (tipography), dan ruang (space)
dalam satu kesatuan desain yang mendukung fungsi media sebagai alat
komunikasi (Kurnianto , 2013). Layout koran Kompas dalam peridode
tahun terbit sebelum 1990, memiliki jumlah kolom artikel pada yang lebih
sedikit. Proses pengetikan huruf menggunakan mesin tik. Citra koran
terdapat banyak bleeding ink, menandakan proses pengetikan karakter yang
manual menggunakan mesin tik. Noda-noda bintik hitam juga dihasilkan
oleh proses pengetikan bolak-balik dalam satu lembar kertas.
Pada koran tua terlihat garis pemisah antar artikel (garis horisontal
dan vertikal) yang lebih tebal. Ruang (space) yang diberikan untuk jarak
antar entitas lebih sempit dibandingkan pada layout koran Kompas terkini.
Font-style yang digunakan dalam koran terdahulu memiliki jenis yang sama
(homogen), misalnya font-style Times New Roman menjadi keseluruhan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
10
font-style yang digunakan dalam koran. Berbeda dengan koran Kompas
terbitan terkini yang menyajikan banyak font-style, misalnya pada judul
artikel dan sub-judul artikel memiliki font-style yang berbeda.
Dari segi warna, koran Kompas terdahulu tidak mempunyai variasi
warna yang banyak, dominannya adalah warna hitam putih saja. Sedangkan
koran Kompas saat ini memiliki variasi warna yang heterogen, terlihat dari
foto, warna teks dan banner iklan yang memiliki bermacam variasi warna.
2.1.2. Entitas-Entitas dalam Koran
Berdasarkan hasil penelusuran dari B. Gatos, dkk (2001) telah
dipilih beberapa entitas yang sering muncul dalam halaman koran dari
sebuah periode awal dari abad sebelumnya hingga saat ini. Dipilih tujuh
entitas yang dimiliki oleh daerah teks, garis dan gambar:
1. Kolom Teks: Sebuah area yang terdiri dari huruf-huruf yang
tingginya mendekati sama atau kurang dari tinggi huruf dominan
dalam halaman koran. Daerah teks tidak terpotong selama; a) jarak
vertikal antara baris teks secara berturut-turut tetap sama, dan b).
Text style dan layout tetap sama. (lihat Gambar 2.1.)
Gambar 2.1. Contoh entitas kolom teks.
(Sumber: Kompas Gramedia(2018))
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
11
2. Judul: Sebuah daerah teks yang terdiri dari huruf-huruf yang
tingginya lebih besar dari tinggi huruf dominan dalam halaman
koran. Daerah judul tidak terpotong selama; a). Jarak vertikal antara
baris judul secara berturut-turut tetap sama, dan b). Text style dan
layout tetap sama. (lihat Gambar 2.2.)
Gambar 2.2. Contoh entitas judul.
(Sumber: Kompas Gramedia(2018))
3. Inverse Title (judul terbalik): Teks atau judul dalam warna latar
hitam. (lihat Gambar 2.3.)
Gambar 2.3. Contoh entitas judul terbalik.
(Sumber: Kompas Gramedia(2018))
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
12
4. Garis Horisontal: sebuah garis horisontal yang tidak patah atau
yang patah.
5. Garis Vertikal: Sebuah garis vertikal yang tidak patah atau yang
patah.
6. Foto: Sebuah foto digital. (lihat Gambar 2.4.)
Gambar 2.4. Contoh entitas foto.
(Sumber: Kompas Gramedia(2018))
7. Gambar / grafis: Sebuah gambar atau grafis. (lihat Gambar 2.5.)
Gambar 2.5. Contoh entitas grafis.
(Sumber: Kompas Gramedia(2018))
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
13
2.2. Pengertian Citra
Citra merupakan gambar berdimensi dua sebagai representasi dari suatu
objek. Sebuah citra diartikan sebagai suatu fungsi kontinyu dalam dua dimensi dari
intensitas cahaya (x,y) (Widiarti dan Himamunanto, 2013). Dimana x dan y
menyatakan suatu koordinat pada setiap titik (x,y). Pada setiap titik (x,y) memiliki
suatu nilai intensitas cahaya atau kecerahan yang menentukan derajat keabuan dari
setiap titik dan biasa dikenal sebagai nilai (f). Setiap titik pada citra dapat
dinyatakan dengan:
0< ƒ (x,y) < ∞
● ƒ adalah intensitas cahaya pada koordinat (x,y)
● (x,y) adalah perpotongan garis antara x dan y
Citra digital merupakan citra kontinyu yang diubah ke dalam bentuk diskret.
Citra digital direpresentasikan dalam bentuk matriks yang terdiri dari baris dan
kolom, setiap perpotongan baris dan kolom tersebut memiliki nilai intensitas
kecerahan. Titik dari setiap matriks tersebut dinamakan dengan piksel. Citra digital
merupakan kumpulan dari piksel dengan jumlah tertentu.
Terdapat beberapa jenis citra antara lain citra warna, citra grayscale
(keabuan), dan citra hitam putih (biner). Pada penelitian ini adalah citra warna, citra
keabuan (grayscale) dan citra hitam putih (biner) akan sering digunakan. Berikut
penjelasan dari masing-masing jenis citra:
2.2.1. Citra Grayscale
Citra grayscale dikenal juga sebagai citra berskala keabuan. Citra
jenis ini menangani gradasi hitam dan putih yang menghasilkan efek
keabuan. Skala pada citra grayscale bergantung pada jumlah bit yang
digunakan. Citra berskala 8 bit dinyatakan dengan skala intensitas 0
sampai 255. Nilai 0 menyatakan hitam dan 255 menyatakan putih. Untuk
nilai diantara 0 sampai 255 memiliki warna keabuan (Kadir dkk, 2013).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
14
Pada citra koran Kompas periode terdahulu efek keabuan tidak
terlalu terlihat , karena pada nyatanya intensitas warnanya hanya berada di
sekitar warna hitam dan putih.
Gambar 2.8. Contoh citra grayscale.
(Sumber: Kompas Gramedia(2018))
Pada gambar 2.8. gradasi antara warna hitam ke putih tidak terlalu
terlihat. Maka sebuah penjelasan pada gambar matriks di sebelah kanan
gambar 2.8. menyampaikan bahwa, nilai 0 dalam matriks (kolom ke 5,
baris ke 4) tersebut merepresentasikan warna hitam pada bagian atas huruf
‘D’. Di sekitar nilai 0 terdapat nilai-nilai piksel lain yang memiliki ragam
nilai dengan jangakauan 0<CG(x,y) ≤255. Artinya gambar 2.8. adalah
sebuah citra dengan skala keabuan (grayscale). Notasi CG mendefinisikan
sebuah citra grayscale
2.2.2. Citra Biner Hitam dan Putih
Citra hitam dan putih juga dikenal sebagai citra biner. Maka citra
biner adalah citra yang setiap pikselnya hanya bernilai 0 atau 1. Nilai 0
menyatakan warna hitam dan 1 menyatakan putih. Citra biner pada
penelitian ini digunakan untuk mendeteksi objek-objek karakter.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
15
Gambar 2.9. Contoh citra artikel biner.
(Sumber: Kompas Gramedia (2018))
2.3. Pengolahan Citra
Pengolahan Citra bertujuan memperbaiki kualitas citra agar mudah
diinterpretasi oleh manusia atau mesin. Teknik-teknik pengolahan citra
mentransformasikan citra menjadi citra lain (Kadir dkk, 2013). Jadi, masukannya
adalah citra dan keluarannya juga citra, namun citra keluaran mempunyai kualitas
lebih baik daripada citra masukan. Termasuk ke dalam bidang ini juga adalah
pemantapan citra (image compression).
2.4. Pengenalan Pola
Menurut Jain (2000) pengenalan pola mengelompokkan data numerik dan
simbolik (termasuk citra) secara otomatis oleh mesin (dalam hal ini komputer).
Tujuan pengelompokan adalah untuk mengenali suatu objek di dalam citra.
Manusia bisa mengenali objek yang dilihatnya karena otak manusia telah belajar
mengklasifikasi objek-objek di dalam sehingga mampu membedakan suatu objek
dengan objek lainnya. Kemampuan sistem visual manusia inilah yang dicoba
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
16
ditiru oleh mesin. Komputer menerima masukan berupa citra objek yang akan
diidentifikasi, memproses citra tersebut, dan memberikan keluaran berupa
deskripsi objek di dalam citra (Kadir dkk, 2013).
2.5. Binerisasi
Suatu citra abu-abu diubah menjadi citra biner (putih dan hitam) dengan
cara memilih suatu level keabuan T dalam citra asli, dan kemudian mengubah
setiap piksel hitam atau putih tergantung apakah nilai keabuan lebih besar atau
kurang dari T :
𝑆𝑢𝑎𝑡𝑢 𝑝𝑖𝑘𝑠𝑒𝑙 𝑚𝑒𝑛𝑗𝑎𝑑𝑖 {𝑝𝑢𝑡𝑖ℎ 𝑗𝑖𝑘𝑎 𝑙𝑒𝑣𝑒𝑙 𝑘𝑒𝑎𝑏𝑢𝑎𝑛 > 𝑇 ℎ𝑖𝑡𝑎𝑚 𝑗𝑖𝑘𝑎 𝑙𝑒𝑣𝑒𝑙 𝑘𝑒𝑎𝑏𝑢𝑎𝑛 ≤ T
Pengambang-batasan (thresholding) merupakan hal yang vital dalam
segmentasi citra digital, dimana diinginkan untuk memilah objek-objek karakter
dari latar belakang citra.
Binerisasi menjadi cara segmentasi antara karakter teks dari koran dan
latarnya. Nilai putih akan mewakili konten dari koran, sedangkan hitam akan
menjadi nilai latar.
Gambar 2.10. Contoh penerapan proses binerisasi.
(Sumber: Kompas Gramedia (2018))
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
17
2.5.1. Binerisasi Citra dengan Metode Otsu
Metode Otsu dipublikasikan oleh Nobuyuki Otsu pada tahun 1979.
Metode ini menentukan nilai ambang dengan cara membedakan dua
kelompok, yaitu objek luar dan latar belakang, yang memiliki bagian
saling bertumpukan, berdasarkan histogram (Kadir dkk, 2013)
Prinsip metode Otsu dijelaskan berikut ini. Pertama-tama,
probabilitas nilai intensitas i dalam histogram dihitung melalui:
𝑝(𝑖) = 𝑛𝑖
𝑁 , 𝑝(𝑖) ≥ 0 , ∑
256
1
𝑝(𝑖) = 1
dengan ni menyatakan jumlah piksel berintensitas i dan N
menyatakan jumlah semua piksel dalam citra. Jika histogram dibagi
menjadi dua kelas yaitu objek dan latar belakang.
2.6. Segmentasi pada Citra
Segmentasi citra merupakan proses yang ditujukan untuk mendapatkan
objek-objek yang terkandung di dalam citra atau membagi citra ke dalam beberapa
daerah dengan setiap objek atau daerah memiliki kemiripan atribut. Pada citra yang
mengandung hanya satu objek, objek dibedakan dari latar belakangnya.
Chen, dkk (2002) membedakan jenis pendekatan segmentasi teks ke dalam:
1. Pendekatan bottom-up, memisahkan citra kedalam daerah-daerah
kemudian mengelompok derah ‘karakter’ ke dalam kata-kata. Maka
tingkat pengenalan bergantung pada algoritma segmentasi dan
kompleksitas dari konten di dalam citra.
2. Pendekatan top-down, mendeteksi area teks dalam citra dan
memisahkan tiap-tiap gambar menjadi teks dan latar. Pendekatan ini
dapat memproses citra yang lebih kompleks dari pada pendekatan
bottom-up tapi kesulitan masih sering ditemui pada saat deteksi dan
segmentasi/proses pengenalan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
18
Maka dalam penelitian ini penulis memilih untuk menggunnakan
pendekatan bottom-up, karena didalam citra koran terdapat konten-konten yang
kompleks. Berikut langkah-langkah yang diusulkan 1) memisahkan mana yang
objek dan latar (binerisasi). 2) memisahkan objek-objek yang bukan dianggap
kandidat teks (noise, Entitas gambar, garis, judul terbalik). 3) memisahkan daerah
judul dan kolom-kolom teks.
2.7. Profil Proyeksi
Proyeksi citra adalah bentuk satu dimensi isi citra yang dihitung
berdasakarkan sumbu koordinat. Definisinnya sebagai berikut:
𝑃ℎ𝑜𝑟(𝑏) = ∑ ∑ 𝐼 (𝑏, 𝑘𝑗)
𝑁
𝑗=𝑖
𝑃𝑣𝑒𝑟(𝑘) = ∑ ∑ 𝐼 (𝑏𝑘, 𝑘)
𝑀
𝑗=𝑖
Dalam hal ini, M adalah tinggi citra dan N adalah lebar citra. Definisi di atas
menyatakan bahwa proyeksi horisontal Phor(b) adalah jumlah nilai piksel pada baris
b citra, sedangkan Pver(k) adalah nilai piksel pada kolom k citra (Kadir dkk 2013).
Pada penelitian ini profil proyeksi berguna untuk mencari baris-baris teks
dan batas judul pada citra artikel koran. Proses proyeksi dalam sebuah metode bisa
beragam misalnya proyeksi vertikal dan proyeksi horisontal. Cara yang digunakan
adalah pengambang-batasan pada setiap nilai proyeksinya. Pengambang-batasan
atau thresholding adalah sebuah cara dalam proyeksi untuk memilah nilai proyeksi
yang ingin disegmentasi dan nilai yang dibuang. Pengambang-batasan juga sebuah
simplifikasi dari citra karena mengubah matriks menjadi sebuah vektor dan nilainya
berkisar antara 0 hingga 1.
2.8. Konektivitas Komponen (Connected Components)
Pada penelitian ini metode konektivitas komponen menggunakan fungsi
bwconncomp yang merupakan fungsi pelabelan pada citra biner dari Matlab. Proses
pelabelan menggunakan konektivitas 4 ketetanggan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
19
Citra biner sering kali memperlihatkan sejumlah objek. Pelabelan terhadap
objek sesungguhnya berupa tindakan untuk memberikan label berbeda (berupa
nomor) pada setiap objek. Pemrosesannya dapat dilaksanakan pada citra biner
(Kadir dkk, 2013). Ketentuan yang dilakukan sebagai berikut:
B(y, x) = {
0 𝑝𝑖𝑘𝑠𝑒𝑙 𝑙𝑎𝑡𝑎𝑟 𝑏𝑒𝑙𝑎𝑘𝑎𝑛𝑔1 𝑝𝑖𝑘𝑠𝑒𝑙 𝑙𝑎𝑡𝑎𝑟 𝑑𝑒𝑝𝑎𝑛2,3, … 𝑙𝑎𝑏𝑒𝑙 𝑜𝑏𝑗𝑒𝑘
Proses pelabelan citra biner akan memisahkan objek-objek yang terdapat
dalam citra biner. Konektivitas dari objek-objek dalam citra biner dapat diuraikan
menjadi 2 jenis nilai tetangga, yaitu 4 dan 8 tetangga yang terhubung. Berikut
gambaran implementasi konektivitas komponen pada gambar 2.11.
Gambar 2.11. Contoh implementasi penerapan labeling pada citra.
(Sumber: Kompas Gramedia (2018))
Proses perhitungan properti dari setiap objek menggunakan fungsi dari
Matlab yaitu regionprops. Maka hasil dari fungsi tersebut akan didapatkan properti-
properti dari objek citra, seperti:
2.8.1. Pusat Massa (Centorid)
Pusat massa (sentroid) atau Centroid, secara umum ditemukan
dengan menggunakan nilai rerata koordinat setiap piksel yang menyusun
objek (Kadir dkk, 2013).
Sentroid akan membantu metode profil proyeksi untuk
pensegmentasian baris teks. Dari pada melakukan pemotongan citra
berdasarkan titik lokal minima yang ditemukan, titik sentroid yang
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
20
terdeteksi di atas poin minima ke i akan didaftarkan menjadi objek citra
baris ke i. Gagasan ini diambil untuk mengatasi titik dari huruf ‘i’ yang
semisalnya hilang pada saat proses penghapusan noise.
Gambar 2.12. Contoh penerapan sentroid.
(Sumber: Kompas Gramedia (2018))
Pada gambar 2.12 adalah representasi letak sentroid pada masing-
masing objek yang terlabel. Ikon * menjelaskan letak-letak sentroid untuk
masing-masing objek.
2.8.2. Luas Objek (Area)
Luas objek adalah jumlah piksel yang terdapat pada objek yang
bersangkutan (Kadir dkk, 2013). Dalam metode yang diusulkan luas objek
menjadi sebuah firtur untuk segmentasi objek-objek citra yang dianggap
tidak masuk kedalam entitas judul atau baris.
2.8.3. Kotak Pembatas (Bounding Box)
Kotak pembatas (Bounding Box) adalah kotak terkecil yang dapat
melingkupi sebuah objek (Kadir dkk, 2013). Kotak pembatas pada
umumanya berisi empat angka yang merepresentasikan lokasi dan ukuran
dari sebuah objek, bilangan pertama adalah koordinat x, kedua koordinat
y, ketiga adalah lebar (width) objek citra dari koordinat x, dan keempat
adalah panjang (length) objek citra dari koordinat y.
Dalam proses segmentasi rentang panjang (length) dari suatu objek
akan menjadi salah satu ciri yang memisahkan karakter-karakter yang
masuk ke dalam entitas judul atau teks. Length akan diartikan sebagai
tinggi huruf (character height).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
21
Gambar 2.13. Contoh pengaplikasian bounding box.
(Sumber: Kompas Gramedia (2018))
Gambar 2.13 Bounding Box melingkupi huruf-huruf yang terlabel.
Kotak pembatas tersebut direpresentasikan dengan kotak berwarna merah
yang melingkupi tiap objek (huruf).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
22
BAB 3
ANALISA DAN DESAIN PENELITIAN
Pada bab Analisa dan Desain Penelitian menjelaskan tentang metode yang
digunakan dalam penelitian Segmentasi Judul dan Baris Teks untuk Artikel Koran
Menggunakan Metode Proyeksi Profil dan Konektivitas Komponen. Bab ini
berisikan gambaran umum penelitian, analisis kebutuhan proses, implementasi
perancangan, penjelasan proses, perancangan antar muka (interface), serta
spesifikasi hardware dan sofware yang digunakan dalam melakukan implementasi.
3.1. Gambaran Umum
Perancangan sistem Segmentasi Judul dan Kolom Teks untuk Artikel Koran
Menggunakan Metode Proyeksi Profil dan Konektivitas Komponen bertujuan
untuk membuat alat uji pengenalan pola pada citra artikel koran. Gambaran umum
sistem yang akan dibangun ditunjukkan pada diagram blok pada Gambar 3.1.
Gambar 3.1. Diagram Blok Segmentasi Judul dan Kolom Teks untuk Artikel
Koran Menggunakan Metode Proyeksi Profil dan Konektivitas Komponen.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
23
Input dari sistem merupakan citra artikel koran. Sistem melakukan proses
segmentasi pada input yang dimasukan dan sistem menghasilkan keluaran berupa
citra hasil segmentasi yang terdiri atas judul dan kolom teks.
3.2. Desain Penelitian
Terdapat 3 tahap yang dilakukan pada penelitian ini yaitu tahap studi
literatur, tahap pengumpulan data dan tahap pengembangan alat uji. Berikut adalah
penjelasan untuk masing-masing tahap:
3.2.1. Studi Literatur
Studi literatur dilakukan untuk mendapatkan informasi terkait
penelitian yang dilakukan. Studi Literatur dilakukan dengan cara mempelajari
buku refrensi dan jurnal-jurnal yang berkaitan dengan segmentasi citra
menggunakan metode profil proyeksi dan konektivitas komponen.
3.2.2. Data Penelitian
Data penelitian adalah citra koran yang diperoleh dari Kompas
Gramedia. Citra koran yang dipilih adalah citra koran yang belum
terkomputerisasi, artinya dalam proses penyuntingannya masih manual. Citra
bahan penelitian adalah koran yang diketik dengan mesin tik.
Pada penelitian ini, data yang disiapkan untuk alat uji dibuat melalui
beberapa tahap yaitu tahap pengumpulan citra koran, pemotongan dan impor
citra halaman koran menjadi citra artikel koran dengan Adobe Photoshop
CS3, dan pelabelan citra. Penjelasan untuk masing-masing tahap yaitu:
3.2.2.1. Pengumpulan Citra Koran
Pada proses pengujianmenggunakan data pengujian berupa citra
artikel koran harian Kompas. Pertama adalah melakukan pelayangan
surat permohonan surat survei tugas akhir ke Kompas Gramedia Jakarta,
kepada Agus Ramdhani. Citra yang diterima berasal dari pengarsipan
mandiri Kompas Gramedia yang berformatkan PDF.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
24
3.2.2.2. Pemotongan dan Impor Citra Halaman Koran
Citra yang diterima untuk alat uji pada awalnya masih berformat
PDF, citra tersebut memerlukan pemotongan (cropping) manual supaya
citra dapat diolah setiap artikelnya. Format citra artikel koran harian
setelah dilakukan proses pemotongan adalah bitmap (.bmp). Supaya
memenuhi spesifikasi input sistem citra halaman koran harus diubah
format kompresinya ke bitmap melalui proses impor dan pemotongan
digital artikel-artikel yang terkandung di masing-masing halamannya
dengan menggunakan software Adobe Photoshop CS3. Berikut
pengaturan yang digunakan dalam proses impor:
Gambar 3.2. Pengaturan perubahan format dari PDF ke Bitmap.
Melihat gambar 3.2 maka ada beberapa atribut yang bisa
diambil untuk menjadi batasan citra penelitian. Berikut atribut
pengaturan impor:
i. Citra memiliki DPI sebesar 300 piksel/inch
ii. Citra adalah ukuran asli / tidak di resize
iii. Citra memiliki intensitas warna Grayscale
iv. Citra memiliki Bit Depth 8 bit
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
25
Kemudian setelah citra diimpor ke format bitmap, maka akan
dilakukan proses pemotongan manual dengan piranti lunak Adobe
Photoshop CS3. Proses pemotongan akan menghasilkan citra artikel
koran. Ada pula ketentuan dalam pemotongan manual citra, yaitu
sebagai berikut:
i. Citra tidak mengalami distorsi geometri (aspek rasio sama
dengan bentuk asli).
ii. Pada setiap citra masukan akan mengandung 1 artikel
iii. Entitas-entitas lain yang termasuk dalam sebuah kesatuan
artikel tidak akan dipotong
iv. Citra artikel akan disimpan kedalam kompresi yang sama
(bitmap)
v. Entitas diluar artikel akan dibuang, seperti judul dan
header koran
Ketentuan diatas akan menjadi batasan untuk peneliti
melakukan pemotongan citra secara manual. Pengimplementasi
ketentuan-ketentuan diatas akan diterapkan untuk memilih citra input
sistem. Berikut gambaran proses pemotongan citra halaman koran
menjadi citra artikel koran:
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
26
Gambar 3.3. Contoh lokalisasi area artikel pada halaman koran.
(Sumber: Kompas Gramedia(2018))
Proses pemotongan citra dilakukan dengan memecah-mecah
citra halaman koran menjadi citra-citra artikel. Citra artikel-artikel akan
disimpan dalam format kompresinya bitmap. Maka, dalam satu
halaman koran bisa didapatkan 10 hingga 20 citra artikel tergantung
dari jumlah artikel pada halaman tersebut.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
27
3.2.2.3. Penamaan File Citra Koran
Citra hasil proses pemotongan dan perubahan format kompresi
akan disimpan dan diberi nama yang berbeda. Template nama file adalah
[kode citra halaman koran] – [halaman koran] – [nomor artikel]. Contoh
penerapan template nama file pada setiap citra:
Gambar 3.4. Contoh penamaan file gambar artikel koran.
Pada Gambar 3.4. dijelaskan terdapat 3 bagian dari template
nama file, pada tiap bagian template akan dipisahkan dengan tanda
minus. Bagian pertama adalah kode citra koran, kode ini adalah kode
bawaan file yang diberikan oleh pihak Kompas Gramedia. Bagian kedua
halaman koran, bagian template ini juga masih mengikuti nama file awal.
Bagian ketiga adalah nomor artikel, memiliki 2 digit karena jumlah
artikel yang terkandung dalam sebuah halaman koran tidak lebih dari 100
buah. Penomor artikel diberikan penulis berawal dari posisi artikel paling
awal/atas dari halaman koran, dan posisi artikel yang terakhir/bawah
dalam halaman koran memiliki nomor artikel paling besar.
3.2.2.4. Format Kompresi Citra
Model warna citra halaman koran ditentukan yaitu citra model
warna Grayscale. Model warna tersebut dipilih karena model warna
tersebut adalah model warna bawaan data penelitian.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
28
3.2.3. Perancangan Alat uji
Pada penelitian ini metodologi yang digunakan adalah model
pengembagan alat uji waterfall. Model pengembangan ini dilakukan secara
sistematis dari satu tahap ke tahap lain. Berikut adalah beberapa tahapan yang
digunakan:
3.2.3.1. Analisa Kebutuhan Pengguna (User Requirement)
Pada tahap ini dilakukan analisis terhadap kebutuhan
pengguna yang bisa diselesaikan dengan alat uji. Pada penelitian ini
user harus mengetahui output dari citra yang tersegmentasi dan
menampilkan citra input sebagai pembanding output.
3.2.3.2. Analisa Kebutuhan Sistem (System Requirement)
Tahap ini mencari kebutuhan dari keseluruhan alat uji yang
akan diaplikasikan ke dalam bentuk perangkat lunak. Dalam
membangun perangkat lunak dibutuhkan hubungan antara software
dan hardware yang akan digunakan.
3.2.3.3. Analisa Spesifikasi Kebutuhan Perangkat Lunak (Software
Requirement Specification)
Tahap ini dilakukan berbagai macam pengumpulan data yang
dibutuhkan oleh alat uji yang akan dibuat. Data dapat berupa
informasi, fungsi yang dibutuhkan, dan interface sesuai dengan
kebutuhan.
3.2.3.4. Desain (Design)
Tahap ini dilakukan proses dalam membuat rancangan alat uji
berdasarkan informasi dari tahap-tahap sebelumnya. Hasil dari tahap
ini dapat berupa struktur data, arsitektur perangkat lunak, representasi
interface, dan detil algoritma secara prosedural.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
29
Dua puluh citra artikel dipilih menjadi data training untuk
membuat sebuah sistem yang sesuai dengan tujuan penelitian.
Pemilihan data training dilakukan berdasarkan kasus citra, relasi citra
dengan algoritma dan efisiensi algortima. Jumlah data training telah
ditentukan pada awal dari desain sistem. Dari setiap kasus dan metode
citra training tidak semuanya digunakan untuk melatih algoritma.
Citra yang dipilih sebagai data training pada setiap kasus bisa
berbeda-beda. Data training untuk suatu kasus atau metode tertentu
adalah citra yang dianggap efektif untuk menyelesaikan suatu metode
atau kasus.
3.2.3.5. Penulisan Kode (Coding)
Penulisan kode adalah tahap dimana perancangan yang telah
dibuat pada tahap desain diterjemahkan ke dalam bahasa mesin pada
komputer. Tahap ini menghasilkan alat uji dalam bentuk perangkat
lunak yang dibuat berdasarkan rancangan yang telah ada.
3.2.3.6. Pengujian(Testing)
Tahap pengujianakan dilakukan pengujicobaan pada
perangkat lunak, tujuanya untuk mengetahui apakah perangkat lunak
tersebut sudah sesuai dengan rancangan dan kebutuhan pengguna.
Sistem yang telah dirancang dengan data training akan diuji dengan
data testing.
3.3. Analisa Kebutuhan Proses
Terdapat 2 proses utama dalam penelitian ini, pertama adalah segmentasi
judul, kedua segmentasi kolom teks. Berikut diagram proses:
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
30
Gambar 3.5. Diagram Proses segmentasi judul dan kolom teks untuk artikel koran
kompas menggunakan profil proyeksi dan konektivitas komponen.
Gambar 3.5. menjelaskan urutan proses-proses sistem melakukan
segmentasi citra artikel. Proses pertama adalah baca input citra artikel,
preprocessing citra input, segmentasi judul, segmentasi kolom-kolom teks.
3.4. Implementasi Perancangan
3.4.1. Diagram Konteks (Context Diagram)
Dari hasil perancangan sistem maka dipat disimpulkan sebuah sistem yang
memiliki diagram konteks seperti dibawah ini:
Gambar 3.6. Diagram Konteks.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
31
Diagram Konteks atau sering disebut data flow diagram level 0. Diagram
ini menjelaskan ruang lingkup dari alat uji. Terdapat satu proses besar pada diagram
konteks yaitu Segmentasi Judul dan Kolom Teks Menggunakan Metode Proyeksi
Profil dan Konektivitas Komponen. Diagram di atas terdapat juga User (pengguna
sistem) sebagai external entity, user memasukan input citra artikel. Alat uji
melakukan segmentasi judul dan baris teks menggunakan metode proyeksi profil
dan konektivitas komponen dan menghasilkan output berupa citra judul dan kolom
teks.
3.4.2. Data Flow Diagram Level 1
Gambar 3.7. Data Flow Diagram level 1.
Pada gambar 3.4.2. diagram diatas merupakan pemecahan dari diagram
konteks. Terdapat user sebagai external entity dan Segmentasi artikel.
Pertama input citra akan dibaca oleh sistem pada proses membaca
artikel. Kemudian preprosesing akan mengubah citra input menjadi citra biner.
Proses segmentasi judul akan mengambil sekaligus memisah judul dan kolom
teks. Terakhir user akan dilihatkan judul artikel dan kolom-kolom teks hasil
segementasi secara terpisah.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
32
3.5. Penjelasan Proses dan Algoritma
3.5.1. Preprocessing
Preprocessing adalah tahap atau proses yang dilakukan sebelum data
citra disegmentasi. Dalam preprocessing yang dilakukan adalah binerisasi
dari citra koran grayscale menggunakan fungsi im2bw. Proses binerisasi
menggunakan fungsi bawaan Matlab yang mengimplementasikan metode
Otsu dengan parameter awal (default parameter).
3.5.2. Segmentasi Judul
Proses segmentasi judul adalah proses pemisahan entitas judul
dengan entitas selain judul. Segmentasi judul menggunakan 2 metode,
metode konektivitas komponen dan profil proyeksi. Keluaran proses ini
adalah sebuah citra koran yang hanya memiliki entitas judul.
Berikut adalah pseudocode untuk menjelaskan algoritma
segmentasi dengan profil proyeksi dan konektivitas komponen:
• Seleksi objek dengan konektivitas komponen
1. Hitung konektivitas komponen menggunakan 4 tetangga
menggunakan bwconncomp
2. Hitung properti; Bounding Box dan Area dari konektivitas
komponen menggunakan regionprops
3. Hitung rerata tinggi karakter dengan rumus berikut:
1
𝑛(∑ 𝑙𝑖
𝑛
𝑖=1
)
𝑙 = 𝑡𝑖𝑛𝑔𝑔𝑖 𝑜𝑏𝑗𝑒𝑘
𝑛 = 𝑗𝑢𝑚𝑙𝑎ℎ 𝑜𝑏𝑗𝑒𝑘
4. Hitung aspek rasio masing-masing objek dengan rumus berikut:
𝑤𝑖
𝑙𝑖
𝑤 = 𝑙𝑒𝑏𝑎𝑟 𝑜𝑏𝑗𝑒𝑘
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
33
5. Hitung rasio hitam-putih masing-masing objek dengan rumus
berikut
𝑏𝑙𝑎𝑐𝑘𝑖
𝑤ℎ𝑖𝑡𝑒𝑖
𝑏𝑙𝑎𝑐𝑘 = 𝑗𝑢𝑚𝑙𝑎ℎ 𝑝𝑖𝑘𝑠𝑒𝑙 ℎ𝑖𝑡𝑎𝑚
𝑤ℎ𝑖𝑡𝑒 = 𝑗𝑢𝑚𝑙𝑎ℎ 𝑝𝑖𝑘𝑠𝑒𝑙 𝑝𝑢𝑡𝑖ℎ
6. Buat matriks kosong sesuai dengan ukuran citra input
7. Buat variabel ThresholdRasio1
8. Buat variabel ThresholdRasio2
9. Buat variabel ThresholdTinggi1
10. Buat variabel ThresholdTinggi2
11. Buat variabel ThresholdRBW
12. Beri nilai 1 pada obj
a. ThresholdTinggi1* rerata tinggi karakter < Tinggi objek <
ThresholdTinggi2* rerata tinggi karakter
b. ThresholdRasio1< Rasio objek < ThresholdRasio2
13. Hapus objek yang memenuhi syarat sebagai berikut
a. Rasio hitam-putih >= ThresholdRBW atau rasio >=
ThresholdRasio2
14. Simpan citra hasil seleksi objek dan inputkan ke Segemntasi baris
judul
• Segmentasi baris judul
1. Hitung panjang dan lebar citra menggunakan size
2. Proyeksi citra secara vertikal menggunakan sum
3. Buat variabel ThresholdProyeksiBarisJudul1
4. Buat variabel ThresholdProyeksiBarisJudul2
5. Beri nilai 1 pada setiap proyeksi yang bernilai lebih dari
ThresholdProyeksi1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
34
6. Hapus nilai 1 yang berhimpitan kurang dari ThresholdProyeksi2
baris menggunakan bwareafilt
7. Hitung bounding box dari hasil proyeksi, untuk menentukan
jumlah baris
8. Buat mask ke 2 dengan sama dengan ukuran citra input
9. Hitung sentroid dari citra input
10. Buat variabel citra non-judul yang merupakan salinan dari citra
hasil seleksi
11. Lakukan perulangan sejumlah baris
a. Potong citra hasil seleksi tiap barisnya
b. Cari bounding box untuk hasil potong citra hasil
c. Cari objek yang didalam bounding box dengan sentroidnya
menggunakan find
d. Gambar objek yang dari hasil cari, simpan ke mask2
e. Pada citra non-judul hapus objek yang beralamat sesuai dengan
objek yang telah ditemukan
f. Akhiri perulangan
12. Buat variabel citra judul yang merupakan hasil minimal bounding
box dari variabel mask2
13. Selesai
3.5.3. Segmentasi Kolom Teks
Segmentasi kolom teks adalah proses pemisahan daerah kolom-kolom
teks yang berisi baris-baris teks didalamnya. Daerah kolom teks adalah
daerah yang terbentuk dari paragraf-paragraf isi berita yang tersusun menjadi
kolom-kolom teks dalam citra artikel non judul.
Citra non-judul akan dikenai proses segmentasi kolom teks dengan
tujuan memisahkan kolom-kolom teks. Segmentasi kolom teks menggunakan
2 jenis metode profil proyeksi yaitu, proyeksi vertikal dan proyeksi
horisontal.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
35
Berikut adalah pseudocode untuk menjelaskan algoritma segmentasi
kolom teks:
● Proyeksi Vertikal
1. Mulai
2. Input adalah citra koran biner tanpa judul.
3. Buat variabel ThresholdArea
4. Menghapus piksel putih dengan area < ThresholdArea menggunakan
fungsi bwareafilt
5. Buat variabel ThresholdKolomProyeksi1
6. Hitung proyeksi , dengan menjumlahkan citra secara vertikal dengan
batas nilai > ThresholdKolomProyeksi1, menggunakan bwareafilt
7. Buat variabel ThresholdKolomProyeksi2
8. Menghapus vektor proyeksi yang nilainya > dari
ThresholdKolomProyeksi2, menggunakan bwareafilt
9. Menghitung konektivitas komponen dan propertinya (Bounding Box)
menggunakan bwconncomp dan regionprops
10. Menghitung lebar dari masing-masing objek (kolom teks) yang
terdeteksi
11. Buat variabel ThresholdLebarKolom
12. Percabangan, ukuran vektor Lebar > 1
a. Cari objek (kolom teks) yang memiliki lebar paling kecil (kolom
kecil)
b. Cari objek (kolom teks) yang memiliki lebar >
ThresholdLebarKolom kali lebar kolom teks paling kecil
(kolom besar)
c. Percabangan, ditemukan kolom teks yang lebarnya >
ThresholdLebarKolom kali lebar kolom teks paling kecil
i. Perulangan, sesuai jumlah kolom teks yang ditemukan
1. Jika iterasi kolom teks adalah iterasi ke-kolom
teks besar
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
36
a. Proses citra potongan kolom teks besar ke
dalam fungsi Proyeksi Horisontal
2. Jika iterasi kolom teks adalah iterasi ke-kolom
teks kecil
a. Potong citra sesuai Bounding Box-nya,
menggunakan imcrop
ii. Akhiri perulangan
d. Percabangan, tidak ada kolom teks yang lebarnya >
ThresholdLebarKolom kali dari kolom teks kecil
i. Potong citra sesuai Bounding Box-nya, menggunakan
fungsi imcrop
e. Akhiri percabangan
13. jika ukuran vektor lebar <= 1
a. Potong citra sesuai Bounding Box-nya, menggunakan imcrop
14. Akhiri percabangan
15. Selesai.
● Proyeksi Horisontal
1. Mulai
2. Input citra adalah dari keluaran dari fungsi Proyeksi Vertikal
3. Hitung panjang dan lebar citra input menggunakan fungsi size
4. Buat variabel ThresholdKolom1
5. Buat variabel ThresholdKolom2
6. Buat variabel ThresholdKolom3
7. Jumlahkan citra secara horisontal, beri nilai 0 pada nilai proyeksi <
ThresholdKolom1
8. Hapus vektor yang bernilai 1 jika tingginya < ThresholdKolom2
menggunakan fungsi bwareafilt
9. Hapus vektor yang bernilai 0 jika panjangnya < ThresholdKolom3
menggunakan fungsi bwareafilt
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
37
10. Hitung properti Bounding Box dengan konektivitas komponen
menggunakan regionprops
11. Hitung tinggi dari objek (kolom teks)
12. Potong masing-masing objek (kolom teks) sesuai dengan Bounding Box-
nya menggunakan regionprops
13. Buat variabel ThresholdLebarKolom
14. Percabangan, ukuran vektor tinggi > 1
a. Cari objek (kolom teks) yang memiliki tinggi paling kecil
(kolom kecil)
b. Cari objek (kolom teks) yang memiliki tinggi >
ThresholdLebarKolom kali tinggi kolom teks paling kecil
(kolom teks besar)
c. Percabangan, ditemukan kolom teks yang lebarnya >
ThresholdLebarKolom kali lebar kolom teks paling kecil
i. Perulangan, sesuai jumlah kolom teks yang ditemukan
1. Jika iterasi kolom teks adalah iterasi ke-kolom
besar
a. Jumlahkan kolom teks horisontal secara
vertikal
b. Hitung properti Bounding Box dengan
konektivitas komponen menggunakan
regionpros
c. Hitung lebar masing-masing objek kolom
teks
d. Perulangan, sesuai dengan ukuran vektor
lebar
i. Potong citra kolom teks iterasi ke-
kolom teks besar sesuai dengan
Bounding Box-nya
e. Akhiri perulangan
2. Jika iterasi adalah kolom kecil
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
38
a. Simpan citra kolom teks horisontal ke
citra kolom teks vertikal
3. Akhiri percabangan
ii. Akhiri perulangan
d. jika ukuran vektor tinggi <= 1
i. citra kolom teks vertikal adalah citra kolom teks
horisontal
e. akhiri percabangan
f. Selesai
3.5.4. Menghitung Akurasi
Perhitungan presentase akurasi segmentasi akan dilakukan setelah
user memeriksa output citra hasil segmentasi. Nilai verifikasi yang
disediakan adalah 0 dan 1 masing-masing merepresentasikan salah dan
benarnya hasil segmentasi.
Kriteria keberhasilan segmentasi judul adalah ketika entitas judul
berhasil dimuat secara keseluruhan dalam citra hasil. Entitas sub-judul
dianggap sebagai tambahan karena tidak menjadi tujuan dalam penelitian
ini.
Perhitungan akurasi dipisahkan sesuai dengan entitas yang
disegmentasi. Ada 2 macam akurasi yang akan dihitung, pertama akurasi
segmentasi judul dan kedua akurasi segmentasi kolom teks.
Nilai kebenaran akurasi segmentasi judul akan bernilai benar (1)
ketika tidak ada entitas koran lain yang masuk kedalam hasil segmentasi
judul dan sebaliknya. Berikut adalah pseudocode untuk menjelaskan
perhitung akurasi segmentasi judul, kolom teks:
1. Mulai
2. Input adalah jumlah benar citra hasil segmentasi
3. Masukan berupa jumlah benar output dan jumlah input
4. Hitung jumlah citra yang bernilai benar
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
39
5. Hitung jumlah semua citra artikel
6. Hitung presentase akurasi dengan rumus;
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 𝑠𝑒𝑔𝑚𝑒𝑛𝑡𝑎𝑠𝑖 =𝑗𝑢𝑚𝑙𝑎ℎ 𝑐𝑖𝑡𝑟𝑎 𝑏𝑒𝑛𝑎𝑟
𝑗𝑢𝑚𝑙𝑎ℎ 𝑡𝑜𝑡𝑎𝑙 𝑐𝑖𝑡𝑟𝑎 𝑎𝑟𝑡𝑖𝑘𝑒𝑙
7. Selesai
3.6. Perancangan Interface (Antar Muka) Alat uji
Gambar 3.8. Rancangan Interface alat uji.
Pada gambar 3.8. merupakan perancangan antar muka alat uji. Antar muka
adalah komponen penting dalam sebuah perangkat lunak karena berhubungan
langsung dengan pengguna. Perancangan alat muka menggunakan sebuah fungsi
guide yang tersedia pada matlab. Antar muka yang dirancang akan memiliki 4 panel
utama yaitu Input, Pengujian, Hasil Segmentasi dan Verifikasi Output. Pada
interface alat uji mempunyai:
1. Panel Input yang terdiri dari,
a. Static Text, menampilkan jumlah file terbuka
b. Listbox, menampilkan nama file-file yang terbuka
c. Tombol Input Citra, berfungsi untuk memilih citra yang akan
menjadi input segmentasi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
40
2. Panel Pengujian yang terdiri dari,
a. Axes , untuk menampilkan input citra satu persatu.
b. Tombol Segmentasi, berfungsi untuk memproses segmentasi
pada citra
c. Sepasang radio button, berfungsi untuk memilih opsi untuk
proses segmentasi. Opsi pertama ‘uji pada citra terpilih’ maka
sistem akan mensegmentasi pada citra satu terpilih saja. Opsi
kedua adalah ‘uji pada semua citra’ maka sistem akan
mensegmentasi semua citra input yang terbuka dalam sistem.
3. Panel Hasil Segmentasi yang terdiri dari,
a. Axes1, menampilkan hasil segmentasi judul
b. Axes2, menampilkan hasil segmentasi kolom teks
3.7. Spesifikasi Hardware dan Software
Berikut adalah spesifikasi hardware dan software yang digunakan oleh
penulis untuk melakukan pengujian
3.7.1. Software (Perangkat Lunak)
Tabel 3.1. Spesifikasi Software.
Sistem Operasi Windows 8.1. Pro
Program Pengembang alat uji Matlab 2014b
3.7.2. Hardware (Perangkat Keras)
Tabel 3.2. Spesifikasi Hardware.
Processor Intel(R) Core(TM) i7-4700HQ, CPU @ 2.40 Ghz
RAM 4.00 GB
Tipe Sistem Sistem Operasi 64-bit
Harddisk 1 Terabyte
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
41
BAB 4
HASIL DAN PEMBAHASAN
4.1. Data Masukan
Data masukan untuk pengujian diperoleh dari Kompas Gramedia. Alasan
citra dipotong tiap-tiap artikelnya karena pihak Kompas Gramedia akan
menyimpan data teks di perpustakaan digital untuk setiap artikelnya. Citra masukan
pada awalnya diperoleh dalam bentuk kompresi PDF, sehingga perlu dilakukan
proses pemotongan dan impor. Bahan penelitian dikhususkan hanya untuk citra
koran tua dengan batasan terbit sebelum tahun 1990. Kondisi citra artikel terdapat
noise salt dan pepper serta tinta merembes (bleeding ink). Berikut contoh citra-citra
yang kondisinya telah dijelaskan:
Gambar 4.1. Contoh data testing (19800102-01-9.bmp) yang mengandung noise
salt.
(Sumber: Kompas Gramedia (2018))
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
42
Gambar 4.2. Contoh data testing (19800102-01-2) yang memiki noise pepper.
(Sumber: Kompas Gramedia (2018))
Gambar 4.3. Contoh data testing (19800102-02-2) yang karakternya mengalami
bleeding ink.
(Sumber: Kompas Gramedia (2018))
4.2. Evaluasi Proses
Beberapa nilai dalam metode menggunakan nilai pasti atau sebuah nilai
yang menjadi patokan(threshold) untuk mensegmentasi entitas-entitas koran, maka
dari itu diperlukan sebuah tabel evaluasi untuk menguji dan menjelaskan nilai-nilai
yang digunakan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
43
Nilai-nilai tersebut dieksperimenkan oleh peneliti pada tahap pelatihan
sistem. Data training yang digunakan ada 20 citra artikel. Masing-masing kasus
mempunyai fokus citra tertentu yang menjadi patokan untuk menyelesaikan proses
segmentasi. Citra percobaan dipilih dari data training sesuai dengan konteks
segmentasinya.
Tabel berikut menyajikan nilai-nilai yang terkandung dalam algoritma
yang akan dievaluasi:
Tabel 4.1. Daftar evaluasi proses.
No Proses Segmentasi Pengunaan Nilai Batas
1 Segmentasi Judul 1 (Konektivitas
komponen)
Segmentasi ini bertujuan menyeleksi
kandidat karakter judul semaksimal
mungkin dengan noise yang ada.
Entitas yang ingin dihilangkan seperti
gambar, border, garis.
a) Tinggi dari kandidat karakter
judul > Rerata karakter * 1,5
b) Tinggi dari kandidat karakter
judul < Rerata karakter * 7
c) Rasio dari kandidat karakter
judul berkisar antara 0,1 s/d
1,7
d) Rasio Hitam Putih dari
kandidat karakter judul <=1,7
2 Segmentasi Kolom Teks (Vertikal
Proyeksi)
a) Maksimum area noise = 30
piksel
b) Proyeksi noise pada paragraf
= 15 piksel
c) Proyeksi noise pada gap
paragraf = 10piksel
d) Lebar kolom teks normal <
1,5 * kolom teks terkecil
4.3. Evaluasi Proses Segmentasi Judul
Segmentasi judul adalah refrensi dari B. Gatos (2001), disampaikan bawah
tinggi teks pada judul adalah lebih besar dari tinggi karakter dominan pada
dokumen.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
44
Maka tinggi dari semua karakter pada teks harus dihitung terlebih dahulu.
Perhitungan tersebut bisa dihitung dari konektivitas komponennya, kemudian
menghintung Bounding Box dari setiap objek yang berhasil dilabeli. Setelah
mendapatkan semua tinggi objek terlabel dilanjutkan dengan menghitung nilai
rerata dari semua tinggi karakter, maka didapat rerata tinggi karakter dominan.
Berikut tabel 4.2 yang mengevaluasi ThresholdTinggi1, kandidat karakter
judul > 1,8 * rerata tinggi karakter:
Tabel 4.2. Evaluasi ThresholdTinggi1 kandidat karakter judul > 1,5 * rerata
tinggi karakter.
Data Training
Pengali
Rerata
Karakter
Keterangan
1,2 Tersisa banyak objek non-judul. Nilai
rerata karater masih bisa ditingkatkan.
1,3 Tersisa objek non-judul. Nilai rerata
karater masih bisa ditingkatkan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
45
1,4 Tersisa objek non-judul. Nilai rerata
karater masih bisa ditingkatkan.
1,5 Tersisa sedikit objek non-judul.
1,6 Tersisa sedikit objek non judul, tetapi
salah satu beberapa karakter dari judul
hilang. Maka nilai pengali ini tidak efektif
lagi.
Pada Tabel 4.2. percobaan terakhir karakter judul ada yang hilang , maka
nilai 1,6 menjadi tidak efektif untuk menyeleksi kandidat judul. Maka nilai
threshold untuk kandidat judul adalah nilai pengali yang berhasil dari percobaan,
yaitu 1,5 * rerata tinggi karakter.
Sesuai dengan percobaan sebelumnya terlihat masih ada entitas gambar
yang tersisa maka hasil tersebut akan menjadi acuan untuk penyeleksian karakter
judul selanjutnya. Berikut tabel evaluasinya :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
46
Tabel 4.3. Evaluasi ThresholdTinggi2 kandidat karakter judul < 7 * rerata tinggi
karakter.
Citra dengan objek > 1,5 * ahc Analisis
Rerata karakter : 14,2744
piksel
Tinggi karakter judul: 39
piksel
Rerata tinggi karakter judul :
32,5 piksel
Tinggi entitas gambar : 233
piksel
Rerata tinggi karakter judul :
81 piksel
Max tinggi karakter judul :
97 piksel
Rerata tinggi karakter :
14,7317
Tinggi entitas border : 432
piksel
Maksimal tinggi karakter judul 97 piksel
Rerata karakter 15 piksel
Pengali 7
Maka dari kasus diatas variasi karakter judul memiliki tinggi paling
maksimal 97 piksel, sedangkan rerata tinggi karakter sekitar 14,7 piksel (15 piksel).
Tinggi maksimal karakter pada judul adalah 97 piksel, maka tinggi karakter judul
bisa disimpulkan berkisar antar 1,5* rerata karakter hingga 7* rerata tinggi
karakter.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
47
Menurut Chen (2004) aspek rasio dari masing-masing objek terlabeli dapat
membantu penyeleksian kandidat karakter. Pada penerapannya citra koran, nilai
aspek rasio diimplementasikan adalah:
Tabel 4.4. Evaluasi ThresholdRasio1 dan ThresholdRasio2 aspek rasio kandidat
karater < =1,8.dan >= 0,1
Rasio (R) Objek didapatkan dari data training image
10, 5 dan 9
R <= 0,1 - Tidak ada objek
R > 0,1 & R > 0,4 - Huruf L & i (tanpa titik), - Karakter menempel (sedikit)
R > 0,5 & R > 1 - Huruf {u, a, o, e, k, s, g, p, t, b, n, h, d,
K, T, R, B, V, S}, - Angka - Noise pepper - Karakter menempel (sedikit)
R >1 & R< 1,7 - Huruf { u, a, o, e, k, s, g, p, t, b, n, h, d,
K, T, R, B, V, S } - Karakter menempel (sedang)
R >= 1,8 - Karakter menempel lebih dari 3 siam
(banyak) Garis horisontal, tanda minus
- Entitas judul terbalik Maka dari tabel 4.4. nilai yang digunakan untuk membuang objek non-judul
adalah nilai yang mengandung objek karakter menempel, garis horisontal, tanda
baca dan entitas judul terbalik. Maka sesuai hasil tabel evaluasi ditentukan nilai
rasio objek >= 1,8 akan dihapus.
Menurut Mitchell dan Yan (2001) rasio hitam putih (Black and White
Ratio) dari masing-masing objek terlabeli dapat membantu penyeleksian kandidat
karakter. Rasio hitam putih adalah hasil nilai bagi dari jumlah piksel putih dibagi
dengan jumlah piksel hitam dalam suatu objek (komponen).
Sesuai dengan hasil percobaan, beberapa masih menyisakan beberapa
karakter non-judul, objek tersebut adalah karakter pada kolom teks yang menempel.
Implementasi rasio hitam putih diharapkan dapat menyempurnakan hasil seleksi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
48
karakter sebelum. Berikut hasil implementasi rasio hitam dan putih dibuktikan pada
tabel evaluasi berikut:
Tabel 4.5. Evaluasi ThresholdRBW, rasio hitam dan putih kandidat karakter
judul< 1,7.
Rasio Hitam & Putih (Rbw) Objek didapatkan dari data training image
10, 5 dan 9
Rbw <= 0,1 - Tanda baca [:], - Huruf i (titik & batang) - Noise Peper
Rbw > 0,1 & Rbw <= 0,5 - Huruf judul yang bold {u, e, a, B, K,
M, N, D, s, h, l, d, m, b, r, g} - Huruf pada kolom teks {a, i, e, n, g, l,} - Tanda baca “ - , - Kandidat huruf baik - Noise Peper
Rbw > 0,5 & Rbw <= 1 - Huruf judul yang bold {u, e, a, B, K,
M, N, D, s, h, l, d, m, b, r, g} - Angka - Huruf pada kolom teks {a, i, e, n, g, l,} - Karakter menempel (sedikit)
Rbw > 1 & Rbw <= 1,7 - Karakter menempel (banyak) - Huruf judul yang bold & kapital - Huruf pada kolom teks (sedang)
Rbw > 1,7 - Karakter menempel - Garis diagonal - Tidak ada huruf dari judul - Border kotak untuk judul terbalik
Nilai yang digunakan untuk membuang karakter menempel adalah nilai
tidak yang mengandung objek karakter menempel, garis horisontal, noise, border.
Maka sesuai tabel evaluasi ditentukan nilai rasio hitam putih objek > 0,1 s/d 1,7
akan disimpan dan menjadi kandidat karakter untuk entitas judul.
Setelah proses seleksi objek –objek untuk judul maka harus dilakukan
proses segmentasi baris judul. Berikut adalah contoh citra data training yang
mendasari proses ini:
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
49
Pada citra diatas dijelaskan bahwa kotak bergaris putus-putus nomor
1 adalah contoh penggunaan bounding box dari 2 baris judul sekaligus untuk
segmentasi judul. Jika menerapakan hal ini maka akan ada objek yang tidak
diinginkan masuk kedalam hasil segmentasi judul, yaitu daerah kotak
nomor 2. Pada kotak berbingkai terdapat bagian dari kolom teks yang
seharusnya tidak masuk kedalam segmentasi judul.
Maka dari itu perlu dilakukan masking perbaris judulnya. Masking
yang dimaksud adalah pemotongan bagian citra setiap lebar barisnya,
sehingga objek-objek seperti contoh di kotak 2 tidak akan masuk kedalam
hasil segmentasi judul.
Metode ini berguna untuk membuang karakter non-judul yang
tersisa, khususnya yang terletak dibawah judul. Hasil proyeksi yang bernilai
selain 0 akan diberi nilai 1. Berikut contoh kasusnya:
Gambar 4.4. Potongan citra image4.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
50
Nilai threshold 40 adalah nilai yang digunakan untuk mengabaikan objek
non-judul, maka pada eksperimennya peneliti akan mencari nilai proyeksi objek
non-judul terbesar. Berikut tabel evaluasi:
Tabel 4.6. Evaluasi ThresholdProyeksiBarisJudul1, nilai proyeksi < 40.
Citra data training Nilai proyeksi maks untuk objek non-judul
image3v 24
image4v 15
image7v 35
image8v 40
Maksimal image8v : 40
Jadi nilai threshold yang efektif untuk menghapus objek non judul
berdasarkan data training diatas adalah 40. Threshold ini diambil dengan
menentukan nilai maksimal dari nilai-nilai proyeksi maks untuks objek non-judul.
Selanjutnya adalah threshold dalam segmentasi baris judul ke 2, threshold
ini berguna untuk menghapus objek yang sudah terkena threshold sebelumnya.
Penjelasanya diperlihatkan oleh gambar dibawah:
Gambar 4.5. Potongan citra image6.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
51
Pada threshold sebelumnya masih menyisakan objek non-judul, tapi objek
non-judul ini tingginya sudah terkurangi habis-habisan. Tetapi untuk menemukan
gap antar judul dan kolom teks, objek ini harus tetap dihapus.
Objek-objek ini bervariasi tingginya, berkisar antar 1 s/d 5 piksel, untuk
menentukan threshold yang tepat maka peneliti akan melihat variasi dari tinggi-
tinggi objek non-judul ini. Berikut tabel evaluasi:
Tabel 4.7. Evaluasi ThresholdProyeksiBarisJudul2, Tinggi daerah proyeksi
baris judul < 30.
Citra Tinggi objek non judul Tinggi baris judul
Image 5 2,3,2,3 69, 69
Image 9 1 114,94
Image 11 1 , 2 40
Image 12 1,3 67
Image 13 20,20 63, 63
Maka penentuan nilai threshold mengambil nilai tengah dari nilai 12 s/d
42.
Sehingga dapat dihitung dengan cara seperti dibawah:
𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑 tinggi objek = 𝑙𝑛𝑗max +
𝑙𝑗min – 𝑙𝑛𝑗
max
2
𝑙𝑛𝑗 = 𝑡𝑖𝑛𝑔𝑔𝑖 𝑜𝑏𝑗𝑒𝑘 𝑛𝑜𝑛 𝑗𝑢𝑑𝑢𝑙
𝑙𝑗 = 𝑡𝑖𝑛𝑔𝑔𝑖 𝑜𝑏𝑗𝑒𝑘 𝑗𝑢𝑑𝑢𝑙
Implementasi :
𝑇ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑 = 20 + 40– 20
2
𝑇ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑 = 30
Maka threshold tinggi untuk daerah baris judul adalah lebih besar dari 30.
Maka untuk baris yang memiliki tinggi lebih kecil dari 30 akan dihapus
proyeksinya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
52
4.4. Evaluasi Proses Segmentasi Kolom Teks
Terdapat dua nilai threshold yang digunakan untuk membantu deteksi
kolom teks. Nilai tersebut dieksperimenkan terhadap citra yang ditentukan sebagai
data testing eksperimen. Pengamatan data eksperimen tersebut ada beberapa yang
bermasalah seperti; image5, image7, image8, image9, image2v. Data testing
image5 adalah citra yang cukup bermasalah dan menjadi sumber penggunaan
threshold ini. Berikut penampakanya:
Gambar 4.6. Potongan citra image5.
Pada gambar 4.4. terlihat bagian dilingkari terdapat noise yang berada di
gap antar kolom teks. Noise tersebut juga menempel dengan objek di kolom teks
yang sekitarnya.
Threshold pertama berfungsi untuk menghapus noise kecil di keseluruhan
citra non judul. Penghapusan noise pada citra biner menggunakan bwareafilt
dengan nilai 30 piksel.
Penentuan nilai threshold akan dijelaskan dari tabel 4.7. Objek titik dari
huruf ‘i’ dianggap noise , karena pada koran lama banyak sekali terdapat noise
pepper. Titik dalam huruf ‘i’ juga tidak berperan penting dalam proses segmentasi
kolom teks. Data eksperimen yang dipakai adalah data eksperimen yang memiliki
noise pepper yaitu image 5, 7, 8, 9, 10, 13, 1v, dan 8v.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
53
Tabel 4.8. Evaluasi ThresholdArea, area objek kandidat karakter > 30 piksel.
No.
Rerata area objek
Selisih Area rerata citra
dengan noise (rerata
karakter)
Area rerata citra tanpa noise
(rerata karakter)
1 63,8706 93,1378 30
2 66,6694 79,9700 13
3 75,9117 87,8573 12
4 85,7704 101,2959 16
5 96,2009 127,1437 31
6 75,4595 111,2667 36
7 60,1658 105,4694 45
8 66,0776 115,7154 49
Rerata 74,7657 (75) 105,1358 (105) 30
Citra dengan noise memiliki rerata area lebih kecil, karena objek-objek
noise yang terkandung akan ikut terhitung bersama hasil reratanya. Setelah
penghapusan noise maka nilai rerata yang dihitung akan menjadi nilai rerata
karakter yang sebenarya. Sehingga dalam penentuan threshold , tidak boleh
lebih dari rerata karakter (74,7) . Selisih rerata masing-masing kolom teks
dijadikan nilai threshold untuk noise.
Setelah objek yang areanya < 30 dihapus masih ada citra memiliki noise
diantara gap kolom teks. Tetapi jika dengan memperbesar nilai area untuk
noise akan dipastikan banyak huruf dalam kolom teks yang hilang. Maka
setelah data diproyeksikan , citra yang diolah berubah menjadi vektor dengan
rentang nilai 0 sampai 1. Dari situ lebih mudah menghapus noise antar gap
kolom teks tanpa beresiko menghapus huruf-huruf didalam kolom teks. Berikut
citra image2v yang menjadi acuan masalah ini:
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
54
Gambar 4.7. Potongan citra data training image2v.
Evaluasi ThresholdKolomProyeksi1, Meski telah dikenai penghapusan
noise dengan area < 30, citra masih menyisakan noise pada gap antar kolom teks.
Penghapusan noise pada saat data telah dikenai proyeksi, maka noise yang memiliki
lebar < 15 piksel akan benilai 0, atau hilang berdasarkan data training image2v.
Evaluasi ThresholdKolomProyeksi2 Pada data training image2v terdapat
noise membentuk kolom (lihat gambar 4.8). Langkah penanggulangannya adalah
nilai noise pada vektor hasil proyeksi harus dihapus. Ukuran noise ini dibawah 10
piksel, sehingga nilai vektor proyeksi kolom teks akan dihapus jika ada lebar objek
< 10 piksel.
Gambar 4.8. Potongan citra data training image2v.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
55
Selanjutnya pada kasus citra image9 didapati susunan kolom teks yang
kompleks, masalah ini akan membuat proyeksi vertikal tidak efektif. Berikut data
training image9:
Gambar 4.9. Data training image9.
Gambar 4.8. akan menjadi acuan syarat kolom teks normal adalah 1,5 kali
nilai kolom teks terkecil. Pada bentuk kolom teks yang kompleks ini membutuh
proyeksi berkali-kali untuk dapat memisahkan semua kolom teks dengan benar.
Gambar 4.10. Citra kolom teks hasil segmentasi kolom teks vertikal.
Pada gambar 4.10. terjadi fenomena terdapat kolom teks di dalam kolom
teks maka dari itu peneliti harus dapat membedakan citra mana yang terdapat kolom
teks didalam kolom teks. Citra ‘kolom 1’ dan ‘kolom 2’ bisa disebut kolom teks
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
56
normal, karena pada citra tersebut hanya mengandung 1 kolom teks. Sedangkan
‘kolom 2’ adalah kolom teks besar, dimana mengandung lebih dari 1 kolom teks.
Maka untuk membedakan kolom teks normal dan besar atribut lebar yang
dapat mudah diinterpretasikan untuk membedakan kolom teks normal dan kolom
teks besar.
Tabel 4.9. Evaluasi ThresholdLebarKolom, lebar kolom teks < 1,5 dari lebar
kolom teks terkecil.
Kolom 1 (normal) Kolom 3 (normal) Kolom 2 (besar)
Lebar citra kolom 340 340 1050
Rerata lebar citra 340 1050
Karena pada citra kolom 2 (perhatikan gambar 4.10) terdapat 3 kolom,
maka bisa disimpulkan bahwa semua kolom teks memiliki lebar yang sama, yaitu
sekitar 340-350. Kesimpulan ini diamati dari kolom 2(perhatikan gambar 4.10)
terdapat 3 kolom teks maka 1050 dibagi 3 adalah 350. Jadi estimasi lebar kolom
teks antara 340 hingga 350. Karena dalam kasusnya sistem harus bisa membedakan
citra kolom yang mengandung 1 kolom teks dan lebih dari 1 citra kolom teks, maka
jika di dalam sebuah citra kolom mengandung 2 kolom teks sistem sudah bisa
mengenali dari lebar citra kolomnya saja.
Nilai threshold diambil dari sebuah kasus jika terdapat lebih dari 2 kolom
teks dalam sebuah citra kolom, maka estimasi lebarnya citra kolom mempunyai
lebar 680 hingga 700. Nilai tersebut adalah 2 kali estimasi lebar sebuah kolom teks.
Maka peneliti mengambil pengali diantara 1 dan 2 untuk membedakan citra kolom
yang didalamnya mengandung 1 kolom teks atau minimal 2 kolom teks. Maka jika
dihitung:
threshold lebar kolom = 1 + 2
2= 1,5
Setelah berhasil dideteksi jika ada citra kolom yang didalamnya
mengandung lebih dari 1 kolom teks, maka citra kolom tersebut akan diproses ulang
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
57
dengan proyeksi horisontal untuk memisahkan kolom teks diatas dan dibawah.
Kedua citra kolom tersebut akan dikenai proyeksi vertikal lagi untuk memisahkan
kolom teks pada citra kolom bawah.
4.5. Hasil Pengujian
Data testing adalah citra koran tahun 1980, terdiri dari 14 halaman koran,
kemudian di-crop menjadi 80 artikel. Pembahasan tentang hasil akan dibagi
menjadi 2 yaitu, segmentasi judul dan segmentasi kolom.
Segmentasi kolom meraih tingkat keberhasilan 91,25 %. 80 citra artikel
didapat 7 judul tidak tersegmentasi. Segmentasi judul mengalami kendala pada
jenis citra yang memiliki bleeding ink dan teks miring. Entitas gambar yang menjadi
batasan penelitian ini terhitung sebagai judul yang gagal tersegmentasi. Selain itu,
kasus dimana terdapat hanya sedikit karakter pada kolom teks akan mempengaruhi
peforma dari sistem yang menerapkan thresholding untuk mengenali kandidat
karakter pada judul atau kandidat karakter pada kolom teks. Berikut tampilan dari
data uji yang gagal dan berhasil disegmentasi:
Tabel 4.10. Citra hasil uji gagal disegmentasi judul
No. Citra input Hasil segmentasi judul & analisis
1
19800102-01-2.bmp-judul
Analisis:
Jumlah karakter yang sedikit
membuat nilai ’rerata tinggi
karakter’ tidak merepresentasikan
tinggi karakter teks yang
sebenarnya, atau st. Deviasi antara
karakter kecil. Sehingga seleksi
karakter judul gagal
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
58
2
19800102-01-3.bmp-judul
Analisis:
Terdapat Foto menyebabkan
gagalnya segmentasi
3
19800102-02-3.bmp-judul
Analisis:
• Kemiringan teks menyebabkan 2
teks baris menempel, sehingga
tinggi proyeksi menyamai atau
melebihi dari threshold tinggi
proyeksi
• Tinta dari karakter pada kolom
teks mengalamai bleeding ink,
dimana menyebabkan banyak
karakter menempel.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
59
4
19800102-03-5.bmp-judul
Analisa:
Data anomali, dimana karakter
pada kolom teks dan judul memiliki
tinggi yang hampir sama.
5
19800102-08-4.bmp-judul
Analisa:
Terdapat Foto menyebabkan
gagalnya segmentasi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
60
6
19800102-14-3.bmp-judul
Analisa:
Terdapat noise di samping judul,
ketika noise disamping judul tidak
akan terdeteksi oleh proyeksi
vertikal.
7
19800102-16-10.bmp-judul
Analisis:
Data anomali, dimana karakter
pada kolom teks dan judul memiliki
tinggi yang hampir sama serta
karakter yang mengalamai bleeding
ink
Tinggi antara karakter pada judul dan kolom teks yang hampir sama
menyebabkan sistem gagal mensegmentasi seperti pada kasus citra 19800102-16-
10. Karakter pada kolom teks rerata tinggi karakter 19,3 piksel sedangkan, rerata
tinggi karakter pada judul adalah 30,3 piksel. Kegagalan sistem mengenali kata
‘Manusia’ karena tinggi karakter ‘anusia’ kurang dari threshold yang digunakan
yaitu, 29.9 piksel (1,5 kali 19,9 piksel).
Gambar 4.11. Segmentasi judul untuk citra 19800102-16-10
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
61
Huruf kapital pada judul memiliki tinggi diatas threshold. Sehingga sistem
menganggap huruf judul selesai pada huruf ‘M’ dan ‘Ul’ (perhatikan gambar 4.11
pada karakter yang dilingkari). Karakter ‘anusia’ (perhatikan gambar 4.11 pada
karakter didalam kotak) memiliki rerata tinggi 26 piksel, dimana nilai tersebut
berada dibawah threshold tinggi karakter.
Tabel 4.11. Evaluasi tinggi karakter untuk segmentasi judul
No. Hasil segmentasi
judul
Rerata tinggi
karakter judul
(piksel)
Rerata tinggi
karater kolom
teks (piksel)
Selisih rerata
(piksel)
1 Benar 49 22 27
2 Benar 48 19 29
3 Benar 54 18 36
4 Salah 34 20 14
5 Salah 29 19 10
6 Salah 33 20 13
Pada tabel 4.11. hasil segmentasi judul yang salah memiliki nilai selisih
rerata maksimal adalah 14 piksel, maka disimpulkan bahwa jika selisih karakter
yang efektif untuk segmentasi judul adalah lebih besar dari 14 piksel. Pada hasil
segmentasi judul yang benar memiliki selisih rerata yang besar yaitu berkisar antara
27 piksel hingga 29 piksel.
Nilai threshold tinggi karakter judul adalah 1,5 kali lebih besar dari rerata
tinggi karakter. Jika rerata tinggi karakter judul kurang dari rerata tinggi karakter
teks maka sistem berkemungkinan untuk salah mengenali karakter judul (terutama
yang bukan huruf kapital) sebagai karakter dari kolom teks (Contoh: 19800102-03-
5.bmp).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
62
Tabel 4.12. Citra hasil uji berhasil judul
No. Citra Input Hasil Segmentasi
1
19800102-03-4.bmp-judul
Berhasil mensegmentasi
2
19800102-03-3.bmp-judul
Berhasil mensegmentasi
3
19800102-08-1.bmp-judul
Berhasil mensegmentasi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
63
Segmentasi kolom secara horisontal meraih tingkat keberhasilan 100%.
Horisontal artinya tidak menyisakan objek di kanan dan kiri kolom teks, sedangkan
secara vertikal berarti tidak menyisakan objek non-kolom teks di atas dan bawah
kolom teks. Segmentasi kolom secara vertikal meraih tingkat keberhasil 89,28%,
dari 224 kolom teks 24 diantaranya salah karena terdapat objek non-kolom teks.
Objek non-kolom teks yang masuk kedalam hasil segmentasi kolom diantaranya
tanda koma dan petik pada judul, simbol, garis penghubung subjudul dan gambar.
Berikut 3 contoh hasil segmentasi kolom yang berhasil dan gagal:
Tabel 4.13. Citra hasil uji segmentasi kolom teks yang gagal
No. Citra Input Hasil Segmentasi Kolom
1
19800102-01-02.bmp-kol-1
Terdapat karakter dari judul
yang masuk kedalam hasil
segmentasi kolom teks
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
64
2
19800102-16-05.bmp-kol-2
Terdapat objek subjudul yang
masuk ke hasil segmentasi kolom
teks.
3
19800102-01-03.bmp-kol-2
Terdapat
gambar yang
masuk
kedalam
hasil
segmentasi
kolom teks.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
65
Tabel 4.14. Citra hasil uji segmentasi kolom yang berhasil
No. Citra Input Hasil segmentasi kolom teks
1
19800102-01-07.bmp-kol-1
2
19800102-05-04.bmp-kol-1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
66
3
19800102-14-03.bmp-kol-4
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
67
BAB 5
KESIMPULAN DAN SARAN
5.1. Kesimpulan
Dari penelitian ini dapat diambil beberapa kesimpulan sebagai berikut:
1. Sistem yang dibuat dapat mensegmentasi judul dengan tingkat keberhasilan
sebesar 91,25% dengan penggunaan threshold tinggi karakter judul lebih
besar dari rerata tinggi karakter keseluruhan, aspek rasio karakter, rasio
hitam putih, threshold nilai proyeksi dan threshold tinggi daerah proyeksi.
2. Sistem yang dibuat akan mendapatkan hasil maksimal ketika tidak ada sub-
judul, rerata tinggi antara karakter judul dan kolom teks lebih besar dari
threshold, tidak ada gambar/foto, tidak ada noise dan baris teks tidak
miring(slope).
3. Pada kasus tertentu apabila ada sub-judul disekitar judul maka sistem dapat
salah mensegmentasi. Dari 80 data testing 46 diantaranya terdapat sub-
judul, serta artikel bersub-judul yang berhasil dikenali adalah 26. Maka
didapatkan tingkat keberhasilan segmentasi sub-judul sebesar 56, 52%.
4. Sistem dapat mensegmentasi kolom teks secara vertikal (batas atas dan
bawah dari kolom teks) dengan tingkat keberhasilan 100%. Beberapa kasus,
segmentasi kolom teks secara horisontal (batas kanan dan kiri dari kolom
teks) menyisakan entitas lain seperti; sub-judul atau judul atau gambar.
Hasil tersebut disebabkan oleh segmentasi judul yang menyisakan objek
lain selain judul. Maka tingkat keberhasilan dari segmentasi kolom teks
secara vertikal adalah 89,28 %. Sebelum melakukan segmentasi kolom teks
penghapus noise pada gap antar kolom teks harus dilakukan. Penghapusan
noise dapat dilakukan dengan thresholding nilai proyeksi, area objek dan
lebar objek.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
68
5.2. Saran
Dari hasil penelitian ini dapat disarankan beberapa hal sebagai berikut:
1. Pada proses seleksi karakter dengan atibut tinggi karakter menjadi hal yang
krusial, maka perlu untuk menambahkan metode untuk membedakan
karakter yang tebal (bold). Hal ini disarankan karena sebagian besar
karakter pada judul artikel memiliki karakter yang ditebalkan.
2. Pada penelitian ini perlu dilakukan segmentasi foto dan gambar.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
69
Daftar Pustaka
Abdul, K. dan Adhi, S. (2013). Teori dan Aplikasi Pengolahan Citra.Yogyakarta,
Andi Offset.
A. Nicolaou, and B. Gatos. (2009). Handwritten Text Line Segmentation by
Shredding Text into its Lines. 10th International Conference on
Document Analysis and Recognition, IEEE. pp. 626-630.
Chen, Datong & Odobez, Jean-Marc & Bourlard, Herve. (2004). Text detection
and recognition in images and video frames. Pattern Recognition. 37.
595-608. 10.1016/j.patcog.2003.06.001.
Gatos, Basilios & Mantzaris, S & Antonacopoulos, Apostolos. (2001). First
International Newspaper Segmentation Contest. 1190-.
10.1109/ICDAR.2001.953973.
Jain, Anil.K., Duin, Robert P.W.& Mao, Jianchang. (2000) Statistical Pattern
Recognition : A Review. Journal IEEE Transactions on Pattern Analysis
and Machine Intelligence, [Online] Volume (22), No.1, 4 – 37.
Kurnianto. A. (2013). Analisis Layout Koran Berdasarkan Prinsip-Prinsip Desain
Melalui Metode Estetika Birkhoff. HUMANIORA Vol.4 No. 2 986-994.
Li, Yao & Lu, Huchuan. (2012). Scene text detection via stroke width. 681-684.
P. E. Mitchell dan Hong Yan. (2001). Newspaper Document Analysis featuring
Connected Line Segmentation. Sixth International Conference on
Document Analysis and Recognition (ICDAR2001). Seattle. USA.
September 2001.
R.C. Gonzalez dan R.E. Woods. (2002). Thresholding in Digital Image
Processing. Second edition Prentice Hall .New Jersey 2002 pp 595-612
ISBN 0-201-18075-8
Sianipar. R.H. (2013). Pemrograman Matlab dalam Contoh dan Penerapan.
Bandung, Informatika Bandung.
Widiarti, Anastasia. (2013). Line Segmentation of Javanese Image of Manuscripts
in Javanese Scripts. International Journal of Engineering Innovations and
Research. 2. 239-244.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI