SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI...

85
TUGAS AKHIR SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI PROFIL DAN KONEKTIVAS KOMPONEN Diajukan untuk memenuhi salah satu syarat memperoleh gelar Sarjana Komputer pada Program Studi Teknik Informatika Jurusan Teknik Informatika Falkultas Sains dan Teknologi, Universitas Sanata Dharma FRANS YAKOBUS SURYAPRADIPTA 145314086 PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2018 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Transcript of SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI...

Page 1: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

TUGAS AKHIR

SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK

ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI

PROFIL DAN KONEKTIVAS KOMPONEN

Diajukan untuk memenuhi salah satu syarat

memperoleh gelar Sarjana Komputer pada

Program Studi Teknik Informatika

Jurusan Teknik Informatika

Falkultas Sains dan Teknologi, Universitas Sanata Dharma

FRANS YAKOBUS SURYAPRADIPTA

145314086

PROGRAM STUDI TEKNIK INFORMATIKA

JURUSAN TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2018

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 2: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

ii

FINAL PROJECT

TITLE AND TEXT COLUMN SEGMENTATION IN A

NEWSPAPER ARTICLE USING PROJECTION PROFILE

AND CONNECTED COMPONENT

In a partial fulfilment of the requirements

for the degree of Sarjana Komputer

Department of Informatic Engineering

Faculty of Science and Technology, Sanata Dharma University

By:

FRANS YAKOBUS SURYAPRADIPTA

145314086

INFORMATICS ENGINEERING STUDY PROGRAM

INFORMATICS ENGINEERING DEPARTMENT

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2018

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 3: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

HALAMAN PERSETUJUAI\I

TUGAS AKHIR

SEGMENTASI JUDUL DANT KOLOM TEKS T'NTUKARTIKEL KORAN MENGGUNAKA}I METODE PROYEKSI

PROFIL DAFI KONEKTWAS KOMPONEN

(TITLE AI\ID TEXT COLUMN SSGMENTATION IN A NEWSPAPER ARTICLEUSING PROJECTTON PROFTLE ANr) CONIYECTED COMPONENT)

tu

ts;1= NurtYfouaoaiG

- r j=.- -#,kr*,gvE',. nsrsj^ '|*q"-# r; = \;i, 'bsFF+e-f,{--&tr*E = d E{ruR-'"

Dr.Ir. Linggo Sumarno, M.T. Tanggal:2 7 Jul; 2018

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 4: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

HALAMAN PENGESAHAN

SKRIPSI

SEGMENTASI JT]DUL DAI\I KOLOM TEKS IJNTUK

ARTIKEL KORAN MENGGUNAKAN METODN PROFIL

PROYEKSI DAI\[ KONEKTIYITAS KOMPONEN

DiPersiaPkan dan disusun oleh :

Frans Yakobus SurYaPradiPta

NIM: 145314086

Telah Dipertahankan di depeil Tim Penguji pada tanggal 25 juli 2018

dan dinYatakan memenuhi sYarat

Susunan Panitia Penguji :

Nama Lengkap

: Dr. Anastasia Rita Widiarti, M.Kom. /Ketua

Selretaris

Anggota

Eko Hari Farmadi, M.Kom

Dr.Ir. Linggo Sumarnr:, M.T.

Yogyakart4 3o Jut; ao$Fakultas Sains dan Teknologi

iversitas Sanata Dharma

Lc4.-Mungkasi, Ph.D. )

la**{t'g

ltJ ,r

xrv

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 5: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

PERNYATAAN KEASLIAN KARYAsaya menyatakan dengan sesungguhnya bahwa tugas akhir yang saya tulis

tidak mengandung atau memuat karya orang lain, kecuali yang telah disebutkandalam daftar pustaka dan kutipan selayaknya karya ilmiah.

Yogyakart4 l6 Juli 2018

Penulis

Frans Yakobus Suryapradipta

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 6: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

LEMBAR PERNYATAAN PERSETUJUAI{ PUBLIKASI

KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS

Yang bertanda tangan di bawah ini, saya mahasiswa Universitas Sanata

Dharma:

Nama

NIM

: Frans Yakobus Suryapradipta

:145314086

Demi pengembangan ilmu pengetahuan, saya memberikan kepada Perpustakaan

Universitas Sanata Dharma karya ilmiah yang bedudul :

SEGMENTASI JUDT]L DAN KOLOM TEKS T}NTUK ARTIKEL KORAN

MENGGT]NAKAN METODE PROFIL PROYEKSI DA}{ KOI\EKTTWTAS

KOMPONEN

Dengan demikian saya memberikan kepada Perpustakaan Universitas Sanata

Dharma hak untuk menyimpan, mengalihkan dalam bentuk media lain,

mengelolanya dalam bentuk pangkalan dat4 mendistribusikan secara terbatas, dan

mempublikasikannya di intemet atau media lain untuk kepentingan akademis tanpa

perlu memintaizin dari saya meupun memberikan royalti kepada saya selama tetap

mencantumkan nama saya sebagai penulis.

Demikian pernyataan ini saya buat dengan sebenamya.

Yogyakart4 16 Juli 2018

Yang menyatakan

VI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 7: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

vii

INTISARI

Kompas Gramedia menerapkan proses pengarsipan koran-koran tua

menjadi sebuah perpustakaan digital yang berisi artikel-artikel koran Kompas.

Artikel-artikel tersebut diolah dan dikategorikan menjadi sebuah kumpulan data-

data berbentuk teks artikel. Arsip-arsip ini pada mulanya direncanakan untuk

kebutuhan internal instansi, seiring waktu arsip-arsip ini mulai digunakan untuk

kepentingan umum.

Penelitian ini mencoba untuk membuat sebuah prototipe sistem segmentasi

judul dan kolom teks artikel koran yang dapat membantu pengenalan karakter. Data

masukan untuk sistem diperoleh dari hasil pemotongan citra koran secara manual

dengan format *.bmp. Jumlah data yang digunakan adalah 100 citra artikel koran

dari periode 1980 dan 1990. Data training adalah 20 citra artikel dari tahun 1990

dan sisanya menjadi data testing. Kemudian sistem menyeleksi karakter-karakter

menggunakan atribut-atribut dari konektivitas komponen, diperoleh judul dan

kolom teks. Karakter-karakter judul dikelompokan dan disegmentasi sesuai daerah

barisnya menggunakan profil proyeksi. Citra masukan segmentasi kolom teks

adalah hasil segmentasi judul yaitu citra artikel tanpa judul, kemudian akan

disegmentasi dengan metode profil proyeksi untuk mensegmentasi kolom-kolom

teks.

Maka dari hasil penelitian segmentasi judul dan kolom teks untuk artikel

koran menggunakan metode profil proyeksi dan konektivitas komponen, diperoleh

hasil untuk segmentasi judul dengan tingkat keberhasilan 91,25%. Segmentasi

kolom teks secara vertikal meraih tingkat keberhasilan 100%. Pada beberapa artikel

yang mengandung sub-judul menyebabkan sistem gagal mensegmentasi kolom teks

secara horisontal.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 8: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

viii

ABSTRACT

Kompas Gramedia archive the old newspapers into a digital library which

contain newspaper article. The newspapers articles were processed and categorized

into a collection of text data. These archives were initially necessary for internal

agencies, then for a long time for public.

This research presented a prototype method of segmentation system that can

help character recognition. The system input was obtained by cropping articles of

newspaper and saved into *.bmp formats compression. There were 100 images of

newspaper article in 1980 and 1990 which was used for the research. The system

was trained by 20 articles of 1990 and tested by 80 articles of 1980. Furthermore,

characters connected component attributes were selected to distinguish between

title character and text column character. Those characters were

grouped(segmented) by their row region using projection profiles. The text column

segmentation input was the result image of title segmentation, finally it would be

segmented with projection profile.

The result, title segmentation achieved success rate 91.25%. The text

column segmentation vertically achieved 100% success rates. Unfortunately, some

articles contained sub-title caused the system failed in segmented the text column

horizontally.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 9: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

ix

MOTTO

“ SKRIPSI BUKAN HANYA BUTUH KESIAPAN

MENTAL DAN FISIK, TETAPI JUGA KENEKATAN ”

(Frans Yakobus S.)

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 10: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

KATA PENGANTAR

Puji syukur dan terima kasih kepada Tuhan Yang Maha Pengasih, sehingga tugas

akhir saya yang berjudul "Segmentasi Judul dan Kolom Teks untuk Artikel

Koran Menggunakan Metode Profil Proyeksi dan Konektivitas Komponen"

dapat terselesaikan. Tugas akhir ini disusun sebagai persyaratan untuk memperoleh

gelar Sarjana pada Program Studi Teknik Informatika Universitas Sanata Dharma.

Dalam menyelesaikan tugas akhir ini penulis mendapat dukungan dan

bimbingan dari berbagai pihak. Pada kesempatan ini penulis mengucapkan terima

kasih kepada:

1. Keluarga saya yang selalu memberikan dukungan untuk segera

menyelesaikan tugas akhir saya.

2. Bapak Dr. Ir. Linggo Surmarno, M.T. sebagai dosen pembimbing saya yang

bersedia meluangkan waktu untuk membimbing dan memberikan motivasi

selama proses mengerjakan tugas akhir.

3. Saudara Sekar Mirah yang selalu memberi semangat, masukan dan waktu

untuk belajar bersama selama menyelesaikan tugas akhir.

4. Seluruh dosen Teknik Informatika Universitas Sanata Dharma yang telah

mendidik dan memberikan ilmu ataupun pengalaman selama proses

perkuliahan.

5. Pihak Kompas Gramedia yang telah menjadi sponsor dalam penelitian ini,

terutama pada Bapak Agus Ramdhani.

6. Teman - teman angkatan 2014 yang memberikan semangat dan penghibur

dalam menyelesaikan tugas akhir.

Yogyakarta, 16 Juli 2018

Penu

/'/1/-4=9

lis

Frans Yakobus Suryapradipta

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 11: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

xi

DAFTAR ISI

HALAMAN JUDUL ................................................................................................ i

HALAMAN JUDUL (ENGLISH) .......................................................................... ii

HALAMAN PERSETUJUAN ............................................................................... iii

LEMBAR PENGESAHAN ................................................................................... iv

PERNYATAAN KEASLIAN KARYA ................................................................. v

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI................................. vi

INTISARI .............................................................................................................. vii

ABSTRACT ......................................................................................................... viii

MOTTO ................................................................................................................. ix

KATA PENGANTAR ............................................................................................ x

DAFTAR ISI .......................................................................................................... xi

DAFTAR GAMBAR ........................................................................................... xiv

DAFTAR TABEL ................................................................................................ xvi

BAB I ...................................................................................................................... 1

1.1. Latar Belakang ......................................................................................... 1

1.2. Rumusan Masalah .................................................................................... 6

1.3. Tujuan ....................................................................................................... 6

1.4. Batasan Masalah ....................................................................................... 6

1.5. Manfaat ..................................................................................................... 6

1.6. Metodologi Penelitian .............................................................................. 7

1.7. Sistematika Penulisan ............................................................................... 7

BAB II ..................................................................................................................... 9

2.1. Koran ........................................................................................................ 9

2.1.1. Perbedaan Layouting Koran Kompas................................................ 9

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 12: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

xii

2.1.2. Entitas-Entitas dalam Koran ........................................................... 10

2.2. Pengertian Citra ...................................................................................... 13

2.2.1. Citra Grayscale ............................................................................... 13

2.2.2. Citra Biner Hitam dan Putih ............................................................ 14

2.3. Pengolahan Citra .................................................................................... 15

2.4. Pengenalan Pola ..................................................................................... 15

2.5. Binerisasi ................................................................................................ 16

2.5.1. Binerisasi Citra dengan Metode Otsu ............................................. 17

2.6. Segmentasi pada Citra ............................................................................ 17

2.7. Profil Proyeksi ........................................................................................ 18

2.8. Konektivitas Komponen (Connected Components) ............................... 18

2.8.1. Pusat Massa (Centorid) ................................................................... 19

2.8.2. Luas Objek (Area) ........................................................................... 20

2.8.3. Kotak Pembatas (Bounding Box) .................................................... 20

BAB 3 ................................................................................................................... 22

3.1. Gambaran Umum ....................................................................................... 22

3.2. Desain Penelitian ........................................................................................ 23

3.2.1. Studi Literatur ...................................................................................... 23

3.2.2. Data Penelitian ..................................................................................... 23

3.2.3. Perancangan Alat uji ............................................................................ 28

3.3. Analisa Kebutuhan Proses .......................................................................... 29

3.4. Implementasi Perancangan ......................................................................... 30

3.4.1. Diagram Konteks (Context Diagram) ................................................. 30

3.4.2. Data Flow Diagram Level 1................................................................. 31

3.5. Penjelasan Proses dan Algoritma ............................................................... 32

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 13: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

xiii

3.5.1. Preprocessing ...................................................................................... 32

3.5.2. Segmentasi Judul ................................................................................. 32

3.5.3. Segmentasi Kolom Teks ...................................................................... 34

3.5.4. Menghitung Akurasi ............................................................................ 38

3.6. Perancangan Interface (Antar Muka) Alat uji ............................................ 39

3.7. Spesifikasi Hardware dan Software ........................................................... 40

3.7.1. Software (Perangkat Lunak) ................................................................ 40

3.7.2. Hardware (Perangkat Keras) ............................................................... 40

BAB 4 ................................................................................................................... 41

4.1. Data Masukan ............................................................................................. 41

4.2. Evaluasi Proses ........................................................................................... 42

4.3. Evaluasi Proses Segmentasi Judul .............................................................. 43

4.4. Evaluasi Proses Segmentasi Kolom Teks .................................................. 52

4.5. Hasil Pengujian ........................................................................................... 57

BAB 5 ................................................................................................................... 67

5.1. Kesimpulan ................................................................................................. 67

5.2. Saran ........................................................................................................... 68

Daftar Pustaka ....................................................................................................... 69

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 14: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

xiv

DAFTAR GAMBAR

Gambar 2.1. Contoh entitas teks. .......................................................................... 10

Gambar 2.2. Contoh entitas judul. ........................................................................ 11

Gambar 2.3. Contoh entitas judul terbalik. ........................................................... 11

Gambar 2.4. Contoh entitas foto. .......................................................................... 12

Gambar 2.5. Contoh entitas grafis......................................................................... 12

Gambar 2.8. Contoh citra grayscale. .................................................................... 14

Gambar 2.9. Contoh citra artikel biner.................................................................. 15

Gambar 2.10. Contoh penerapan proses binerisasi. .............................................. 16

Gambar 2.12. Contoh penerapan sentroid. ............................................................ 20

Gambar 2.13. Contoh pengaplikasian bounding box. ........................................... 21

Gambar 3.1. Diagram Blok Segmentasi Judul dan Kolom Teks untuk Artikel

Koran Menggunakan Metode Proyeksi Profil dan Konektivitas Komponen. ....... 22

Gambar 3.2. Pengaturan perubahan format dari PDF ke Bitmap. ........................ 24

Gambar 3.3. Contoh lokalisasi area artikel pada halaman koran. ......................... 26

Gambar 3.4. Contoh penamaan file gambar artikel koran. ................................... 27

Gambar 3.5. Diagram Proses segmentasi judul dan kolom teks untuk artikel koran

kompas menggunakan profil proyeksi dan konektivitas komponen. .................... 30

Gambar 3.6. Diagram Konteks.............................................................................. 30

Gambar 3.7. Data Flow Diagram level 1. ............................................................ 31

Gambar 3.8. Rancangan Interface alat uji. ............................................................ 39

Gambar 4.1. Contoh data testing (19800102-01-9.bmp) yang mengandung noise

salt. ........................................................................................................................ 41

Gambar 4.2. Contoh data testing (19800102-01-2) yang memiki noise pepper. .. 42

Gambar 4.3. Contoh data testing (19800102-02-2) yang karakternya mengalami

bleeding ink. .......................................................................................................... 42

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 15: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

xv

Gambar 4.4. Potongan citra image4. ..................................................................... 49

Gambar 4.5. Potongan citra image6. ..................................................................... 50

Gambar 4.6. Potongan citra image5. ..................................................................... 52

Gambar 4.7. Potongan citra data training image2v. ............................................. 54

Gambar 4.8. Potongan citra data training image2v. ............................................. 54

Gambar 4.9. Data training image9. ....................................................................... 55

Gambar 4.10. Citra kolom teks hasil segmentasi kolom teks vertikal. .............. 55

Gambar 4.11. Segmentasi judul untuk citra 19800102-16-10 .............................. 60

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 16: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

xvi

DAFTAR TABEL

Tabel 3.1. Spesifikasi Software. ............................................................................ 40

Tabel 3.2. Spesifikasi Hardware. .......................................................................... 40

Tabel 4.1. Daftar evaluasi proses. ......................................................................... 43

Tabel 4.2. Evaluasi ThresholdTinggi1 kandidat karakter judul > 1,5 * rerata tinggi

karakter. ................................................................................................................. 44

Tabel 4.3. Evaluasi ThresholdTinggi2 kandidat karakter judul < 7 * rerata tinggi

karakter. ................................................................................................................. 46

Tabel 4.4. Evaluasi ThresholdRasio1 dan ThresholdRasio2 aspek rasio kandidat

karater < =1,8.dan >= 0,1 ...................................................................................... 47

Tabel 4.5. Evaluasi ThresholdRBW, rasio hitam dan putih kandidat karakter

judul< 1,7. ............................................................................................................. 48

Tabel 4.6. Evaluasi ThresholdProyeksiBarisJudul1, nilai proyeksi < 40. ............ 50

Tabel 4.7. Evaluasi ThresholdProyeksiBarisJudul2, Tinggi proyeksi baris judul <

30. .......................................................................................................................... 51

Tabel 4.8. Evaluasi nilai objek noise < 30 piksel. ................................................. 53

Tabel 4.9. Evaluasi ThresholdLebarKolom, lebar kolom teks < 1,5 dari lebar

kolom teks terkecil. ............................................................................................... 56

Tabel 4.10. Citra hasil uji gagal disegmentasi judul ............................................. 57

Tabel 4.11. Evaluasi tinggi karakter untuk segmentasi judul ............................... 61

Tabel 4.12. Citra hasil uji berhasil judul ............................................................... 62

Tabel 4.13. Citra hasil uji segmentasi kolom teks yang gagal .............................. 63

Tabel 4.14. Citra hasil uji segmentasi kolom yang berhasil ................................. 65

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 17: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

1

BAB I

PENDAHULUAN

1.1. Latar Belakang

Koran adalah salah satu media cetak yang menjadi alat komunikasi utama

masyarakat modern. Sebagai salah satu media komunikasi tertua, koran atau

dikenal dengan istilah surat kabar, adalah media yang menyajikan berita dan

informasi terkini dalam bentuk cetak (Kurnianto, 2013). Koran telah menjadi

sarana penyampaian informasi yang aktual dan terpercaya. Keberadaan artikel-

artikel pada koran tersebut baiknya dipertahankan, dengan kata lain diarsipkan.

Pengarsipan koran bisa menjadi sebuah sumber ilmu yang berguna di masa depan

atau sekarang dan sebuah lahan bisnis penjualan informasi.

Kompas Gramedia menerapkan proses pengarsipan koran-koran tua

menjadi sebuah perpustakaan digital yang berisi artikel-artikel koran Kompas.

Artikel-artikel tersebut diolah dan dikategorikan menjadi sebuah kumpulan data-

data berbentuk teks artikel dari tahun 1965 hingga tahun ini. Arsip-arsip ini pada

mulanya direncanakan untuk kebutuhan internal instansi, seiring waktu mulai

digunakan untuk kepentingan umum. Rencana Kompas Gramedia adalah untuk

menampilkan teks-teks artikel koran tua ke sebuah web yaitu Kompasdata.id.

Kompas Data adalah layanan daring untuk mengakses koleksi data Kompas

berupa artikel, gambar, infografik, dan pustaka. Arsip artikel berisi kumpulan berita

dan artikel Kompas sejak tahun 1965. Arsip Gambar berisi koleksi foto karya

wartawan dan pewarta foto Kompas yang dipublikasikan. Poster Infografik berisi

koleksi data Kompas dalam bentuk visual grafis (KompasData, 2017).

Pada kasusnya koran harian Kompas pada periode sebelum 1990 memiliki

cara penyuntingan dengan diketik menggunakan mesin tik. Pengarsipan koran

berbentuk kliping-kliping yang dibuat sendiri oleh pihak Kompas. Saat ini citra

artikel–artikel tersebut hendaknya dipindahkan bentuk pengarsipanya ke media

digital. Sedangkan untuk melakukan konversi citra koran tua ke digital tidaklah

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 18: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

2

mudah, koran harus dipindai melalui mesin pemindai dan dibaca dengan software

OCR (Optical Character Recognition).

Presentase keakuratan pengenalan karakter yang dimiliki disebut rendah

terutama pada artikel koran Kompas periode sebelum 1990. Hasil yang rendah

dikarenakan kualitas koran yang buruk, kondisi koran yang rusak, terlipat, tercoret,

basah dan proses penyuntingan yang manual menggunakan mesin tik. Alhasil

keluaran dari pengenalan teks tersebut terkadang memiliki urutan membaca yang

salah dan huruf-huruf yang gagal dikenali.

Kompas Gramedia telah mengupayakan hal ini sebelumnya, mereka

menggunakan piranti lunak OCR dari pengembang-pengembang ternama seperti

Adobe, Microsoft dan lain-lain, tetapi juga belum menemukan presentase

keakuratan yang memuaskan. Presentase keakuratan yang mereka dapatkan adalah

sekitar 60 persen, dimana nilai itu dianggap sangat kurang untuk memenuhi

kebutuhan mereka untuk melakukan pengarsipan koran-koran pada periode

sebelum koran terkomputerisasi.

Penulis ingin meningkatkan keakuratan hasil pengenalan karakter pada

koran Kompas dengan mengajukan penelitian mengenai segmentasi kolom teks dan

judul. Metode yang terusulkan akan mendukung proses pengenalan karakter-

karater pada judul artikel dan urutan membaca pada kolom teks. Sebuah proses

pengenalan bagian-bagian layout (entitas) ditentukan disini untuk mendasari proses

segmentasi.

B. Gatos, dkk (2009) melakukan proses segmentasi menggunakan

pendekatan proyeksi, mengusulkan sebuah strategi citra dokumen dapat dipisah-

pisah ke potongan-potongan baris dengan sekiranya dengan kesenjangan (gap)

diantara baris-baris. Metode lokal minima digunakan pada data hasil proyeksi baris,

yang akan menjadi batas segmentasi baris teks. Pendekatan ini didasarkan pada

asumsi topologi bahwa untuk setiap baris teks, ada jalur dari satu sisi gambar ke

sisi lain yang melintasi hanya satu baris teks. Pertama mengaburkan gambar dan

kemudian menggunakan pelacak untuk mengikuti jalur paling putih dan paling

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 19: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

3

hitam dari kiri ke kanan dan juga dari kanan ke kiri untuk memisahkan citra menjadi

baris teks. Metode mereka mempunyai performa sebesar 98,6%. Kesalahan

segmentasi terjadi karena ditemui nilai variasi dari ukuran huruf yang besar.

Penelitian diatas menjadi acuan untuk segmentasi judul dan kolom teks.

Dianggap metodenya dapat menangani teks tulisan tangan secara baik, namun

kesalahan terjadi karena data yang diobservasi adalah tulisan tangan yang

kebanyakan mempunyai variasi ukuran huruf yang bermacam-macam. Maka jika

metode ini diterapkan pada kasus teks tercetak historis maka bisa sangat

memperbaiki peforma dari metode yang sudah baik menjadi lebih baik.

Hasil evaluasi dari algoritma segmentasi judul yang disampaikan oleh Lie,

dkk (2001) adalah 44,4 % dengan menerapkan sebuah proses pe-label-an di area-

area yang homogen dari sebuah citra dokumen. Dalam upaya mengajukan analisis

layout yang kompleks, penelitian ini mengusulkankan sebuah algoritma berbasis

komponen dengan pendekatan bottom-up. Penulis melakukan penentuan

homogenitas yang berhubungan dengan jarak, menghasilkan sebuah mekanisme

dinamis pengukuran jarak minimal untuk menentukan penggabungan komponen

secara berurut.

Mitchel dan Yan (2001) mencapai 66,7 % dengan menggunakan sebuah

algoritma yang dirancang untuk mensegmentasi dan mengklasifikasikan dokumen

koran. Sebuah firtur penting dari algoritma ini adalah kemampuan untuk

mendeteksi baris dalam dokumen, termasuk baris-baris yang terhubung dengan

komponen lain. Sebuah pendekatan bottom-up diterapkan untuk mensegmentasi

citra ke dalam sebuah pola, kemudian setiap pola diklasifikasikan ke satu dari tujuh

jenis entitas. Keseluruhan entitas akan terbentuk dari pola-pola yang

terklasifikasikan.

Hadjar, dkk (2001) menyajikan pendeketakannya untuk algoritma

penguraian halaman otomatis. Pendekatan penulis adalah dengan menguraikan citra

koran ke dalam area-area citra antara lain, garis horisontal dan vertikal, teks area

dan area judul.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 20: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

4

Algoritma segmentasi daerah teks dari Lie, dkk (2001) adalah 40%,

sedangkan Mitchel dan Yan (2001) mencapai 12,9 %, Oleh Hadjar , dkk (2001)

28,8%. Beberapa dari peneliti tidak mengikuti pedoman entitas yang telah tersimpul

di dalam penelitian kontes segmentasi koran (B. Gatos, dkk, 2001), misalnya

Hadjar, dkk (2001) tidak memberikan hasil apapun untuk entitas foto (Photo).

Berdasarkan data yang disajikan pada Newspaper Segmentation Metric (NSM) ,

nilai-nilai untuk semua algoritma segmentasi menunjukkan bahwa algoritma Liu,

dkk (2001) memiliki kelebihan secara keseluruhan.

Chen, dkk (2004) melakukan penelitian yang bertujuan untuk mendeteksi

dan mengenali teks yang terdapat pada citra yang kompleks dan frame-frame video.

Deteksi teks dilakukan dengan melakukan dua langkah pendekatan yang

mengkombinasikan kecepatan dari lokalisasi teks, menerapkan normalisasi ukuran

teks , verifikasi teks dengan machine learning. Metode terbagi menjadi dua bagian

besar pertama, mendeteksi baris teks. Kedua yaitu pengenalan dari teks yang

terdapat di baris.

Penerapan metode machine learning untuk deteksi teks mengalami

kesulitan karena ukuran karakter dan variasi citra grayscale serta beratnya proses

komputasi (Chen, dkk, 2004). Menanggulangi masalah tersebut peneliti merancang

dua langkah skema lokalisasi/verifikasi. Langkah pertama bertujuan secara cepat

melokalisasi kandidat teks, menerapkan normalisasi pada karakter – karakter untuk

mendapatkan ukuran yang unik (Chen, 2004). Kemudian pada tahap kedua adalah

verifikasi, maka disini peneliti akan menerapkan sebuah proses segmentasi dan

verifikasi untuk mendukung kinerja dari algoritma yang saya usulkan.

Pada perkembangan penelitian ini menggunakan praproses Enhanced-

MSER karena dianggap dapat menghapus noise pepper pada citra, kemudian

ditiadakan dan digantikan dengan binerisasi metode Otsu dan penghapusan objek

dengan area tertentu, proses MSER dianggap terlalu rumit. Proses morfologi

digunakan untuk mengatasi karakter menempel, digantikan dengan profil proyeksi

karena hasil dari proses morfologi sulit diprediksi. Konektivitas komponen yang

digunakan adalah 8 ketetanggan, digantikan dengan 4 ketetanggan karena untuk

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 21: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

5

mengurangi area noise dan karakter-karakter menempel. Metode konektivitas

komponen yang sebelumnya melibatkan perhitungan Eccentricity dihapus karena

dianggap tidak dibutuhkan, cukup dengan Bounding Box, Area dan Centroid.

Pada penelitian sebelumnya Chen, dkk (2004) melakukan sebuah lokalisasi

kandidat teks, yang memenuhi syarat seperti; yang memiliki area 75 sampai 9000

piksel, aspek rasio lebih dari 1,2, tinggi dari kandidat diantara 8 hingg 35 piksel.

Berdasarkan data yang digunakan untuk penelitian ini, disimpulkan syarat baru

sebagai berikut; karakter memiliki rasio 0,1 sampai 1,8 , tinggi 1,5 kali tinggi rerata

karakter sampai 7 kali tinggi rerata karakter, rasio hitam putih <= 1,7. Syarat

didapat dari eksperimen yang dilakukan sesuai data training penelitian. Syarat ini

juga dipengaruhi oleh penelitian dari Mitchel dan Yan yang menyumbangkan rasio

hitam putih untuk menseleksi kandidat karakter baik pada dokumen-dokumen

tertulis.

Penelitian ini mengusulkan sebuah metode segmentasi untuk memisahkan

entitas-entitas koran, seperti judul dan kolom teks. Kompas Gramedia memiliki

proses penyuntingan yang terkomputerisasi setelah tahun 1990. Arsip untuk koran

Kompas sebelum periode 1990 masih belum terkomputerisasi dan menggunakan

mesin tik sebagai sarana penyuntingan koran. Data penelitian yang digunakan

secara spesifik adalah citra koran harian Kompas periode 1990 dan periode 1980.

Peneliti menerapkan metode segmentasi judul dari penelitian B. Gatos

(2001), Chen (2004) dan Mitchel dan Yan (2001). B.Gatos menyumbangkan sebuah

kesimpulan bahwa tinggi karakter pada judul tingginya lebih besar dari pada tinggi

karakter dominan, Chen (2004) menyumbangkan bahwa rasio kandidat karakter

mendekati 1 serta Mitchel dan Yan menyumbangkan penggunaan rasio hitam dan

putih untuk mengenali kandidat karakter.

Metode profil proyeksi digunakan pada proses segmentasi judul untuk

mendukung metode konektivitas komponen dalam menyeleksi karakter-karakter

yang dibutuhkan. Segmentasi kolom teks menerapkan proses penghapusan area

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 22: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

6

dibawah 30 piksel dan profil proyeksi. Profil proyeksi dinilai efektif dan sederhana

dalam memilih piksel-piksel yang dibutuhkan.

1.2. Rumusan Masalah

Berdasarkan latar belakang di atas, rumusan masalah dalam penelitian ini

adalah berapa presentase keakuratan segmentasi judul dan kolom teks pada citra

artikel koran tua Kompas?

1.3. Tujuan

Tujuan dari penelitian ini adalah untuk mensegmentasi judul dan kolom

teks pada citra koran tua Kompas.

1.4. Batasan Masalah

Pada penelitian ini, batasan-batasan yang digunakan adalah sebagai

berikut:

1. Citra artikel yang menjadi bahan penelitian adalah citra artikel sebelum

tahun 1990 (belum terkomputerisasi).

2. Citra artikel yang digunakan sebagai penelitian adalah citra yang berformat

kompresi bitmap.

3. Segmentasi yang akan dilakukan pada setiap citra adalah citra yang

mengandung satu artikel.

4. Citra artikel yang digunakan adalah hasil pemotongan manual (image

cropping) dari citra halaman koran.

5. Proses segmentasi memfokuskan pada entitas judul dan kolom teks.

6. Entitas Foto, grafis, garis horisontal, garis vertikal, judul terbalik tidak

menjadi output penelitian dan dibiarkan (tidak dihapus).

1.5. Manfaat

Pihak Kompas Gramedia dapat menggunakan sistem ini sebagai sarana

segmentasi sebelum memasuki proses pengenalan karakter.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 23: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

7

1.6. Metodologi Penelitian

1. Studi Literatur

Studi literatur dilakukan untuk mendapatkan informasi terkait penelitian

yang dilakukan. Studi literatur dilakukan dengan cara mempelajari buku

referensi, artikel dan jurnal yang berkaitan dengan pengenalan teks pada

citra.

2. Perancangan Sistem

Pada penelitian ini tahap perancangan sistem dilakukan untuk membuat

rancangan umum dalam pembuatan pengenalan teks.

3. Pengumpulan Data

Pada tahap ini dilakukan pengumpulan data yang akan digunakan dalam

penelitian.

4. Pembuatan Sistem

Berdasarkan hasil perancangan sistem, maka tahap selanjutnya adalah

membuat sistem sesuai dengan rangan dan kebutuhan.

5. Pengujian dan Analisis

Pengujian dilakukan untuk mengetahui kinerja sistem yang telah

diimplementasikan. Pengujian dilakukan untuk mengetahui seberapa besar

akurasi dan seberapa cepat kinerja sistem pada saat melakukan pengenalan

teks pada artikel koran tua Kompas. Analisis dilakukan dengan melukan

percobaan dan memahami

6. Pembuatan Laporan

Laporan penelitian dibuat berdasarkan proses dan hasil dari penelitian yang

telah dilakukan.

1.7. Sistematika Penulisan

BAB I: PENDAHULUAN

Dalam bab ini dijelaskan mengenai latar belakang, rumusan masalah, tujuan

penelitian, batasan masalah, manfaat penelitian, metodologi penelitan dan

sistematika penulisan pada penelitian ini.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 24: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

8

BAB II: LANDASAN TEORI

Dalam bab ini dijelaskan mengenai teori-teori yang digunakan untuk

mendukung penelitian ini

BAB III: ANALISA DAN DESAIN PENELITIAN

Pada bab ini menjelaskan tentang gambaran umum penelitian, desian

penelitian, analisa kebutuhan proses, implementasi perancangan, penjelasan

proses, perancangan antar muka (user interface), serta spesifikasi hardware dan

software yang digunakan dalam melakukan implementasi

BAB IV: HASIL DAN PEMBAHASAN

Bab ini membahas hasil dan pembahasan yang didapat dari penelitian serta

percobaan yang telah dilakukan dalam penelitian ini.

BAB V: KESIMPULAN DAN SARAN

Bab ini berisi kesimpulan dan saran dari hasil analisa, implementasi dan

pengujian sistem.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 25: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

9

BAB II

LANDASAN TEORI

2.1. Koran

Koran adalah salah satu media cetak yang menjadi alat komunikasi utama

masyarakat modern. Sebagai salah satu media komunikasi tertua, koran atau

dikenal dengan istilah surat kabar, adalah media yang menyajikan berita dan

informasi terkini dalam bentuk cetak (Kurnianto, 2013).

Jenis koran umum biasanya diterbitkan setiap hari, kecuali pada hari-hari

libur. Koran sore juga umum di beberapa negara. Selain itu, juga terdapat koran

mingguan yang biasanya lebih kecil dan kurang prestisius dibandingkan dengan

koran harian dan isinya biasanya lebih bersifat hiburan.

2.1.1. Perbedaan Layouting Koran Kompas

Dalam konteks desain grafis, layout adalah sebuah metode dalam

menyusun atau mengorganisasi keseluruhan elemen visual dalam desain

yang terdiri atas grafis (graphic), tipografi (tipography), dan ruang (space)

dalam satu kesatuan desain yang mendukung fungsi media sebagai alat

komunikasi (Kurnianto , 2013). Layout koran Kompas dalam peridode

tahun terbit sebelum 1990, memiliki jumlah kolom artikel pada yang lebih

sedikit. Proses pengetikan huruf menggunakan mesin tik. Citra koran

terdapat banyak bleeding ink, menandakan proses pengetikan karakter yang

manual menggunakan mesin tik. Noda-noda bintik hitam juga dihasilkan

oleh proses pengetikan bolak-balik dalam satu lembar kertas.

Pada koran tua terlihat garis pemisah antar artikel (garis horisontal

dan vertikal) yang lebih tebal. Ruang (space) yang diberikan untuk jarak

antar entitas lebih sempit dibandingkan pada layout koran Kompas terkini.

Font-style yang digunakan dalam koran terdahulu memiliki jenis yang sama

(homogen), misalnya font-style Times New Roman menjadi keseluruhan

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 26: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

10

font-style yang digunakan dalam koran. Berbeda dengan koran Kompas

terbitan terkini yang menyajikan banyak font-style, misalnya pada judul

artikel dan sub-judul artikel memiliki font-style yang berbeda.

Dari segi warna, koran Kompas terdahulu tidak mempunyai variasi

warna yang banyak, dominannya adalah warna hitam putih saja. Sedangkan

koran Kompas saat ini memiliki variasi warna yang heterogen, terlihat dari

foto, warna teks dan banner iklan yang memiliki bermacam variasi warna.

2.1.2. Entitas-Entitas dalam Koran

Berdasarkan hasil penelusuran dari B. Gatos, dkk (2001) telah

dipilih beberapa entitas yang sering muncul dalam halaman koran dari

sebuah periode awal dari abad sebelumnya hingga saat ini. Dipilih tujuh

entitas yang dimiliki oleh daerah teks, garis dan gambar:

1. Kolom Teks: Sebuah area yang terdiri dari huruf-huruf yang

tingginya mendekati sama atau kurang dari tinggi huruf dominan

dalam halaman koran. Daerah teks tidak terpotong selama; a) jarak

vertikal antara baris teks secara berturut-turut tetap sama, dan b).

Text style dan layout tetap sama. (lihat Gambar 2.1.)

Gambar 2.1. Contoh entitas kolom teks.

(Sumber: Kompas Gramedia(2018))

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 27: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

11

2. Judul: Sebuah daerah teks yang terdiri dari huruf-huruf yang

tingginya lebih besar dari tinggi huruf dominan dalam halaman

koran. Daerah judul tidak terpotong selama; a). Jarak vertikal antara

baris judul secara berturut-turut tetap sama, dan b). Text style dan

layout tetap sama. (lihat Gambar 2.2.)

Gambar 2.2. Contoh entitas judul.

(Sumber: Kompas Gramedia(2018))

3. Inverse Title (judul terbalik): Teks atau judul dalam warna latar

hitam. (lihat Gambar 2.3.)

Gambar 2.3. Contoh entitas judul terbalik.

(Sumber: Kompas Gramedia(2018))

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 28: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

12

4. Garis Horisontal: sebuah garis horisontal yang tidak patah atau

yang patah.

5. Garis Vertikal: Sebuah garis vertikal yang tidak patah atau yang

patah.

6. Foto: Sebuah foto digital. (lihat Gambar 2.4.)

Gambar 2.4. Contoh entitas foto.

(Sumber: Kompas Gramedia(2018))

7. Gambar / grafis: Sebuah gambar atau grafis. (lihat Gambar 2.5.)

Gambar 2.5. Contoh entitas grafis.

(Sumber: Kompas Gramedia(2018))

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 29: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

13

2.2. Pengertian Citra

Citra merupakan gambar berdimensi dua sebagai representasi dari suatu

objek. Sebuah citra diartikan sebagai suatu fungsi kontinyu dalam dua dimensi dari

intensitas cahaya (x,y) (Widiarti dan Himamunanto, 2013). Dimana x dan y

menyatakan suatu koordinat pada setiap titik (x,y). Pada setiap titik (x,y) memiliki

suatu nilai intensitas cahaya atau kecerahan yang menentukan derajat keabuan dari

setiap titik dan biasa dikenal sebagai nilai (f). Setiap titik pada citra dapat

dinyatakan dengan:

0< ƒ (x,y) < ∞

● ƒ adalah intensitas cahaya pada koordinat (x,y)

● (x,y) adalah perpotongan garis antara x dan y

Citra digital merupakan citra kontinyu yang diubah ke dalam bentuk diskret.

Citra digital direpresentasikan dalam bentuk matriks yang terdiri dari baris dan

kolom, setiap perpotongan baris dan kolom tersebut memiliki nilai intensitas

kecerahan. Titik dari setiap matriks tersebut dinamakan dengan piksel. Citra digital

merupakan kumpulan dari piksel dengan jumlah tertentu.

Terdapat beberapa jenis citra antara lain citra warna, citra grayscale

(keabuan), dan citra hitam putih (biner). Pada penelitian ini adalah citra warna, citra

keabuan (grayscale) dan citra hitam putih (biner) akan sering digunakan. Berikut

penjelasan dari masing-masing jenis citra:

2.2.1. Citra Grayscale

Citra grayscale dikenal juga sebagai citra berskala keabuan. Citra

jenis ini menangani gradasi hitam dan putih yang menghasilkan efek

keabuan. Skala pada citra grayscale bergantung pada jumlah bit yang

digunakan. Citra berskala 8 bit dinyatakan dengan skala intensitas 0

sampai 255. Nilai 0 menyatakan hitam dan 255 menyatakan putih. Untuk

nilai diantara 0 sampai 255 memiliki warna keabuan (Kadir dkk, 2013).

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 30: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

14

Pada citra koran Kompas periode terdahulu efek keabuan tidak

terlalu terlihat , karena pada nyatanya intensitas warnanya hanya berada di

sekitar warna hitam dan putih.

Gambar 2.8. Contoh citra grayscale.

(Sumber: Kompas Gramedia(2018))

Pada gambar 2.8. gradasi antara warna hitam ke putih tidak terlalu

terlihat. Maka sebuah penjelasan pada gambar matriks di sebelah kanan

gambar 2.8. menyampaikan bahwa, nilai 0 dalam matriks (kolom ke 5,

baris ke 4) tersebut merepresentasikan warna hitam pada bagian atas huruf

‘D’. Di sekitar nilai 0 terdapat nilai-nilai piksel lain yang memiliki ragam

nilai dengan jangakauan 0<CG(x,y) ≤255. Artinya gambar 2.8. adalah

sebuah citra dengan skala keabuan (grayscale). Notasi CG mendefinisikan

sebuah citra grayscale

2.2.2. Citra Biner Hitam dan Putih

Citra hitam dan putih juga dikenal sebagai citra biner. Maka citra

biner adalah citra yang setiap pikselnya hanya bernilai 0 atau 1. Nilai 0

menyatakan warna hitam dan 1 menyatakan putih. Citra biner pada

penelitian ini digunakan untuk mendeteksi objek-objek karakter.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 31: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

15

Gambar 2.9. Contoh citra artikel biner.

(Sumber: Kompas Gramedia (2018))

2.3. Pengolahan Citra

Pengolahan Citra bertujuan memperbaiki kualitas citra agar mudah

diinterpretasi oleh manusia atau mesin. Teknik-teknik pengolahan citra

mentransformasikan citra menjadi citra lain (Kadir dkk, 2013). Jadi, masukannya

adalah citra dan keluarannya juga citra, namun citra keluaran mempunyai kualitas

lebih baik daripada citra masukan. Termasuk ke dalam bidang ini juga adalah

pemantapan citra (image compression).

2.4. Pengenalan Pola

Menurut Jain (2000) pengenalan pola mengelompokkan data numerik dan

simbolik (termasuk citra) secara otomatis oleh mesin (dalam hal ini komputer).

Tujuan pengelompokan adalah untuk mengenali suatu objek di dalam citra.

Manusia bisa mengenali objek yang dilihatnya karena otak manusia telah belajar

mengklasifikasi objek-objek di dalam sehingga mampu membedakan suatu objek

dengan objek lainnya. Kemampuan sistem visual manusia inilah yang dicoba

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 32: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

16

ditiru oleh mesin. Komputer menerima masukan berupa citra objek yang akan

diidentifikasi, memproses citra tersebut, dan memberikan keluaran berupa

deskripsi objek di dalam citra (Kadir dkk, 2013).

2.5. Binerisasi

Suatu citra abu-abu diubah menjadi citra biner (putih dan hitam) dengan

cara memilih suatu level keabuan T dalam citra asli, dan kemudian mengubah

setiap piksel hitam atau putih tergantung apakah nilai keabuan lebih besar atau

kurang dari T :

𝑆𝑢𝑎𝑡𝑢 𝑝𝑖𝑘𝑠𝑒𝑙 𝑚𝑒𝑛𝑗𝑎𝑑𝑖 {𝑝𝑢𝑡𝑖ℎ 𝑗𝑖𝑘𝑎 𝑙𝑒𝑣𝑒𝑙 𝑘𝑒𝑎𝑏𝑢𝑎𝑛 > 𝑇 ℎ𝑖𝑡𝑎𝑚 𝑗𝑖𝑘𝑎 𝑙𝑒𝑣𝑒𝑙 𝑘𝑒𝑎𝑏𝑢𝑎𝑛 ≤ T

Pengambang-batasan (thresholding) merupakan hal yang vital dalam

segmentasi citra digital, dimana diinginkan untuk memilah objek-objek karakter

dari latar belakang citra.

Binerisasi menjadi cara segmentasi antara karakter teks dari koran dan

latarnya. Nilai putih akan mewakili konten dari koran, sedangkan hitam akan

menjadi nilai latar.

Gambar 2.10. Contoh penerapan proses binerisasi.

(Sumber: Kompas Gramedia (2018))

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 33: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

17

2.5.1. Binerisasi Citra dengan Metode Otsu

Metode Otsu dipublikasikan oleh Nobuyuki Otsu pada tahun 1979.

Metode ini menentukan nilai ambang dengan cara membedakan dua

kelompok, yaitu objek luar dan latar belakang, yang memiliki bagian

saling bertumpukan, berdasarkan histogram (Kadir dkk, 2013)

Prinsip metode Otsu dijelaskan berikut ini. Pertama-tama,

probabilitas nilai intensitas i dalam histogram dihitung melalui:

𝑝(𝑖) = 𝑛𝑖

𝑁 , 𝑝(𝑖) ≥ 0 , ∑

256

1

𝑝(𝑖) = 1

dengan ni menyatakan jumlah piksel berintensitas i dan N

menyatakan jumlah semua piksel dalam citra. Jika histogram dibagi

menjadi dua kelas yaitu objek dan latar belakang.

2.6. Segmentasi pada Citra

Segmentasi citra merupakan proses yang ditujukan untuk mendapatkan

objek-objek yang terkandung di dalam citra atau membagi citra ke dalam beberapa

daerah dengan setiap objek atau daerah memiliki kemiripan atribut. Pada citra yang

mengandung hanya satu objek, objek dibedakan dari latar belakangnya.

Chen, dkk (2002) membedakan jenis pendekatan segmentasi teks ke dalam:

1. Pendekatan bottom-up, memisahkan citra kedalam daerah-daerah

kemudian mengelompok derah ‘karakter’ ke dalam kata-kata. Maka

tingkat pengenalan bergantung pada algoritma segmentasi dan

kompleksitas dari konten di dalam citra.

2. Pendekatan top-down, mendeteksi area teks dalam citra dan

memisahkan tiap-tiap gambar menjadi teks dan latar. Pendekatan ini

dapat memproses citra yang lebih kompleks dari pada pendekatan

bottom-up tapi kesulitan masih sering ditemui pada saat deteksi dan

segmentasi/proses pengenalan.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 34: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

18

Maka dalam penelitian ini penulis memilih untuk menggunnakan

pendekatan bottom-up, karena didalam citra koran terdapat konten-konten yang

kompleks. Berikut langkah-langkah yang diusulkan 1) memisahkan mana yang

objek dan latar (binerisasi). 2) memisahkan objek-objek yang bukan dianggap

kandidat teks (noise, Entitas gambar, garis, judul terbalik). 3) memisahkan daerah

judul dan kolom-kolom teks.

2.7. Profil Proyeksi

Proyeksi citra adalah bentuk satu dimensi isi citra yang dihitung

berdasakarkan sumbu koordinat. Definisinnya sebagai berikut:

𝑃ℎ𝑜𝑟(𝑏) = ∑ ∑ 𝐼 (𝑏, 𝑘𝑗)

𝑁

𝑗=𝑖

𝑃𝑣𝑒𝑟(𝑘) = ∑ ∑ 𝐼 (𝑏𝑘, 𝑘)

𝑀

𝑗=𝑖

Dalam hal ini, M adalah tinggi citra dan N adalah lebar citra. Definisi di atas

menyatakan bahwa proyeksi horisontal Phor(b) adalah jumlah nilai piksel pada baris

b citra, sedangkan Pver(k) adalah nilai piksel pada kolom k citra (Kadir dkk 2013).

Pada penelitian ini profil proyeksi berguna untuk mencari baris-baris teks

dan batas judul pada citra artikel koran. Proses proyeksi dalam sebuah metode bisa

beragam misalnya proyeksi vertikal dan proyeksi horisontal. Cara yang digunakan

adalah pengambang-batasan pada setiap nilai proyeksinya. Pengambang-batasan

atau thresholding adalah sebuah cara dalam proyeksi untuk memilah nilai proyeksi

yang ingin disegmentasi dan nilai yang dibuang. Pengambang-batasan juga sebuah

simplifikasi dari citra karena mengubah matriks menjadi sebuah vektor dan nilainya

berkisar antara 0 hingga 1.

2.8. Konektivitas Komponen (Connected Components)

Pada penelitian ini metode konektivitas komponen menggunakan fungsi

bwconncomp yang merupakan fungsi pelabelan pada citra biner dari Matlab. Proses

pelabelan menggunakan konektivitas 4 ketetanggan.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 35: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

19

Citra biner sering kali memperlihatkan sejumlah objek. Pelabelan terhadap

objek sesungguhnya berupa tindakan untuk memberikan label berbeda (berupa

nomor) pada setiap objek. Pemrosesannya dapat dilaksanakan pada citra biner

(Kadir dkk, 2013). Ketentuan yang dilakukan sebagai berikut:

B(y, x) = {

0 𝑝𝑖𝑘𝑠𝑒𝑙 𝑙𝑎𝑡𝑎𝑟 𝑏𝑒𝑙𝑎𝑘𝑎𝑛𝑔1 𝑝𝑖𝑘𝑠𝑒𝑙 𝑙𝑎𝑡𝑎𝑟 𝑑𝑒𝑝𝑎𝑛2,3, … 𝑙𝑎𝑏𝑒𝑙 𝑜𝑏𝑗𝑒𝑘

Proses pelabelan citra biner akan memisahkan objek-objek yang terdapat

dalam citra biner. Konektivitas dari objek-objek dalam citra biner dapat diuraikan

menjadi 2 jenis nilai tetangga, yaitu 4 dan 8 tetangga yang terhubung. Berikut

gambaran implementasi konektivitas komponen pada gambar 2.11.

Gambar 2.11. Contoh implementasi penerapan labeling pada citra.

(Sumber: Kompas Gramedia (2018))

Proses perhitungan properti dari setiap objek menggunakan fungsi dari

Matlab yaitu regionprops. Maka hasil dari fungsi tersebut akan didapatkan properti-

properti dari objek citra, seperti:

2.8.1. Pusat Massa (Centorid)

Pusat massa (sentroid) atau Centroid, secara umum ditemukan

dengan menggunakan nilai rerata koordinat setiap piksel yang menyusun

objek (Kadir dkk, 2013).

Sentroid akan membantu metode profil proyeksi untuk

pensegmentasian baris teks. Dari pada melakukan pemotongan citra

berdasarkan titik lokal minima yang ditemukan, titik sentroid yang

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 36: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

20

terdeteksi di atas poin minima ke i akan didaftarkan menjadi objek citra

baris ke i. Gagasan ini diambil untuk mengatasi titik dari huruf ‘i’ yang

semisalnya hilang pada saat proses penghapusan noise.

Gambar 2.12. Contoh penerapan sentroid.

(Sumber: Kompas Gramedia (2018))

Pada gambar 2.12 adalah representasi letak sentroid pada masing-

masing objek yang terlabel. Ikon * menjelaskan letak-letak sentroid untuk

masing-masing objek.

2.8.2. Luas Objek (Area)

Luas objek adalah jumlah piksel yang terdapat pada objek yang

bersangkutan (Kadir dkk, 2013). Dalam metode yang diusulkan luas objek

menjadi sebuah firtur untuk segmentasi objek-objek citra yang dianggap

tidak masuk kedalam entitas judul atau baris.

2.8.3. Kotak Pembatas (Bounding Box)

Kotak pembatas (Bounding Box) adalah kotak terkecil yang dapat

melingkupi sebuah objek (Kadir dkk, 2013). Kotak pembatas pada

umumanya berisi empat angka yang merepresentasikan lokasi dan ukuran

dari sebuah objek, bilangan pertama adalah koordinat x, kedua koordinat

y, ketiga adalah lebar (width) objek citra dari koordinat x, dan keempat

adalah panjang (length) objek citra dari koordinat y.

Dalam proses segmentasi rentang panjang (length) dari suatu objek

akan menjadi salah satu ciri yang memisahkan karakter-karakter yang

masuk ke dalam entitas judul atau teks. Length akan diartikan sebagai

tinggi huruf (character height).

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 37: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

21

Gambar 2.13. Contoh pengaplikasian bounding box.

(Sumber: Kompas Gramedia (2018))

Gambar 2.13 Bounding Box melingkupi huruf-huruf yang terlabel.

Kotak pembatas tersebut direpresentasikan dengan kotak berwarna merah

yang melingkupi tiap objek (huruf).

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 38: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

22

BAB 3

ANALISA DAN DESAIN PENELITIAN

Pada bab Analisa dan Desain Penelitian menjelaskan tentang metode yang

digunakan dalam penelitian Segmentasi Judul dan Baris Teks untuk Artikel Koran

Menggunakan Metode Proyeksi Profil dan Konektivitas Komponen. Bab ini

berisikan gambaran umum penelitian, analisis kebutuhan proses, implementasi

perancangan, penjelasan proses, perancangan antar muka (interface), serta

spesifikasi hardware dan sofware yang digunakan dalam melakukan implementasi.

3.1. Gambaran Umum

Perancangan sistem Segmentasi Judul dan Kolom Teks untuk Artikel Koran

Menggunakan Metode Proyeksi Profil dan Konektivitas Komponen bertujuan

untuk membuat alat uji pengenalan pola pada citra artikel koran. Gambaran umum

sistem yang akan dibangun ditunjukkan pada diagram blok pada Gambar 3.1.

Gambar 3.1. Diagram Blok Segmentasi Judul dan Kolom Teks untuk Artikel

Koran Menggunakan Metode Proyeksi Profil dan Konektivitas Komponen.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 39: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

23

Input dari sistem merupakan citra artikel koran. Sistem melakukan proses

segmentasi pada input yang dimasukan dan sistem menghasilkan keluaran berupa

citra hasil segmentasi yang terdiri atas judul dan kolom teks.

3.2. Desain Penelitian

Terdapat 3 tahap yang dilakukan pada penelitian ini yaitu tahap studi

literatur, tahap pengumpulan data dan tahap pengembangan alat uji. Berikut adalah

penjelasan untuk masing-masing tahap:

3.2.1. Studi Literatur

Studi literatur dilakukan untuk mendapatkan informasi terkait

penelitian yang dilakukan. Studi Literatur dilakukan dengan cara mempelajari

buku refrensi dan jurnal-jurnal yang berkaitan dengan segmentasi citra

menggunakan metode profil proyeksi dan konektivitas komponen.

3.2.2. Data Penelitian

Data penelitian adalah citra koran yang diperoleh dari Kompas

Gramedia. Citra koran yang dipilih adalah citra koran yang belum

terkomputerisasi, artinya dalam proses penyuntingannya masih manual. Citra

bahan penelitian adalah koran yang diketik dengan mesin tik.

Pada penelitian ini, data yang disiapkan untuk alat uji dibuat melalui

beberapa tahap yaitu tahap pengumpulan citra koran, pemotongan dan impor

citra halaman koran menjadi citra artikel koran dengan Adobe Photoshop

CS3, dan pelabelan citra. Penjelasan untuk masing-masing tahap yaitu:

3.2.2.1. Pengumpulan Citra Koran

Pada proses pengujianmenggunakan data pengujian berupa citra

artikel koran harian Kompas. Pertama adalah melakukan pelayangan

surat permohonan surat survei tugas akhir ke Kompas Gramedia Jakarta,

kepada Agus Ramdhani. Citra yang diterima berasal dari pengarsipan

mandiri Kompas Gramedia yang berformatkan PDF.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 40: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

24

3.2.2.2. Pemotongan dan Impor Citra Halaman Koran

Citra yang diterima untuk alat uji pada awalnya masih berformat

PDF, citra tersebut memerlukan pemotongan (cropping) manual supaya

citra dapat diolah setiap artikelnya. Format citra artikel koran harian

setelah dilakukan proses pemotongan adalah bitmap (.bmp). Supaya

memenuhi spesifikasi input sistem citra halaman koran harus diubah

format kompresinya ke bitmap melalui proses impor dan pemotongan

digital artikel-artikel yang terkandung di masing-masing halamannya

dengan menggunakan software Adobe Photoshop CS3. Berikut

pengaturan yang digunakan dalam proses impor:

Gambar 3.2. Pengaturan perubahan format dari PDF ke Bitmap.

Melihat gambar 3.2 maka ada beberapa atribut yang bisa

diambil untuk menjadi batasan citra penelitian. Berikut atribut

pengaturan impor:

i. Citra memiliki DPI sebesar 300 piksel/inch

ii. Citra adalah ukuran asli / tidak di resize

iii. Citra memiliki intensitas warna Grayscale

iv. Citra memiliki Bit Depth 8 bit

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 41: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

25

Kemudian setelah citra diimpor ke format bitmap, maka akan

dilakukan proses pemotongan manual dengan piranti lunak Adobe

Photoshop CS3. Proses pemotongan akan menghasilkan citra artikel

koran. Ada pula ketentuan dalam pemotongan manual citra, yaitu

sebagai berikut:

i. Citra tidak mengalami distorsi geometri (aspek rasio sama

dengan bentuk asli).

ii. Pada setiap citra masukan akan mengandung 1 artikel

iii. Entitas-entitas lain yang termasuk dalam sebuah kesatuan

artikel tidak akan dipotong

iv. Citra artikel akan disimpan kedalam kompresi yang sama

(bitmap)

v. Entitas diluar artikel akan dibuang, seperti judul dan

header koran

Ketentuan diatas akan menjadi batasan untuk peneliti

melakukan pemotongan citra secara manual. Pengimplementasi

ketentuan-ketentuan diatas akan diterapkan untuk memilih citra input

sistem. Berikut gambaran proses pemotongan citra halaman koran

menjadi citra artikel koran:

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 42: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

26

Gambar 3.3. Contoh lokalisasi area artikel pada halaman koran.

(Sumber: Kompas Gramedia(2018))

Proses pemotongan citra dilakukan dengan memecah-mecah

citra halaman koran menjadi citra-citra artikel. Citra artikel-artikel akan

disimpan dalam format kompresinya bitmap. Maka, dalam satu

halaman koran bisa didapatkan 10 hingga 20 citra artikel tergantung

dari jumlah artikel pada halaman tersebut.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 43: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

27

3.2.2.3. Penamaan File Citra Koran

Citra hasil proses pemotongan dan perubahan format kompresi

akan disimpan dan diberi nama yang berbeda. Template nama file adalah

[kode citra halaman koran] – [halaman koran] – [nomor artikel]. Contoh

penerapan template nama file pada setiap citra:

Gambar 3.4. Contoh penamaan file gambar artikel koran.

Pada Gambar 3.4. dijelaskan terdapat 3 bagian dari template

nama file, pada tiap bagian template akan dipisahkan dengan tanda

minus. Bagian pertama adalah kode citra koran, kode ini adalah kode

bawaan file yang diberikan oleh pihak Kompas Gramedia. Bagian kedua

halaman koran, bagian template ini juga masih mengikuti nama file awal.

Bagian ketiga adalah nomor artikel, memiliki 2 digit karena jumlah

artikel yang terkandung dalam sebuah halaman koran tidak lebih dari 100

buah. Penomor artikel diberikan penulis berawal dari posisi artikel paling

awal/atas dari halaman koran, dan posisi artikel yang terakhir/bawah

dalam halaman koran memiliki nomor artikel paling besar.

3.2.2.4. Format Kompresi Citra

Model warna citra halaman koran ditentukan yaitu citra model

warna Grayscale. Model warna tersebut dipilih karena model warna

tersebut adalah model warna bawaan data penelitian.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 44: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

28

3.2.3. Perancangan Alat uji

Pada penelitian ini metodologi yang digunakan adalah model

pengembagan alat uji waterfall. Model pengembangan ini dilakukan secara

sistematis dari satu tahap ke tahap lain. Berikut adalah beberapa tahapan yang

digunakan:

3.2.3.1. Analisa Kebutuhan Pengguna (User Requirement)

Pada tahap ini dilakukan analisis terhadap kebutuhan

pengguna yang bisa diselesaikan dengan alat uji. Pada penelitian ini

user harus mengetahui output dari citra yang tersegmentasi dan

menampilkan citra input sebagai pembanding output.

3.2.3.2. Analisa Kebutuhan Sistem (System Requirement)

Tahap ini mencari kebutuhan dari keseluruhan alat uji yang

akan diaplikasikan ke dalam bentuk perangkat lunak. Dalam

membangun perangkat lunak dibutuhkan hubungan antara software

dan hardware yang akan digunakan.

3.2.3.3. Analisa Spesifikasi Kebutuhan Perangkat Lunak (Software

Requirement Specification)

Tahap ini dilakukan berbagai macam pengumpulan data yang

dibutuhkan oleh alat uji yang akan dibuat. Data dapat berupa

informasi, fungsi yang dibutuhkan, dan interface sesuai dengan

kebutuhan.

3.2.3.4. Desain (Design)

Tahap ini dilakukan proses dalam membuat rancangan alat uji

berdasarkan informasi dari tahap-tahap sebelumnya. Hasil dari tahap

ini dapat berupa struktur data, arsitektur perangkat lunak, representasi

interface, dan detil algoritma secara prosedural.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 45: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

29

Dua puluh citra artikel dipilih menjadi data training untuk

membuat sebuah sistem yang sesuai dengan tujuan penelitian.

Pemilihan data training dilakukan berdasarkan kasus citra, relasi citra

dengan algoritma dan efisiensi algortima. Jumlah data training telah

ditentukan pada awal dari desain sistem. Dari setiap kasus dan metode

citra training tidak semuanya digunakan untuk melatih algoritma.

Citra yang dipilih sebagai data training pada setiap kasus bisa

berbeda-beda. Data training untuk suatu kasus atau metode tertentu

adalah citra yang dianggap efektif untuk menyelesaikan suatu metode

atau kasus.

3.2.3.5. Penulisan Kode (Coding)

Penulisan kode adalah tahap dimana perancangan yang telah

dibuat pada tahap desain diterjemahkan ke dalam bahasa mesin pada

komputer. Tahap ini menghasilkan alat uji dalam bentuk perangkat

lunak yang dibuat berdasarkan rancangan yang telah ada.

3.2.3.6. Pengujian(Testing)

Tahap pengujianakan dilakukan pengujicobaan pada

perangkat lunak, tujuanya untuk mengetahui apakah perangkat lunak

tersebut sudah sesuai dengan rancangan dan kebutuhan pengguna.

Sistem yang telah dirancang dengan data training akan diuji dengan

data testing.

3.3. Analisa Kebutuhan Proses

Terdapat 2 proses utama dalam penelitian ini, pertama adalah segmentasi

judul, kedua segmentasi kolom teks. Berikut diagram proses:

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 46: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

30

Gambar 3.5. Diagram Proses segmentasi judul dan kolom teks untuk artikel koran

kompas menggunakan profil proyeksi dan konektivitas komponen.

Gambar 3.5. menjelaskan urutan proses-proses sistem melakukan

segmentasi citra artikel. Proses pertama adalah baca input citra artikel,

preprocessing citra input, segmentasi judul, segmentasi kolom-kolom teks.

3.4. Implementasi Perancangan

3.4.1. Diagram Konteks (Context Diagram)

Dari hasil perancangan sistem maka dipat disimpulkan sebuah sistem yang

memiliki diagram konteks seperti dibawah ini:

Gambar 3.6. Diagram Konteks.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 47: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

31

Diagram Konteks atau sering disebut data flow diagram level 0. Diagram

ini menjelaskan ruang lingkup dari alat uji. Terdapat satu proses besar pada diagram

konteks yaitu Segmentasi Judul dan Kolom Teks Menggunakan Metode Proyeksi

Profil dan Konektivitas Komponen. Diagram di atas terdapat juga User (pengguna

sistem) sebagai external entity, user memasukan input citra artikel. Alat uji

melakukan segmentasi judul dan baris teks menggunakan metode proyeksi profil

dan konektivitas komponen dan menghasilkan output berupa citra judul dan kolom

teks.

3.4.2. Data Flow Diagram Level 1

Gambar 3.7. Data Flow Diagram level 1.

Pada gambar 3.4.2. diagram diatas merupakan pemecahan dari diagram

konteks. Terdapat user sebagai external entity dan Segmentasi artikel.

Pertama input citra akan dibaca oleh sistem pada proses membaca

artikel. Kemudian preprosesing akan mengubah citra input menjadi citra biner.

Proses segmentasi judul akan mengambil sekaligus memisah judul dan kolom

teks. Terakhir user akan dilihatkan judul artikel dan kolom-kolom teks hasil

segementasi secara terpisah.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 48: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

32

3.5. Penjelasan Proses dan Algoritma

3.5.1. Preprocessing

Preprocessing adalah tahap atau proses yang dilakukan sebelum data

citra disegmentasi. Dalam preprocessing yang dilakukan adalah binerisasi

dari citra koran grayscale menggunakan fungsi im2bw. Proses binerisasi

menggunakan fungsi bawaan Matlab yang mengimplementasikan metode

Otsu dengan parameter awal (default parameter).

3.5.2. Segmentasi Judul

Proses segmentasi judul adalah proses pemisahan entitas judul

dengan entitas selain judul. Segmentasi judul menggunakan 2 metode,

metode konektivitas komponen dan profil proyeksi. Keluaran proses ini

adalah sebuah citra koran yang hanya memiliki entitas judul.

Berikut adalah pseudocode untuk menjelaskan algoritma

segmentasi dengan profil proyeksi dan konektivitas komponen:

• Seleksi objek dengan konektivitas komponen

1. Hitung konektivitas komponen menggunakan 4 tetangga

menggunakan bwconncomp

2. Hitung properti; Bounding Box dan Area dari konektivitas

komponen menggunakan regionprops

3. Hitung rerata tinggi karakter dengan rumus berikut:

1

𝑛(∑ 𝑙𝑖

𝑛

𝑖=1

)

𝑙 = 𝑡𝑖𝑛𝑔𝑔𝑖 𝑜𝑏𝑗𝑒𝑘

𝑛 = 𝑗𝑢𝑚𝑙𝑎ℎ 𝑜𝑏𝑗𝑒𝑘

4. Hitung aspek rasio masing-masing objek dengan rumus berikut:

𝑤𝑖

𝑙𝑖

𝑤 = 𝑙𝑒𝑏𝑎𝑟 𝑜𝑏𝑗𝑒𝑘

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 49: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

33

5. Hitung rasio hitam-putih masing-masing objek dengan rumus

berikut

𝑏𝑙𝑎𝑐𝑘𝑖

𝑤ℎ𝑖𝑡𝑒𝑖

𝑏𝑙𝑎𝑐𝑘 = 𝑗𝑢𝑚𝑙𝑎ℎ 𝑝𝑖𝑘𝑠𝑒𝑙 ℎ𝑖𝑡𝑎𝑚

𝑤ℎ𝑖𝑡𝑒 = 𝑗𝑢𝑚𝑙𝑎ℎ 𝑝𝑖𝑘𝑠𝑒𝑙 𝑝𝑢𝑡𝑖ℎ

6. Buat matriks kosong sesuai dengan ukuran citra input

7. Buat variabel ThresholdRasio1

8. Buat variabel ThresholdRasio2

9. Buat variabel ThresholdTinggi1

10. Buat variabel ThresholdTinggi2

11. Buat variabel ThresholdRBW

12. Beri nilai 1 pada obj

a. ThresholdTinggi1* rerata tinggi karakter < Tinggi objek <

ThresholdTinggi2* rerata tinggi karakter

b. ThresholdRasio1< Rasio objek < ThresholdRasio2

13. Hapus objek yang memenuhi syarat sebagai berikut

a. Rasio hitam-putih >= ThresholdRBW atau rasio >=

ThresholdRasio2

14. Simpan citra hasil seleksi objek dan inputkan ke Segemntasi baris

judul

• Segmentasi baris judul

1. Hitung panjang dan lebar citra menggunakan size

2. Proyeksi citra secara vertikal menggunakan sum

3. Buat variabel ThresholdProyeksiBarisJudul1

4. Buat variabel ThresholdProyeksiBarisJudul2

5. Beri nilai 1 pada setiap proyeksi yang bernilai lebih dari

ThresholdProyeksi1

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 50: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

34

6. Hapus nilai 1 yang berhimpitan kurang dari ThresholdProyeksi2

baris menggunakan bwareafilt

7. Hitung bounding box dari hasil proyeksi, untuk menentukan

jumlah baris

8. Buat mask ke 2 dengan sama dengan ukuran citra input

9. Hitung sentroid dari citra input

10. Buat variabel citra non-judul yang merupakan salinan dari citra

hasil seleksi

11. Lakukan perulangan sejumlah baris

a. Potong citra hasil seleksi tiap barisnya

b. Cari bounding box untuk hasil potong citra hasil

c. Cari objek yang didalam bounding box dengan sentroidnya

menggunakan find

d. Gambar objek yang dari hasil cari, simpan ke mask2

e. Pada citra non-judul hapus objek yang beralamat sesuai dengan

objek yang telah ditemukan

f. Akhiri perulangan

12. Buat variabel citra judul yang merupakan hasil minimal bounding

box dari variabel mask2

13. Selesai

3.5.3. Segmentasi Kolom Teks

Segmentasi kolom teks adalah proses pemisahan daerah kolom-kolom

teks yang berisi baris-baris teks didalamnya. Daerah kolom teks adalah

daerah yang terbentuk dari paragraf-paragraf isi berita yang tersusun menjadi

kolom-kolom teks dalam citra artikel non judul.

Citra non-judul akan dikenai proses segmentasi kolom teks dengan

tujuan memisahkan kolom-kolom teks. Segmentasi kolom teks menggunakan

2 jenis metode profil proyeksi yaitu, proyeksi vertikal dan proyeksi

horisontal.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 51: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

35

Berikut adalah pseudocode untuk menjelaskan algoritma segmentasi

kolom teks:

● Proyeksi Vertikal

1. Mulai

2. Input adalah citra koran biner tanpa judul.

3. Buat variabel ThresholdArea

4. Menghapus piksel putih dengan area < ThresholdArea menggunakan

fungsi bwareafilt

5. Buat variabel ThresholdKolomProyeksi1

6. Hitung proyeksi , dengan menjumlahkan citra secara vertikal dengan

batas nilai > ThresholdKolomProyeksi1, menggunakan bwareafilt

7. Buat variabel ThresholdKolomProyeksi2

8. Menghapus vektor proyeksi yang nilainya > dari

ThresholdKolomProyeksi2, menggunakan bwareafilt

9. Menghitung konektivitas komponen dan propertinya (Bounding Box)

menggunakan bwconncomp dan regionprops

10. Menghitung lebar dari masing-masing objek (kolom teks) yang

terdeteksi

11. Buat variabel ThresholdLebarKolom

12. Percabangan, ukuran vektor Lebar > 1

a. Cari objek (kolom teks) yang memiliki lebar paling kecil (kolom

kecil)

b. Cari objek (kolom teks) yang memiliki lebar >

ThresholdLebarKolom kali lebar kolom teks paling kecil

(kolom besar)

c. Percabangan, ditemukan kolom teks yang lebarnya >

ThresholdLebarKolom kali lebar kolom teks paling kecil

i. Perulangan, sesuai jumlah kolom teks yang ditemukan

1. Jika iterasi kolom teks adalah iterasi ke-kolom

teks besar

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 52: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

36

a. Proses citra potongan kolom teks besar ke

dalam fungsi Proyeksi Horisontal

2. Jika iterasi kolom teks adalah iterasi ke-kolom

teks kecil

a. Potong citra sesuai Bounding Box-nya,

menggunakan imcrop

ii. Akhiri perulangan

d. Percabangan, tidak ada kolom teks yang lebarnya >

ThresholdLebarKolom kali dari kolom teks kecil

i. Potong citra sesuai Bounding Box-nya, menggunakan

fungsi imcrop

e. Akhiri percabangan

13. jika ukuran vektor lebar <= 1

a. Potong citra sesuai Bounding Box-nya, menggunakan imcrop

14. Akhiri percabangan

15. Selesai.

● Proyeksi Horisontal

1. Mulai

2. Input citra adalah dari keluaran dari fungsi Proyeksi Vertikal

3. Hitung panjang dan lebar citra input menggunakan fungsi size

4. Buat variabel ThresholdKolom1

5. Buat variabel ThresholdKolom2

6. Buat variabel ThresholdKolom3

7. Jumlahkan citra secara horisontal, beri nilai 0 pada nilai proyeksi <

ThresholdKolom1

8. Hapus vektor yang bernilai 1 jika tingginya < ThresholdKolom2

menggunakan fungsi bwareafilt

9. Hapus vektor yang bernilai 0 jika panjangnya < ThresholdKolom3

menggunakan fungsi bwareafilt

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 53: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

37

10. Hitung properti Bounding Box dengan konektivitas komponen

menggunakan regionprops

11. Hitung tinggi dari objek (kolom teks)

12. Potong masing-masing objek (kolom teks) sesuai dengan Bounding Box-

nya menggunakan regionprops

13. Buat variabel ThresholdLebarKolom

14. Percabangan, ukuran vektor tinggi > 1

a. Cari objek (kolom teks) yang memiliki tinggi paling kecil

(kolom kecil)

b. Cari objek (kolom teks) yang memiliki tinggi >

ThresholdLebarKolom kali tinggi kolom teks paling kecil

(kolom teks besar)

c. Percabangan, ditemukan kolom teks yang lebarnya >

ThresholdLebarKolom kali lebar kolom teks paling kecil

i. Perulangan, sesuai jumlah kolom teks yang ditemukan

1. Jika iterasi kolom teks adalah iterasi ke-kolom

besar

a. Jumlahkan kolom teks horisontal secara

vertikal

b. Hitung properti Bounding Box dengan

konektivitas komponen menggunakan

regionpros

c. Hitung lebar masing-masing objek kolom

teks

d. Perulangan, sesuai dengan ukuran vektor

lebar

i. Potong citra kolom teks iterasi ke-

kolom teks besar sesuai dengan

Bounding Box-nya

e. Akhiri perulangan

2. Jika iterasi adalah kolom kecil

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 54: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

38

a. Simpan citra kolom teks horisontal ke

citra kolom teks vertikal

3. Akhiri percabangan

ii. Akhiri perulangan

d. jika ukuran vektor tinggi <= 1

i. citra kolom teks vertikal adalah citra kolom teks

horisontal

e. akhiri percabangan

f. Selesai

3.5.4. Menghitung Akurasi

Perhitungan presentase akurasi segmentasi akan dilakukan setelah

user memeriksa output citra hasil segmentasi. Nilai verifikasi yang

disediakan adalah 0 dan 1 masing-masing merepresentasikan salah dan

benarnya hasil segmentasi.

Kriteria keberhasilan segmentasi judul adalah ketika entitas judul

berhasil dimuat secara keseluruhan dalam citra hasil. Entitas sub-judul

dianggap sebagai tambahan karena tidak menjadi tujuan dalam penelitian

ini.

Perhitungan akurasi dipisahkan sesuai dengan entitas yang

disegmentasi. Ada 2 macam akurasi yang akan dihitung, pertama akurasi

segmentasi judul dan kedua akurasi segmentasi kolom teks.

Nilai kebenaran akurasi segmentasi judul akan bernilai benar (1)

ketika tidak ada entitas koran lain yang masuk kedalam hasil segmentasi

judul dan sebaliknya. Berikut adalah pseudocode untuk menjelaskan

perhitung akurasi segmentasi judul, kolom teks:

1. Mulai

2. Input adalah jumlah benar citra hasil segmentasi

3. Masukan berupa jumlah benar output dan jumlah input

4. Hitung jumlah citra yang bernilai benar

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 55: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

39

5. Hitung jumlah semua citra artikel

6. Hitung presentase akurasi dengan rumus;

𝑎𝑘𝑢𝑟𝑎𝑠𝑖 𝑠𝑒𝑔𝑚𝑒𝑛𝑡𝑎𝑠𝑖 =𝑗𝑢𝑚𝑙𝑎ℎ 𝑐𝑖𝑡𝑟𝑎 𝑏𝑒𝑛𝑎𝑟

𝑗𝑢𝑚𝑙𝑎ℎ 𝑡𝑜𝑡𝑎𝑙 𝑐𝑖𝑡𝑟𝑎 𝑎𝑟𝑡𝑖𝑘𝑒𝑙

7. Selesai

3.6. Perancangan Interface (Antar Muka) Alat uji

Gambar 3.8. Rancangan Interface alat uji.

Pada gambar 3.8. merupakan perancangan antar muka alat uji. Antar muka

adalah komponen penting dalam sebuah perangkat lunak karena berhubungan

langsung dengan pengguna. Perancangan alat muka menggunakan sebuah fungsi

guide yang tersedia pada matlab. Antar muka yang dirancang akan memiliki 4 panel

utama yaitu Input, Pengujian, Hasil Segmentasi dan Verifikasi Output. Pada

interface alat uji mempunyai:

1. Panel Input yang terdiri dari,

a. Static Text, menampilkan jumlah file terbuka

b. Listbox, menampilkan nama file-file yang terbuka

c. Tombol Input Citra, berfungsi untuk memilih citra yang akan

menjadi input segmentasi

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 56: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

40

2. Panel Pengujian yang terdiri dari,

a. Axes , untuk menampilkan input citra satu persatu.

b. Tombol Segmentasi, berfungsi untuk memproses segmentasi

pada citra

c. Sepasang radio button, berfungsi untuk memilih opsi untuk

proses segmentasi. Opsi pertama ‘uji pada citra terpilih’ maka

sistem akan mensegmentasi pada citra satu terpilih saja. Opsi

kedua adalah ‘uji pada semua citra’ maka sistem akan

mensegmentasi semua citra input yang terbuka dalam sistem.

3. Panel Hasil Segmentasi yang terdiri dari,

a. Axes1, menampilkan hasil segmentasi judul

b. Axes2, menampilkan hasil segmentasi kolom teks

3.7. Spesifikasi Hardware dan Software

Berikut adalah spesifikasi hardware dan software yang digunakan oleh

penulis untuk melakukan pengujian

3.7.1. Software (Perangkat Lunak)

Tabel 3.1. Spesifikasi Software.

Sistem Operasi Windows 8.1. Pro

Program Pengembang alat uji Matlab 2014b

3.7.2. Hardware (Perangkat Keras)

Tabel 3.2. Spesifikasi Hardware.

Processor Intel(R) Core(TM) i7-4700HQ, CPU @ 2.40 Ghz

RAM 4.00 GB

Tipe Sistem Sistem Operasi 64-bit

Harddisk 1 Terabyte

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 57: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

41

BAB 4

HASIL DAN PEMBAHASAN

4.1. Data Masukan

Data masukan untuk pengujian diperoleh dari Kompas Gramedia. Alasan

citra dipotong tiap-tiap artikelnya karena pihak Kompas Gramedia akan

menyimpan data teks di perpustakaan digital untuk setiap artikelnya. Citra masukan

pada awalnya diperoleh dalam bentuk kompresi PDF, sehingga perlu dilakukan

proses pemotongan dan impor. Bahan penelitian dikhususkan hanya untuk citra

koran tua dengan batasan terbit sebelum tahun 1990. Kondisi citra artikel terdapat

noise salt dan pepper serta tinta merembes (bleeding ink). Berikut contoh citra-citra

yang kondisinya telah dijelaskan:

Gambar 4.1. Contoh data testing (19800102-01-9.bmp) yang mengandung noise

salt.

(Sumber: Kompas Gramedia (2018))

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 58: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

42

Gambar 4.2. Contoh data testing (19800102-01-2) yang memiki noise pepper.

(Sumber: Kompas Gramedia (2018))

Gambar 4.3. Contoh data testing (19800102-02-2) yang karakternya mengalami

bleeding ink.

(Sumber: Kompas Gramedia (2018))

4.2. Evaluasi Proses

Beberapa nilai dalam metode menggunakan nilai pasti atau sebuah nilai

yang menjadi patokan(threshold) untuk mensegmentasi entitas-entitas koran, maka

dari itu diperlukan sebuah tabel evaluasi untuk menguji dan menjelaskan nilai-nilai

yang digunakan.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 59: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

43

Nilai-nilai tersebut dieksperimenkan oleh peneliti pada tahap pelatihan

sistem. Data training yang digunakan ada 20 citra artikel. Masing-masing kasus

mempunyai fokus citra tertentu yang menjadi patokan untuk menyelesaikan proses

segmentasi. Citra percobaan dipilih dari data training sesuai dengan konteks

segmentasinya.

Tabel berikut menyajikan nilai-nilai yang terkandung dalam algoritma

yang akan dievaluasi:

Tabel 4.1. Daftar evaluasi proses.

No Proses Segmentasi Pengunaan Nilai Batas

1 Segmentasi Judul 1 (Konektivitas

komponen)

Segmentasi ini bertujuan menyeleksi

kandidat karakter judul semaksimal

mungkin dengan noise yang ada.

Entitas yang ingin dihilangkan seperti

gambar, border, garis.

a) Tinggi dari kandidat karakter

judul > Rerata karakter * 1,5

b) Tinggi dari kandidat karakter

judul < Rerata karakter * 7

c) Rasio dari kandidat karakter

judul berkisar antara 0,1 s/d

1,7

d) Rasio Hitam Putih dari

kandidat karakter judul <=1,7

2 Segmentasi Kolom Teks (Vertikal

Proyeksi)

a) Maksimum area noise = 30

piksel

b) Proyeksi noise pada paragraf

= 15 piksel

c) Proyeksi noise pada gap

paragraf = 10piksel

d) Lebar kolom teks normal <

1,5 * kolom teks terkecil

4.3. Evaluasi Proses Segmentasi Judul

Segmentasi judul adalah refrensi dari B. Gatos (2001), disampaikan bawah

tinggi teks pada judul adalah lebih besar dari tinggi karakter dominan pada

dokumen.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 60: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

44

Maka tinggi dari semua karakter pada teks harus dihitung terlebih dahulu.

Perhitungan tersebut bisa dihitung dari konektivitas komponennya, kemudian

menghintung Bounding Box dari setiap objek yang berhasil dilabeli. Setelah

mendapatkan semua tinggi objek terlabel dilanjutkan dengan menghitung nilai

rerata dari semua tinggi karakter, maka didapat rerata tinggi karakter dominan.

Berikut tabel 4.2 yang mengevaluasi ThresholdTinggi1, kandidat karakter

judul > 1,8 * rerata tinggi karakter:

Tabel 4.2. Evaluasi ThresholdTinggi1 kandidat karakter judul > 1,5 * rerata

tinggi karakter.

Data Training

Pengali

Rerata

Karakter

Keterangan

1,2 Tersisa banyak objek non-judul. Nilai

rerata karater masih bisa ditingkatkan.

1,3 Tersisa objek non-judul. Nilai rerata

karater masih bisa ditingkatkan.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 61: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

45

1,4 Tersisa objek non-judul. Nilai rerata

karater masih bisa ditingkatkan.

1,5 Tersisa sedikit objek non-judul.

1,6 Tersisa sedikit objek non judul, tetapi

salah satu beberapa karakter dari judul

hilang. Maka nilai pengali ini tidak efektif

lagi.

Pada Tabel 4.2. percobaan terakhir karakter judul ada yang hilang , maka

nilai 1,6 menjadi tidak efektif untuk menyeleksi kandidat judul. Maka nilai

threshold untuk kandidat judul adalah nilai pengali yang berhasil dari percobaan,

yaitu 1,5 * rerata tinggi karakter.

Sesuai dengan percobaan sebelumnya terlihat masih ada entitas gambar

yang tersisa maka hasil tersebut akan menjadi acuan untuk penyeleksian karakter

judul selanjutnya. Berikut tabel evaluasinya :

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 62: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

46

Tabel 4.3. Evaluasi ThresholdTinggi2 kandidat karakter judul < 7 * rerata tinggi

karakter.

Citra dengan objek > 1,5 * ahc Analisis

Rerata karakter : 14,2744

piksel

Tinggi karakter judul: 39

piksel

Rerata tinggi karakter judul :

32,5 piksel

Tinggi entitas gambar : 233

piksel

Rerata tinggi karakter judul :

81 piksel

Max tinggi karakter judul :

97 piksel

Rerata tinggi karakter :

14,7317

Tinggi entitas border : 432

piksel

Maksimal tinggi karakter judul 97 piksel

Rerata karakter 15 piksel

Pengali 7

Maka dari kasus diatas variasi karakter judul memiliki tinggi paling

maksimal 97 piksel, sedangkan rerata tinggi karakter sekitar 14,7 piksel (15 piksel).

Tinggi maksimal karakter pada judul adalah 97 piksel, maka tinggi karakter judul

bisa disimpulkan berkisar antar 1,5* rerata karakter hingga 7* rerata tinggi

karakter.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 63: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

47

Menurut Chen (2004) aspek rasio dari masing-masing objek terlabeli dapat

membantu penyeleksian kandidat karakter. Pada penerapannya citra koran, nilai

aspek rasio diimplementasikan adalah:

Tabel 4.4. Evaluasi ThresholdRasio1 dan ThresholdRasio2 aspek rasio kandidat

karater < =1,8.dan >= 0,1

Rasio (R) Objek didapatkan dari data training image

10, 5 dan 9

R <= 0,1 - Tidak ada objek

R > 0,1 & R > 0,4 - Huruf L & i (tanpa titik), - Karakter menempel (sedikit)

R > 0,5 & R > 1 - Huruf {u, a, o, e, k, s, g, p, t, b, n, h, d,

K, T, R, B, V, S}, - Angka - Noise pepper - Karakter menempel (sedikit)

R >1 & R< 1,7 - Huruf { u, a, o, e, k, s, g, p, t, b, n, h, d,

K, T, R, B, V, S } - Karakter menempel (sedang)

R >= 1,8 - Karakter menempel lebih dari 3 siam

(banyak) Garis horisontal, tanda minus

- Entitas judul terbalik Maka dari tabel 4.4. nilai yang digunakan untuk membuang objek non-judul

adalah nilai yang mengandung objek karakter menempel, garis horisontal, tanda

baca dan entitas judul terbalik. Maka sesuai hasil tabel evaluasi ditentukan nilai

rasio objek >= 1,8 akan dihapus.

Menurut Mitchell dan Yan (2001) rasio hitam putih (Black and White

Ratio) dari masing-masing objek terlabeli dapat membantu penyeleksian kandidat

karakter. Rasio hitam putih adalah hasil nilai bagi dari jumlah piksel putih dibagi

dengan jumlah piksel hitam dalam suatu objek (komponen).

Sesuai dengan hasil percobaan, beberapa masih menyisakan beberapa

karakter non-judul, objek tersebut adalah karakter pada kolom teks yang menempel.

Implementasi rasio hitam putih diharapkan dapat menyempurnakan hasil seleksi

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 64: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

48

karakter sebelum. Berikut hasil implementasi rasio hitam dan putih dibuktikan pada

tabel evaluasi berikut:

Tabel 4.5. Evaluasi ThresholdRBW, rasio hitam dan putih kandidat karakter

judul< 1,7.

Rasio Hitam & Putih (Rbw) Objek didapatkan dari data training image

10, 5 dan 9

Rbw <= 0,1 - Tanda baca [:], - Huruf i (titik & batang) - Noise Peper

Rbw > 0,1 & Rbw <= 0,5 - Huruf judul yang bold {u, e, a, B, K,

M, N, D, s, h, l, d, m, b, r, g} - Huruf pada kolom teks {a, i, e, n, g, l,} - Tanda baca “ - , - Kandidat huruf baik - Noise Peper

Rbw > 0,5 & Rbw <= 1 - Huruf judul yang bold {u, e, a, B, K,

M, N, D, s, h, l, d, m, b, r, g} - Angka - Huruf pada kolom teks {a, i, e, n, g, l,} - Karakter menempel (sedikit)

Rbw > 1 & Rbw <= 1,7 - Karakter menempel (banyak) - Huruf judul yang bold & kapital - Huruf pada kolom teks (sedang)

Rbw > 1,7 - Karakter menempel - Garis diagonal - Tidak ada huruf dari judul - Border kotak untuk judul terbalik

Nilai yang digunakan untuk membuang karakter menempel adalah nilai

tidak yang mengandung objek karakter menempel, garis horisontal, noise, border.

Maka sesuai tabel evaluasi ditentukan nilai rasio hitam putih objek > 0,1 s/d 1,7

akan disimpan dan menjadi kandidat karakter untuk entitas judul.

Setelah proses seleksi objek –objek untuk judul maka harus dilakukan

proses segmentasi baris judul. Berikut adalah contoh citra data training yang

mendasari proses ini:

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 65: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

49

Pada citra diatas dijelaskan bahwa kotak bergaris putus-putus nomor

1 adalah contoh penggunaan bounding box dari 2 baris judul sekaligus untuk

segmentasi judul. Jika menerapakan hal ini maka akan ada objek yang tidak

diinginkan masuk kedalam hasil segmentasi judul, yaitu daerah kotak

nomor 2. Pada kotak berbingkai terdapat bagian dari kolom teks yang

seharusnya tidak masuk kedalam segmentasi judul.

Maka dari itu perlu dilakukan masking perbaris judulnya. Masking

yang dimaksud adalah pemotongan bagian citra setiap lebar barisnya,

sehingga objek-objek seperti contoh di kotak 2 tidak akan masuk kedalam

hasil segmentasi judul.

Metode ini berguna untuk membuang karakter non-judul yang

tersisa, khususnya yang terletak dibawah judul. Hasil proyeksi yang bernilai

selain 0 akan diberi nilai 1. Berikut contoh kasusnya:

Gambar 4.4. Potongan citra image4.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 66: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

50

Nilai threshold 40 adalah nilai yang digunakan untuk mengabaikan objek

non-judul, maka pada eksperimennya peneliti akan mencari nilai proyeksi objek

non-judul terbesar. Berikut tabel evaluasi:

Tabel 4.6. Evaluasi ThresholdProyeksiBarisJudul1, nilai proyeksi < 40.

Citra data training Nilai proyeksi maks untuk objek non-judul

image3v 24

image4v 15

image7v 35

image8v 40

Maksimal image8v : 40

Jadi nilai threshold yang efektif untuk menghapus objek non judul

berdasarkan data training diatas adalah 40. Threshold ini diambil dengan

menentukan nilai maksimal dari nilai-nilai proyeksi maks untuks objek non-judul.

Selanjutnya adalah threshold dalam segmentasi baris judul ke 2, threshold

ini berguna untuk menghapus objek yang sudah terkena threshold sebelumnya.

Penjelasanya diperlihatkan oleh gambar dibawah:

Gambar 4.5. Potongan citra image6.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 67: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

51

Pada threshold sebelumnya masih menyisakan objek non-judul, tapi objek

non-judul ini tingginya sudah terkurangi habis-habisan. Tetapi untuk menemukan

gap antar judul dan kolom teks, objek ini harus tetap dihapus.

Objek-objek ini bervariasi tingginya, berkisar antar 1 s/d 5 piksel, untuk

menentukan threshold yang tepat maka peneliti akan melihat variasi dari tinggi-

tinggi objek non-judul ini. Berikut tabel evaluasi:

Tabel 4.7. Evaluasi ThresholdProyeksiBarisJudul2, Tinggi daerah proyeksi

baris judul < 30.

Citra Tinggi objek non judul Tinggi baris judul

Image 5 2,3,2,3 69, 69

Image 9 1 114,94

Image 11 1 , 2 40

Image 12 1,3 67

Image 13 20,20 63, 63

Maka penentuan nilai threshold mengambil nilai tengah dari nilai 12 s/d

42.

Sehingga dapat dihitung dengan cara seperti dibawah:

𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑 tinggi objek = 𝑙𝑛𝑗max +

𝑙𝑗min – 𝑙𝑛𝑗

max

2

𝑙𝑛𝑗 = 𝑡𝑖𝑛𝑔𝑔𝑖 𝑜𝑏𝑗𝑒𝑘 𝑛𝑜𝑛 𝑗𝑢𝑑𝑢𝑙

𝑙𝑗 = 𝑡𝑖𝑛𝑔𝑔𝑖 𝑜𝑏𝑗𝑒𝑘 𝑗𝑢𝑑𝑢𝑙

Implementasi :

𝑇ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑 = 20 + 40– 20

2

𝑇ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑 = 30

Maka threshold tinggi untuk daerah baris judul adalah lebih besar dari 30.

Maka untuk baris yang memiliki tinggi lebih kecil dari 30 akan dihapus

proyeksinya.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 68: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

52

4.4. Evaluasi Proses Segmentasi Kolom Teks

Terdapat dua nilai threshold yang digunakan untuk membantu deteksi

kolom teks. Nilai tersebut dieksperimenkan terhadap citra yang ditentukan sebagai

data testing eksperimen. Pengamatan data eksperimen tersebut ada beberapa yang

bermasalah seperti; image5, image7, image8, image9, image2v. Data testing

image5 adalah citra yang cukup bermasalah dan menjadi sumber penggunaan

threshold ini. Berikut penampakanya:

Gambar 4.6. Potongan citra image5.

Pada gambar 4.4. terlihat bagian dilingkari terdapat noise yang berada di

gap antar kolom teks. Noise tersebut juga menempel dengan objek di kolom teks

yang sekitarnya.

Threshold pertama berfungsi untuk menghapus noise kecil di keseluruhan

citra non judul. Penghapusan noise pada citra biner menggunakan bwareafilt

dengan nilai 30 piksel.

Penentuan nilai threshold akan dijelaskan dari tabel 4.7. Objek titik dari

huruf ‘i’ dianggap noise , karena pada koran lama banyak sekali terdapat noise

pepper. Titik dalam huruf ‘i’ juga tidak berperan penting dalam proses segmentasi

kolom teks. Data eksperimen yang dipakai adalah data eksperimen yang memiliki

noise pepper yaitu image 5, 7, 8, 9, 10, 13, 1v, dan 8v.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 69: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

53

Tabel 4.8. Evaluasi ThresholdArea, area objek kandidat karakter > 30 piksel.

No.

Rerata area objek

Selisih Area rerata citra

dengan noise (rerata

karakter)

Area rerata citra tanpa noise

(rerata karakter)

1 63,8706 93,1378 30

2 66,6694 79,9700 13

3 75,9117 87,8573 12

4 85,7704 101,2959 16

5 96,2009 127,1437 31

6 75,4595 111,2667 36

7 60,1658 105,4694 45

8 66,0776 115,7154 49

Rerata 74,7657 (75) 105,1358 (105) 30

Citra dengan noise memiliki rerata area lebih kecil, karena objek-objek

noise yang terkandung akan ikut terhitung bersama hasil reratanya. Setelah

penghapusan noise maka nilai rerata yang dihitung akan menjadi nilai rerata

karakter yang sebenarya. Sehingga dalam penentuan threshold , tidak boleh

lebih dari rerata karakter (74,7) . Selisih rerata masing-masing kolom teks

dijadikan nilai threshold untuk noise.

Setelah objek yang areanya < 30 dihapus masih ada citra memiliki noise

diantara gap kolom teks. Tetapi jika dengan memperbesar nilai area untuk

noise akan dipastikan banyak huruf dalam kolom teks yang hilang. Maka

setelah data diproyeksikan , citra yang diolah berubah menjadi vektor dengan

rentang nilai 0 sampai 1. Dari situ lebih mudah menghapus noise antar gap

kolom teks tanpa beresiko menghapus huruf-huruf didalam kolom teks. Berikut

citra image2v yang menjadi acuan masalah ini:

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 70: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

54

Gambar 4.7. Potongan citra data training image2v.

Evaluasi ThresholdKolomProyeksi1, Meski telah dikenai penghapusan

noise dengan area < 30, citra masih menyisakan noise pada gap antar kolom teks.

Penghapusan noise pada saat data telah dikenai proyeksi, maka noise yang memiliki

lebar < 15 piksel akan benilai 0, atau hilang berdasarkan data training image2v.

Evaluasi ThresholdKolomProyeksi2 Pada data training image2v terdapat

noise membentuk kolom (lihat gambar 4.8). Langkah penanggulangannya adalah

nilai noise pada vektor hasil proyeksi harus dihapus. Ukuran noise ini dibawah 10

piksel, sehingga nilai vektor proyeksi kolom teks akan dihapus jika ada lebar objek

< 10 piksel.

Gambar 4.8. Potongan citra data training image2v.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 71: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

55

Selanjutnya pada kasus citra image9 didapati susunan kolom teks yang

kompleks, masalah ini akan membuat proyeksi vertikal tidak efektif. Berikut data

training image9:

Gambar 4.9. Data training image9.

Gambar 4.8. akan menjadi acuan syarat kolom teks normal adalah 1,5 kali

nilai kolom teks terkecil. Pada bentuk kolom teks yang kompleks ini membutuh

proyeksi berkali-kali untuk dapat memisahkan semua kolom teks dengan benar.

Gambar 4.10. Citra kolom teks hasil segmentasi kolom teks vertikal.

Pada gambar 4.10. terjadi fenomena terdapat kolom teks di dalam kolom

teks maka dari itu peneliti harus dapat membedakan citra mana yang terdapat kolom

teks didalam kolom teks. Citra ‘kolom 1’ dan ‘kolom 2’ bisa disebut kolom teks

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 72: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

56

normal, karena pada citra tersebut hanya mengandung 1 kolom teks. Sedangkan

‘kolom 2’ adalah kolom teks besar, dimana mengandung lebih dari 1 kolom teks.

Maka untuk membedakan kolom teks normal dan besar atribut lebar yang

dapat mudah diinterpretasikan untuk membedakan kolom teks normal dan kolom

teks besar.

Tabel 4.9. Evaluasi ThresholdLebarKolom, lebar kolom teks < 1,5 dari lebar

kolom teks terkecil.

Kolom 1 (normal) Kolom 3 (normal) Kolom 2 (besar)

Lebar citra kolom 340 340 1050

Rerata lebar citra 340 1050

Karena pada citra kolom 2 (perhatikan gambar 4.10) terdapat 3 kolom,

maka bisa disimpulkan bahwa semua kolom teks memiliki lebar yang sama, yaitu

sekitar 340-350. Kesimpulan ini diamati dari kolom 2(perhatikan gambar 4.10)

terdapat 3 kolom teks maka 1050 dibagi 3 adalah 350. Jadi estimasi lebar kolom

teks antara 340 hingga 350. Karena dalam kasusnya sistem harus bisa membedakan

citra kolom yang mengandung 1 kolom teks dan lebih dari 1 citra kolom teks, maka

jika di dalam sebuah citra kolom mengandung 2 kolom teks sistem sudah bisa

mengenali dari lebar citra kolomnya saja.

Nilai threshold diambil dari sebuah kasus jika terdapat lebih dari 2 kolom

teks dalam sebuah citra kolom, maka estimasi lebarnya citra kolom mempunyai

lebar 680 hingga 700. Nilai tersebut adalah 2 kali estimasi lebar sebuah kolom teks.

Maka peneliti mengambil pengali diantara 1 dan 2 untuk membedakan citra kolom

yang didalamnya mengandung 1 kolom teks atau minimal 2 kolom teks. Maka jika

dihitung:

threshold lebar kolom = 1 + 2

2= 1,5

Setelah berhasil dideteksi jika ada citra kolom yang didalamnya

mengandung lebih dari 1 kolom teks, maka citra kolom tersebut akan diproses ulang

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 73: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

57

dengan proyeksi horisontal untuk memisahkan kolom teks diatas dan dibawah.

Kedua citra kolom tersebut akan dikenai proyeksi vertikal lagi untuk memisahkan

kolom teks pada citra kolom bawah.

4.5. Hasil Pengujian

Data testing adalah citra koran tahun 1980, terdiri dari 14 halaman koran,

kemudian di-crop menjadi 80 artikel. Pembahasan tentang hasil akan dibagi

menjadi 2 yaitu, segmentasi judul dan segmentasi kolom.

Segmentasi kolom meraih tingkat keberhasilan 91,25 %. 80 citra artikel

didapat 7 judul tidak tersegmentasi. Segmentasi judul mengalami kendala pada

jenis citra yang memiliki bleeding ink dan teks miring. Entitas gambar yang menjadi

batasan penelitian ini terhitung sebagai judul yang gagal tersegmentasi. Selain itu,

kasus dimana terdapat hanya sedikit karakter pada kolom teks akan mempengaruhi

peforma dari sistem yang menerapkan thresholding untuk mengenali kandidat

karakter pada judul atau kandidat karakter pada kolom teks. Berikut tampilan dari

data uji yang gagal dan berhasil disegmentasi:

Tabel 4.10. Citra hasil uji gagal disegmentasi judul

No. Citra input Hasil segmentasi judul & analisis

1

19800102-01-2.bmp-judul

Analisis:

Jumlah karakter yang sedikit

membuat nilai ’rerata tinggi

karakter’ tidak merepresentasikan

tinggi karakter teks yang

sebenarnya, atau st. Deviasi antara

karakter kecil. Sehingga seleksi

karakter judul gagal

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 74: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

58

2

19800102-01-3.bmp-judul

Analisis:

Terdapat Foto menyebabkan

gagalnya segmentasi

3

19800102-02-3.bmp-judul

Analisis:

• Kemiringan teks menyebabkan 2

teks baris menempel, sehingga

tinggi proyeksi menyamai atau

melebihi dari threshold tinggi

proyeksi

• Tinta dari karakter pada kolom

teks mengalamai bleeding ink,

dimana menyebabkan banyak

karakter menempel.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 75: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

59

4

19800102-03-5.bmp-judul

Analisa:

Data anomali, dimana karakter

pada kolom teks dan judul memiliki

tinggi yang hampir sama.

5

19800102-08-4.bmp-judul

Analisa:

Terdapat Foto menyebabkan

gagalnya segmentasi

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 76: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

60

6

19800102-14-3.bmp-judul

Analisa:

Terdapat noise di samping judul,

ketika noise disamping judul tidak

akan terdeteksi oleh proyeksi

vertikal.

7

19800102-16-10.bmp-judul

Analisis:

Data anomali, dimana karakter

pada kolom teks dan judul memiliki

tinggi yang hampir sama serta

karakter yang mengalamai bleeding

ink

Tinggi antara karakter pada judul dan kolom teks yang hampir sama

menyebabkan sistem gagal mensegmentasi seperti pada kasus citra 19800102-16-

10. Karakter pada kolom teks rerata tinggi karakter 19,3 piksel sedangkan, rerata

tinggi karakter pada judul adalah 30,3 piksel. Kegagalan sistem mengenali kata

‘Manusia’ karena tinggi karakter ‘anusia’ kurang dari threshold yang digunakan

yaitu, 29.9 piksel (1,5 kali 19,9 piksel).

Gambar 4.11. Segmentasi judul untuk citra 19800102-16-10

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 77: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

61

Huruf kapital pada judul memiliki tinggi diatas threshold. Sehingga sistem

menganggap huruf judul selesai pada huruf ‘M’ dan ‘Ul’ (perhatikan gambar 4.11

pada karakter yang dilingkari). Karakter ‘anusia’ (perhatikan gambar 4.11 pada

karakter didalam kotak) memiliki rerata tinggi 26 piksel, dimana nilai tersebut

berada dibawah threshold tinggi karakter.

Tabel 4.11. Evaluasi tinggi karakter untuk segmentasi judul

No. Hasil segmentasi

judul

Rerata tinggi

karakter judul

(piksel)

Rerata tinggi

karater kolom

teks (piksel)

Selisih rerata

(piksel)

1 Benar 49 22 27

2 Benar 48 19 29

3 Benar 54 18 36

4 Salah 34 20 14

5 Salah 29 19 10

6 Salah 33 20 13

Pada tabel 4.11. hasil segmentasi judul yang salah memiliki nilai selisih

rerata maksimal adalah 14 piksel, maka disimpulkan bahwa jika selisih karakter

yang efektif untuk segmentasi judul adalah lebih besar dari 14 piksel. Pada hasil

segmentasi judul yang benar memiliki selisih rerata yang besar yaitu berkisar antara

27 piksel hingga 29 piksel.

Nilai threshold tinggi karakter judul adalah 1,5 kali lebih besar dari rerata

tinggi karakter. Jika rerata tinggi karakter judul kurang dari rerata tinggi karakter

teks maka sistem berkemungkinan untuk salah mengenali karakter judul (terutama

yang bukan huruf kapital) sebagai karakter dari kolom teks (Contoh: 19800102-03-

5.bmp).

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 78: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

62

Tabel 4.12. Citra hasil uji berhasil judul

No. Citra Input Hasil Segmentasi

1

19800102-03-4.bmp-judul

Berhasil mensegmentasi

2

19800102-03-3.bmp-judul

Berhasil mensegmentasi

3

19800102-08-1.bmp-judul

Berhasil mensegmentasi

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 79: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

63

Segmentasi kolom secara horisontal meraih tingkat keberhasilan 100%.

Horisontal artinya tidak menyisakan objek di kanan dan kiri kolom teks, sedangkan

secara vertikal berarti tidak menyisakan objek non-kolom teks di atas dan bawah

kolom teks. Segmentasi kolom secara vertikal meraih tingkat keberhasil 89,28%,

dari 224 kolom teks 24 diantaranya salah karena terdapat objek non-kolom teks.

Objek non-kolom teks yang masuk kedalam hasil segmentasi kolom diantaranya

tanda koma dan petik pada judul, simbol, garis penghubung subjudul dan gambar.

Berikut 3 contoh hasil segmentasi kolom yang berhasil dan gagal:

Tabel 4.13. Citra hasil uji segmentasi kolom teks yang gagal

No. Citra Input Hasil Segmentasi Kolom

1

19800102-01-02.bmp-kol-1

Terdapat karakter dari judul

yang masuk kedalam hasil

segmentasi kolom teks

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 80: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

64

2

19800102-16-05.bmp-kol-2

Terdapat objek subjudul yang

masuk ke hasil segmentasi kolom

teks.

3

19800102-01-03.bmp-kol-2

Terdapat

gambar yang

masuk

kedalam

hasil

segmentasi

kolom teks.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 81: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

65

Tabel 4.14. Citra hasil uji segmentasi kolom yang berhasil

No. Citra Input Hasil segmentasi kolom teks

1

19800102-01-07.bmp-kol-1

2

19800102-05-04.bmp-kol-1

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 82: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

66

3

19800102-14-03.bmp-kol-4

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 83: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

67

BAB 5

KESIMPULAN DAN SARAN

5.1. Kesimpulan

Dari penelitian ini dapat diambil beberapa kesimpulan sebagai berikut:

1. Sistem yang dibuat dapat mensegmentasi judul dengan tingkat keberhasilan

sebesar 91,25% dengan penggunaan threshold tinggi karakter judul lebih

besar dari rerata tinggi karakter keseluruhan, aspek rasio karakter, rasio

hitam putih, threshold nilai proyeksi dan threshold tinggi daerah proyeksi.

2. Sistem yang dibuat akan mendapatkan hasil maksimal ketika tidak ada sub-

judul, rerata tinggi antara karakter judul dan kolom teks lebih besar dari

threshold, tidak ada gambar/foto, tidak ada noise dan baris teks tidak

miring(slope).

3. Pada kasus tertentu apabila ada sub-judul disekitar judul maka sistem dapat

salah mensegmentasi. Dari 80 data testing 46 diantaranya terdapat sub-

judul, serta artikel bersub-judul yang berhasil dikenali adalah 26. Maka

didapatkan tingkat keberhasilan segmentasi sub-judul sebesar 56, 52%.

4. Sistem dapat mensegmentasi kolom teks secara vertikal (batas atas dan

bawah dari kolom teks) dengan tingkat keberhasilan 100%. Beberapa kasus,

segmentasi kolom teks secara horisontal (batas kanan dan kiri dari kolom

teks) menyisakan entitas lain seperti; sub-judul atau judul atau gambar.

Hasil tersebut disebabkan oleh segmentasi judul yang menyisakan objek

lain selain judul. Maka tingkat keberhasilan dari segmentasi kolom teks

secara vertikal adalah 89,28 %. Sebelum melakukan segmentasi kolom teks

penghapus noise pada gap antar kolom teks harus dilakukan. Penghapusan

noise dapat dilakukan dengan thresholding nilai proyeksi, area objek dan

lebar objek.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 84: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

68

5.2. Saran

Dari hasil penelitian ini dapat disarankan beberapa hal sebagai berikut:

1. Pada proses seleksi karakter dengan atibut tinggi karakter menjadi hal yang

krusial, maka perlu untuk menambahkan metode untuk membedakan

karakter yang tebal (bold). Hal ini disarankan karena sebagian besar

karakter pada judul artikel memiliki karakter yang ditebalkan.

2. Pada penelitian ini perlu dilakukan segmentasi foto dan gambar.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 85: SEGMENTASI JUDUL DAN KOLOM TEKS UNTUK ARTIKEL KORAN MENGGUNAKAN METODE PROYEKSI …repository.usd.ac.id/31162/2/145314086_full.pdf · 2018. 9. 3. · Koran Menggunakan Metode Profil

69

Daftar Pustaka

Abdul, K. dan Adhi, S. (2013). Teori dan Aplikasi Pengolahan Citra.Yogyakarta,

Andi Offset.

A. Nicolaou, and B. Gatos. (2009). Handwritten Text Line Segmentation by

Shredding Text into its Lines. 10th International Conference on

Document Analysis and Recognition, IEEE. pp. 626-630.

Chen, Datong & Odobez, Jean-Marc & Bourlard, Herve. (2004). Text detection

and recognition in images and video frames. Pattern Recognition. 37.

595-608. 10.1016/j.patcog.2003.06.001.

Gatos, Basilios & Mantzaris, S & Antonacopoulos, Apostolos. (2001). First

International Newspaper Segmentation Contest. 1190-.

10.1109/ICDAR.2001.953973.

Jain, Anil.K., Duin, Robert P.W.& Mao, Jianchang. (2000) Statistical Pattern

Recognition : A Review. Journal IEEE Transactions on Pattern Analysis

and Machine Intelligence, [Online] Volume (22), No.1, 4 – 37.

Kurnianto. A. (2013). Analisis Layout Koran Berdasarkan Prinsip-Prinsip Desain

Melalui Metode Estetika Birkhoff. HUMANIORA Vol.4 No. 2 986-994.

Li, Yao & Lu, Huchuan. (2012). Scene text detection via stroke width. 681-684.

P. E. Mitchell dan Hong Yan. (2001). Newspaper Document Analysis featuring

Connected Line Segmentation. Sixth International Conference on

Document Analysis and Recognition (ICDAR2001). Seattle. USA.

September 2001.

R.C. Gonzalez dan R.E. Woods. (2002). Thresholding in Digital Image

Processing. Second edition Prentice Hall .New Jersey 2002 pp 595-612

ISBN 0-201-18075-8

Sianipar. R.H. (2013). Pemrograman Matlab dalam Contoh dan Penerapan.

Bandung, Informatika Bandung.

Widiarti, Anastasia. (2013). Line Segmentation of Javanese Image of Manuscripts

in Javanese Scripts. International Journal of Engineering Innovations and

Research. 2. 239-244.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI