KLASIFIKASI BUKU BERDASARKAN GAMBAR SAMPUL BUKU ... · BUKU MENGGUNAKAN JARINGAN SYARAF TIRUAN...

107
i KLASIFIKASI BUKU BERDASARKAN GAMBAR SAMPUL BUKU MENGGUNAKAN JARINGAN SYARAF TIRUAN BACKPROPAGATION SKRIPSI Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika Oleh : I Putu Budhi Darma Purwanta 145314063 TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2018 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Transcript of KLASIFIKASI BUKU BERDASARKAN GAMBAR SAMPUL BUKU ... · BUKU MENGGUNAKAN JARINGAN SYARAF TIRUAN...

  • i

    KLASIFIKASI BUKU BERDASARKAN GAMBAR SAMPUL

    BUKU MENGGUNAKAN JARINGAN SYARAF TIRUAN

    BACKPROPAGATION

    SKRIPSI

    Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana

    Komputer Program Studi Teknik Informatika

    Oleh :

    I Putu Budhi Darma Purwanta

    145314063

    TEKNIK INFORMATIKA

    FAKULTAS SAINS DAN TEKNOLOGI

    UNIVERSITAS SANATA DHARMA

    YOGYAKARTA

    2018

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • ii

    BOOK CLASSIFICATION BASED ON IT’S COVER USING

    BACKPROPAGATION ATRIFICIAL NEURAL NETWORK

    FINAL PROJECT

    Presented as Partial Fulfillment of Requirements to Obtain Sarjana

    Komputer Degree in Informatics Engineering Department

    By :

    I Putu Budhi Darma Purwanta

    145314063

    INFORMATICS ENGINEERING STUDY PROGRAM

    FACULTY OF SCIENCE AND TECHNOLOGY

    SANATA DHARMA UNIVERSITY

    YOGYAKARTA

    2018

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • iii

    HALAMAN PERSETUJUAN PEMBIMBING

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • iv

    HALAMAN PENGESAHAN PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • v

    MOTO

    Hidup itu pilihan, jika sudah memilih, hidup

    anda akan dimulai, jika belum memilih, hidup

    anda akan terhenti.

    I Putu Budhi Darma Purwanta

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • vi

    PERNYATAAN KEASLIAN KARYA

    Saya menyatakan sesungguhnya bahwa di dalam skripsi yang saya tulis ini

    tidak memuat karya atau bagian karya orang lain, kecuali telah disebutkan dalam

    kutipan dan daftar pustaka, sebagaimana layaknya karya ilmiah.

    Yogyakarta, 6 September 2018

    Penulis

    I Putu Budhi Darma Purwanta

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • vii

    LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI

    ILMIAH UNTUK KEPENTINGAN AKADEMIS

    Yang bertanda tangan dibawah ini, saya mahasiswa Universitas Sanata Dharma:

    Nama : I Putu Budhi Darma Purwanta

    NIM : 145314063

    Demi pengembangan ilmu pengetahuan, saya memberikan kepada

    Perpustakaan Universitas Sanata Dharma karya ilmiah yang berjudul :

    KLASIFIKASI BUKU BERDASARKAN GAMBAR SAMPUL

    BUKU MENGGUNAKAN JARINGAN SYARAF TIRUAN

    BACKPROPAGATION

    Beserta perangkat yang diperlukan (bila ada). Dengan demikian saya

    memberikan kepada perpustakaan Universitas Sanata Dharma hak untuk

    menyimpan, mengalihkan daam bentuk media lain, mengelolanya dalam bentuk

    pangkalan data, mendistribusikan secara terbatas, dan mempublikasikannya di

    internet atau media lain untuk kepentingan akademis tanpa perlu meminta izin dari

    saya maupun memberikan royalti kepada saya selama tetap mencantumkan nama

    saya sebagai penulis.

    Demikian pernyataan ini saya buat dengan sebenarnya.

    Dibuat di Yogyakarta

    Pada Tanggal 6 September 2018

    Yang Menyatakan

    I Putu Budhi Darma Purwanta

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • viii

    ABSTRAK

    Pada perpustakaan sering terjadi kesalahan untuk mengelompokkan buku,

    karena judul sampul tidak sama dengan isi dari buku tersebut. Analisa dapat

    dilakukan pada data – data multimedia, dari data multimedia tersebut akan diproses,

    pada data gambar akan dilakukan pemrosesan citra untuk mengidentifikasi gambar

    tersebut.

    Penelitian ini memproses gambar sampul buku menggunakan pemrosesan

    citra dan MSER (Maximally Stable Extermal Regions). Mencari tulisan judul

    menggunakan OCR (Optical Character Recognition) Tesseract. Hasil tulisan

    diproses menggunakan pemerolehan informasi. Tulisan dibandingkan untuk

    membentuk matriks numerik, matrik tersebut dimasukkan ke jarigan syaraf tiruan

    backpropagation untuk klasifikasi.

    Percobaan klasifikasi dengan jaringan syaraf tiruan backpropagation,

    dengan optimalisasi arsitektur jaringan, dihasilkan akurasi terbaik satu hidden layer

    dengan 15 neuron sebesar 61,2069% dan 2 hidden layer dengan 15 dan 35 neuron

    sebesar 63.3053%

    Kata Kunci: Klasifikasi, Pemrosesan Citra, MSER, Tesseract,

    Pemerolehan Informasi, Jaringan Syaraf Tiruan Backpropagation

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • ix

    ABSTRACT

    On library commonly wrong for clustering book cause the tittle of the book

    different with the content of the book. Analysis can do it on multimedia data, from

    multimedia data will be processed, on image data will doing image processing for

    identification that image.

    This research processed image book cover using image processing and

    MSER (Maximally Stable Extermal Regions). Find word on tittle using Tesseract

    OCR (Optical Character Recognition). Word result processed by information

    retrieval. Word compares for creating matrix numeric, that matrix using for

    classification on the backpropagation artificial neural network.

    Classification experiment using the backpropagation artificial neural

    network, with optimization network architecture, produce best accuracy 61.2069%

    for one hidden layer on 15 neurons and 63.3053% for two hidden layers 15 neurons

    and 35 neurons.

    Keyword: Classification, Image Processing, MSER, Tesseract,

    Information Retrieval, Backpropagation Artificial Neural Network.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • x

    KATA PENGANTAR

    Puji syukur penulis panjatkan kepada Ida Sang Hyang Widhi Wasa atau

    Tuhan Yang Maha Esa, yang telah memberikan karunia berlimpah sehingga penulis

    dapat menyelesaikan tugas akhir dengan sangat baik.

    Penulis menyadari bahwa pada saat pengerjaan tugas akhir ini penulis

    mendapatkan banyak bantuan dari berbagai pihak, baik berupa perhatian, kritik, dan

    saran serta da yang sangat penulis butuhkan untuk kelancaran dan mendapatkan

    hasil yang baik. Pada kesempatan ini penulis akan menyapaikan ucapan terima

    kasih kepada:

    1. Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D. selaku Dekan Fakultas Sains dan

    Teknologi Universitas Sanata Dharma Yogyakarta.

    2. Dr. Cyprianus Kuntoro Adi, S.J., M.A., M.Sc., selaku dosen pembimbing

    tugas akhir yang telah sabar dan penuh perhatian membimbing saya dalam

    penyusunan tugas akhir.

    3. Dr. Anastasia Rita Widiarti, M.Kom., selaku Ketua Program Studi Teknik

    Informatika yang selalu memberikan dukungan dan perhatian serta saran

    kepada mahasiswa tugas akhir dan pengerjaan tugas akhir.

    4. Kedua orang tua tercinta Bapak I Made Sudiana dan Ibu Ni Nyoman

    Sutrisnawati yang selalu mendoakan dan memberikan dukungan berupa

    moral maupun materi kepada penulis, sehingga penulis dapat

    menyelesaikan tugas akhir ini.

    5. Seluruh dosen Teknik Informatika atas ilmu yang telah diberikan selama

    perkuliahan dan pengalaman yang sangat berarti bagi penulis.

    6. JackRakkan, DonatKeju, Sekamir, Jones, serta seluruh teman – teman

    sesama peminatan komputasi yang berjuang bersama dan saling

    mendukung dalam penyusunan tugas akhir ini.

    7. Jarkom Oye ’14 yang selalu mestimulus dopamin penulis ketika

    mengerjakan tugas akhir ini.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • xi

    8. Teman – teman Teknik Informatika Sanata Dharma angkatan 2014,

    terimakasih atas semangat dan perjuangan bersama yang telah diberikan

    kepada satu sama lain.

    9. Anak Ilung dan Nyaik sebagai anak rantau tempat bernaung dalam suka

    dan duka selama di Jogja.

    10. Big Mom yang selalu memberikan stimulus dan kasih sayang selama

    penulisan tugas akhir ini.

    Yogyakarta, 6 September 2018

    Penulis

    I Putu Budhi Darma Purwanta

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • xii

    DAFTAR ISI

    SAMPUL ..................................................................................................... i

    COVER ....................................................................................................... ii

    HALAMAN PERSETUJUAN PEMBIMBING ........................................ iii

    HALAMAN PENGESAHAN ................................................................... iv

    MOTO ......................................................................................................... v

    PERNYATAAN KEASLIAN KARYA .................................................... vi

    LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI ILMIAH

    UNTUK KEPENTINGAN AKADEMIS ................................................. vii

    ABSTRAK ............................................................................................... viii

    ABSTRACT ............................................................................................... ix

    KATA PENGANTAR ................................................................................ x

    DAFTAR ISI ............................................................................................. xii

    DAFTAR TABEL .................................................................................... xiv

    DAFTAR GAMBAR ............................................................................... xiv

    BAB I .......................................................................................................... 1

    1.1. Latar Belakang ........................................................................... 1

    1.2. Rumusan Masalah ...................................................................... 3

    1.3. Tujuan ........................................................................................ 3

    1.4. Luaran ........................................................................................ 3

    1.5. Batasan Masalah ........................................................................ 4

    BAB II ......................................................................................................... 5

    2.1. Buku ........................................................................................... 5

    2.2. Bahasa ........................................................................................ 7

    2.2.1. Kata Dasar .............................................................................. 7

    2.2.2. Kata Bentukan ........................................................................ 8

    2.3. RGB ......................................................................................... 14

    2.4. Grayscale ................................................................................. 14

    2.5. Binerisasi Otsu ......................................................................... 14

    2.6. Deteksi Maximally Stable Extremal Regions (MSER) ............ 18

    2.7. Tesseract OCR ......................................................................... 19

    2.8. Pemerolehan Informasi ............................................................ 20

    2.8.1. Case-folding ......................................................................... 20

    2.8.2. Tokenization ......................................................................... 21

    2.8.1. Stop Word Removing ............................................................ 21

    2.8.2. Stemming .............................................................................. 21

    2.9. Jaringan Syaraf Tiruan ............................................................. 22

    2.9.1. Arsitektur Jaringan ............................................................... 22

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • xiii

    2.9.2. Backpropagation .................................................................. 24

    BAB III ..................................................................................................... 31

    3.1. Gambaran Umum .................................................................... 31

    3.1.1. Data ...................................................................................... 31

    3.1.2. Preprocessing ....................................................................... 32

    3.1.3. Ekstraksi Ciri ........................................................................ 34

    3.1.4. Pemerolehan Informasi......................................................... 34

    3.1.5. Jaringan Syaraf Tiruan ......................................................... 37

    3.1.6. Arsitektur Jaringan Syaraf Tiruan ........................................ 37

    3.1.7. Metode Pengujian ................................................................. 42

    3.1.8. Model Pembanding .............................................................. 42

    3.2. Algoritma ................................................................................. 43

    3.2.1. Preprocessing Judul Buku .................................................... 43

    3.2.2. Pemerolehan Informasi......................................................... 43

    3.2.3. Klasifikasi ............................................................................. 44

    3.3. Kebutuhan Sistem .................................................................... 44

    3.4. Perancangan Antar Muka Sistem............................................. 45

    BAB IV ..................................................................................................... 48

    4.1. Preprocessing ........................................................................... 48

    4.1.1. Pemrosesan Citra .................................................................. 48

    4.1.2. Optical Character Recognition ............................................ 50

    4.1.3. Pemerolehan Informasi......................................................... 52

    4.2. Klasifikasi ................................................................................ 53

    4.4.1. Satu Hidden Layer ................................................................ 53

    4.4.2. Dua Hidden Layer ................................................................ 55

    4.4.3. Arsitektur Optimal ................................................................ 57

    4.3. Uji Data Tunggal ..................................................................... 58

    BAB V ...................................................................................................... 65

    5.1. Gambaran Proses ..................................................................... 65

    5.2. Kesimpulan .............................................................................. 66

    5.3. Saran ........................................................................................ 66

    DAFTAR PUSTAKA ............................................................................... 67

    LAMPIRAN .............................................................................................. 69

    A. Lampiran Program ....................................................................... 70

    B. Lampiran Basis Data ................................................................... 90

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • xiv

    DAFTAR TABEL

    Tabel 3.1 Ilustrasi perubahan kata ke numerik ......................................... 34

    Tabel 3.2 Daftar Perubahan Awalan ......................................................... 35

    Tabel 3.3 Gambaran singkat data yang akan masuk JST .......................... 36

    Tabel 4.1 Perbandingan Tulisan................................................................ 51

    Tabel 4.3 Fold Pertama ............................................................................. 57

    Tabel 4.4 Fold Kedua................................................................................ 57

    Tabel 4.5 Fold Ketiga ............................................................................... 58

    DAFTAR GAMBAR

    Gambar 2.1 Gambaran Tata Letak pada Cover Buku ................................. 6

    Gambar 2.2 Ilustrasi Perubahan Kata Awalan Ber- .................................. 11

    Gambar 2.3 Ilustrasi Perubahan Kata Awalan Per- .................................. 11

    Gambar 2.4 Ilustrasi Perubahan Kata Awalan Ter- .................................. 12

    Gambar 2.5 Ilustrasi MSER (Dokumentasi Matlab 2010b) ...................... 19

    Gambar 2.6 Ilustrasi Jaringan Lapis Tunggal (Hagan & Demuth, 2014) 23

    Gambar 2.7 Ilustrasi Jaringan Lapis Majemuk (Hagan and Beale, 2014) 23

    Gambar 2.8 Jaringan 3 Layer (Hagan and Beale, 2014) ........................... 24

    Gambar 2.9 Contoh Jaringan Fungsi Aprokmasi ...................................... 25

    Gambar 2.10 Jaringan 3 Lapis, dengan notasi ringkas ............................. 26

    Gambar 3.1 Diagram Blok Sistem ............................................................ 31

    Gambar 3.2 Contoh Cover Buku .............................................................. 32

    Gambar 3.3 Preprocessing I ...................................................................... 33

    Gambar 3.4 Hasil Deteksi Objek Menggunakan MSER .......................... 33

    Gambar 3.5 Gambar setelah koordinat selain MSER diubah menjadi 0 .. 33

    Gambar 3.6 Tampilan menu utama ........................................................... 45

    Gambar 3.7 Tampilan jendela preprocessing uji tunggal ......................... 47

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

    file:///C:/Users/budhidarmap/Desktop/KLASIFIKASI%20BUKU%20BERDASARAKAN%20GAMBAR%20SAMPUL%20BUKU%20MENGGUNAKAN%20JARINGAN%20SYARAF%20TIRUAN%20BACKPROPAGATION%20.docx%23_Toc524166455

  • xv

    Gambar 4.1 Menggunakan region area 20-1200 dan thershold delta 12 . 49

    Gambar 4.2 Menggunakan region area 20-800 dan thershold delta 5 ...... 49

    Gambar 4.3 Contoh gambar setelah diproses grayscale yang tidak bisa

    dideteksi MSER ........................................................................................ 49

    Gambar 4.4 Contoh hasil MSER grayscale gambar yang baik ................ 50

    Gambar 4.5 Contoh hasil setelah piksel koordinat selain nilai MSER diubah

    menjadi 0 ................................................................................................... 50

    Gambar 4.6 Arsitektur JST satu hidden layer ........................................... 53

    Gambar 4.7 Arsitektur JST dua hidden layer dengan layer pertama 15

    neuron ....................................................................................................... 55

    Gambar 4.8 Arsitektur JST dua hidden layer dengan layer pertama 25

    neuron ....................................................................................................... 56

    Gambar 4.9 Arsitektur JST optimal .......................................................... 57

    Gambar 4.10 Preprocessing Data 1 .......................................................... 58

    Gambar 4. 11 Hasil Data 1 ........................................................................ 59

    Gambar 4. 12 Preprocessing Data 2 ......................................................... 59

    Gambar 4. 13 Hasil Data 2 ........................................................................ 60

    Gambar 4. 14 Preprocessing Data 3 ......................................................... 61

    Gambar 4. 15 Hasil Data 3 ........................................................................ 61

    Gambar 4. 16 Preprocessing Data 4 ......................................................... 62

    Gambar 4. 17 Hasil Data 4 ........................................................................ 62

    Gambar 4. 18 Preprocessing Data 5 ......................................................... 63

    Gambar 4. 19 Hasil Data 5 ........................................................................ 63

    Gambar 4. 20 Preprocessing Data 6 ......................................................... 64

    Gambar 4. 21 Hasil Data 6 ........................................................................ 64

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 1

    BAB I

    PENDAHULUAN

    1.1. Latar Belakang

    Buku merupakan jenis literatur tua yang masih digunakan hingga kini,

    terdapat banyak perpustakaan dan percetakan di dunia, setiap buku mungkin

    membahas hal yang sama tetapi tidak akan memiliki informasi yang sama persis.

    Selain informasi yang menarik, buku juga memiliki bagian unik yakni sampul.

    Buku memiliki sampul yang berbagai macam, sampul tersebut berisikan informasi

    tentang buku tersebut, terkadang judul pada sampul tersebut tidak mirip dengan isi

    dari sebuah buku.

    Pada perpustakaan sering terjadi kesalahan untuk mengelompokkan buku,

    tidak dimungkinkan untuk mengetahui secara detail buku – buku yang dimiliki oleh

    perpustakaan, hal tersebut membuat pengelompokan hanya dilakukan berdasarkan

    judul pada sampul bukunya saja, karena judul sampul tidak sama dengan isi dari

    buku tersebut, sering terjadi kesalahan penempatan buku.

    Banyak perusahaan besar bernaung pada penjualan buku seperti Amazon

    yang memiliki refrensi penjualan buku yang sangat banyak, tujuan untuk

    memudahkan pembeli dalam memilih buku yang dibantu oleh sistem rekomendasi

    dari Amazon, dilakukan pemetaan karakteristik pembeli atau pembaca, dengan

    menambang informasi yang ada pada akun pembeli, masyarakat mengunggah data

    multimedia misalnya sampul buku, dari sampul tersebut bisa dicari hubungan

    antara pembeli dengan data yang mereka unggah.

    Upaya untuk melakukan analisa pembeli dapat dilakukan pada data – data

    multimedia pengguna, dari data multimedia tersebut akan diproses, pada data

    gambar akan dilakukan pemrosesan citra untuk mengidentifikasi gambar tersebut,

    pada kasus sampul buku, gambar akan diproses untuk mendapatkan judulnya, judul

    diprosesan untuk mengetahui judul buku, dari judul tersebut dilakukan analisa

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 2

    untuk mengetahui buku yang dicari dan kekerabatannya, dari data tersebut maka

    akan ditemukan buku yang sesuai dengan data pengguna.

    (Iwana et al., 2016) telah melakukan penelitian serupa untuk sampul buku.

    Pada penelitian tersebut dilakukan deep learning menggunakan Jaringan Syaraf

    Tiruan dan dilakukan pada seluruh sampul buku dengan hasil akurasi yang hanya

    dibawah 70%, pada penelitian tersebut umumnya menggunakan tiga jenis ciri yakni

    ciri warna, ciri gambar, dan ciri tulisan. Pada ciri warna pada umumnya semakin

    muda warna sampul mengindikasikan semakin muda juga calon pembaca buku

    tersebut. Pada ciri gambar di penelitian tersebut dikatakan gambar akan

    mempengaruhi topik yang cenderung sama dengan gambar sampul. Pada ciri

    tulisan sebuah buku yang berisikan tentang ilmu filsafat, sosial, hukum dan misteri

    akan cenderung memiliki tulisan yang banyak pada sampulnya.

    Penulis melihat perbedaan yang sudah dijelaskan sebelumnya sebagai

    sebuah masalah yang ingin diteliti penulis, dengan mencari tahu hubungan antara

    judul pada sampul buku dengan informasi yang akan dipaparkan dalam buku

    tersebut dengan mengelompokan buku – buku berdasarkan judul pada sampulnya

    dan membandingkannya dengan informasi yang didapat melalui metode penulis

    gunakan dan membandingkannya dengan informasi isi dari buku tersebut, sehingga

    dapat menjawab pertanyaan apakah sampul tersebut dapat digunakan untuk

    mengelompokkan buku dan mengetahui genre buku tersebut.

    Ada beberapa metode untuk melakukan klasifikasi yakni Naïve Bayes,

    Dessicion Tree, Support Vector Machine, dan Jaringan Syaraf Tiruan. Terdapat

    beberapa metode klasifikasi dengan Jaringan Syaraf Tiruan. Metode CNN untuk

    klasifikasi buku (Iwana et al., 2016) dan Backpropagation untuk klasifikasi burung

    (Putera, 2016)

    Penulis ingin membuat model klasifikasi buku, model ini akan melakukan

    identifikasi secara otomatis judul pada sampul buku. Preprocessing sebelum

    dilakukan klasifikasi menggunakan pemrosesan citra dan pemerolehan informasi.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 3

    1.2. Rumusan Masalah

    Rumusan masalah yang ingin dijawab penulis dalam penelitian ini adalah

    sebagai berikut:

    1. Apakah pemerolehan informasi mampu mengektraksi ciri pada

    setiap judul buku?

    2. Apakah metode Backpropagation dapat mengklasifikasi buku

    berdasarkan ekstraksi ciri dari sampul buku?

    1.3. Tujuan

    Tujuan yang ingin dicapai dari penelitian ini adalah sebagai berikut:

    1. Melakukan identifikasi gambar tulisan menggunakan optical

    character recognition.

    2. Menggunakan pemerolehan informasi untuk mendapatkan

    ekstraksi ciri judul buku.

    3. Membangun model klasifikasi buku menggunakan jaringan

    syaraf tiruan backpropagation.

    1.4. Luaran

    Dengan penelitian ini diharapkan mendapat luaran sebagai berikut:

    1. Klasifikasi judul pada sampul buku dapat dilakukan dan

    mendapat akurasi yang baik sehingga luaranya dapat

    dipertanggung jawabkan

    2. Klasifikasi dapat dilakukan dengan menggunakan judul pada

    sampul buku untuk dikelompokkan.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 4

    1.5. Batasan Masalah

    Batasan masalah yang penulis akan pakai dalam penelitian ini sebagai

    berikut:

    1. Penulis menggunakan data sampul buku dari percetakan

    Kanisius untuk melakukan penelitian ini dengan tinggi gambar

    180px.

    2. Data Sampul yang digunakan hanya sampul kerohanian, filsafat,

    dan pelajaran.

    3. Penulis akan mebandingkan informasi yang sudah ada pada data

    dari nama buku dengan hasil dari klasifikasi untuk mengetahui

    kecocokan antara sampul dan topik buku

    4. Penulis hanya akan membatasi pemrosesan citra pada judul buku

    pada sampulnya saja.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 5

    BAB II

    TINJAUAN PUSTAKA

    2.1. Buku

    Buku modern disusun menurut format tertentu yang disebut tata letak buku.

    Meskipun ada variasi tata letak yang banyak, buku modern cenderung mematuhi

    seperangkat peraturan berkaitan dengan bagian tata letak dan isi konten mereka

    biasanya. Tata letak dasar akan mencakup sampul depan, penutup belakang, dan isi

    buku yang disebut halaman salinan atau konten tubuhnya. Sampul depan sering

    memakai judul buku (dan sub judul, jika ada) dan nama pengarang atau editornya.

    Bagian depan sampul depan biasanya kosong pada buku hardcover dan paperback

    (Shelly, Gary B.; Starks, 2011).

    Buku memiliki tiga bagian yakni sampul depan, belakang, dan isi, pada

    sampul depan terdapat grafis dan tulisan judul dari buku tersebut, pada umumnya

    tulisan pada cover menggunakan font Times New Roman, Arial, dan Trebuchet MS,

    pada judul sampul buku memiliki karakteristik yang berbeda - beda tidak sama satu

    sama lain, pada posisi judul buku tidaklah menentu, pada umumnya posisi judul

    pada sampul buku terletak pada seperempat bagian atas sampul menggunakan rata

    tengah, dan pengarang terletak pada seperempat bagian pojok bawah sampul.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 6

    Gambar 2.1 Gambaran Tata Letak pada Cover Buku

    Sebagai prasyarat penting untuk pencarian gambar berbasis teks, teks dalam

    gambar harus ditempatkan dengan baik. Namun, menjadi menantang karena

    beragamnya tampilan teks, seperti variasi font dan gaya, distorsi geometrik dan

    fotometrik, oklusi parsial, dan kondisi pencahayaan yang berbeda. Deteksi teks

    telah dipertimbangkan dalam banyak penelitian terkini dan berbagai metode

    dilaporkan dalam literatur (Chen et al., 2011).

    Buku memiliki variasi dalam tampilan teks, seperti variasi font dan gaya,

    distorsi geometrik dan fotometrik, oklusi parsial, dan kondisi pencahayaan yang

    berbeda hal ini tak lepas dari keinginan penerbit untuk meningkatkan daya tarik

    pembeli sehingga sampul buku disisipkan berbagai macam unsur seni dan

    keindahan, kreasi tersebut bisa membuat perbedaan antara satu buku dengan buku

    yang lain atau setiap buku memiliki ciri khas tertentu.

    Judul Lokasi umum Judul

    Pengarang Lokasi umum pengarang

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 7

    2.2. Bahasa

    Bahasa mempunyai dua aspek, yaitu aspek bentuk dan aspek makna

    (Mustakim, 2014). Aspek bentuk berupa wujud suara atau wujud visual suatu

    bahasa. Wujud suara dapat diketahui dari bunyi-bunyi bahasa yang didengar, wujud

    visual berupa lambang-lambang bunyi bersistem yang tampak jika bahasa itu

    dituliskan. Aspek makna merujuk pada pengertian yang ditimbulkan oleh wujud

    audio atau wujud visual bahasa itu. Dengan contoh sebagai berikut:

    (1) Indonesia merupakan negara kepulauan yang berbentuk republik.

    Contoh (1) tersebut memperlihatkan wujud visual suatu bahasa yang

    berbentuk kalimat. Kalimat adalah satuan bahasa yang terdiri dari rangkaian

    beberapa kata yang mengandung informasi cukup lengkap.

    Kata-kata yang membentuk kalimat (1) terdiri atas tujuh kata, ketujuh kata

    yang dimaksud adalah sebagai berikut.

    Indonesia (kata dasar)

    merupakan (kata bentukan)

    negara (kata dasar)

    kepulauan (kata bentukan)

    yang (kata dasar/penghubung)

    berbentuk (kata bentukan)

    republik. (kata dasar)

    2.2.1. Kata Dasar

    Kata dasar selain dapat digunakan sebagai dasar bagi bentukan kata lain

    yang lebih luas, dapat pula digunakan tanpa ditambah dengan imbuhan apa pun.

    Beberapa kata yang tergolong sebagai kata dasar sudah diketahui dan sudah

    tersimpan di dalam memori para pengguna bahasa. Jika akan digunakan, kata-kata

    tinggal dikeluarkan dari memori atau ingatan. Demikian dalam berbahasa tidak ada

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 8

    masalah jika informasi yang disampaikan seluruhnya dinyatakan dalam bentuk kata

    dasar.

    2.2.2. Kata Bentukan

    Pembentukan kata adalah proses membentuk kata dengan menambahkan

    imbuhan atau unsur lain pada kata dasar. Dalam bahasa Indonesia, pembentukan

    kata dapat dilakukan dengan menggunakan berbagai cara. Cara yang dimaksud

    adalah sebagai berikut.

    2.2.2.1. Pengimbuhan

    Imbuhan dalam bahasa Indonesia terdiri atas empat macam dibagi

    berdasarkan tata letaknya. Pertama, imbuhan pada awal kata lazim disebut awalan

    (prefiks). Kedua, imbuhan pada akhir kata lazim disebut akhiran (sufiks). Ketiga,

    imbuhan pada tengah kata lazim disebut sisipan (infiks). Keempat, imbuhan pada

    awal kata dan akhir kata sekaligus lazim disebut gabungan imbuhan (konfiks).

    Beberapa contoh imbuhan itu dapat diperhatikan sebagai berikut.

    a. Awalan

    meng- → menulis, melamar, memantau

    di- → ditulis, dilamar, dipantau

    peng- → penulis, penyanyi, peramal

    ber- → berkebun, bermain, bermimpi

    ter- → terpaksa, terpadu, tersenyum

    se- → serupa, senada, seiring

    b. Akhiran

    ian- → tulisan, tatapan, tantangan

    i- → temui, sukai, pandangi

    kan- → tumbuhkan, sampaikan, umumkan

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 9

    c. Sisipan

    el- → geletar, geligi, gelantung

    em- → gemuruh, gemetar

    er- → gerigi

    d. Gabungan Imbuhan

    meng-...-kan → menemukan, meratakan

    meng-...-i → memandangi, mengunjungi

    peng-...-an → pendidikan, pemandian

    ke-...-an → kehujanan, kemajuan

    se-...-nya → seandainya, sebaiknya

    per-...-an → peraturan, persimpangan

    A. Pembentukan Kata dengan Awalan

    Awalan meng- dan peng- dapat mengalami perubahan bentuk jika

    digabungkan dengan kata dasar yang berawal dengan fonem tertentu. Awalan

    meng-, misalnya, dapat berubah bentuknya menjadi me-, meny-, men-, mem-, dan

    menge-. Begitu dengan awalan peng-. Seperti awalan meng-, awalan peng- juga

    dapat berubah menjadi pe-, peny-, pen-, pem-, dan penge-.

    I. Perubahan Awalan Meng- dan Peng-

    1) Awalan meng- dan peng- berubah menjadi me- dan pe- jika

    dirangkaikan dengan kata dasar yang berawal fonem /r, l, m, n, w, y,

    ng, ny/. Misalnya:

    meng-/peng - + nyanyi → menyanyi, penyanyi

    2) Awalan meng- dan peng- berubah menjadi mem- dan pem- jika

    dirangkaikan dengan kata dasar yang berawal dengan fonem /p, b, f,

    v/. Misalnya:

    meng-/peng - + bawa → membawa, pembawa

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 10

    3) Awalan meng- dan peng- berubah menjadi men- dan pen- jika

    dirangkaikan dengan kata dasar yang berawal dengan fonem /t, d, c,

    j, z, sy/. Misalnya:

    meng-/peng - + tuduh → menuduh, penuduh

    4) Awalan meng- dan peng- tetap menjadi meng- dan peng- jika

    dirangkaikan dengan kata dasar yang berawal dengan fonem /k, g,

    h, kh, dan vokal/. Misalnya:

    meng-/peng- + karang → mengarang, pengarang

    5) Awalan meng- dan peng- berubah menjadi meny- dan peny- jika

    dirangkaikan dengan kata dasar yang berawal dengan fonem /s/.

    Misalnya:

    meng-/peng- + sayang → menyayang, penyayang

    6) Awalan meng- dan peng- berubah menjadi menge- dan penge- jika

    dirangkaikan dengan kata dasar yang hanya terdiri atas satu suku

    kata. Misalnya:

    meng-/peng- + tes → mengetes, pengetes

    7) Fonem /k, p, t, s/ pada awal kata dasar luluh jika mendapat awalan

    meng- dan peng-. Misalnya:

    meng-/peng- + kikis → mengikis, pengikis

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 11

    II. Perubahan Awalan ber-

    Awalan ber- dapat berubah menjadi be- dan bel- atau tetap menjadi ber-.

    Awalan ber- berubah menjadi be- jika digabungkan dengan kata dasar yang berawal

    dengan fonem /r/ atau kata dasar yang suku kata pertamanya mengandung bunyi

    [er].

    Ber-

    Be-

    Bel-

    Ber-

    Beroda

    Belajar

    Bertanya

    Gambar 2.2 Ilustrasi Perubahan Kata Awalan Ber-

    III. Perubahan Awalan per-

    Awalan per- dapat berubah menjadi pe- dan pel- atau tetap menjadi per-.

    Dalam hal ini, awalan per- berubah menjadi pe- jika digabungkan dengan kata yang

    mempunyai pertalian bentuk dengan kata lain yang berawalan ber- atau jika

    digabungkan dengan kata yang berawal dengan fonem /r/.

    Per-

    Pe-

    Pel-

    Per-

    Petani

    Pelajar

    Pertanda

    Gambar 2.3 Ilustrasi Perubahan Kata Awalan Per-

    IV. Perubahan Awalan ter-

    Awalan ter- hanya dapat berubah menjadi te- jika digabungkan dengan kata

    dasar yang berawal dengan fonem /r/ atau suku kata pertamanya mengandung bunyi

    [er]. Awalan ter- tetap menjadi ter- jika digabungkan dengan kata dasar yang lain.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 12

    Ter-

    Te-

    Ter-

    Terasa

    Terbaik

    Gambar 2.4 Ilustrasi Perubahan Kata Awalan Ter-

    V. Pertalian Bentuk

    Dalam pembentukan kata terdapat pertalian bentuk antara awalan peng- dan

    meng- serta awalan per- dan ber-. Contohnya pada bentukan kata pengembangan

    dan perkembangan.

    B. Pembentukan Kata dengan Akhiran

    Akhiran dalam bahasa Indonesia sebagaimana telah disebutkan di atas

    adalah –an, -kan, dan –i. Imbuhan –isasi yang sering digunakan dalam bahasa

    Indonesia berasal dari –isatie (Belanda) atau –ization (Inggris). Imbuhan asing –ir

    menggunakan unsur serapan yang berasal dari bahasa Inggris. Imbuhan –wan dan

    –man semula juga berasal dari bahasa asing, yakni bahasa Sanskerta.

    C. Pembentukan Kata dengan Sisipan

    Sisipan dalam bahasa Indonesia jumlahnya sangat terbatas yakni –em-, -el-

    , –er-,dan –in-.

    D. Pembentukan Kata dengan Gabungan Imbuhan

    Imbuhan di-...-kan atau meng-...-kan jika ditambahkan pada kata-kata dasar

    yang berakhir dengan huruf /k/, kata bentukannya akan mengandung dua huruf /k/.

    Imbuhan peng- jika diikuti akhiran, akhiran yang mengikutinya adalah –an,

    bukan –kan, sehingga gabungan imbuhan itu menjadi peng-...-an, sama seperti

    imbuhan ke-...an.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 13

    2.2.2.2. Penggabungan kata dasar dan kata dasar

    Pembentukan kata dalam bahasa Indonesia juga dapat dilakukan

    dengan menggabungkan kata dasar dan kata dasar. Misalnya, dari kata dasar

    tanda dan kata dasar tangan dapat digabungkan sehingga menjadi tanda tangan.

    Beberapa kata lain yang dibentuk dengan penggabungan kata dasar dan kata dasar

    dapat dilihat pada contoh berikut.

    kerja sama

    tanggung jawab

    terima kasih

    serah terima

    sumber daya

    terima kasih

    serah terima

    sebar luas

    2.2.2.3. Penggabungan unsur terikat dan kata dasar

    Unsur terikat yang dimaksud adalah unsur yang keberadaannya tidak dapat

    berdiri sendiri sebagai kata. Dengan demikian, unsur itu selalu terikat pada unsur

    yang lain, antara lain swa-, pra-, pasca-, sub-, non-, multi-, tuna-, maha-, multi-,

    antar-, nara-, semi- purna-, ultra-, dan adi-.

    Di samping yang telah disebutkan di atas, kata-kata bilangan dalam bahasa

    Indonesia yang berasal dari bahasa Sanskerta, seperti eka, dwi-, tri- , catur-, panca-

    , sad-, sapta-, hasta-, nawa-, dan dasa-, juga dipandang sebagai unsur terikat. Oleh

    karena itu, unsur-unsur tersebut juga ditulis serangkai.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 14

    2.3. RGB

    RGB merupakan singkatan dari merah (red), hijau (green), dan biru (blue),

    setiap perpaduan warna dasar tersebut akan menghasilkan warna baru dengan

    memperhatikan terang gelapnya juga, suatu tulisan pada umumnya memiliki warna

    hitam, untuk kasus sampul buku ini, warna tulisan pada judul buku memiliki warna

    yang bervariasi, ragam warnanya pun bisa warna tegas dan gradasi.

    Ruang warna RGB tertentu didefinisikan oleh tiga kromatisitas warna

    merah, hijau, dan biru, dan dari warna dasar tersebut menghasilkan kromatisitas

    segitiga yang ditentukan oleh warna primer tersebut (Hunt, 2004).

    2.4. Grayscale

    Dalam fotografi, komputasi, dan kolorimetri, gambar grayscale atau

    greyscale adalah satu di mana nilai setiap piksel adalah sampel tunggal yang hanya

    mewakili jumlah cahaya, hanya informasi intensitas saja. Gambar semacam ini,

    juga dikenal sebagai hitam-putih atau monokrom, terdiri dari nuansa abu-abu,

    bervariasi dari hitam pada intensitas paling lemah hingga putih pada yang terkuat

    (Johnson, 2006). Citra grayscale merupakan citra yang memiliki rentang 0-255,

    untuk citra sampul buku memiliki warna yang tidak tegas, namun pada judul buku

    memiliki warna gradasi pada tulisannya.

    Algortima rgb2gray pada Matlab 2014b:

    𝐺𝑟𝑎𝑦𝑠𝑐𝑎𝑙𝑒 = 0.2989 ∗ 𝑅𝑒𝑑 + 0.5870 ∗ 𝐺𝑟𝑒𝑒𝑛 + 0.1140 ∗ 𝐵𝑙𝑢𝑒 (2.1)

    2.5. Binerisasi Otsu

    Metode untuk memilih ambang secara otomatis dari tingkat abu-abu

    histogram telah diturunkan dari analisis sudut pandang diskriminan. Hal ini secara

    langsung berkaitan dengan masalah evaluasi ambang batas terbaik, dan solusi

    terbaik menerapkan multithreshold (Noboyuki, 1979).

    Binerisasi otsu merupakan teknik binerisasi yang menerapkan tingkat

    binarisasi yang berbeda setiap bagiannya, pada sampul buku binerasisasi dilakukan

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 15

    setelah mendapatkan objek tulisan pada sampul buku, untuk memudahkan

    identifikasi tulisan.

    Gray level histogram dari Otsu, dimana L merupakan level keabu-abuan dan

    N merupakan total dari jumlah piksel citra

    𝑝𝑖 = 𝑛𝑖 𝑁⁄ , 𝑝𝑖 ≥ 0,∑𝑝𝑖 = 1

    𝐿

    𝑖=1

    (2.2)

    Mengotomisasi piksel menjadi dua kelas C0 dan C1 (latar belakang dan

    objek, atau sebaliknya) dengan ambang batas pada tingkat k; C0 menunjukkan

    piksel dengan tingkat [1, ..., k], dan C1 menunjukkan piksel dengan tingkat [k + 1,

    ..., L]. Maka probabilitas kejadian kelas dan kelas rata-rata, masing-masing,

    diberikan oleh

    𝜔0 = Pr(𝐶0) = ∑ 𝑝𝑖 = 𝜔(𝑘)

    𝑘

    𝑖=𝑘+1

    (2.3)

    𝜔1 = Pr(𝐶1) = ∑ 𝑝𝑖 = 1 − 𝜔(𝑘)

    𝑘

    𝑖=𝑘+1

    (2.4)

    dan

    𝜇0 = Pr(𝑖|𝐶0) = ∑𝑝𝑖 𝜔0⁄ = 𝜇(𝑘) 𝜔(𝑘)⁄

    𝑘

    𝑖=1

    (2.5)

    𝜇1 = Pr(𝑖|𝐶1) = ∑ 𝑝𝑖 𝜔1⁄ =𝜇𝑇 − 𝜇(𝑘)

    1 − 𝜔(𝑘)

    𝑘

    𝑖=1+1

    (2.6)

    dimana

    𝜔(𝑘) = ∑𝑝𝑖

    𝑘

    𝑖=1

    (2.7)

    𝜇(𝑘) = ∑𝑖𝑝𝑖

    𝑘

    𝑖=1

    (2.8)

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 16

    adalah saat kumulatif orde pertama dan histogram orde pertama sampai ke-

    k, masing-masing, dan

    𝜇𝑇 = 𝜇(𝐿) = ∑𝑖𝑝𝑖

    𝑘

    𝑖=1

    (2.9)

    adalah tingkat rata-rata total dari gambar aslinya. Dapat dengan mudah

    memverifikasi relasi berikut untuk pilihan k:

    𝜔0𝜇0 + 𝜔1𝜇1 = 𝜇𝑇, 𝜔0 + 𝜔1 = 1 (2.10)

    Variasi kelas diberikan oleh:

    𝜎02 = ∑(𝑖 − 𝜇0)

    2

    𝑘

    𝑖=1

    Pr(𝑖|𝐶0) = ∑(𝑖 − 𝜇0)2

    𝑘

    𝑖=1

    𝑝𝑖 𝜔0⁄ (2.11)

    𝜎12 = ∑ (𝑖 − 𝜇1)

    2

    𝐿

    𝑖=𝑘+1

    Pr(𝑖|𝐶1) = ∑ (𝑖 − 𝜇1)2

    𝑘

    𝑖=𝑘+1

    𝑝𝑖 𝜔1⁄ (2.12)

    Menurut Fukunage (Otsu, 1979) diperlukan momen kumulatif orde dua

    (statistik). Untuk mengevaluasi "kebaikan" ambang batas (pada tingkat k), kami

    akan memperkenalkan ukuran kriteria diskriminan berikut (atau ukuran

    keterpisahan kelas) yang digunakan dalam analisis diskriminan:

    𝜆 = 𝜎𝐵2 𝜎𝑊

    2 ,⁄ Κ = 𝜎𝑇2 𝜎𝑊

    2 ,⁄ 𝜂 = 𝜎𝐵2 𝜎𝑇

    2,⁄ (2.13)

    dimana

    𝜎𝑊2 = 𝜔0𝜎0

    2 + 𝜔1𝜎12

    (2.14)

    𝜎𝐵2 = 𝜔0(𝜇0 − 𝜇𝑇)

    2 + 𝜔1(𝜇1 − 𝜇𝑇)2

    = 𝜔0𝜔1(𝜇1 − 𝜇0)2 (2.15)

    (disebabkan oleh (2.10) dan

    𝜎𝑇2 = ∑(𝑖 − 𝜇𝑇)

    2𝑃𝑖

    𝐿

    𝑖=1

    (2.16)

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 17

    total varians level masing-masing. Kemudian masalah dikurangi menjadi

    masalah optimasi untuk mencari ambang batas k yang memaksimalkan salah satu

    fungsi objek (ukuran kriteria) di (12).

    Sudut pandang ini dimotivasi oleh dugaan bahwa kelas ambang yang baik

    akan dipisahkan dalam tingkat abu-abu, dan sebaliknya, ambang batas yang

    memberikan pemisahan terbaik kelas dengan tingkat abu-abu akan menjadi ambang

    terbaik.

    Kriteria diskriminan yang memaksimalkan 𝜆, 𝜅, dan 𝜂, masing-masing,

    bagaimanapun, setara satu sama lain; misalnya, 𝜅 = 𝜆 + 1 dan 𝜂 = 𝜆/(𝜆/+1)

    dalam hal 𝜆 tersebut, karena relasi dasar berikut selalu berlaku:

    𝜎𝑊2 + 𝜎𝐵

    2 = 𝜎𝑇2

    (2.17)

    Hal ini memperhatikan bahwa 𝜎𝑊2 dan 𝜎𝐵

    2 adalah fungsi dari tingkat ambang

    k, namun 𝜎𝑇2 tidak bergantung pada k. Juga dicatat bahwa 𝜎𝑇

    2 didasarkan pada

    statistik orde kedua (varians kelas), sedangkan (𝜎𝐵2 didasarkan pada statistik orde

    pertama (mean kelas). Oleh karena itu, 𝜂 adalah ukuran paling sederhana

    sehubungan dengan k. Jadi, diadopsi 𝜂 sebagai ukuran kriteria untuk mengevaluasi

    "kebaikan" (atau keterpisahan) ambang batas pada tingkat k.

    Batas optimal k * yang memaksimalkan 𝜂, atau ekuivalen memaksimalkan

    𝜎𝐵2 dipilih dalam pencarian sekuensial berikut dengan 6 menggunakan jumlah

    kumulatif sederhana (6) dan (7), atau secara eksplisit menggunakan (2) - (5):

    𝜂 = 𝜎𝐵2(𝑘) 𝜎𝑇

    2⁄ (2.18)

    𝜎𝐵2(𝑘) =

    [𝜇𝑇𝜔(𝑘) − 𝜇(𝑘)]2

    𝜔(𝑘)[1 − 𝜔(𝑘)] (2.19)

    dan ambang optimal k * adalah

    𝜎𝐵2(𝑘∗) = max

    1≤𝑘≤𝐿𝜎𝐵

    2(𝑘) (2.20)

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 18

    Dari masalah ini, kisaran k di mana maksimum yang dicari bisa dibatasi

    𝑆∗ = {𝑘; 𝜎𝐵2 = 𝜔0𝜔1 = 𝜔(𝑘)[1 − 𝜔(𝑘)] > 0,

    𝑜𝑟 0 < 𝜔(𝑘) < 1} (2.21)

    Disebut rentang efektif dari histogram tingkat abu-abu. Dari definisi di (14),

    ukuran kriteria 𝜎𝐵2 (atau 𝜂) mengambil nilai minimum nol untuk k seperti k e S - S

    * = {k; 𝜔(k) = 0 atau 1} (yaitu membuat semua piksel baik C1 atau C0, yang tentu

    saja bukan diperhatikan) dan mengambil nilai positif dan terikat untuk ke S *. Oleh

    karena itu, jelas bahwa maksimal selalu ada.

    2.6. Deteksi Maximally Stable Extremal Regions (MSER)

    Dokumentasi Matlab 2014b menjelaskan deteksi MSER meningkatkan

    tingkatan berdasarkan rentang campuran warna gambar dan memasukkan gambar

    untuk mendeteksi bagian yang stabil. Parameter ThresholdDelta digunakan unutk

    mengatur perubahan degradasi grayscale, diibaratkan sebuah ember mengkrucut

    dengan yang diisi dengan air berwarna dimana warna pada bagian pinggir akan

    terlihat lebih terang daripada bagian tengah.

    Parameter RegionArea digunakan untuk membatasi rentang pengambilan

    area atau luas wilayah, semakin rentang areanya semakin luas cakupan wilayahnya.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 19

    Gambar 2.5 Ilustrasi MSER (Dokumentasi Matlab 2010b)

    Objek MSER akan memiliki nilai maksimum pada titik pinggirnya dan nilai

    minimum pada titik tengahnya, kumpulan bagian tersebut bisa memiliki berbagai

    bentuk tapi saling berkaitan satu sama lainnya membentuk suatu area (Matas et al.,

    2002).

    2.7. Tesseract OCR

    Optical Charater Reognition ini dikembangkan pertama kali oleh Ray

    Smith pada tahun 90’an dengan pendanaan dari Google, kemampuan OCR ini

    memang mengalami perkembangan pesat, dengan bantuan basisdata dari setiap

    bahasa memperkuat kemampuan Tesseract untuk melakukan pengenalan huruf,

    dengan melakukan pemotongan tiap karakter membuat kemampuannya lebih akurat

    dalam pengenalan karakter, menggunakan algoritma neuro-fuzzy pada pengenalan

    sangat mudah dilakukan pada tulisan hitam putih (Smith, 2007).

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 20

    Urutan proses yang dilakukan Tesseract:

    o Pencarian Baris dan Tulisan

    1. Pencarian Baris

    2. Baseline Fitting

    3. Fixed Pitch Detection dan Chopping

    4. Pencarian Proporsi Kata

    o Rekognasi Kata

    1. Menggabungkan Potongan Karakter

    2. Associating Broken Characters

    o Klasifikasi Karakter Statis

    1. Ciri

    2. Klasifikasi

    3. Data Uji

    o Analisis Linguistik

    o Adaptive Classifier

    o Hasil

    2.8. Pemerolehan Informasi

    Pemerolehan Infromasi (PI) adalah menemukan materi atau dokumen dari

    sifat tidak terstruktur (biasanya teks) yang memenuhi kebutuhan informasi dari

    dalam koleksi besar yang biasanya disimpan di komputer (Manning, Raghavan and

    Schutze, 2009).

    2.8.1. Case-folding

    Setiap karakter pada kata diubah menjadi kapital dan tidak kapital, fungsi

    dari case-folding untuk menghindari case-sensitve dari sebuah kata. Contoh kata

    Automobile akan berbeda dengan automobile, untuk menyamakannya dilakukan

    case-folding menjadi capital atau tidak capital. Teknik ini memiliki kelemahan pada

    penggunaan akronim dan merk, contohnya seperti C.A.T menjadi CAT memiliki arti

    sama dengan cat.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 21

    2.8.2. Tokenization

    Teknik ini dilakukan pengurutan kata dan membagi sebuah dokumen,

    tokenization adalah melakukan pemotongan menjadi potongan – potongan kecil

    yang disebut token, pada saat yang sama dilakuakan penghilangan beberapa

    karakter seperti tanda baca. Berikut merupakan contoh dari tokenization:

    Input : Friends, Romans, Countrymen, lend me your ears;

    Output : Friends Romans Countrymen lend me your ears

    2.8.1. Stop Word Removing

    Terkadang, beberapa kata sering muncul tetapi kata tersebut memiliki nilai

    yang kecil untuk mengidentifikasi dokumen, pengguna perlu mengcualikan kata -

    kata tersebut dengan membuat sebuah daftar vocabulary. Kumpulan kata tersebut

    biasa disebut stop word. Pada umumnya strateginya untuk menentukan sebuah

    daftar berhenti sementara menggunakan koleksi frekuensi.

    Pada umumnya tren dari sistem pemerolehan informasi menggunakan

    standar dari daftar pemberhentian besar (200-300 kata) hingga daftar

    pemberhentian kecil (7-12 kata) hingga tanpa daftar pemberhentian. Mesin

    pencarian web pada umumnya tidak mengggunakan daftar pemberhentian.

    Beberapa desain dari modern pemerolehan informasi berfokus pada bagaimana

    dapat mengolah statistik bahasa untuk dapat menggunakan bahasa dengan kata

    yang umum secara baik.

    2.8.2. Stemming

    Beberapa kata memiliki makna yang sama satu sama lainnya hanya

    dibedakan oleh penggunaan imbuhan, seperti demokrasi, demokratik, dan

    demokratisasi.

    Di dalam bahasa Indonesia beberapa imbuhan diberikan untuk membuat

    kata menjadi aktif atau pasif, tetapi sebenarnya memiliki makna yang sama.

    Contohnya bekerja, dikerjakan, dan mengerjakan, pada kata tersebut memiliki satu

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 22

    kata dasar yakni kerja. Bahasa Indonesia juga memiliki kata hubung yang

    digunakan untuk membantu penyusunan kata atau disebut kata konjugasi.

    Stemming merupakan proses dimana dilakukan pemotongan sufiks, infiks,

    prefiks serta penghilangan kata-kata konjugasi, untuk mendapatkan makna

    sebenarnya.

    2.9. Jaringan Syaraf Tiruan

    Jaringan syaraf tiruan yakni suatu sistem pengolahan data menggunakan

    model jaringan syaraf manusia, dimana prosesnya pertama input masuk kedalam

    neuron, pada neuron tersebut terdapat fungsi aktivasi, pemrosesan informasi

    tersebut ada pada neuron – neuron dengan bantuan bias untuk memperkuat atau

    memperlemah fungsi aktivasi pada neuron untuk mendapatkan output yang sesuai

    (Hagan and Beale, 2014).

    2.9.1. Arsitektur Jaringan

    Pada jaringan syaraf tiruan terdapat 2 jenis yakni lapis tunggal dan lapis

    majemuk.

    1. Jaringan Lapis Tunggal

    Jaringan ini memiliki arsitektur dimana input dihubungkan dengan lapisan

    neuron tunggal sehingga pemrosesan data hanya dilakukan sekali untuk

    mendapatkan output.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 23

    Gambar 2.6 Ilustrasi Jaringan Lapis Tunggal (Hagan & Demuth, 2014)

    2. Jaringan Lapis Majemuk

    Gambar 2.7 Ilustrasi Jaringan Lapis Majemuk (Hagan and Beale, 2014)

    Jaringan dengan lapis majemuk dimana lapisan neuron dimiliki oleh

    jaringan tersebut lebih dari satu tetapi tidak membuat banyak hasil hanya berupa

    proses berantai yang sering disebut layer tersembunyi, jaringan ini bisa memproses

    informasi yang kompleks sehingga diharapkan menghasilkan akurasi yang lebih

    baik dari lapis tunggal.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 24

    2.9.2. Backpropagation

    Backpropagation, bisa digunakan untuk melatih jaringan lapis majemuk.

    Seperti halnya aturan pembelajaran Learning Management System (LMS),

    backpropagation adalah perkiraan algoritma keturunan terakhir, di mana indeks

    kinerja adalah kuadrat dari mean error. Perbedaan antara Algoritma LMS dan

    backpropagation hanya berupa perhitungan turunannya. Untuk jaringan linier

    single-layer error merupakan linear eksplisit fungsi bobot jaringan, dan turunannya

    sehubungan dengan bobot dapat dengan mudah dihitung. Dalam jaringan multilayer

    dengan nonlinier fungsi transfer, hubungan antara bobot jaringan dan kesalahannya

    lebih kompleks. Untuk menghitung turunannya perlu menggunakan aturan rantai

    kalkulus (Hagan and Beale, 2014)

    Notasi multilayer porpagasi balik,

    R-S1-S2-S3 (2.22)

    Gambar 2.8 Jaringan 3 Layer (Hagan and Beale, 2014)

    Ilustrasi klasifikasi ciri menggunakan multilayer perceptron,

    {𝑃1 = [00] , 𝑡1 = 0} {𝑃2 = [

    01] , 𝑡2 = 1} {𝑃3 = [

    10] , 𝑡1 = 1} {𝑃4 = [

    11] , 𝑡1 = 0}

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 25

    1. Fungsi Aktivasi

    Berikut contoh jaringan fungsi aprokmasi,

    Gambar 2.9 Contoh Jaringan Fungsi Aprokmasi (Hagan and Beale, 2014)

    dengan rumus logsig,

    𝑓1(𝑛) =1

    1 + 𝑒−𝑛 𝑑𝑎𝑛 𝑓2 = 𝑛 (2.23)

    Fungsi purelin merupakan fungsi aktivasi dengan hasil output sesuai dengan

    perhitungan pada neuronnya

    2. Propagasi Maju dan Mundur

    Pada saat propagasi maju, masukan (wi) akan dipropagasikan ke lapisan

    tersembunyi menggunakan fungsi aktivasi yang telah ditentukan, keluaran dari

    setiap unit lapisan tersembunyi tersebut dipropagasikan maju lagi ke lapisan

    tersembunyi selanjutnya, proses tersebut berlanjut sampai mencapai hasil tetapi

    hasil luaran dibandingkan dengan target output atau minimum target, perbaikan

    dilakukan jika hasil tidak mencapai target untuk mencapai taget atau minimum

    target, untuk perbaikan tersebut dilakukan propagasi mundur.

    Algoritma backpropagation digambarkan dengan rumus,

    Am+1 = fm+1(Wm+1am + bm+1) untuk m = 0, 1,

    …, M-1, (2.24)

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 26

    dimana M adalah jumlah layer pada jaringan tersebut. Pada neuron pertama

    diberikan nilai input

    a0 = p, (2.25)

    dan input neuron terakhir diberikan

    a = a𝑚, (2.26)

    Gambar 2.10 Jaringan 3 Lapis, dengan notasi ringkas(Hagan and Beale, 2014)

    3. Perbaikan Bobot dan Bias

    Untuk mengetahui hasil sesuai dengan label maka dilakukan perhitungan

    index performa atau mean square error (MSE) dengan membandingkan hasil dari

    input (p) dan output (t)

    {𝑝1, 𝑡1}, {𝑝2, 𝑡2}, … , {𝑝𝑄 , 𝑡𝑄} (2.27)

    rumus algoritma untuk mengurangi MSE

    (2.28)

    jika output berupa luaran jamak maka rumusnya,

    (2.29)

    dengan algoritma LMS, dengan iterasi sebanyak k, maka menggunakan

    rumus

    (2.30)

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 27

    Secara umum algoritma pelatihan jaringan backpropagation sebagai

    berikut:

    1. Inisialisasi bilangan bobot dengan nilai kecil

    2. Jika kondisi untuk pemberhentian belum terpenuhi, lakukan langkah

    3-10

    3. Untuk setiap pasang data pelatihan, lakukan langkah 4-9

    4. Setiap neuron menerima sinyal dan meneruskannya ke neuron

    tersembunyi selanjutnya

    5. Hitung semua luaran di neuron tersembunyi 𝑧𝑗 (j = 1, 2, 3, … , p)

    𝑧_𝑛𝑒𝑡𝑗 = 𝑣𝑗0 + ∑ 𝑥𝑖𝑛

    𝑖=1𝑣𝑗𝑖 (2.31)

    𝑧𝑗 = 𝑓 (𝑧𝑛𝑒𝑡𝑗) =1

    1 + 𝑒−𝑧_𝑛𝑒𝑡𝑗 (2.32)

    6. Hitung semua luaran jaringan di neuron 𝑦𝑘 (k = 1, 2, 3, … , m)

    𝑦_𝑛𝑒𝑡𝑘 = 𝑤𝑘0 + ∑ 𝑥𝑗𝑛

    𝑗=1𝑤𝑘𝑖 (2.33)

    𝑦𝑘 = 𝑓(𝑦𝑛𝑒𝑡𝑘) =1

    1 + 𝑒−𝑦_𝑛𝑒𝑡𝑘 (2.34)

    7. Hitung faktor 𝛿 neuron luaran berdasarakan error disetiap neuron

    luaran 𝑦𝑘 (k = 1, 2, 3, … , m)

    𝛿𝑘 = (𝑡𝑘 − 𝑦𝑘)𝑓′(𝑦𝑛𝑒𝑡𝑘) = (𝑡𝑘 − 𝑦𝑘)𝑦𝑘(1 − 𝑦𝑘) (2.35)

    Hitung suku perubahan bobot 𝑤𝑘𝑗 dengan laju percepatan 𝛼

    ∆𝑤𝑘𝑗 = 𝛼𝛿𝑘𝑧𝑗 ; 𝑘 = 1, 2,… , 𝑚 ; 𝑗 = 0, 1,… , 𝑝 (2.36)

    8. Hitung faktor 𝛿 neuron luaran berdasarakan error disetiap neuron

    luaran 𝑧𝑗 (j = 1, 2, 3, … , p)

    𝛿_𝑛𝑒𝑡𝑗 = ∑ 𝛿𝑘𝑚

    𝑘=1𝑤𝑘𝑗 (2.37)

    Faktor 𝛿 neuron tersembunyi :

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 28

    𝛿𝑗 = 𝛿_𝑛𝑒𝑡𝑗𝑓′(𝑧𝑛𝑒𝑡𝑗) = 𝛿𝑛𝑒𝑡𝑗𝑧𝑗(1 − 𝑧𝑗) (2.38)

    Hitung suku perubahan bobot 𝑣𝑖𝑗

    ∆𝑣𝑖𝑗 = 𝛼𝛿𝑗𝑥𝑖 ; 𝑗 = 1, 2, … , 𝑝 ; 𝑥 = 0, 1, … , 𝑛 (2.39)

    9. Hitung semua perubahan bobot

    Perubahan bobot garis yang menuju ke neuron luaran:

    𝑤𝑘𝑗(𝑏𝑎𝑟𝑢) = 𝑤𝑘𝑗(𝑙𝑎𝑚𝑎)∆𝑤𝑘𝑗(𝑘 = 1, 2,… ,𝑚 ; 𝑗 = 0, 1,… , 𝑝) (2.40)

    Perubahan bobot garis yang menuju ke neuron tersembunyi:

    𝑣𝑗𝑖(𝑏𝑎𝑟𝑢) = 𝑣𝑗𝑖(𝑙𝑎𝑚𝑎)∆𝑣𝑗𝑖(𝑗 = 1, 2,… , 𝑝 ; 𝑖 = 0, 1,… , 𝑛) (2.41)

    10. Bandingkan kondisi penghentian.

    Untuk mengilustrasikan algortima backpropagation, digunakan contoh dari

    Hagan, dengan menggunakan jaringan 1-2-1 dan bilangan acak kecil,

    𝑊1(0) = [−0.27−0.41

    ] , 𝑏1(0) = [−.048−.013

    ] , 𝑊2(0) = [0.09 −0.17], 𝑏2(0) = [0.48]

    𝑎0 = 𝑝 = 1

    Luaran lapis pertama

    𝑎1 = 𝑓1(𝑊1𝑎0 + 𝑏1) = 𝑙𝑜𝑔𝑠𝑖𝑔 ([−0.27−0.41

    ] [1] + [−0.48−0.13

    ]) = 𝑙𝑜𝑔𝑠𝑖𝑔 ([−0.75−0.54

    ])

    = [

    1

    1 + 𝑒0.75

    1

    1 + 𝑒0.54

    ] = [−0.321−0.368

    ]

    𝑎2 = 𝑓2(𝑊2𝑎1 + 𝑏2) = 𝑝𝑢𝑟𝑒𝑙𝑖𝑛 ([0.09 −0.17] [−0.321−0.368

    ] + [0.48])

    = [0.446]

    Perbaikan error

    𝑒 = 𝑡 − 𝑎 = {1 + sin (𝜋

    4𝑝)} − 𝑎2 = {1 + sin (

    𝜋

    41)} − 0.446 = 1.261

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 29

    Langkah selanjutnya dari algoritma yakni sensitivitas backpropagation,

    untuk memanggil kembali diperlukan turunan fungsi transfer dari 𝑓1(𝑛) dan 𝑓2(𝑛)

    untuk lapis pertama

    𝑓1(𝑛) =𝑑

    𝑑𝑛(

    1

    1 + 𝑒𝑛) =

    𝑒−𝑛

    (1 + 𝑒−𝑛)2= (1 −

    1

    1 + 𝑒−𝑛) (

    1

    1 + 𝑒−𝑛)

    = (1 − 𝑎1)(𝑎1)

    Untuk lapis kedua,

    𝑓2(𝑛) =𝑑

    𝑑𝑛(𝑛) = 1

    Backpropagation dimulai dari lapis kedua

    𝑠2 = −2𝐹2(𝑛2)(𝑡 − 𝑎) = −2[𝑓2(𝑛2)](1.261) = −2[1](1.261) = −2.522

    Sensitifitas layer pertama merupakan komputasi dari backpropagation

    sensitifitas lapis kedua

    𝑠1 = 𝐹1(𝑛1)(𝑊2)𝑇𝑠2 = [1 − 𝑎1

    1 0

    0 (1 − 𝑎21)(𝑎2

    1)] [

    0.09−0.17

    ] [−2.522]

    = [(1 − 0.321)(0.321) 0

    0 (1 − 0.368)(0.368)] [

    0.09−0.17

    ] [−2.522]

    = [0.218 0

    0 0.233] [

    −0.227−0.429

    ] = [−0.0495−0.997

    ]

    Langkah terakhir yakni memperbarui bobot dengan menggunakan laju

    pembelajaran α = 0.1

    𝑊2(1) = 𝑊2(0) − αs2(a1)𝑇 = [0.09 −0.17] − 0.1[−2.522][0.321 0.268]

    = [0.171 −0.0772],

    𝑏2(1) = 𝑏2(0) − αs2 = [0.48] − 0.1[−2.522] = [0.732],

    𝑊1(1) = 𝑊1(0) − αs1(a0)𝑇 = [−0.27−0.41

    ] − 0.1 [−0.04950.0997

    ] [1] = [−0.265−0.420

    ],

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 30

    𝑏1(1) = 𝑏1(0) − αs1 = [−0.48−0.13

    ] − 0.1 [−0.04950.0997

    ] = [−0.475−0.140

    ],

    Hasil dari iterasi pertama, untuk mencari nilai optimal diperlukan beberapa

    kali iterasi lagi sehingga didapatkan nilai yang mencapai target atau mendekati

    target.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 31

    BAB III

    METODOLOGI

    Bab ini membahas analisa kebutuhan sistem mencangkup metode yang

    digunakan untuk ekstraksi ciri sampul buku, klasifikasi, dan pengujian sistem.

    Selain kebutuhan sistem, bab ini juga berisi perancangan sistem mencangkup

    ekstraksi ciri, klasifikasi, pengujian dan perancangan sistem.

    3.1. Gambaran Umum

    Gambar 3.1 Diagram Blok Sistem

    Penelitian ini dilakukan bertujuan untuk membantu proses identifikasi

    sebuah pencarian buku berdasarkan gambar sampul buku tersebut, kemudian proses

    tersebut dapat membantu pencarian dengan memberikan rekomendasi buku sejenis.

    Pengambilan data sampul tersebut terkait dengan topik judul buku tersebut,

    sehingga rekomendasi akan terkait dengan topik buku.

    3.1.1. Data

    Data yang digunakan adalah data sampul buku dari percetakaan buku

    Kansius Yogyakarta yang diambil pada bulan Agustus 2017, dengan rincian

    penggunaan data yakni sampul buku filsafat sebanyak 53 gambar, buku kerohanian

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 32

    sebanyak 101 gambar, dan buku pelajaran sekolah sebanyak 200 gambar, serta

    masing – masing 2 gambar untuk setiap jenis sampul yang akan digunakan data uji.

    Gambar tersebut memiliki ukuran tinggi 300 cm dan lebar 130 cm dengan resolusi

    gambar sebesar 96 dpi, setiap gambar memiliki label masing – masing untuk

    pengenalan jenis buku tersebut.

    Data kedua yakni data judul buku tersebut dalam bentuk xlsx, setiap judul

    dibuatkan teks secara manual dengan melihat pada setiap gambar sampul, jumlah

    data yang dibuat sama dengan jumlah data yang digunakan dalam pemrosesan citra,

    untuk pelabelan data juga menggunakan label data sebagaimana seperti data yang

    digunakan pada permrosesan citra.

    3.1.2. Preprocessing

    Preprocessing yang dilakukan adalah mendapatkan citra tulisan dari cover

    tersebut dengan proses pertama yakni mengubah citra gambar sampul menjadi citra

    abu – abu, kemudian dari citra abu – abu tersebut diubah menjadi citra biner

    menggunakan metode Otsu.

    Gambar 3.2 Contoh Cover Buku Gambar 3.2. Contoh Cover Buku

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 33

    Gambar 3.3 Preprocessing I

    Hasil dari binerisasi dideteksi menggunakan MSER, dimana tulisan akan

    memiliki warna gradasi yang berbeda dengan latar pada sampul tersebut, pada

    umumnya tulisan judul dibuat tegas namun sebernanya terdapat gradasi warna yang

    stabil pada tulisan judul di sampul tersebut sehingga dideteksi terdapat gradasi yang

    stabil oleh fungsi MSER, dari hasil MSER didapatkan objek – objek tulisan dengan

    menggunakan threshold 12 dan RegionArea sebesar 20 sampai dengan 1200, dari

    hasil MSER yang berupa letak objek, dilakukan pencarian posisi maksimum dan

    posisi minimum dari objek tersebut untuk menentukan koordinat objek.

    Gambar 3.4 Hasil Deteksi Objek

    Menggunakan MSER

    Gambar 3.5 Gambar setelah koordinat selain

    MSER diubah menjadi 0

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 34

    Dilakukan perubahan citra pada citra asli menggunakan koordinat objek

    MSER sebelumnya, selain hasil dari koordinat MSER nilainya dijadikan 0, data

    tersebut disimpan dalam format .jpg.

    3.1.3. Ekstraksi Ciri

    Dari hasil preprocessing dilakukan identifikasi hasil dari preprocessing

    menggunakan Optical Character Recognition (OCR) menggunakan perangkat

    lunak Tesseract, pada prosesnya hasil dari identifikasi dari setiap karakter atau

    huruf akan disatukan kemudian dilakukan pembandingan antara hasil dengan basis

    data Tesseract, jika terjadi kecocokan dengan data pada basis data maka hasil yang

    ditampilkan adalah kata yang ada di basis data.

    3.1.4. Pemerolehan Informasi

    Basisdata kata – kata judul unik akan dibuat berdasarkan informasi yang

    didapatkan pada judul buku, ketika judul tersebut mengandung kata – kata tersebut

    maka akan diberikan nilai 1 jika tidak mengandung kata – kata tersebut akan

    diberikan nilai 0 pada kata tersebut dan jika terdapat kata yang sama akan

    ditambahkan nilainya sebanyak 1.

    Tabel 3.1 Ilustrasi perubahan kata ke numerik

    Basisdata

    Data “Satu” “Dua” “Lima”

    “Satu Dua Satu” 2 1 0

    “Dua Tiga” 0 1 0

    Dari ilustrasi diatas maka dihasilkan matriks [2 1 00 1 0

    ] yang akan

    dimasukan ke dalam JST.

    Pada bagian ini akan dilakukan penyimpanan data sebanyak 10, 15, dan 20

    kata untuk disimpan pada database dengan memperhitungkan kata kata yang akan

    sering keluar pada ekstraksi ciri tetapi tidak dapat di stemming secara baik, sehingga

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 35

    jika kata tersebut muncul maka akan dicocokan dengan basis data, jika ditemukan

    data tersebut maka proses stemming tidak akan diproses untuk kata tersebut atau

    dikenal dengan stop word.

    Dilakukan stemming dengan beberapa fonem dan syarat perubahan yang

    menyebabkan pemenggalan karakter berbeda – beda pada setiap kata dasar. Berikut

    tabel perubahan awalan.

    Tabel 3.2 Daftar Perubahan Awalan

    Prefiks Fonem atau Syarat Perubahan

    meng-

    /r, l, m, n, w, y, ng, ny/ me-

    /p, b, f, v/ mem-

    /t, d, c, j, z, sy/ meng-

    Kata dasar < satu suku kata menge-

    peng-

    /r, l, m, n, w, y, ng, ny/ pe-

    /p, b, f, v/ pem-

    /t, d, c, j, z, sy/ peng-

    Kata dasar < satu suku kata menge-

    ber- /r/ be-

    /ajar/ bel-

    per- Pertalian bentuk pe-

    /ajar/ pel-

    ter- /r/ te-

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 36

    Tabel 3.3 Gambaran singkat data yang akan masuk JST

    No Basisdata

    Data 'PAHNARGYAN' 'BOJANA' 'KURBAN' 'RAKA' … 'MANUSIA'

    1 'PAHNARGYAN BOJANA KURBAN' 1 1 1 0 … 0

    2 'RAKA AGUNG SEBUAH

    RENUNGAN' 0 0 0 1 … 0

    2 'KURBAN UNTUK ALLAH' 0 0 1 0 … 0

    4 'MENCINTAI EKARISTI' 0 0 0 0 … 0

    5 'BIARLAH KEMULIAAN ALLAH

    TERPANCAR' 0 0 0 0 … 0

    6 'MILENIUM KETIGA BENCANA

    ATAU HARAPAN' 0 0 0 0 … 0

    7 'MENGHIDUPKAN KOMUNITAS

    BASIS KRISTIANI BERDASARKAN

    PANCAPRAMANA'

    0 0 0 0 … 0

    8 'BISIKAN DAUN - DAUN SABDA' 0 0 0 0 … 0

    354 'FILSAFAT MANUSIA' 0 0 0 0 … 1

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 37

    Hasil kata baru dari pemerolehan informasi disimpan ke basis data

    dbKata.mat, dan setiap kata hasil pemerolehan informasi disimpan kedalam

    datas.mat. Setelah seluruh data diproses, hasil pemrosesan diubah menjadi nilai

    numeric, dengan membandingkan dbKata dengan datas jika data sama maka akan

    diberikan nilai dan jika ditemukan kembali akan pada dbKata maka nilai akan

    ditambahkan kembali, matriks yang dihasilkan seperti tabel yang akan masuk

    dipilih hanya data numerik saja (pada baris kolom berwarna abu – abu), sehingga

    seluruh data menghasilkan matriks numerik 348×489 dengan tipe double, jadi ciri

    yang akan diproses oleh JST sebanyak 489 ciri perdata.

    3.1.5. Jaringan Syaraf Tiruan

    Jaringan syaraf tiruan digunakan karena kemampuannya dalam menangani

    decision boundary yang kompleks. Parameter yang diatur dalam backpropagation

    yakni neuron dan input ciri pengaturan neuron dan ciri masukan pada penelitian ini

    dilakukan dengan nilai 5, 10, 15, 20, 25, dan 30 neuron dan masukan sebanyak ciri

    masukan dari hasil pemerolehan informasi.

    3.1.6. Arsitektur Jaringan Syaraf Tiruan

    Gambar 3.6 Arsitektur Jaringan untuk Pelatihan dan Pengujian

    Ada 16 jenis arsitektur jaringan syaraf tiruan yang akan digunakan pada

    proses pelatihan dan pengujian arsitektur, yaitu dengan 5, 10, 20, 15, 25, 30, 35,

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 38

    dan 40 neuron, untuk jumlah neuron pada sistem mengikuti feature dari sistem,

    pada sistem ini menggunakan 3 kelas jadi akan ada 2 neuron output untuk

    mendapatkan luaran yakni [11], [

    01] ,[

    10]

    Pada gambar 3.6 dijelaskan bahwa masukan ciri berupa P maksimum

    masukan sebanyak n dimana feature yang akan diinputkan bergantung pada jumlah

    data hasil pemerolehan informasi dan jumlah data gambar, pada kasus ini akan

    digunakan data input sebanyak 489 ciri, divariasikan dengan nilai variasi

    maksimum 40 neuron dan dikombinasikan menggunakan 2 hidden layer dengan

    fungsi aktivasi logsig, menghasilkan a3 dengan fungsi aktivasi pureline

    merupakan luaran tetap yakni sebanyak 2 luaran untuk menghasilkan luaran yang

    dapat memisahkan 3 jenis label.

    Hidden layer pertama menggunakan kombinasi dengan 5, 10, 20, 15, 25,

    30, 35, dan 40 neuron, dengan jumlah input atau ciri sebanyak 489 data, pada luaran

    percobaan satu hidden layer akan diteruskan ke neuron luaran, neuron pada hidden

    layer pertama dengan hasil akurasi tertinggi akan digunakan kembali pada

    percobaan 2 hidden layer.

    Hidden layer kedua digunakan menggunakan kombinasi neuron yang sama

    dari hidden layer pertama, namun masukan data berasal dari hasil hidden layer

    pertama, jadi data ciri sebanyak 489 akan masuk ke hidden layer pertama, luaran

    sebanyak neuron dari hidden layer pertama masuk ke hidden layer kedua, hasil dari

    hidden layer kedua ini yang akan masuk ke neuron luaran.

    Contoh perhitungan, jika gambar sebelumnya akan menghasilkan tulisan

    “Komputer saat ini” maka hasil tersebut akan diberikan nilai, pada contoh ini akan

    diberikan nilai W = [1 0 0], setelah itu masuk ke dalam jaringan syaraf tiruan

    dengan bobot dan bias bilangan random dengan nilai kecil, dilakukan pelatihan

    hingga mendapatkan nilai mencapai target yang diinginkan yakni sesuai dengan

    label asli.

    Contoh perhitungan,

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 39

    𝑊1(0) = [100] , 𝑏1(0) = [

    100] ,𝑊2(0) = [0 1 0], 𝑏2(0) = [0],

    𝑊3(0) = [100] , 𝑏3(0) = [

    100],

    𝑎0 = 𝑝 = 1

    Luaran lapis pertama

    𝑎1 = 𝑓1(𝑊1𝑎0 + 𝑏1) = 𝑙𝑜𝑔𝑠𝑖𝑔 ([100] [1] + [

    100]) = 𝑙𝑜𝑔𝑠𝑖𝑔 ([

    200])

    =

    [

    1

    1 + 𝑒−2

    1

    1 + 𝑒0

    1

    1 + 𝑒0 ]

    = [0,8822

    ]

    𝑎2 = 𝑓2(𝑊2𝑎1 + 𝑏2) = 𝑙𝑜𝑔𝑠𝑖𝑔 ([0 1 0] [0,8822

    ] + [0]) = 𝑙𝑜𝑔𝑠𝑖𝑔([2])

    = [1

    1 + 𝑒−2] = [0,88]

    𝑎3 = 𝑓3(𝑓2(𝑊3𝑎0 + 𝑏3) + 𝑏2)+𝑏3 = 𝑝𝑢𝑟𝑒𝑙𝑖𝑛 ([100] [0,88] + [

    100])

    = [0.8800

    ]

    Perbaikan error

    𝑒 = 𝑡 − 𝑎 = {1 + sin (𝜋

    4𝑝)} − 𝑎3 = {1 + sin (

    𝜋

    41)} − 0,88 = 1,88

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 40

    Langkah selanjutnya dari algoritma yakni sensitivitas backpropagation,

    untuk memanggil kembali diperlukan turunan fungsi transfer dari 𝑓1(𝑛), 𝑓2(𝑛) dan

    𝑓3(𝑛) untuk lapis pertama

    𝑓1(𝑛) =𝑑

    𝑑𝑛(

    1

    1 + 𝑒𝑛) =

    𝑒−𝑛

    (1 + 𝑒−𝑛)2= (1 −

    1

    1 + 𝑒−𝑛) (

    1

    1 + 𝑒−𝑛)

    = (1 − 𝑎1)(𝑎1)

    untuk lapis kedua

    𝑓2(𝑛) =𝑑2

    𝑑𝑛2(

    1

    1 + 𝑒𝑛) =

    (𝑒𝑛 − 1)𝑒𝑛

    (1 + 𝑒𝑛)3= (1 −

    1

    1 + 𝑒−𝑛) (2

    1

    1 + 𝑒−𝑛) (

    1

    1 + 𝑒−𝑛)3

    = (1 − 𝑎2)(2𝑎2)(𝑎2)3

    Untuk lapis ketiga,

    𝑓3(𝑛) =𝑑

    𝑑𝑛(𝑛) = 1

    Backpropagation dimulai dari lapis ketiga

    𝑠3 = −2𝐹3(𝑛3)(𝑡 − 𝑎) = −2[𝑓3(𝑛3)] [0,8800

    ] = −2[1] [0,8800

    ] = [−1,76

    00

    ]

    Sensitifitas layer pertama dan kedua merupakan komputasi dari

    backpropagation sensitifitas lapis ketiga

    𝑠2 = 𝐹2(𝑛2)(𝑊3)𝑇𝑠3

    = [

    (1 − 𝑎11) 0 0

    0 (1 − 𝑎21)(𝑎2

    1) 0

    0 0 (1 − 𝑎31)(2𝑎3

    1)(𝑎31)

    ] [1 0 0] [0,8800

    ]

    = [

    (1 − 0,88) 0 00 (1 − 0)(0) 00 0 (1 − 0)(2(0))(0)

    ] [1 0 0] [0,1936

    00

    ]

    = [0,22 0 0] [0,8800

    ] = [1,76]

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 41

    𝑠1 = 𝐹1(𝑛1)(𝑊2)𝑇𝑠2

    = [

    (1 − 𝑎11) 0 0

    0 (1 − 𝑎21)(𝑎2

    1) 0

    0 0 (1 − 𝑎31)(2𝑎3

    1)(𝑎31)

    ] [100] [0,1936]

    = [

    (1 − 0,88) 0 00 (1 − 2)(2) 00 0 (1 − 2)(2(2))(2)

    ] [100] [0.1936]

    = [0,22 0 00 −2 00 0 −8

    ] [100] [0.1936]

    = [0,2200

    ] [0.1936] = [0,0496

    00

    ]

    Langkah terakhir yakni memperbarui bobot dengan menggunakan laju

    pembelajaran α = 1

    𝑊2(1) = 𝑊2(0) − αs2(a1)𝑇 = [100] − 1[0.1936][0.88 2 2]

    = [0.728 0 0],

    𝑏2(1) = 𝑏2(0) − αs2 = [0] − 1[0.1936] = [−0.1936],

    𝑊1(1) = 𝑊1(0) − αs1(a0)𝑇 = [112] − 1 [

    0.049600

    ] [1] = [0.9504

    00

    ],

    𝑏1(1) = 𝑏1(0) − αs1 = [100] − 1 [

    0.049600

    ] = [0.9504

    00

    ],

    Hasil dari iterasi pertama, untuk mencari nilai optimal diperlukan beberapa

    kali iterasi lagi sehingga didapatkan nilai yang mencapai target atau mendekati

    target.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 42

    3.1.7. Metode Pengujian

    Metode Pengujian menggunakan K-Fold Cross Validation dengan k = 3,

    hasil dari pengujian menggunakan menggunakan confusion matrix, tahap

    penghitungan akurasi dimana hasil label dibandingkan dengan hasil luaran, untuk

    kerohanian menggunakan 34 data pelatihan, 34 data validasi, dan 33 data tes uji,

    pendidikan menggunakan 67 data pelatihan, 67 data validasi, dan 66 data uji,

    filsafat menggunakan 18 data pelatihan, 18 data validasi, dan 17 data uji.

    Table 3.2 3-Fold Validation

    Percobaan Train Validation Test

    1 3 1 2

    2 1 2 3

    3 2 3 1

    Table 3.3 Confusion Matrix

    Label\

    Luaran [1 1] [1 0] [0 1]

    [1 1]

    [1 0]

    [0 1]

    3.1.8. Model Pembanding

    INPUT DATA

    BACKPROPAGATION

    DATA TRAINING

    LABEL TRAINING LABEL TESTING

    DATA TESTING

    LUARAN

    AKURASI

    MODEL

    Information Retrieval

    Gambar 3.7 Diagram Blok Sistem Pembanding

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 43

    Pembanding yang digunakan merupakan model yang mirip hanya berbeda

    pada data yang digunakan, pada model sebelumnya menggunakan data gambar,

    sedangkan pada model ini menggunakan data judul berupa teks.

    Data yang dihasilkan merupakan data input asli atau sama dengan judul

    pada gambar sampul, sehingga model ini hanya menghilangkan pemrosesan citra

    dari model sebelumnya. Adapun model ini akan digunakan sebagai pembanding

    kinerja adalah sistem dengan adanya pemrosesan citra dan tanpa adanya

    pemrosesan citra.

    3.2. Algoritma

    3.2.1. Preprocessing Judul Buku

    ➢ Baca citra menggunakan imread

    ➢ Ubah citra RGB ke citra abu – abu menggunakan rgb2gray

    ➢ Cari Maximally Stable Extremal Regions (MSER)

    detectMESRFeatures dengan parameter regionArea 20 – 1200 dan

    tresholdDelta 12

    ➢ Jika nilai MSER kurang dari 7, mengubah nilai parameter

    regionArea 20 – 800 dan thresholdDelta 5

    ➢ Potong daerah yang telah dideteksi dengan MSER mengunakan

    regioncorps

    ➢ Ubah citra hasil pemotongan menjadi citra jika tidak dideteksi maka

    dijadikan 0 pada setiap pikselnya.

    ➢ Deteksi menggunakan OCR Tesseract

    3.2.2. Pemerolehan Informasi

    ➢ Membandingkan hasil OCR dengan database

    ➢ Melakukan tokenizing, stemming, stop word

    ➢ Menyimpan data jika data tersebut data baru

    ➢ Membuat matriks dengan ukuran sesuai dengan ukuran database

    ➢ Membandingkan data dengan database kembali

    ➢ Jika data ada maka nilai pada cirinya akan ditambahkan

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 44

    ➢ Jika tidak maka nilai pada cirinya tidak ditambahkan

    ➢ Menyimpan data.

    3.2.3. Klasifikasi

    ➢ Membagi data menjadi 3 fold

    ➢ Melakukan perulangan untuk mencoba setiap fold data

    ➢ Memasukkan nilai masukan kedalam neuron

    ➢ Membandingkan hasil luaran dengan label

    ➢ Jika belum sesuai, memperbarui bobot dan bias hingga sesuai

    dengan target.

    ➢ Menampilkan hasil klasifikasi.

    3.3. Kebutuhan Sistem

    Spesifikasi software dan hardware yang digunakan dalam

    pengimplementasian jaringan syaraf tiruan backpropagation pada klasifikasi

    menggunakan sampul buku:

    3.4.1. Perangkat Keras

    Perangkat keras yang digunakan dengan spesifikasi berikut:

    1) Processor : Intel® CoreTM i5-5200U (4 CPUs), @ 2.20 GHz

    2) Memori : 4096 MB RAM

    3) Display : Intel® HD Graphics 5500 ~Approx. Total Memory

    2127 MB ~ Display Memory (VRAM ) 128 MB

    4) Render : NVIDIA GeForce 930M ~Approx. Total Memory

    3996 MB ~Display Memory (VRAM ) 1999 MB

    3.4.2. Perangkat Lunak

    Perangkat lunak yang digunakan sebagai berikut:

    1) Microsoft Windows 10 Pro 64-bit

    Sistem operasi yang digunakan untuk menjalankan perangkat lunak

    lainya

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 45

    2) Matlab 2014b 64-bit

    Perangkat lunak yang digunakan untuk melakukan preprocessing citra

    gambar, pembuatan sistem, dan menjalankan sistem.

    3) Tesseract

    Perangkat lunak Optical Character Recognition untuk melakukan

    ekstraksi ciri.

    3.4. Perancangan Antar Muka Sistem

    Gambar 3.6 Tampilan menu utama

    Gambar 3.5 merupakan tampilan antar muka utama sistem, terbagi menjadi

    2 panel yakni panel pembentukan model dan panel uji data. Terdapat 1 jendela

    untuk menampilkan hasil preprocessing.

    3.4.1. Panel Pembentukan Model

    Terdapat 2 drop down panel yakni Hidden Layer 1 dan Hidden Layer 2 yang

    berfungsi untuk mengatur jumlah neuron yang akan dipakai pada JST dengan nilai

    rentang nilai pada Hidden Layer 1 5, 10, 15, 20, 25, 30. Pada Hidden Layer 2

    memiliki rentang nilai 0, 5, 10, 15, 20, 25.

    Tombol Train berfungsi sebagai tombol ekseskusi perintah menjalankan

    proses dari preprocessing, OCR, pemerolehan informasi dan uji data. Akurasi hasil

    uji akan ditampilkan pada kotak tulisan diatas tombol Train.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 46

    3.4.2. Panel Uji Data

    Panel Uji Data memiliki 5 tombol dan dan 4 kotak tulisan, panel ini

    diperuntukkan pengujian data tunggal.

    Tombol Browse digunakan untuk memilih file, ketika ditekan akan muncul

    jendela baru untuk memilih gambar yang akan diproses, setelah memilih maka akan

    muncul alamat file beserta nama file pada kotak tulisan disebelah kanan tombol.

    Tombol Citra digunakan untuk menampilkan hasil setiap langkah

    preprocessing, ketika ditekan akan muncul jendela baru menampilkan gambar yang

    diproses pada setiap langkahnya.

    Tombol OCR digunakan untuk mejalankan proses identifikasi tulisan pada

    gambar, ketika ditekan hasilnya akan muncul pada kotak tulisan sebelah kanan

    tombol.

    Tombol Pem. Informasi merupakan tombol yang digunakan untuk

    menjalankan proses pemerolehan informasi dari hasil OCR sebelumnya, hasil

    pemerolehan informasi akan ditampilkan pada boks tulisan sebelah kanan tombol.

    Tombol Test berfungsi menjalankan klasifikasi tunggal, dimana hasil dari

    pemerolehan informasi diproses melalui JST untuk mengetahui klasifikasi buku.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 47

    3.4.3. Jendela Preprocessing

    Gambar 3.7 Tampilan jendela preprocessing uji tunggal

    Jendela ini menampilkan 4 axes untuk menampung setiap langkah

    gambar preprocessing, serta 1 tombol Back untuk kembali ke halaman utama

    sistem.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 48

    48

    BAB IV

    IMPLEMENTASI DAN ANALISA

    Bab ini akan membahas uraian implementasi perancangan sistem yang

    berupa hasil penelitian dalam melakukan pengujian kombinasi penggunaan data,

    kombinasi neuron dan hidden layer, serta uraian mengenai hasil output terkait hasil

    data dari OCR (Optical Character Recognition) dari Teserract.

    4.1. Preprocessing

    Berikut merupakan pembahasan dari preprocessing dimana dibagian ini

    dilakukan pengekstrakan data dari data gambar menjadi data teks dengan melalui

    tahap pemrosesan citra, OCR, dan pemrolehan infrormasi.

    4.1.1. Pemrosesan Citra

    Proses yang pertama dilakukan yakni imread dengan memasukkan alamat

    gambar, untuk membaca gambar menjadikan matriks 3 keping dengan tipe unit8.

    Selanjutnya rgb2gray memproses gambar menjadi matriks 1 keping dengan tipe

    double, gambar grayscale ini digunakan dalam identifikasi MSER.

    4.1.1.1. MSER

    Penggunaan awal threshold 12 dan RegionArea 20 hingga 1200 mampu

    menangani sebagian besar gambar, akan tetapi beberapa gambar tidak dapat

    ditangani secara baik bahkan cenderung menghilangkan tulisan, kemudian penulis

    mencoba merubah dengan menggunakan threshold RegionArea yang lebih kecil

    yakni threshold 5 dan RegionArea 20 hingga 800, dari hasil tersebut memang

    mendapatkan kinerja MSER lebih optimal akan tetapi lebih banyak noise yang

    ditangkap daripada menggunakan threshold 12, jadi penulis mengkombinasi kedua

    threshold tersebut dengan menggunakan threshold 12 dan RegionArea 20 hingga

    1200 pada awal, jika nilai MSER pada threshold kurang dari 1 maka akan

    dikenakan threshdold 5 dan RegionArea 20 hingga 800.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 49

    Gambar 4.1 Menggunakan region area 20-

    1200 dan thershold delta 12

    Gambar 4.2 Menggunakan region area 20-800

    dan thershold delta 5

    Beberapa proses dari pemrosesan citra beberapa gambar belum mampu

    diproses secara baik.

    Gambar 4.3 Contoh gambar setelah diproses grayscale yang tidak bisa

    dideteksi MSER

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 50

    Gambar dengan 96px diatas sulit untuk mendeteksi tulisannya hal tersebut

    disebabkan oleh warna tulisan pada gambar tersebut mirip dengan warna latar

    tulisannya.

    Gambar 4.4 Contoh hasil MSER grayscale

    gambar yang baik

    Gambar 4.5 Contoh hasil setelah piksel

    koordinat selain nilai MSER diubah menjadi 0

    Gambar diatas merupakan salah satu contoh gambar yang baik digunakan

    untuk proses OCR, karena hasil deteksi tulisannya yang sangat baik dan hanya

    menangkap sedikit noise.

    4.1.2. Optical Character Recognition

    Kemampuan OCR Tesseract dibatasi untuk ukuran gambar minimal 70px,

    keseluruhan data gambar berukuran 96px, dengan ukuran dan jenis tulisan sangat

    bervariasi, dalam pengujian ini didapatkan contoh beberapa tulisan yang dapat

    diidentifikasi dan tidak dapat diidentifikasi oleh Tesseract pada Tabel 4.1.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 51

    Tabel 4.1 Perbandingan Tulisan

    Gambar Penjelasan Identifikasi

    Gambar dengan

    tinggi 17 px dan

    tebal garis 4 px

    Teridentifikasi

    Tinggi dan tebal garis cukup

    untuk diidentifikasi

    Gambar dengan

    tinggi 14 px dan

    tebal garis 4 px

    Teridentifikasi

    Tinggi dan tebal garis cukup

    untuk diidentifikasi

    Gambar dengan

    tinggi 10 px dan

    tebal garis 1 px

    Tidak Teridentifikasi

    Terlalu kecil untuk

    diidentifikasi

    Gambar dengan

    tinggi 11 px dan

    tebal garis 2 px

    Tidak Teridentifikasi

    Tebal garis terlalu tipis untuk

    diidentifikasi

    Dilihat dari tabel diatas, untuk ukuran tulisan dengan tinggi kurang dari 11

    px dan tebal garis kurang dari 2 px tidak dapat diidentifikasi secara baik.

    4.1.2.1. Hasil Dari OCR

    Dari data label A (Kerohanian) didapatkan 65 hasil kata dari 101 data

    gambar, dari data label B (Pendidikan) didapatkan 122 hasil dari 200 data gambar,

    dari data label C (Filsafat) didapatkan 34 hasil dari 53 data gambar.

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 52

    Grafik 4.1 Perbandingan Perbandingan Data dengan Hasil OCR

    Total penggabungan ketiga data tersebut menghasilkan keberhasilan

    untuk dilakukan proses OCR sebesar 61%, demikian data yang tidak berhasil untuk

    dilakukan OCR sebanyak 138 data.

    4.1.3. Pemerolehan Informasi

    Proses ini dilakukan untuk mendapatkan judul yang sudah diekstrak dari

    gambar sehingga, hanya menghasilkan kata – kata yang memiliki makna pada

    gambar tersebut. Pertama yakni case-folding seluruh kata diubah menjadi huruf

    capital untuk mengatasi case sensitive dan menghilangkan tanda baca yang tidak

    perlu, diproses tokenizing untuk memproses kalimat pada hasil OCR menjadi kata

    – perkata, stop word untuk menemukan kata dasar tanpa imbuhan sehingga tidak

    diproses lebih lanjut. Setelah stop word masih ditemukan kata – kata yang

    berbentuk kata berimbuhan dilakukan proses stemming untuk menghilangkan

    imbuhan kata sehingga menjadi kata dasar.

    Untuk nama dalam penelitian ini digunakan akhiran –us dan –es sebagai

    indikator dalam pengenalan nama, namun dikecualikan untuk kata ‘khusus’ yang

    tidak berarti nama tetapi mengandung akhiran -us, hasil dari nama ini diberi tanda

    dengan kata ‘nama’ , untuk bentuk data yang akan diproses JST bisa dilihat pada

    Tabel 3.3.

    0

    20

    40

    60

    80

    100

    120

    140

    160

    180

    200

    Kerohanian Pendidikan Filsafat

    Perbandingan Data dengan Hasil OCR

    Data Hasil

    PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

  • 53

    4.2.Klasifikasi

    Data dari pemerolehan informasi yang berbentuk numerik sebanyak 348

    data dan 489 ciri perdata kemudian disatukan dengan label, data