PENGEMBANGAN SISTEM PENGENALAN HURUF ARAB
description
Transcript of PENGEMBANGAN SISTEM PENGENALAN HURUF ARAB
PENGEMBANGAN SISTEM PENGENALAN HURUF ARAB
M. ALBADR LUTAN NASUTION13508011
Latar Belakang
OCR sangat praktikal 50 bahasa 200 juta
jiwa
Tertinggal vs latin
Segmentasi minim
Rumusan Masalah
Segmentasi yg mendukungSkema hubungan komponenKinerja
Tujuan
citra• piksel• sulit diolah
teks• huruf• dapat disunting• dapat dicari
OCR
Studi Literatur
• Tulisan Arab: 31 huruf, kursif, 4 bentuk, titik• Akuisisi Data: Online vs Offline• Tahapan Umum OCR:
Praproses Segmentasi RepresentasiPelatihan
dan Pengenalan
Pascaproses
Piksel Fitur Huruf Kata Kalimat Makna
Penelitian Terkait• Sarfraz, dkk (2003): Pengenalan nomor plat kendaraan dg.
pencocokan templat
• Al-Taani dan Al-Haj (2010): Pengenalan huruf online dg. pohon keputusan
• Sarhan dan Al-Helalat (2007): Pengenalan huruf dg. JST dan fitur standar devisasi dan piksel
• Zidouri (2010): Metode segmentasi baru dan pengenalan dua tingkat: templat dan JST
• Abandah,dkk (2009): Ragam fitur huruf dan kombinasi pengenaan statistik
Alur Proses
Praolah
Segmentasi
Penipisan
Ekstraksi Fitur
Klasifikasi
Praolah
Median Filter Binerisasi
Tinggi 64 Piksel Lini Basis
64 piksellini basis
P1’ = median (P1..P9)
BLACK if RG||GB||RB
Penipisan
Algoritma Hilditch
Templat Cowell Hussain
Templat Ketebalan
2 < = B(p1) < = 6A(p1)=1
p2.p4.p8=0 or A(p2)!= 1p2.p4.p6=0 or A(p4)!= 1
Segmentasi
Baris• Proyeksi horizontal
Upakata• Analisis piksel bersambung• Badan utama vs objek sekunder
Huruf• Algoritma Zidouri (2010)
Segmentasi Baris
Segmentasi Upakata
Tiap sangkar digolongkan ke: “badan utama”, “objek sekunder”, dan “derau”
Amin (2000)
Segmentasi Huruf
Masukkan fitur ke rule
Ekstrak fitur setiap kandidat
Masukkan sebagai pita kandidat
Cek panjang deretan dan piksel atas bawah
Cari deretan piksel
Tipiskan
Zidouri (2010)
Ekstraksi Fitur
• Rasio aspek• Proyeksi• Distribusi piksel• Jumlah lubang
Badan Utama
• Titik minat• Rantai kode• Panjang keliling• Diag/keliling• Rasio kekompakan
Tulang & Keliling
• Jumlah• Posisi• Jenis komponen
Komponen Sekunder
Klasifikasi
C4.5 (J48)
Badan Utama
WekaPohon Keputusan
++ Objek Sekunder
Data Uji
Teks Arab 37 Halaman Sumber: Wikipedia
Prosedur Pengujian
Fungsional
• Cek sampel hasil setiap proses
• Hingga fungsi dianggap cukup baik
Segmentasi
• Data uji: seluruh citra dokumen
• Simpan citra hasil tiap segmentasi
• Hitung citra hasil (manual)
• Benar, Undersegmentasi, Oversegmentasi
Klasifikasi
• Pembelajaran dari citra huruf tunggal manual tiap font
• Kinerja komponen: validasi silang setiap font pada data latih
• Kinerja sistem: cek dan hitung tebakan seluruh huruf pada data uji citra dokumen
Skrinsyut
Citra asli
Setelah praolah
Penipisan
Pengotakan
Seg. huruf
Antarmuka
Hasil Uji: Seg. Baris
Jenis Huruf B O K
Arial 99% 1% 21%Arial Unicode MS 99% 1% 9%Microsoft Sans Serif 98% 2% 2%Segoe UI 98% 2% 27%Tahoma 98% 2% 13%Traditional Arabic 97% 3% 33%
Benar 98%. Under 0%. Over 2%.
Benar 86%. Under 8%. Over 6%.
Hasil Uji: Seg. Huruf
Jenis Huruf B U O
Arial 84% 11% 5%Arial Unicode MS 79% 17% 4%Microsoft Sans Serif 54% 43% 3%Segoe UI 91% 2% 7%Tahoma 92% 2% 6%Traditional Arabic 46% 50% 4%
Benar 74%. Under 21%. Over 5%.
demo?
Terima kasih.