Pengantar Text Processing - frzal.files. · PDF filePengantar Pertemuan 1 Text Processing. ......

Post on 04-Feb-2018

249 views 0 download

Transcript of Pengantar Text Processing - frzal.files. · PDF filePengantar Pertemuan 1 Text Processing. ......

Pengantar

Pertemuan 1

Pengantar

Text Processing

Tujuan Kuliah

• Mempelajari teknik-teknik penanganan Teks

• Memberikan pengertian ttg masalah –

masalah dasar dan prinsip-prinsip yangmasalah dasar dan prinsip-prinsip yang

mendasari aplikasi dari pemrosesan teks

Apakah Teks itu?

• Teks ≈ Korpus ≈ Koleksi dokumen yang

bisa dibaca oleh mesin

• Apakah 1 email itu adalah korpus?• Apakah 1 email itu adalah korpus?

• Apakah 1000 email itu adalah korpus?

• Berapa besar sebuah korpus?

• Korpus apa yang paling besar?

Apa Maksud dari Pemrosesan?

Empiris

• Teks tidak hanya sekumpulan kata

• Analisa data dan mengetes hipotesa

• Temukan fakta baru ttg bahasa• Temukan fakta baru ttg bahasa

Teknik

• Pengembangan aplikasi berbasis teks

• Dapat dilatih secara otomatis

• Cakupannya luas, tepat

Apa Maksud Pemrosesan Teks

• Secara Statistik• Kenali karakteristik dari sampel teks Yang diperlukan

adalah korpus dan cara untuk Memrosesnya

• Buat aplikasi yang berguna yang dapat mengerti Teks• Perolehan Informasi (Information Retrieval)• Perolehan Informasi (Information Retrieval)

• Pembuat ringkasan (Summarization)

• Mesin Penerjemah (Machine Translation)

• Bagaimana cara melakukannya: probabilitas,

statistik, teori informasi, machine learning

• Model-model statistik

• Metode-metode statisti

Melacak Teks• Temukan semua baris yang mengandung

kata SubangSejak awal Januari hingga 28 Agustus jumlah penderita demam

Agustus, berdarah di Kabupaten Subang mencapai 797 orang, 11 diAgustus, berdarah di Kabupaten Subang mencapai 797 orang, 11 di

antaranya meninggal dunia. Dengan jumlah itu berarti dalam

sebulan terjadi sekitar 100 kasus atau 3-4 kasus per hari.

"Jumlah itu termasuk kasus-kasus demam berdarah dengue

yang baru diduga atau suspect. CFR (crude fatality rate) atau

angka kematiannya mencapai 1,5 persen," ujar Ananta Rahayu,

Kepala Seksi Penanggulangan Penyakit Dinas Kesehatan

Kabupaten Subang, Senin (28/8).

Menghitung Kata

• Jumlah Kata

– Seberapa besar korpus yang ada (N)

• Jenis kata

– Berapa jumlah kata yang unik?

– Berapa besar perbendaharaan kata pada korpus?– Berapa besar perbendaharaan kata pada korpus?

• Token kata

– Berapa jumlah kata pada korpus?

– Berapa frekuensi dari setiap jenis kata?

• Kata apa yang paling sering muncul pada

korpus?

Menghitung Kata

• Kata bigrams apa yang paling sering muncul pada

korpus?

– Mis. Bukit Barisan, Iniversitas Indonesia

• Kata trigrams apa yang paling sering muncul pada

korpus?korpus?

– Mis. seperti yang telah, presiden republik

indonesia

• Kata 4-grams apa yang paling sering muncul pada

korpus?

– Mis. daftar mata uang asing, daerah khusus ibukota jakarta

Aplikasi : IR

IR mempelajari algoritma dan model untuk

Memperoleh informasi dari koleksi dokumen

Contoh : google

Aplikasi : Ringkasan

• Bagaimana cara membuat ringkasan?

Ambil 25% dari dokumen aslinyaAmbil 25% dari dokumen aslinya

– Kalimat

– Frase

– Kata

Aplikasi : Ringkasan

• Bagaimana cara memilihnya?

– Pilih secara random– Pilih secara random

– Pilih awal dari dokumen

– Pilih bagian yang penting

Aplikasi : Mesin Penerjemah

• Menerjemahkan dari satu bahasa ke bahasa

yang lain (Mis. bhs Indonesia ke bhs Inggris)

• Menulis program untuk melakukan

penerjemahan Masalah yang sangat sulitpenerjemahan Masalah yang sangat sulit

• Perlu pengetahuan yang sangat banyak mengenai

bahasa-2 tsb (linguistik yang mendalam).

• Mempelajari korpus yang merupakan terjemahan

dari bahasa-2 tsb (menggunakan korpus paralel).

Pertemuan 2

Korpus

Korpus

• Masalah pada perancangan korpus– Ukuran– Jenis– Jenis– Bahasa– Register

• Tokenisasi pada korpus• Anotasi pada korpus

Korpus

• Korpus adalah badan dari teks yangmuncul secara alami, biasanya dipilihdengan cara tertentu.dengan cara tertentu.

• Korpus yang seimbang mencoba mewakilisemua bahasa atau suatu domain.

• Apakah baik untuk mempunyai korpusyang seimbang

Korpus Brown• Korpus awal yang terkenal

Dibuat oleh Nelson Francis & HenryKucera di Universitas Brown tahun 1960-anan

• Merupakan korpus seimbang yang ditulisdalam bahasa Inggris Amerika Terdiri dari sejuta kata

Isi KorpusJenis bahasa:• Teks : artikel, berita kawat, buku• Pidato spontan: pembicaraan (dialog), siaran

Jenis• Novel bahasa Inggris pada abad 18• Teks suratkabar, laporan berita kawat• Pembicaraan pemesanan penerbangan

Isi Korpus• Media: teks, audio, transkripsi, video

Anotasi• Tokenisasi, struktur dokumen• Tokenisasi, struktur dokumen• Anotasi linguistik, format (markup

language)

Tokenisasi• Tokenisasi adalah suatu tahap pemrosesan di

mana teks input dibagi menjadi unit-unit yang disebut token yg merupakan suatu kata atau suatu angkaatau suatu tanda baca.atau suatu tanda baca.

Perlu mengenali unit secara otomatis• Apakah kata itu?• Apakah suatu kata itu?

Apakah Kata itu?

• Karakter alfanumerik yang bersambunganyang dipisahkan oleh whitespace.

• Whitespace: spasi, tab, newline

• Bagaimana dengan p2p, mazon.com,Micro$oft?• Bagaimana dengan John’s, isn’t, Jum’at?• Bagaimana dengan pro-aktif?• Tanda sambung pada akhir baris?

Segmentasi Kata• Bagaimana dengan kata yang bukan bahasa Inggris?• Bahasa-bahasa di Asia Timur (Jepang, Cina), bahasa

daerah• Indonesia (Jawa, Bali), tidak memecah kata dengan

whitespacewhitespace

• Hard disk harddisk disk, • Kata gabungan dalam bhs Jerman:• Lebensversicherungsgesellschaftsangestellter (pegawai

perusahaan asuransi jiwa)• Meskipun tokenisasi sederhana tidak terlepas dari

kesalahan

PERTEMUAN 3

Pengenalan PERL

PERL

• Practical Extraction and Report Language• Dikembangkan oleh Larry Wall pada tahun 1987• Mengembangkan suatu bahasa script yang

lebih baik daripada Unix shell tetapi tidakserumit C.

• Berguna untuk memanipulasi teks yang• tidak dapat dilakukan oleh awk ataupun unix.

• #!/usr/local/bin/perl• #Ini adalah program untuk menulis kata ‘halo’• print “Halo\n”;

Suatu program untuk menulis ‘Halo’Tulis pada suatu file bernama ‘halo.p’Untuk me-run pada Unix/Linux:• > perl halo.p

Jenis Data• Perl mempunyai 3 jenis data:• Scalar• Array dari data scalar• Associative array atau hashes dari data scalar

• Nama variabel• Nama variabel scalar dimulai dengan $ (mis. $kelas)• Nama variabel array dimulai dengan @ (mis.

@mahasiswa)• Nama variabel hash dimulai dengan % (mis. %tabel)• Nama variabel adalah case sensitive ($kelas ≠ $KELAS)

JENIS DATA (Lanjut)

Data Scalar• Angka• digits, desimal, eksponensial dll.• $nilai = 350;• $nilai = 3.50• St i• St i

Strings• Berada dalam tanda petik single / double;• Interpolasi dengan backslash• \n (newline) ; \t (tab) ;• \U (Uppercase) ; \L (Lower case)• print “\Uhalo\n”; �� HALO• print “ha\Ulo\n”; �� haLO

Operator Dasar• Operator untuk angka• arithmatic + - / * $x = (5+7) * (6+6);• exponential ** $x = 2 ** 3;• modulus % $x = 9 % 2;

• Operator untuk string• Binary assignment += ; -= $x = $x + 5; sama dengan $x

+= 5• Unary assignment ++ ; -- $x = $x + 1; sama dengan

++$x;• concatenation . $x = “halo” . “juga’ �� “halojuga”• repetition x $x = ui x 3; �� uiuiui

Operator Scalar Dasar• Operator untuk membandingkan• Perbandingan Numerik String• Sama == eq• Kurang dari < lt• L bihb d i > t• L bihb d i > t• Lebih besar dari gt• Lebih kecil dari atau sama <= le• Lebih besar dari atau sama >= ge• Tidak sama != ne

Operator untuk membandingkan• AND (&&), OR (||), NOT EQUAL (!)

Data ScalarInterpolasi variabel• $harga = ‘Rp 100’• print “Harga gula satu kilo adalah $harga\n”;• print “Harga gula satu kilo adalah $harga\n”;• Hasil : Harga gula satu kilo adalah Rp 100

Array & Data List• Suatu list adalah data scalar yang berturutan• Suatu array adalah suatu variabel yang berisi list

Suatu array bisa berisi sejumlah elemenSuatu array bisa berisi sejumlah elemen• (tidak perlu ditentukan panjangnya)• (1, 2, 3)• (“Senin”, “Selasa”, “Rabu”)• ()

Array• @namahari = (“Senin”, “Selasa”, “Rabu”);• @x = (1,2, 3)• @y = @x �� copy nilai x ke y• @y = (@x 4 5) �� nilai@y=(1 2 3 4 5)• @y = (@x 4 5) �� nilai@y=(1 2 3 4 5)• x, 4, nilai @y = (1, 2, 3, 4, $z = @y �� panjang dari @y

= 5• ($z) = @y �� $z = 1 mendapat elemen pertama• dari @y

Akses ke Array• Indeks pada array dimulai dari 0• @nama = (“dani”, “irma”, “jojon”, “lili”);• $x = $nama[0] # $x = dani• $nama[2] = “gugun” # mengganti “jojon” menjadi “gugun”• $nama[2] = “gugun” # mengganti “jojon” menjadi “gugun”• gugun jojon gugun• @siswa = $nama[0,1] # @siswa berisi “dani’ dan “irma”• $i = 2• $x = $nama[$i] # @nama = “jojon”• $x = $nama[$i-1] #nama = “irma”

• Control Structures• Penggunaan IF / UNLESS• if ($nilai > 60)• { print “Lulus dengan ujian\n”; }• else• else• Fakultas Ilmu Komputer – Universitas Indonesia

MA-39• { print “ Tidak lulus ujian\n”; }• unless ($nilai > 60)• { print “Tidak lulus ujian\n”; }

Control Structures• Penggunaan WHILE / UNTIL• $i = 10;• while ($i > 5)• while ($i > 5)• { $x = $i**;• print “Kuadrat dari $i adalah $x\n”;• }• until ($i < 5)• { print “ Kuadrat dari $i adalah $i**\n”; }

Control StructuresPenggunaan for• for ($i = 1; $i <= 10; $i++)• { print “$i \n”; }• for ($i=0 ; $i<=$#nama; $i++)• for ($i=0 ; $i<=$#nama; $i++)• {• $siswa = $nama[$i];• $siswa =~ tr/a-z/A-Z/;• print "$siswa";• }

Pertemuan 4

Manipulasi Teks

TokenizingMenyusun kata-kata dari serangkaian karakter.Menyusun kata-kata dari serangkaian karakter.

Sulit dilakukan pada Bahasa Inggris, tetapi lebih sulit lagi pada bahasa lainnya.

Sistem IR awal:1. Beberapa rangkaian alphanumerik yang terdiri dari 3

karakter atau lebih.karakter atau lebih.2. Diakhiri dengan spasi atau karakter khusus lainnya.3. Huruf besar diubah menjadi huruf kecil.

TokenizingContoh (dalam Bahasa Inggris):Contoh (dalam Bahasa Inggris):

“Bigcorp's 2007 bi-annual report showed profitsrose 10%.”

Diubah menjadi:“bigcorp 2007 annual report showed profits rose”

Terlalu sederhana untuk aplikasi-aplikasi pencarianTerlalu sederhana untuk aplikasi-aplikasi pencarianbahkan untuk uji coba berskala besar.

Kenapa? Terlalu banyak informasi yang hilang.1. Keputusan kecil saat proses tokenizing akan

berpengaruh besar pada keefektifan beberapa query.

Proses Tokenizing�Langkah pertamanya adalah menggunakan parser

untuk mengidentifikasi bagian-bagian dokumen yang untuk mengidentifikasi bagian-bagian dokumen yang sesuai untuk dijadikan token.

�Membedakan keputusan yang rumit padakomponen lainnya:� Yang termasuk kata adalah serangkaian karakter

alphanumerik, diakhiri dengan spasi atau karakterkhusus, setiap huruf diubah menjadi huruf kecil.

� Setiap karakter harus diindeks.� Setiap karakter harus diindeks.� Contoh: 92.3 hasil proses tokenizingnya adalah 92

dan 3.� Memadukan beberapa kaidah untuk mengurangi

ketergantungan pada beberapa komponen transformasi query.

Proses Tokenizing�Tidak jauh berbeda dengan proses tokenizing yang

digunakan pada masa lalu.�Contoh kaidah yang digunakan pada TREC:

� Tanda aposthrope/koma diatas (`) pada kata-katadiabaikan, misalnya:O`Connor menjadi oconnorBob`s menjadi bobsBob`s menjadi bobs

� Tanda titik (period) pada singkatan diabaikan, misalnya:I.B.M. menjadi ibmPh.D menjadi phd

Stopping�Kata fungsi (determiner dan preposisi) hanya memiliki

sedikit makna asalnya.�Memiliki frekuensi kemunculan yang tinggi (banyak

ditemukan dalam dokumen).�Dianggap sebagai kata henti (stop word) dan biasanya

dihilangkan.� Mengurangi penggunaan indeks, mempercepat

waktu tanggap (response time) dan meningkatkan waktu tanggap (response time) dan meningkatkan efektivitas.

� Tapi bisa menjadi sangat penting saat berada dalamsuatu kombinasi, misalnya:“to be or not to be”

Stopping�Daftar kata henti bisa dibuat dari kata-kata yang sering �Daftar kata henti bisa dibuat dari kata-kata yang sering

muncul (memiliki frekuensi tinggi) atau berdasarkansebuah daftar standar.

�Daftarnya bisa disesuaikan dengan aplikasi, domain dan bahkan bagian-bagian dokumen.� Sebagai contoh, “click” adalah kata henti yang baik

untuk teks anchor (hyper link).�Cara yang paling baik adalah dengan mengindeks �Cara yang paling baik adalah dengan mengindeks

seluruh kata dalam dokumen, kemudian membuat keputusan kata apa yang akan digunakan saat melakukan query.

Stemming�Banyak variasi morpologis dari kata-kata.�Banyak variasi morpologis dari kata-kata.

� Inflectional, contohnya kata jamak (plural) dan bentuk waktu (tenses).

� Derivational, contohnya pembentukan kata kerja, kata benda, dll.

�Pada banyak kasus, variasi morpologis ini memiliki arti yang sama.

�Stemmer digunakan untuk mengurangi variasi morpologis dari kata-kata menjadi bentuk stem yang morpologis dari kata-kata menjadi bentuk stem yang umum.� Biasanya dilakukan dengan menghilangkan akhiran

(sufiks).�Bisa dilakukan saat mengindeks atau sebagai bagian

dari proses query (seperti kata henti/stop word).

Stemming�Secara umum sangat kecil tapi signifikan untuk

meningkatkan efektivitas.� Bisa menjadi sangat krusial pada beberapa bahasa. �� Bisa menjadi sangat krusial pada beberapa bahasa. �

Sebagai contoh, 5% s.d 10% peningkatan padaBahasa Inggris, sampai 50% pada Bahasa Arab.

Stemming

�Dua tipe dasar:�Dua tipe dasar:� Dictionary-based, menggunakan daftar kata-kata

yang berhubungan.� Algorithmic, menggunakan program untuk

menentukan kata-kata yang berhubungan.�Algorithmic stemmer

� Akhiran s: menghilangkan akhiran 's' yang diasumsikan kata jamak (plural).diasumsikan kata jamak (plural).

� Contoh: cats menjadi cat, lakes menjadi lake, wiis menjadi wii.

� Bisa menjadi false negative, misalnya supplies menjadi suplie.

� Bisa menjadi false positive, misalnya ups menjadi up.

Frasa

�Banyak query merupakan frasa dari 2-3 kata.�Frasa merupakan:�Frasa merupakan:

� Lebih teliti daripada kata tunggal.Contoh: dokumen yang berisi “Laut Hitam” bila dibandingkan dengan dua kata “laut” dan “hitam”.

� Tidak terlalu ambigu (bermakna ganda).Contoh: “apel yang besar” dibandingkan dengan “apel”.

Menyulitkan proses pemeringkatan (ranking).Sebagaicontoh,diberikansebuahquery“fishingSebagaicontoh,diberikansebuahquery“fishingsupplies”. Bagaimana cara kita me-rankingdokumen dengan: Frasa keseluruhan berulang kali,frase keseluruhan hanya sekali, kata individualpada kalimat yang sama, paragraf yang sama,

dokumen yang sama atau variasi pada kata ?

Frasa�Isu pada pemrosesan teks adalah bagaimana frasa �Isu pada pemrosesan teks adalah bagaimana frasa

dikenali.�Tiga pendekatan yang mungkin:

� Mengidentifikasi sintaksis frasa menggunakan tanda

part-of-speech (POS).� Menggunakan kata n-gram.� Menggunakan kata n-gram.� Menyimpan posisi kata dalam indeks dan

menggunakan kedekatan operator dalam query.

PENGINDEKSAN

Pertemuan 5

Indeks

• Pengorganisasian berkas atau indeks digunakanuntuk meningkatkan unjuk kerja dari sistemperolehan informasiperolehan informasi

• Pengindeksan teks adalah proses yangmemutuskan apa yang akan digunakan untukmerepresentasikan dokumen tertentu

• Indeks kata ini yang digunakan untukmengindeks dokumen

Pengindeksan Secara Manual vs. Otomatis

• Pengindeksan secara manual (dilakukan oleh manusia)• Pengindeks menentukan kata kunci yang diberikan

kepada suatu dokumen berdasarkan perbendaharaankata yang terkontrol (controlled vocabulary)kata yang terkontrol (controlled vocabulary)

• Biaya mahal• Pengindeksan secara otomatis• Program pengindeks menentukan kata atau frase

tertentu dari teks pada dokumen• Prosesnya cepat

Tahapan Pengindeks

1. Lihat dokumen untuk mengenali strukturnya Mis. Judul, tanggal, dll.

2. Tokenisasi3. Pembuangan stopwords3. Pembuangan stopwords4. Proses pemotongan imbuhan (stemming)5. Pembobotan kata6. Pembuatan indeks

Tahapan Pengindeksan : Tokenisasi

• Hilangkan karakter yang tidak penting / tanda-tanda(mis. HTML tags, tanda baca, karakter khusus), huruf besar, nomorPotong menjadi tokenPotong menjadi token

• Bahasa seperti non-latin perlu segmentasi• Catat informasi posisi kata untuk operator• proximity

Pembuangan Stopwords

• Semua kata yang termasuk dalam daftar stopwords, yaitu daftar kata yg umum (kata yang mempunyai fungsi tapi tidak mempunyai arti) mis.: dan, atau, sebuah, yang

• Jumlahnya bisa ratusan kata• Jumlahnya bisa ratusan kata

• Perhatikan kata yang menjadi bagian dari frase:Yang Maha kuasa, vitamin A, gerbang dan-atau(and-or gate) Berguna untuk menghemat

penyimpanan indeks (efisiensi)

Proses Pemotongan Imbuhan(Stemming)

• Pemrosesan morfologi terhadapsekelompok variasi kata: perubahan katasekelompok variasi kata: perubahan kataberimbuhan menjadi kata dasar

• Misalnya: diberikan �beri• Bisa salah tetapi banyak digunakan pada• IR system

Pembobotan Kata

• Kata yang penting seharusnya diberibobot yang lebih berat

• Menggunakan frekuensi dalam dokumendan koleksi

Efek Penggunaan Stemmer

• Apakah penggunaan Stemmer dapat meningkatkan unjuk kerja dari sistem perolehan informasi?

• Hasil penelitian penggunaan stemmer sangat beragamAda yang dapat membantu meningkatkan jumlahAda yang dapat membantu meningkatkan jumlahdokumen pada suatu koleksi tapi pada koleksi yanglain dapat menurunkan jumlah dokumen yang diperoleh

• Kurang berguna untuk koleksi Web yang sangat besar

Stemmer untuk Bahasa Indonesia

• Imbuhan (afiks):Prefiks / awalan (meng, di, ber, peng, ke, se, ter)Mis. di + beri ���� diberi

• Sufiks / akhiran (I, kan, an)• Sufiks / akhiran (I, kan, an)Mis. makan + an ���� makanan

• Confiks / gabungan prefiks & sufiks (me-kan, ber-an)Mis. meng + beli + kan ���� membelikan

• Prefiks & Sufiks dapat ditambahkan pada kata yangtelah mempunyai prefiks atau confiksMis. mem + per + hati + kan ���� memperhatikan

Stemmer untuk Bahasa Indonesia

Algoritma stemmer :• Kata dasar• Kata berakhiran – infleksional• Kata berakhiran – infleksional• Kata berimbuhan• Tidak ada

• Menggunakan kamus yang berisi daftarkata dasar

Stemmeruntuk Bahasa Indonesia

Kata berakhiran – infleksional• Akhiran ku, mu, nya harus mendahului kah, lah, tah• Hasil : kata dasar atau kata berimbuhan

Kata berimbuhan• Lihat apakah prefiks & sufiks sudah sesuai aturan

Mis. Prefiks ber tidak dapat digabung dengan sufiks iSetelah dihilangkan konfiksnya, teliti apakahfonemnya perlu diubah (mis. meng + ambil ��mengambil ; meng + satukan �� menyatukan)

Stemmer untuk Bahasa Indonesia

Evaluasi:• Dari 18,590 kata berimbuhan, 95 % bisa diperoleh kata

dasarnya dengan benar dan 5 %-nya diperoleh kata yang salahyang salah

Kesalahan:• Salah melakukan perubahan fonem

Mis: mengawani = meng + awan + i atau meng+ kawan + i

• Mis-stemming (salah melakukan pemotongankata)Mis. berikan = beri + kan atau ber-ikan

Stemmer untuk Bahasa Indonesia

Understemming (kata terlalu sedikit yangdipotong)• Mis. beruangkah = beruang + kah atau • Mis. beruangkah = beruang + kah atau

ber + uang +kah

Pertemuan 6

Information Model

Model Perolehan Informasi

• Model adalah suatu idealisasi / abstraksidari proses yang sesungguhnyadari proses yang sesungguhnya

• Model matematika digunakan untukmempelajari properti dari proses,mengambil kesimpulan, membuat ramalan

Model Perolehan Informasi

Suatu Model Perolehan Informasi berisi :Suatu Model Perolehan Informasi berisi :• Representasi dokumen• Representasi query• Fungsi Perolehan (Retrieval)

Perolehan Informasi

Jenis indeks Manual• Indeks ditentukan secara manual oleh manusia

berdasarkan suatu perbendaharaan kata yang sudah berdasarkan suatu perbendaharaan kata yang sudah ditentukan

• Pencari informasi menggunakan daftar perbendaharaan kata yang sama

• Ketepatannya sangat tinggi

Perolehan InformasiJenis indeks• Otomatis

Indeks berisi kata-kata yang ada pada dokumen(inverted index)Kata-kata pada dokumen mengindikasikan isi dokumen

• Pencari informasi menggunakan bahasa alami• Ketepatan pada perolehan dokumen ditentukan

oleh bobot kata-kata pada dokumen

Model Boolean

• Model Boolean adalah salah satu modelpencocokan secara tepat (exact-match)Query mempunyai kriteria perolehan yang tepatQuery mempunyai kriteria perolehan yang tepat

• Setiap dokumen bisa cocok atau tidak cocok dengan query Hasilnya adalah suatu set dokumen (tidak ada urutan)

Model BooleanOperator Boolean yang murni: AND, OR, dan NOT• Kebanyakan sistem mempunyai operator proximity

Mengapa exact match masih banyak digunakan dibidang komersial?

• Perbedaan ‘budaya’• Biaya pelatihan dan pengoperasian sistem baru• Tidak jelas perbedaan hasil penelitian pada koleksi

besar dan kecil

Untuk beberapa query atau koleksi, seringkali hasilBoolean lebih baik (mis., menggunakan AND di web)

Bahasa query sederhana: Boolean

• Kata + Penghubung (atau operator)

Kata• Kata yang di-stemmed• Kata yang di-stemmed• frase• Kata-kata dalam thesaurus

Penghubung• AND• OR• NOT

Model Boolean

• Set kata-kata hanya berisi “tidak ada” dan ada”

• Nilai-nilai “Boolean” direpresentasikan • Nilai-nilai “Boolean” direpresentasikan sebagai0 dan 1

• Kombinasikan barisnya dengan “operatorBoolean” AND, OR, NOT

• Hasil: setiap dokumen yang nilainya 1

Kelebihan dari Model Boolean

• Operator Boolean bisa mendekati bahasa alamiCari dokumen tentang demonstrasi menentang kenaikanharga minyak tanah

• AND dapat menemukan hubungan antara konsep• AND dapat menemukan hubungan antara konsepDemonstrasi mahasiswa

• OR dapat menemukan terminologi alternatifDemonstrasi karyawan

• NOT dapat menemukan arti alternatifDemonstrasi memasak

Kelebihan dari Model Boolean• Query sederhana, mudah dimengerti• Relatif mudah untuk diimplementasikan

Kekurangan dari Model Boolean

• Bahasa alami sangat kompleksDia melihat seseorang di pantai denganteropong

• AND menemukan hubungan yang tidak adaKata-kata di paragraf yang berbeda, bab, …

• Menebak terminologi OR sangat sukarbaik, bagus,…

Kekurangan dari Model Boolean

• Sering menghasilkan terlalu banyak dokumen- Semua dokumen yang cocok akan muncul- Sukar mengurutkan dokumen- Sukar mengurutkan dokumen

• Sukar untuk mengekspresikan permintaanpemakai yang kompleks

• Pemakai harus belajar lojik BooleanPerbendaraan kata pada indeks harus samadengan perbendaharaan kata pada query

PENGERTIAN CITRA DIGITALPERTEMUAN 9PERTEMUAN 9

Ada 3 bidang studi utama yg menangani data berbentuk gambar atau citra

• Grafika komputer• Pengolahan Citra• Pengolahan Citra• Pengenalan Pola/visi komputer

Grafika Komputer• Melakukan proses yg bersifat sintesis• Data masukan berbentuk deskriptif• Keluaran hasil proses yg berbentuk gbrContoh Contoh Proses penggambaran prespektif suatu

objek tiga dimensi, yg menggunakan data masukan berupa koordinat titik – titik yg membentuk objek tsb.

Pengenalan pola/ Visi komputer• Data masukan berupa citra / gambar• Proses yg dilakukan adl proses

penggalian strutur gambar dgn hasil keluaran berupa deskriptifkeluaran berupa deskriptif

ContohPengenalan jenis penyakit paru melalui citra

sinar –X paru penderita

Pengolahan citra Merupakan proses pengolahan dan analisis

citra yg banyak melibatkan persepsi visualProses ini mempunyai ciri data masukan Proses ini mempunyai ciri data masukan

dan informasi keluaran berbentuk citra.

Dalam kenyataanya, batasan antara ketiga bidang studi diatas sulit untuk ditentukan

ContohContohProses pembuatan film animasi, objek dan

proses animasinya diciptakan dgn teknik grafika komputer sedangkan pembuatan latar belakangnya dilakukan dgn pengolahan citra.

Citra sbg keluaran suatu sistem perekaman data :

• Bersifat Optik berupa foto• Bersifat analog berupa sinyal analog

( gbr pd monitor TV )( gbr pd monitor TV )• Bersifat Digital yg dpt langsung di simpan

pd suatu pita magnetik

Secara teoritis citra dpt dikelompokan pd kelas :• Kontinu – kontinu• Kontinu diskrit• Diskrit kontinu• Diskrit – diskrit• Diskrit – diskrit

Label pertama menyatakan presisi dari titik – titik koordinat pada bidang citra

Label kedua menyatakan presisi nilai keabuan(warna)

• Kontinu dinyatakan dgn presisi angka tak terhingga

• Diskrit dinyatakan dgn presisi angka terhinggaterhingga

Komputer digital bekerja dgn angka presisi terhingga ( kelas diskrit-diskrit yg diolah dgn komputer)

• Untuk mengubah citra yg bersifat kontinu menjadi digital diperlukan pembuatan kisi-kisi arah horizontal dan vertikal, sehingga diperoleh gbr dlm bentuk array 2 dimensi.diperoleh gbr dlm bentuk array 2 dimensi.

• Proses tsb dikenal dgn proses digitasi atau sampling.

Proses kuantisasi, menyatakan tingkat keabuan piksel akan menentuekan resolusi kecerahan dari gbr yg diperoleh.

Gambar dari memori citra kebentuk peragaan pd monitor TV dikenal sbg konversi digital – ke - analog

Citra monokrom(hitam-putih)

• Citra monokrom(hitam-putih) merupakan citra satu kanal,

• dimana citra f(x,y) merupakan tingkat • dimana citra f(x,y) merupakan tingkat fungsi keabuan dari hitam ke putih.

• X menyatakan variabel baris/garis jelajah• Y menyatakan variabel kolom/posisi piksel

Citra berwarna

• Dikenal dgn citra multi-spektral• Warna citra dinyatakan dgn 3 komponen • Warna citra dinyatakan dgn 3 komponen

(merah, hijau dan biru ).• Citra berwarna

{fmerah(x,y),fhijau(x,y),fbiru(x,y)} merupakan fungsi harga vektor tingkat keabuan merah, hijau dan biru.

• Bila suatu masukan bentuk impuls dilakukan pd suatu filter, mk keluaran yg diperoleh dikenal dgn sebutan respon impuls.impuls.

• Respon impuls adl citra hasil rekaman pd bidang keluaran dari suatu sumber titik ideal pd bidang masukan.

Suatu Filter disebut sbg filter linear bila memenuhi :

• Alpha f(x) � Alpha g(x)• f (x) + f (x) � g (x) + g• f1(x) + f2(x) � g1(x) + g2

• Alpha1 f1(x) + Alpha2 f2(x) � Alpha1 g1(x) + Alpha2 g2(x)

Pertemuan 10

Perangkat Pengolah Citra

Sistem penangkap citra digital terdiri dari tiga komponen dasar :

• Sensor citrabekerja sbg pengukur intensitas cahaya.

• Perangkat penjelajah• Perangkat penjelajahbertugas merekam hasil pengukuran intensitas pada seluruh bagian citra.

• Pengubah analog ke digital Yang mengubah harga kontinu ke diskrit sehingga dpt diproses komputer.

Perangkat keras yg dibutuhkan sebagai pengolah citra :

• Prosesor dengan kecepatan tinggi.• Pararell pipelined• Pararell pipelined

Komputer merupakan bagian perangkat keras yg bersifat multiguna.

Bagian ini terdiri dari sistem komputer yg dilengkapi :dilengkapi :

• Alat masukan • Alat keluaran• Terminal , digunakan untuk komunikasi

antara pemakai dan sistem komputer

• Sub sistem masukan videodigunakan untuk memasukan data citra yang berasal dari suatu alat perekam dan pembaca video, hasil foto melalui sistem kamera.

• Keluaran video• Keluaran videoyang mengeluarkan hasil proses pengolahan citra, seperti dlm bentuk cetak film alat fotografi, cetak gbr hasil plotter, ataupun bentuk peragaan melalui layar peraga suatu monitor video seperti Televisi.

• Sistem kontrol proses interaktifterdiri dari peralatan yg digunakan utk melaksanakan komunikasi antar pemakai dengan mesin.

• Alat yang paling sederhana berupa suatu • Alat yang paling sederhana berupa suatu terminal dan papan kuncinya untuk memasukan suatu karakter.

• Komunikasi dpt dilakukan antara lain melalui trackball sbg alat penunjuk pd posisi layar peraga.

Perangkat lunak pengolahan citra

Paket perangkat lunak pengolahan citra mencakup bidang aplikasi bidang:

• Riset dan pengembangan• Seni grafis • Seni grafis • Film animasi• Penginderaan jauh• Astronomi• Meteorologi• Oseanografi• Biomedis , dll

jenis paket lain yg dikombinasikan dgn perangkat keras tertentu dan membentuk suatu sistem turnkey:

• Sistem ERDAS yg digunakan pd aplikasi penginderaan jauh yg dikembangkan oleh Gould penginderaan jauh yg dikembangkan oleh Gould Company dari Kanada

• Meridian Image Analysis, utk aplikasi penginderaan jauh ataupun biomedis yg dikembangkan oleh MDA Macdonald Dettwiller and associates LTD dari Kanada

Tujuh modul yg merupakan pengelompokan rutin menurut fungsi yg sejenis :

• Modul proses berkas masukan dan keluaran. Terdiri dari proses pemindahan keluaran. Terdiri dari proses pemindahan berkas citra dan penyimpanan diluar seperti pita magnetik atau disk ke memori komputer, atau sebaliknya menurut format tertentu.

• Modul proses filtering dan koreksi radiometris. Merupakan modul yang menangani peningkatan mutu citra yang dilakukan dgn operasi kernel dan penggunaan looking up table.penggunaan looking up table.

• Modul yg berfungsi melakukan proses koreksi geometris.menyediakan proses registrasi citra berdasarkan titik kontrol yg telah diketahui koordinatnya

Modul klasifikasi citra utk melakukan:• Pembentukan set sample • Proses pengelompokan data• Menghitung statistik ciri setiap kelas atau • Menghitung statistik ciri setiap kelas atau

kelompok pola dari objek yg sama.

• Modul yg berfungsi menghitung segala nilai-nilai statistik citra yg biasanya dibutuhkan dlm proses analisis citra.

nilai statistik yg sering dibutuhkan adalah:• Harga rata-rata• Harga rata-rata• Standar deviasi• Varian • Matrik• Vektor • histrogram

Modul operasi matematika meliputi segala operasi yg yang

bersifat arimatik seperti :• Tambah, kurang, kali, rasio, akar• Tambah, kurang, kali, rasio, akar

Bersifat logik : AND, OR, NOT dan XOR

Modul proses pembuatan laporan dan peragaan secara grafis

Pertemuan 11

Aplikasi penginderaan jauh

Aplikasi penginderaan jauh

Merupakan suatu sistem yg digunakan utk merekam data mengenai permukaan bumi berdasarkan pengukuran yang dilakukan dari jarak jauh, dlm hal ini menggunakan dari jarak jauh, dlm hal ini menggunakan pesawat terbang atau sistem satelit.

Tujuan agar dpt merekam data daerah bumi yg cukup luas , utk kepentingan survai maupun pemantauan sumber daya alam

Komponen sistem penginderaan jauh

• Sumber radiasi menggunakan sinar matahari , mk perekaman data hanya dpt dilakukan pada pagi sampai sore hari. kecuali perekam data dgn sensor infrared panas kecuali perekam data dgn sensor infrared panas berdasarkan perbedaan temperatur.

• Sensor, data yg direkam dpt berupa gbr pd layar peraga, berbentuk foto atau data digital yg direkam pada pita magnetik.

Aplikasi RobotikPengolahan citra pd aplikasi dibidang

robotik banyak menggunakan proses pengenalan objek.

ContohDlm penyusunan program sebuah robot yg

direncanakan utk dpt berjalan melalui jalur tertentu dan dpt menghindari objek – objek dgn bentuk tertentu.

• Jalur transmisi, dalam sistem ini dilakukan melalui atmosfir.

• Sasaran, dlm hal ini adl suatu daerah pd permukaan bumi.permukaan bumi.

Tahapan proses pengolahan citra digital :• Koreksi geometris• Peningkatan mutu citra• Reduksi data• Reduksi data• Klasifikasi dan segmentasi citra• Kombinasi peta

Aplikasi biomedisProses – proses pengolahan biomedis

secara digital umumnya bertujuan utk mendeteksi objek dan utk melakukan mendeteksi objek dan utk melakukan pengukuran yg lebih lanjut kemudian digunakan utk mendukung proses diagnosis

Aplikasi industriProses pemeriksaan kualitas suatu produk

industri, misalnya pemeriksaan wiring yg putus pd rangkaian elektronik atau putus pd rangkaian elektronik atau penempatan dari suatu komponen elektronik yg tidak tepat.

Aplikasi Arsip citra dan dokumenProses yg dibutukan pada pengaturantata

letak gbr pd dokumen adalah :• Proses peningkatan mutu gbr• Proses peningkatan mutu gbr• Proses pengaturan posisi, ukuran dan

orientasi gambar.

Pertemuan 12

Peningkatan Mutu Citra

Proses pengolahan citra yg termasuk dlm katergori peningkatan mutu citra dari proses – proses yg bertujuan utk

• memperoleh keindahan gambar• memperoleh keindahan gambar• Kepentingan analisis citra• Mengkoreksi citra dari segala gangguan

yg terjadi pd waktu perekaman data.

Peningkatan Kontras Citra • Kontras yg tidak baik karena terlalu

terang, yg dlm istilah fotografi disebut over exposed

• Kontras yg kurang baik di mana gbr • Kontras yg kurang baik di mana gbr mengalami underexposed

• Kontras baik dimana tingkat keabuan secara penuh dgn distribusi piksel yg hampir merata pd setiap harga intensitas piksel.

Penggeserandan pelebaran histogram

• Teknik penggeseran histogram dilakukan dengan cara penambahran atau pengurangan nilai intensitas setiap piksel citra berhubungan dengan suatu harga konstanta integer.konstanta integer.

• Teknik pelebaran histogram dilakukan dengan cara pengalian atau pembagian nilai intensitas setiap piksel dengan suatu harga konstanta integer tertentu.

• Penambahan nilai intensitas piksel dgn suatu harga konstanta dgn memberikan efek gambar menjadi lebih terang.

• Pengurangan mempunyai efek yg • Pengurangan mempunyai efek yg berlawanan, dimana gambar kelihatan menjadi lebih gelap.

• Pelebaran histogram dgn cara pengalian tingkat keabuan asli dgn sesuatu harga konstanta tertentu, akan memberikan efek serupa dgn proses penggeseran histogram cara penambahan. Gambar histogram cara penambahan. Gambar akan cenderung lebih terang.

• Cara pembagian , gambar yg diperoleh cenderung lebih gelap, krn intensistas tingkat keabuan baru yang lebih rendah.

Kontras BinerYaitu penggunaan hanya dua tingkat

keabuan.Objek yg akan diteliti diberi warna yg jelas Objek yg akan diteliti diberi warna yg jelas

misalnya hitam dengan intensitas tingkat keabuan 1, sedangkan objek lainnya diberi warna yg sama dgn warna latar belakang misalnya putih dgn intensitas tingkat keabuan 0.

Pertemuan 13Pengelompokan Pengelompokan

dan pengenalan pola

• Manusia memiliki kemampuan yg luar biasa untuk mengenali objek – objek berdasarkan ciri – ciri atau pengetahuan yg pernah diamatinya dari objek – objek yg bersangkutan.

Contoh Penulisan huruf dgn tangan: a , a,A,TPenulisan huruf dgn tangan: a , a,A,T

Tidak sulit bagi manusia untuk membedakan bentuk huruf yg dicetak, tetapi apakah komputer akan sanggup melakukan proses pengenalan tsb.

• Suatu alat yg mampu mengenali bentuk karakter terbatas telah dpt dibuat oleh manusia. Alat itu dikenal dgn sebutan Optical Character Recognation (OCR), namun sampai sekarang belum berhasil diperoleh suatu OCR yg mampu mengenali bentuk karakter sembarang.mengenali bentuk karakter sembarang.

• Usaha – usaha tersebut telah mendukung berkembangnya suatu disiplin dan metodelogi yg kemudian dikenal dgn nama pengenalan pola

• Pola adalah intensitas yg terdefinisi dan dpt diberi sesuatu atau nama.contoh :gelombang suaragelombang suarasidik jariRaut wajah ,dan lain sebagainya.misalnya utk identifikasi seorang pembicara berdasarkan suaranya, maka digunakan pola hasil trasnformasi gelombang suara

Tahapan dan tujuan proses pengenalan pola

1. Memasukan pola kedalam suatu pola kelas yg belum dikenal prosesnya disebut clustering atau klasifikasi tidak disebut clustering atau klasifikasi tidak terawasi.

2. Mengidentifikasi pola sebagai anggota dari kelas yg sudah dikenal, prosesnya disebut klasifikasi terawasi

Teknik – teknik pengenalan pola telah mengakibatkan revolusi pemrosesan data satelit dlm menghasilkan informasi mengenai kondisi tanah, ragam vegetasi, mengenai kondisi tanah, ragam vegetasi, pola cuaca, topografi permukaan bumi.

Terdpt 2 pendekatan utama :• Pendekatan geometrik(statistik)

pembedaan antara objek dilakukan berdasarkan ciri objek dan fungsi berdasarkan ciri objek dan fungsi kerapatan pola.

proses pengelompokan polanya dilakukan melalui proses estimasi dan klasifikasi.

• Pendekatan struktural(sintatik)dilakukan melalui penentuan primitif yg dpt menggambarkan objek bersangkutan dan penyusunan tata bahasa.penyusunan tata bahasa.

pengelompokan pola dilakukan melalui proses inferensi dan deskripsi.

Sistem pengenalan pola beroperasi dlm 2 fase:

1. Fase Latih2. Fase Pengenalan2. Fase Pengenalan

• Fase Latihpengekstrasi ciri menentukan ruang ciri yg sesuai utk mempresentasikan pola.Pembuatan aturan klasifikasi mempartisi Pembuatan aturan klasifikasi mempartisi ruang sedemikian rupa shg jumlah tumpang tindih antara kategori menjadi sekecil mungkin.

• Fase pengenalanpengklasifikasian menentukan suatu pola masukan sbg salah satu kategori objek yg telah dispesifikasikan menurut ciri – ciri telah dispesifikasikan menurut ciri – ciri pengukuran objek.

Pertemuan 14Klasifikasi dan Segmentasi CitraKlasifikasi dan Segmentasi Citra

Tujuan dari proses klasifikasi citra adalah utk mendapatkan gam bar atau peta tematik.

Gambar tematik adalah suatu gambar yg terdiri Gambar tematik adalah suatu gambar yg terdiri bagian-bagian yg menyatakan suatu objek atau tema.

Setiap objek pd gambar tersebut mempunyai simbol yg unik , yg dpt dinyatakan dgn warna atau pola tertentu.

ContohCitra hasil suatu foto instrumen biomedis dpt diklasifikasikan menjadi bagian tulang, jaringan sehat, dan jaringan sakit.jaringan sehat, dan jaringan sakit.

Segmentansi citra itu sendiri mempunyai arti membagi suatu citra menjadi wilayah –wilayah yg homogen berdasarkan kriteria kesamaan yg tertentu antara tingkat kesamaan yg tertentu antara tingkat keabuan suatu piksel dgn tingkat keabuan piksel – piksel tetangganya.

Segmentasi citra berdasarkan histogramMerupakan teknik citra yg paling mudah

diterapkan. Proses diawali dgn pembuatan histogram dari citra yg akan pembuatan histogram dari citra yg akan disegmentasi.

Proses segmentasi dilakukan dgn membagi citra kedlm beberapa kategori objek sesuai dgn pengelompokan tingkat keabuan yg terjadi pd histogram.

Karakteristik setiap objek pada pengamatan mempunyai pola tertentu. Sebagai contoh diambil citra hasil pengamatan sistem satelit sumber daya alam.satelit sumber daya alam.

Objek –objek permukaan bumi seperti tumbuhan , tanah dan air bisa dianggap sbg objek yg mempunyai pola tingkat keabuan yg dpt dibedakan.

Pada rekaman satelit cuaca, peta liputan awan yg diperoleh dpt di lihat bahwa semakin putih tingkat keabuanya makin besar jumlah awan yg menutupi wilayah besar jumlah awan yg menutupi wilayah bersangkutan.

Besarnya curah hujan disuatu daerah juga dpt ditentukan melalui karakteristik dari awan.