Model dalam sistem temu kembali informasi yasmi afrizal [email protected]
description
Transcript of Model dalam sistem temu kembali informasi yasmi afrizal [email protected]
Model dalam sistem Model dalam sistem temu kembali informasitemu kembali informasi
yasmi afrizal yasmi afrizal [email protected][email protected]
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
Definisi IR
Pertemuan ke-2
• Pencarian materi (biasanya dokumen) dari sesuatu yang sifatnya tak-terstruktur (unstructured, biasanya teks) untuk memenuhi kebutuhan informasi dari dalam koleksi besar (biasanya disimpan dalam komputer).
• Representasi, penyimpanan, organisasi, pencarian dan akses ke item informasi untuk memenuhi kebutuhan informasi pengguna.
• Penekanan pada proses retrieval informasi (bukan data).
• Karakterisasi kebutuhan informasi tidaklah mudah. Harus ditranslasi ke dalam suatu query terlebih dahulu.
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
Motivasi • Data retrieval
– Dokumen mana yang mengandung himpunan keyword?
– Semantik didefinisikan dengan baik– Error dari suatu obyek mengakibatkan
kegagalan!• Information retrieval
– Informasi mengenai suatu subyek atau topik– Semantik dapat bersifat lepas (longgar)– Error kecil ditoleransi
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
...Motivasi
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
IR di tengah pertunjukan– IR dalam 20 tahun terakhir:
• Klasifikasi dan kategorisasi• Sistem dan bahasa• Antarmuka pengguna dan visualisasi
– Masih, area dilihat sebagai bidang yang sempit– Web mengubah persepsi ini
• Repository pengetahuan universal• Akses universal gratis (biaya rendah)• Volume raksasa dari informasi tanpa editorial
board terpusat• Meskipun banyak masalah: IR merupakan kunci
untuk menemukan solusi!
Sistem IR
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
• Menerima query pengguna yang mewakili kebutuhan informasi
• Mencari dan menginterpretasikan content (isi) dari item-item informasi
• Membangkitkan suatu ranking yang mencerminkan relevansi terhadap kebutuhan informasi tersebut
• Ide mengenai relevansi adalah sangat penting
Kebutuhan IR
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
• WWW: lebih 25 milyar halaman web, 1.3 milyar gambar dan lebih 1 milyar pesan Usenet yang diindeks pada Google (2006)
• Berbagai kebutuhan informasi:– Mencari dokumen yang masuk dalam
topik tertentu– Mencari suatu informasi spesifik– Mencari jawaban dari suatu pertanyaan– Mencari informasi dalam bahasa berbeda– ...
Penjualan Software Text Retrieval
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
Information Retrieval (IR)
Pertemuan ke-2
• Secara teknis: indexing (pembuatan index) dan retrieval (pencarian keterangan) dokumen textual.
• Pencarian halaman pada WWW adalah aplikasi paling “ngetop” saat ini
• Fokus pertama: meretrieve dokumen- dokumen yang relevan dengan query.
• Fokus kedua: meretrieve himpunan besar dokumen secara efisien.
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
Information vs Data Retrieval
• Sistem data retrieval (seperti database) berurusan dengan structured data yang mempunyai semantik terdefinisi dengan baik dan kebutuhan meretrieve hasil yang pasti (exact)
• Sistem IR berurusan dengan dokumen bahasa alami (natural language) dan error kecil dapat diabaikan.
• Sistem IR harus menginterpretasikan content kemudian meranking daftar content sesuai dengan tingkat relevansinya.
• Tujuan: Meretrieve semua dokumen yang relevan sekaligus meretrieve sesedikit mungkin dokumen yang tidak relevan
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
Sistem IR
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
Contoh Sistem IR• Conventional (katalog perpustakaan)
Pencarian dengan kata kunci, judul, penulis, dll.• Text-based (Google, Yahoo, ASK).
Pencarian dengan kata kunci (keyword). Pencarian terbatas menggunakan query dalam bahasa alami.
• Multimedia (QBIC, WebSeek, SaFe)Pencarian dengan penampilan visual (bentuk, warna,
…)• Sistem jawaban pertanyaan (AskJeeves, Answerbus)
Pencarian dalam bahasa alami (terbatas)• Lainnya:
IR lintas-bahasa, music retrieval
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
Sistem IR di Web
Pertemuan ke-2
• Pencarian halaman web http://www.google.com
• Pencarian gambar http://images.google.com• Pencarian isi (content) gambar
http://wang.ist.psu.edu/IMAGE/• Pencarian jawaban pertanyaan
http://www.askjeeves.com• Pencarian musik? Hari-hati, jangan melanggar
hukum.
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
Relevansi• Relevansi merupakan suatu judgment
(keputusan) subyektif dan dapat didasarkan pada:– topik yang tepat.– waktu (informasi terbaru).– otoritatif (dari suatu sumber terpercaya).– kebutuhan informasi dari pengguna.
• Kriteria relevansi utama: suatu sistem IR sebaiknya (harus) memenuhi kebutuhan informasi pengguna.
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
Pencarian Keyword
• Ide paling sederhana dari relevansi: apakah string query ada di dalam dokumen (kata demi kata, verbatim)?
• Ide yang lebih fleksibel: Berapa sering kata-kata di dalam query muncul di dalam dokumen, tanpa melihat urutannya (bag of words)?
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
Masalah dengan Keyword
• Mungkin tidak meretrieve dokumen relevan yang menyertakan synonymous terms.– “restaurant” vs. “café”– “NDHU” vs. “National Dong Hwa
University”• Mungkin meretrieve dokumen tak-relevan
yang menyertakan ambiguous terms.– “bat” (baseball vs. mamalia)– “Apple” (perusahaan vs. buah-buahan)– “bit” (unit data vs. perilaku menggigit)
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
Bukan Sekedar Keyword
• Kita akan mendiskusikan dasar-dasar IR berbasis keyword, tetapi…– Fokus pada perluasan dan pengembangan
terakhir untuk mendapatkan hasil terbaik.• Kita akan membahas dasar-dasar pembangunan
sistem IR yang efisien, tetapi…– Fokus pada algoritma dan kemampuan dasar,
bukan masalah sistem yang memungkinkan pengembangan ke database ukuran industri.
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
IR Cerdas
• Memanfaatkan pengertian atau makna dari kata yang digunakan.
• Melibatkan urutan kata di dalam query.• Beradaptasi dengan pengguna berdasarkan
pada feedback, langsung atau tidak langsung.• Memperluas pencarian dengan term terkait.• Mengerjakan pemeriksaan ejaaan/perbaikan
tanda pengenal otomatis.• Memanfaatkan Otoritas dari sumber informasi.
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
Indeks • Sistem IR jarang mencari koleksi dokumen secara
langsung. Berdasarkan pada koleksi dokumen, dibangun sebuah index. Pengguna mencari index tersebut.
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
Indexing Otomatis
• Tujuan dari automatic indexing adalah membangun index dan meretrieve informasi tanpa intervensi manusia.
• Ketika informasi yang dicari adalah teks, metode automatic indexing akan sangat efektif.
• Penelitian automatic indexing fundamental dimulai oleh Gerald Salton, Professor of Computer Science di Cornell & mahasiswa Pasca-Sarjananya (Sistem SMART).
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
IR dari Koleksi Besar
• Information retrieval dari koleksi sangat besar bersandar pada:– Jumlah computer power yang besar untuk
mengerjakan algoritma sederhana terhadap jumlah data yang sangat banyak.
• komputasi kinerja-tinggi– Pemahaman pengguna terhadap informasi dan
kemampuan dari sistem.• Interaksi manusia - komputer• Machine-learning banyak digunakan untuk
mendapatkan kinerja terbaik.
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
Searching & Browsing
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
• Orang dalam perulangan
IR dari Koleksi Dokumen Teks
• Kategori utama dari metode:– Ranking kemiripan terhadap query (vector
space model).– Pencocokan exact (Boolean).– Ranking berdasarkan tingkat kepentingan
dokumen (PageRank)– Kombinasi beberapa metode
• Contoh: Web search engine, seperti Google & Yahoo, menggunakan metode kombinasi, berdasarkan pada pendekatan pertama dan ketiga, dengan kombinasi exact dipilih menggunakan machine learning
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
Istilah Penting • Information retrieval: sub-bidang ilmu
komputer yang berurusan dengan penemuan kembali dokumen (khususnya teks) terotomatis berdasarkan pada content dan contextnya.
• Searching: Pencarian informasi spesifik di dalam badan informasi. Hasilnya adalah sehimpunan hit.
• Browsing: Eksplorasi tak-terstruktur dari badan informasi.
• Linking: Berpindah dari satu item ke item lain mengikuti link (sambungan) seperti rujukan (referensi).
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
...Istilah• Query: Suatu string teks, menggambarkan
informasi yang sedang dicari pengguna. Setiap kata dari query dinamakan search term.
• Query dapat berupa search term tunggal, string dari term, frase atau ekspresi tertentu menggunakan simbol khusus, misalnya regular expression.
• Pencarian Full text: Metode yang membandingkan query dengan setiap kata di dalam teks, tanpa membedakan fungsi dari berbagai kata.
• Pencarian Bidang : Metode pencarian pada bidang struktural atau bibliografis spesifik, seperti penulis atau judul.
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
...Istilah
• Corpus: Koleksi dokumen yang diindeks dan dijadikan target pencarian.
• Daftar kata: Himpunan semua term yang digunakan dalam indeks untuk suatu corpus (dikenal sebagai vocabulary file).
• Pada pencarian full text, word list adalah semua term di dalam corpus, stop words dihapus. Term- term terkait dikombinasi dengan stemming.
• Controlled vocabulary: Metode indexing dimana word list bersifat tetap. Term-term dari vocabulary tersebut dipilih untuk mendeskripsikan setiap dokumen.
• Keyword: Nama untuk term-term dalam word list, terutama dengan controlled vocabulary
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
Mengurutan & Ranking Hit
• Ketika pengguna men-submit suatu query ke sistem IR, sistem mengembalikan sehimpunan hit. Pada koleksi dokumen besar, himpunan hit akan sangat besar.
• Nilai untuk pengguna sering tergantung pada urutan hit ditampilkan.
• Tiga metode utama:– Mengurutkan hit, misal berdasarkan tanggal– Meranking hit berdasarkan kemiripan antara
query dan dokumen– Meranking hit berdasarkan kepentingan dari
dokumen
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
IR Berbasis Teks
• Sebagian besar metode ranking didasarkan pada model ruang vektor (vector space model).
• Sebagian besar metode pencocokan (matching) didasarkan ada operator Boolean.
• Metode Web search mengkombinasikan model ruang vektor dengan ranking berdasarkan pada tingkat kepentingan dokumen.
• Banyak sistem (dalam praktek) menggabungkan fitur- fitur dari beberapa pendekatan.
• Pada bentuk dasar, semua pendekatan menganggap kata sebagai token terpisah, dengan usaha minimal untuk memahami kata-kata secara linguistik.
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
FrekuensiKata
• Observasi: Beberapa kata lebih umum daripada yang lain.
• Statistika: Koleksi sangat besar dari dokumen teks tak-terstruktur mempunyai karakteristik statistik serupa. Statistik ini:– Mempengaruhi efektifitas dan efisiensi
dari struktur data yang digunakan untuk mengindeks dokumen
– Banyak model retrieval memanfaatkannya
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
...Frekuensi Kata
• Contoh: Contoh berikut ini diambil dari :– Jamie Callan, Characteristics of Text,
1997– 19 Juta kata sampel– Slide berikut memperlihatkan 50 kata
yang paling umum, diranking (r) berdasarkan frekuensinya (f).
Pertemuan ke-2
Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester Ganjil 2010/2011
...Frekuensi Kata
Pertemuan ke-2
Distribusi RankingFrekuensi
• Untuk semua kata di dalam suatu dokumen, untuk setiap kata w– f adalah frekuensi munculnya w– r ranking dari w disusun menurut frekuensi. (kata
yang paling umum muncul mempunyai rank =1)
Pertemuan ke-2
Contoh Frekuensi Rank
• Slide berikut memperlihatkan kata-kata di dalam data Callan yang telah dinormalisasi. Dalam contoh ini:– r adalah ranking dari kata w
dalam sampel.– f adalah frekuensi kata w di dalam
sampel.– n adalah jumlah total kemunculan
kata di dalam sampel.
Pertemuan ke-2
...Contoh RankingFrekuensi
Pertemuan ke-2