Sistem Temu Kembali Informasi - Rizal Setya · PDF file001 Information Retrieval Ricardo...

19
Sistem Temu Kembali Informasi ?

Transcript of Sistem Temu Kembali Informasi - Rizal Setya · PDF file001 Information Retrieval Ricardo...

Page 1: Sistem Temu Kembali Informasi - Rizal Setya  · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk

Sistem Temu Kembali Informasi ?

Page 2: Sistem Temu Kembali Informasi - Rizal Setya  · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk

Dokumen

Page 3: Sistem Temu Kembali Informasi - Rizal Setya  · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk

Penyimpanan yang Terorganisasi

Page 4: Sistem Temu Kembali Informasi - Rizal Setya  · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk

Database

Database Mahasiswa

Buku ID Nama Buku Pengarang

001 Information Retrieval Ricardo baeza

002 Matematika Diskrit Rinaldi Munir

003 Pengenalan Java Abdul Kadir

004 Pengenalan C++ Abdul Kadir

005 Design Pattern Arnold

Page 5: Sistem Temu Kembali Informasi - Rizal Setya  · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk

Unstructured

Siapa pemain dalam novel tersebut ?

Page 6: Sistem Temu Kembali Informasi - Rizal Setya  · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk

Digital Library UB

Page 7: Sistem Temu Kembali Informasi - Rizal Setya  · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk

Google

Page 8: Sistem Temu Kembali Informasi - Rizal Setya  · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk

Database Retrieval vs IR

• Database retrieval

– Dokumen mana yang mengandung himpunan keyword?

– Semantik didefinisikan dengan baik

– Error dari suatu obyek mengakibatkan kegagalan!

• Information retrieval

– Informasi mengenai suatu subyek atau topik

– Semantik dapat bersifat lepas (longgar)

– Error kecil ditoleransi

Page 9: Sistem Temu Kembali Informasi - Rizal Setya  · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk

Pengertian IR

unstructured

• retrieval

Page 10: Sistem Temu Kembali Informasi - Rizal Setya  · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk

Information Retrieval

• index

• retrieve

• retrieve

• Tujuan: Me-retrieve semua dokumen yang relevan sekaligusme-retrieve sesedikit mungkin dokumen yang tidak relevan

Page 11: Sistem Temu Kembali Informasi - Rizal Setya  · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk

• Relevansi merupakan suatu judgment (keputusan)subyektif dan dapat didasarkan pada:

– Topik yang tepat.

– Waktu (informasi terbaru).

– Otoritatif (dari suatu sumber terpercaya).

– Kebutuhan informasi dari pengguna.

• Kriteria relevansi utama: suatu sistem IR sebaiknya(harus) memenuhi kebutuhan informasi pengguna.

Relevan

Page 12: Sistem Temu Kembali Informasi - Rizal Setya  · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk

Sistem IR

Page 13: Sistem Temu Kembali Informasi - Rizal Setya  · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk

Sistem IR

Page 14: Sistem Temu Kembali Informasi - Rizal Setya  · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk

Pencarian Keyword

• Ide paling sederhana dari relevansi: apakahstring query ada di dalam dokumen (kata demikata, verbatim)?

• Ide yang lebih fleksibel: Berapa sering kata-kata di dalam query muncul di dalamdokumen, tanpa melihat urutannya (bag ofwords)?

Page 15: Sistem Temu Kembali Informasi - Rizal Setya  · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk

Masalah dengan Keyword

• Mungkin tidak me-retrieve dokumen relevan yangmenyertakan synonymous terms.

– “restaurant” vs. “café”

– “NDHU” vs. “National Dong Hwa University”

• Mungkin me-retrieve dokumen tak-relevan yang menyertakanambiguous terms.

– “bat” (baseball vs. mamalia)

– “Apple” (perusahaan vs. buah-buahan)

– “bit” (unit data vs. perilaku menggigit)

Page 16: Sistem Temu Kembali Informasi - Rizal Setya  · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk

Bukan Sekedar Keyword

• Kita akan mendiskusikan dasar-dasar IR berbasis keyword,tetapi…

– Fokus pada perluasan dan pengembangan terakhir untukmendapatkan hasil terbaik.

• Kita akan membahas dasar-dasar pembangunan sistem IRyang efisien, tetapi…

– Fokus pada algoritma dan kemampuan dasar, bukanmasalah sistem yang memungkinkan pengembangan kedatabase ukuran industri.

Page 17: Sistem Temu Kembali Informasi - Rizal Setya  · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk

IR Cerdas

• Memanfaatkan pengertian atau makna dari katayang digunakan.

• Melibatkan urutan kata di dalam query.

• Beradaptasi dengan pengguna berdasarkan padafeedback, langsung atau tidak langsung.

• Memperluas pencarian dengan term terkait.

• Mengerjakan pemeriksaan ejaaan/perbaikan tandapengenal otomatis.

• Memanfaatkan Otoritas dari sumber

Page 18: Sistem Temu Kembali Informasi - Rizal Setya  · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk

Perkembangan IR

1. Klasifikasi Dokumen

2. Clustering Dokumen

3. Peringkasan Teks

4. Question Answering System

Page 19: Sistem Temu Kembali Informasi - Rizal Setya  · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk

Portal Jurnal

• Computer.org (gunakan proxy UB) :

• http://scholar.google.com/

• http://www.sciencedirect.com/ :

• Other