Sistem Temu-Kembali InformasiPengantar Perkuliahan
HusniProgram Studi Teknik Informatika
Universitas Trunojoyo Madura
Semeter Gasal 2015 - 03 Sep. 2015
Perkenalan...
• Husni (UGM, ITB)– Bidang Minat Sistem Terdistribusi dan Web Data
Mining (Social Network Analysis, Web Retrieval)
– Lab. CC dan Lab. SisTer
– Email: [email protected]
– FB: facebook.com/lunix96
• Jam Diskusi Perkuliahan: – Kamis (13.00 s.d 17.00)
– Jumat (10.00 s.d 11.30)
• Web kuliah: Husni.trunojoyo.ac.id
2
Bentuk Perkuliahan
• 14 kali kuliah di kelas: 14 x 3 x 50 menit• Lab: Mandiri, sesuai kebutuhan (tentatif)• Jadwal Kuliah: Kamis, 07.20 – 09.30 dan 09.30 –
11.40, ruang F403• Tugas: Kelompok (4 s.d 5 mahasiswa): Proyek
pembuatan search engine mini– Web Crawler, Preprocessing, Indexing, Searching,
Ranking, Classification– Presentasi proposal pada pertemuan ke-7– Presentasi akhir pada pertemuan ke-14
• Penilaian: UTS (closed, 40%), UAS (30%), Proyek (40%)
3
Motivasi
• WWW atau Web telah menjadi sumber utama informasi bagi kebutuhan kerja maupun pengisi waktu
• Kandungan raksasa WWW akan terbuang jika informasi tidak dapat ditemukan (lagi), dianalisis dan dimanfaatkan.
• Setiap pengguna sebaiknya mampu dengan cepatmenemukan informasi yang relevan dan komprehensifsesuai kebutuhannya
• WWW telah menjadi penggerak utama dari inovasi dan sederet teknik baru telah diperkenalkan untuk menjinakkan dan memanfaatkan kandungan informasinya
• Recommender systems: Tool (web, mobile, standalone) yang sangat terkenal untuk mendukung pengguna menemukan dan memilih produk, layanan dan informasi.
4
Teknik Pengelolaan Data
5
Silabus
• Konsep dasar Information Retrieval (IR)
• Boolean retrieval, Indexing
• Model ruang vektor (vector space model, VSM)
• Klasifikasi Teks dan Ruang Vektor
• Evaluasi dalam Information Retrieval
• Web search & crawling dan link analysis
• Sistem Perekomendasi (Recommender)
• Collaborative & Content-based filtering and Social Filtering
• Hybrid recommender systems, Knowledge based recommenders, Conversational recommender systems, Context-dependent recommender systems, Group recommendations
6
Apa yang harus dipelajari?
• Dasar-dasar ilmiah dari bidang Pencarian & Temu-Kembali Informasi (Searching & IR)
• Teknik & Tool pencarian & penemuan informasi yang dapat dimanfaatkan untuk merancang danmengimplementasikansitus web khusus (eCommerce, eGovernment)
• Kelebihan & kekurangan berbagai teknik yang ada
• Analisis tentang manfaat dan keterbatasan teknik dan sistem terhadap aktor yang terlibat dalam proses IR
• Kemampuan untuk memutuskan kapan (untuk jenis produk atau layanan apa) suatu teknik dapat berguna atau tidak
• Mengidentifikasi aplikasi baru dari teknik-teknik tersebut.
7
Bahan Bacaan
• Topik-topik Information Retrieval:– C. D. Manning, P. Raghavan and H. Schutze. Introduction to
Information Retrieval, Cambridge University Press, 2008. http://nlp.stanford.edu/IR-book/information-retrievalbook.html
• Penelitian mengenai Recommender Systems termasuk baru, lahir sekitar ‘95. Koleksi paper dalam bentuk review ada di:– Ricci, F.; Rokach, L.; Shapira, B.; Kantor, P.B. (Eds.),
Recommender Systems Handbook. 1st Edition., 2011, 845p. 20 illus., Hardcover, ISBN: 978-0-387-85819-7. http://www.springerlink.com/content/978-0-387-85819-7
• Harus membaca paper juga, tidak hanya buku dan slide
8
Tugas dan Proyek (1)
• Semua tugas dan proyek dikerjakan dalam kelompok (3 s.d 5 Mahasiswa)
• (1) Tugas Pemrograman: – Preprocessing terhadap dokumen teks bahasa Indonesia:
Tokenisasi, Stemming, Stopword Removal dan Indexing
– Perhitungan kemiripan antar dokumen (atau dokumen dengan query) dan perankingannya (pada model ruang vektor)
– Evaluasi hasil pencarian/perhitungan kemiripan: Presisi, Recall, F-Measure
– Setiap anggota kelompok harus mampu menguasai 3 proses di atas secara manual (di atas kertas, boleh ber-kalkulator) 9
Tugas dan Proyek (2)
• (2) Tugas membaca dan merangkum paper tentang Web Search, Information Retrieval atau Recommender System 2 tahun terakhir (2014 s.d 2015) untuk melihat trend.
• Paper ini dijadikan sebagai salah satu referensi pada proyek Search Engine Mini
• Dipresentasikan pada pertemuan ke-7, sebagai bagian dari proposal proyek.
– Dikumpulkan: paper asli dan rangkumannya (A4, 1 spasi, Time New Roman 11 poin, 1 halaman)
– Presentasi Proposal Proyek: maks. 15 menit, harus tepat 3 slide, mahasiswa lain boleh bertanya. 10
Tugas dan Proyek (3)
• (3) Proyek Pembuatan prototipe Search Engine Mini
– Proposal proyek dipresentasikan pada pertemuan ke-7. Hasil: Layak (lanjut) atau ganti proyek (cari kasus lain)
– Laporan proyek (dikumpulkan): (1) latar belakang, (2) masalah yang diselesaikan, (3) solusi yang dipilih, (4) langkah-langkah dari metode/teknik dari solusi yang dipilih, (5) penjelasan kode program, (6) hasil yang diperoleh, (7) kesimpulan, (8) referensi, (9) peran dan tanggungjawab setiap anggota tim.
– Panjang laporan 5 halaman A4, 1.5 spasi.
– Dipresentasikan & didemokan pada pertemuan ke-14, maks. 20 menit.
11
Bagaimana Agar Lulus?
• Baca dan Pahami paper/bab yang akan didiskusikan di setiap perkuliahan – slide hanya memberikan pemahaman secara garis besar
• Jika ada hal yang tidak jelas selama perkuliahan, segera membuat catatan dan ajukan pertanyaan.
• Tidak ber-social media selama perkuliahan• Tim segera memulai proyek, agar:
– Punya waktu cukup untuk menyiapkan laporan– Mengirimkan laporan (draft) agar lekas direview– Mampu menjelaskan dengan baik aplikasi dari teknik
yang dipilih (saat dipresentasikan).
12
Penilaian
• Ujian Tengah Semester (UTS): 40%(kemampuan membangun inverted index, menghitung kemiripan antar dokumen dan cara evaluasinya)
• Laporan & Presentasi Proyek Recommender System: 40%
• Ujian Akhir Semester (UAS): 30%
(kemampuan memahami klasifikasi dokumen dan recommender system)
• Tugas Tambahan/Bonus Nilai? TIDAK ADA
13
14
15
Search Engine
16
Arsitektur Search Engine
17
18
Area Kerja Dalam Proses IR
• Web Crawling: menghimpun data dari Web• Data Extraction: mengambil informasi dan URL dari
halaman web• Preprocessing: menerapkan aturan bahasa untuk
menyederhanakan proses IR• Indexing: membuat index (pemetaan term ke dokumen)• Penanganan Query: mendapatkan dokumen yang relevan
dengan Query (kebutuhan informasi pengguna)• Klasifikasi dan Clusterisasi• Recommendation: memberikan dokumen yang sesuai
dengan kebutuhan/profil pengguna, berdasarkan kemiripan dokumen atau kemiripan pengguna
• Evaluasi sistem IR: Presisi, Recall, F-Measure
19
Amazon.com
20
movielens.org
21
Lain-lain
• Youtube
• igoogleportal
22
Pertanyaan
23
Top Related