Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau...

77
Sistem Temu-Kembali Informasi Garis Besar IR & RS Husni Program Studi Teknik Informatika Universitas Trunojoyo Madura Semeter Gasal 2015 - 10 Sep. 2015

Transcript of Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau...

Page 1: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Sistem Temu-Kembali InformasiGaris Besar IR & RS

HusniProgram Studi Teknik Informatika

Universitas Trunojoyo Madura

Semeter Gasal 2015 - 10 Sep. 2015

Page 2: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Outline

• Definisi & Arsitektur Information Retrieval

• Pencarian Web dan Search Engine

• Information Overload

• Recommender System

2

Page 3: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Temu-Kembali Informasi...

• Temu-Kembali Informasi atau Information Retrieval (IR) berurusan dengan representasi, penyimpanan dan organisasi data tidak terstruktur

• IR adalah proses pencarian di dalam suatu koleksi dokumen untuk kebutuhan informasi tertentu(berbentuk query)

• Misi IR: membantu pencarian informasi

• Dua paradigma utama dalam pencarian:

– Retrieval

– Browsing

3

Page 4: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Retrieval & Browsing

• x

4

Page 5: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Aktifitas Pencarian

• Retrieval

– Pencarian informasi khusus

– Biasanya fokus dan dengan maksud tertentu

• Browsing

– Melihat atau menjelajah informasi secara bertingkat

– Contoh: Asia-> Indonesia -> Madura -> Pantai -> Camplong

5

Page 6: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Search EngineMesin Pencarian

6

• Search engines: perangkat utama yang digunakan untuk mendapatkan informasi di web (Internet)

• Mengeluarkan suatu situs dari search engines akan menghentikan situs tersebut dari audien yang diharapkan.

Page 7: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Arsitektur Sistem IR

• x

7

Page 8: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Sejarah Search Engines

• Yahoo! (1994-) directory service dan search engine.

• Infoseek (1994-2001) search engine.

• Inktomi (1995-) infrastruktur search engine, dibeli Yahoo! 2003.

• AltaVista (1995-) search engine, dibeli Overture 2003.

• Ask Jeeves (ask.com, 1996-) Q&A dan search engine, dibeli IAC/InterActiveCorp 2005.

• Overture (1997-) pay-per-click search engine, dibeli Yahoo! 2003.

• Google (1998-) search engine.

• AlltheWeb (1999-) search engine, dibeli Overture 2003 .

• Bing (bing.com, 2009-) Microsoft search engine (reinkarnasi?) , sebelumnya Live (2006) dan MSN. 8

Page 9: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Statistika Search Engine

• Di Amerika, pada 2005 Google memperoleh 36.5%, terus men-dominasi. Juli 2015, 64% dari 18 jutaan pencarian. Terjadi penurunan mulai awal 2014 (1 – 2%). Bing 20.4%, Yahoo 12.7%.

• Di China dan Korea: Engine lokal lebih populer.

• Market share global:

Google 70.38%

9

Page 10: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Statistika Pencarian Tahunan Google

• 66,435 query per detik

10

Page 11: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Web IR: IR di Web

• Generasi Pertama– Pendekatan klasik: model boolean, vektor dan probabilistik

– Informational: Teknik IR/DB pada isi halaman, misal: Lycos, Excite, AltaVista

• Generasi Kedua – Web sebagai suatu graf

– Navigational: menggunakan data spesifik web: Topologi Link. Contoh: Google

• Generasi Ketiga– Penelitian terbuka

– Pencarian informasi mobile (bergerak)

– Pencarian dalam jejaring sosial

– Banyak potensi bisnis, jasa (layanan) pencocokan11

Page 12: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Masalah IR di Web

• Koleksi yang sangat besar dan heterogen:

– Dinamis

– Self-organized (dikelola sendiri)

– Hyperlinked (terhubung dengan link/URL)

• Query yang sangat pendek

• Pengguna tidak normal

• Sulit menentukan relevansi dan ranking hasil (tergantung pada konteks dan subjektif)

• Synonymy dan ambiguity

• Gaya kepengarangan (dalam penulisan isi dan formulasi query)

• Kepercayaan SE, pemuatan keyword: daftar kata kunci dimasukkan ke dalam tag meta atau body dari halaman web.

12

Page 13: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

IR: Konsep Dasar

• Pengguna membutuhkan informasi: diekspresikan sebagai query teks bebas

• Kebutuhan informasi : the perceived need forinformation that leads to someone using an information retrieval system in the first place [Schneiderman dkk.1997]

• Query menyandikan kebutuhan pencari informasi• Query adalah suatu dokumen untuk dibandingkan

dengan koleksi dokumen (file atau database informasi)• Efektifitas vs. Efisiensi• Bagaimana membandingkan dokumen? Perlu metrik

kemiripan (similarity )• Bagaimana menghindari pencarian sequential?

Dapatkah pencarian dilakukan dalam banyak server?13

Page 14: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Dari Kebutuhan menjadi Query

• Kebutuhan Informasi -> Query -> Search Engine -> Hasil -> Browse OR Query -> ...

14

Diterjemahkan oleh Pengguna ke dalam

suatu QueryKebutuhan Informasi

Page 15: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Taxonomy Pencarian Web

• Dalam konteks web kebutuhan dibalik query sering tidak informational

• [Broder, 2002] ada 3 maksud dari suatu query:

1. Navigational: Langsung menuju situs tertentu (20%):

– q = facebook http://www.facebook.com ?

2. Informational: Informasi yang disediakan oleh satu atau lebih halaman web (50%)

– q= lenovo Z475 informasi tentang lenovo Z475

3. Transactional: Mengerjakan aktifitas web-mediated (30%)

– q = hotel Bandara Traveloka?

– q = email google gmail?

15

Page 16: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Pencarian Exploratory

• x

16[Marchionini, 2006]

Page 17: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Proses Pencarian Informasi

• x

17

Page 18: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Matriks Penemuan Informasi

18

http://techcrunch.com/2011/03/03/the-age-of-relevance/

Page 19: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Strategi dan Perangkat

• Search engine hanya tool (diantara yang lain) yang dapat dimanfaatkan, dalam suatu strategi, untuk mencapai tujuan (mengerjakan suatu tugas)

• Tools baru telah muncul dan terus dikembangkan, menggabungkan kerja di bidang Human Computer Interaction (HCI) dan IR

• Pencarian Exploratory adalah area dimana tools baru akan banyak dikembangkan.

19

Page 20: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Antarmuka Pencarian Informasi

• Design Search User Interfaces• Evaluate Search User Interfaces• Models of the Information Seeking Process• Search Interfaces Fundamentals:

– Query Specification– Presentation of Search Results– Query Reformulation

• Advanced Topics, including:– Integrating Navigation with Search– Personalization in Search– Information Visualization– Mobile Search– Social Search– Multimedia Search

20

Page 21: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Pemakaian Mobile

• Share of Digital Media Time Spent: Desktop Computer vs. Mobile(Smartphone + Tablet)

• Source: comScore Media Metrix Multi-Platform (Beta), U.S., Dec-2012

21

Page 22: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Pemakaian Mobile

• Share of Browser-Based Page Traffic by Hour for Computer, Smartphone and Tablet Platforms

• Source: comScore Device Essentials, U.S., Monday, Jan. 21, 2013

22

Pengguna menyelesaikan pekerjaan informasi dengan menggunakan banyak perangkat

Page 23: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Waktu Pemakaian Media Digital

• Pemanfaatan perangkat mobile meningkat, +44% pemakaian aplikasi mobile dan +38% penggunakan web mobile

• Pemanfaatan desktop stabil

23

Page 24: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Pencarian Exploratory: Pencarian Mobile

• Pengguna dapat menjelajah (browse) pencarian (query dan hasilnya) yang dikerjakan oleh pengguna lain dalam suatu lokasi.

24

Page 25: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Sekarang...

• Informasi yang benar di waktu yang tepat

25

Page 26: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Pencarian Exploratoryliveplasma.com

26

Page 27: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Penemuan Informasimusicovery.com

27

Page 28: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Musicovery Mobile

28

Page 29: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Pencarian ExploratoryLinkedin People

29

Page 30: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Vivisimo

30

Page 31: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Search Engine Dinamis

31

Page 32: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Fitur Pencarian Informasi

• Tidak ada suatu strategi atau tool terbaik untuk mencari informasi

• Strategi tergantung pada:– Sifat dari informasi yang dicari oleh pengguna,

– Sifat dan struktur dari repository (gudang) content,

– Tool pencarian yang tersedia,

– Kebiasaan pengguna dengan informasi dan terminologi yang digunakan dalam repo,

– Kemampuan pengguna menggunakan tool pencarian secara kompeten.

32

Page 33: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Pencarian Informasi & Pembuatan Keputusan

• Information Search (IS) dan Decision Making(DM) sangat berkaitan

• IS untuk DM: kita mencari informasi (Eksternal & Internal) sebelum menyambil keputusan– Klasik dalam DM dan perilaku pengguna

• DM untuk IS: kita harus membuat keputusan mengenai informasi apa yang diperlukan atau kapan menghentikan pencarian– Fitur baru dari Web, disebabkah oleh Information

Overload.

33

Page 34: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Information Overload

• Internet = information overload: melimpah-ruahnya informasi sehingga menyulitkan pengambilan keputusan

• Teknologi IR dasar dapat membantu mencarikan content jika pengguna mengetahui pasti apa yang dicari

• Perlu pencarian exploratory untuk dapat membuat keputusan terbaik (perbandingan, akuisisi pengetahuan, pemilihan produk, dll.), karena:

– Tidak tahu cakupan pilihan yang tersedia

– Tidak tahu apa yang dicari

– Tidak mampu memilih meskipun telah diberikan hasil pencarian.

34

Page 35: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Neuroscience dan Information Overload

• Neuroscientists menemukan ketidakproduktifandan keterpakuan diri dikarenakan decision overload

• Otak dikonfigurasi untuk membuat sejumlah pasti keputusan per hari dan sulit untuk melebihi batas tersebut

• Pengolahan informasi berbiaya tinggi: memisahkan yang gampang dari yang penting merupakan pekerjaan berat, membuat otak letih

• Kapasitas pemrosesan dari pikiran/akal sadar diestimasi 120 bits per detik.

35

Page 36: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Perhatian

• Perhatian (attention): sumber daya sangat esensial bagi organisme.

• Jutaan neuron (attentional filters) secara konstan memonitor lingkungan untuk memilih hal-hal paling penting sebagai fokus

• Orang sukses (yang dapat mengusahakannya) memanfaatkan orang lain untuk mempersempit attentional filter (misal: sekretaris)

• Kebanyakan orang cenderung membiarkan pikirannya berjalan liar dan ber-siklus melalui kebanyakan pikiran (Did I close the door? Did I filed the request?).

36

Page 37: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Prinsip Attentional Filters

• Perubahan: Otak adalah detektor perubahan sangat hebat

• Ketika suatu perubahan terdeteksi, informasi dikirim ke pikiran sadar.– Contoh: seorang teman menelpon, jika suaranya terdengar

aneh maka anda menanyakan apakah dia baik-baik saja?

• Kepentingan: sesuatu yang secara personal penting akan berjalan melewati attentional filter– Contoh: dalam ruangan yang crowded terdengar kata-kata

yang sangat penting dan anda dengan seketika dapat mengikuti percakapan tersebut.

• Inattentional blindness basketball demo37

Page 38: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Recommender Systems

• Sehari-hari, kita bersandar pada rekomendasi dari orang lain, baik berbentuk ucapan, surat, review buku dan film di majalah, dll…

• Dalam recommender system (RS), orang-orang menyediakan rekomendasi sebagai input, sistem kemudian mengumpulkan danmengarahkan ke penerima yang tepat– Pengumpulan rekomendasi

– Mencocokkan rekomendasi tersebut dengan melakukan pencarian

38

Page 39: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Recommenders dan Search Engines

39

• SE bukan RS

• Meng-query rekomendasi ke SEakan memperoleh sedaftar RS

Page 40: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Amazon.com

40

Page 41: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Skenario Mobile

• Google Play?

41

Page 42: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Rekomendasi Linked-In

42

Page 43: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Rekomendasi Facebook

43

Page 44: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Komputasi Inti Recommender Systems

• Prediksi Rating: Model harus dibangun untuk memprediksi rating (nilai) bagi item-item yang belum dinilai (rate) oleh pengguna

– Rating numerik: regresi

– Rating diskret: klasifikasi

• Ranking: Skor bagi setiap item dihitung dan item diranking mengikuti skor tersebut (seperti pada SE)

– “Lebih simpel” hanya mengurutkan (tidak merating)

• Tugas Pemilihan: model harus dibangun untuk memilih N item paling relevan dan baru bagi pengguna

– Proses pasca prediksi rating /ranking, diterapkan strategi evaluasi tertentu.

44

Page 45: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Ide Collaborative Filtering

• Memperkirakan pendapat “masa depan” pengguna terhadap item-item tertentu dan merekomendasikan “item terbaik” kepada pengguna berdasarkan apa yangdisukai pengguna tersebut sebelumnya dan pendapat pengguna lain yang berpikiran serupa

• Collaborative Filtering (CF) hadir setelah content-basedtetapi menjadi metode paling terkenal

• CF merupakan aplikasi internet umum – harus didukung oleh infrastruktur jaringan– Pemanfaatan banyak server– Setidaknya banyak pengguna dalam satu server

• Tidak ada aplikasi CF yang standalone

45

Page 46: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Movielens: Pemberian Rating

46

Page 47: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Movielens: Rekomendasi

47

Page 48: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Matriks Rating

48

Page 49: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Collaborative Filtering

• Koleksi n pengguna U dan koleksi m item I

• Matriks rating rui berukuran n × m , dengan rui = ? Jika pengguna u tidak menilai item i.

• Prediksi untuk pengguna u dan item j dihitung sebagai

• Dimana, ru adalah rata-rata rating dari pengguna u, K adalah faktor normalisasi sehingga nilai absolut dari sum wuv 1, dan

49

Himpunan tetangga u yang telah menilai j

Korelasi pearson dari pengguna u dan v

Page 50: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Topik dalam Recommender Systems

• Prediction Algorithms

• Evaluation methodologies

• System deployment and Integration

• Method selection

• Conversational systems

• Persuasion

• Recommendation presentation and explanations

• Social computing

• Trust

• Preference elicitation and active Learning

• Robustness and security50

Page 51: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Tantangan dalam Recommender Systems

• Skalabilitas algoritma dengan data set besar dan real-world

• Recommender proactive

• Recommender yang menjaga privasi

• Keanekaragaman rekomendasi

• Integrasi ketertarikan (preferensi) jangka pendek dan panjang

• Model pengguna umum dan solusi lintas domain

• Model komputasional terdistribusi

• Merekomendasikan sederetan item (misal: playlist)

• Recommender bagi pengguna mobile

• Rekomendasi untuk kelompok

• Rekomendasi Sadar-Konteks51

Topik-topik potensial untuk Proyek atau Tugas Akhir

Page 52: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Jenis-jenis Teknik

52

Page 53: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Min input vs. Max output

• Sebagian besar pengguna tidak sabar mendapatkan hasil

dengan memberikan hanya sedikit input

• Ketertarikan pengguna dapat meningkat dan tergantungkonteks

• Pengguna ingin membuat pilihan yang akurat, yaitu mendapatkan item informasi yang relevan.

53

Page 54: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Collaborative Filtering & Google

• SE bukanlah RS, Tetapi...• Sebenarnya Google dan Collaborative Filtering

memiliki banyak kemiripan– Sama-sama meranking item– Ranking didasarkan pada opini dari penggunanya

• Collaborative Filtering: rating pada items• Google: link ke halaman web

– Keduanya merupakan ekspresi dari Web 2.0

• Web 2.0: melibatkan pengguna– Content dibuat oleh pengguna– Pengguna membantu mengatur, men-share, me-

remix, meng-kritik dan mengupdatenya.54

Page 55: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Google

• Google: perusahaan yang merajai pencarian dan periklanan online – didirikan oleh Larry Page dan Sergey Brin (Mahasiswa S3 di Stanford University)

• “googol” atau 10100 adalah istilah matematis yang dijadikan nama Google

• Sukses Google dalam pencarian terutama didasarkan pada algortima PageRank-nya

• Gartner memperkirakan saat ini Google menggunakan lebih dari 1 juta server, menangani hasil pencarian, gambar, video, email dan iklan.

• Google melaporkan: menghabiskan 200 s.d 250 juta dolar setahun untuk belanja perangkat IT.

55

Page 56: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Perankingan Halaman Web

• Menghitung inlinks: link menuju ke suatu halaman web.

masukkan teks berikut dalam form pencarian google:

link:www.mydomain.com

• Derajat kepentingan halaman-halaman web tidak sederajat– www.unibz.it vs. www.stanford.edu

– Inlinks sebagai penentu• www.stanford.edu memiliki 3200 inlinks

• www.unibz.it memiliki 352 inlink (Feb 2013)

• Apakah semua inlinks sederajat?– Pertanyaan berulang!

56

Page 57: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Formulasi Rekursif Sederhana

• Setiap suara (vote) link adalah proporsional terhadap kepentingan dari halaman sumbernya

• Jika halaman P dengan kepentingan x mempunyai n outlink, setiap link mendapatkan x/n suara

57

Page 58: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Model “aliran” Sederhana

• a, m dan y adalah kepentingan dari halaman

58

Page 59: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Memecahkan Persamaan Aliran

• 3 persamaan, 3 tidak diketahui, tidak ada konstanta– Tidak ada solusi yang unik

– Jika kita mengalikan suatu solusi dengan konstanta (λ) diperoleh solusi lain – coba dengan (2 2 1)

• Aturan tambahan memaksa keunikan– y+a+m = 1 (normalisasi)

– y = 2/5, a = 2/5, m = 1/5

– Ini adalah skor halaman-halaman di bawah asumsi model aliran

• Metode eliminasi Gauss bekerja untuk contoh kecil, diperlukan metode lebih baik untuk graf yang besar.

59

Page 60: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Matriks

• Matriks adalah larik bilangan segi empat

• aij adalah elemen matriks A dalam baris i dan kolom j

• A dikatakan matriks n x m jika mempunyai n baris dan m kolom

• Perkalian Matriks:

60

Page 61: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Latihan

• Hitung perkalian dua matriks berikut:

61

Page 62: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Solusi dari Latihan

• Hitung perkalian dua matriks berikut:

62

Page 63: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Formulasi Matriks dari Aliran

• Matriks M mempunyai satu baris dan satu kolom untuk setiap halaman web (matriks persegi)

• Andaikan halaman i mempunyai n outlink:– Jika i link ke j, maka Mij=1/n– Jika tidak Mij=0

• M adalah matriks stokastik baris– Jumlah (SUM) baris-baris bernilai 1

• Andaikan r adalah vektor dengan satu entri per halaman web– ri adalah skor kepentingan halaman i– Dinamakan sebagai vektor rank

63

Page 64: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Contoh

64

Page 65: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Power Iteration Solution

65

Proses tersebut meng-converges rankvector apapun vektor awalnya,Diberikan bahwa SUM entrinya adalah 1.

Page 66: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Latihan

• Buktikan bahwa jika M adalah matriks link yang dideskripsi sebelumnya dan M∞ = (aij) maka a1j= a2j

= … = anj untuk semua j=1,…,n. Setiap kolom bersifat konstan.

• Hint: gunakan fakta bahwa jika v adalah suatu vektor baris umum yang jumlah entri =1 maka vM∞ = r (Vektor rank)

66

Page 67: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Dari Ranking Statik ke Dinamis

• Skor PageRank dari suatu haaman bersifat statik

– Tidak tergantung pada Query pengguna

• Bagaimana kita dapat me-retrieve halaman-halaman yang relevan bagi Query pengguna (dan mempunyai skor page-rank tinggi)?

• Kita harus menghitung skor untuk setiap halaman lain: derajat kecocokan antara Query dengan halaman

• Akan dibahas di pertemuan lain?

67

Page 68: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Bagaimana Google Meranking Tweets

• Tweets: teks microblog dengan panjang maks. 140-karakter yang dibuat oleh anggota Twitter

• Kuncinya adalah mengidentifikasi "reputed followers," –Twitterers"follow" komentar dari Twitterers lain yang telah mereka pilih, dan mereka juga diikuti "followed“

• Anda mendapatkan reputasi dan kemudian anda memberikan reputasi

• Jika banyak orang mengikuti anda, dan anda kemudian mengikuti seseorang – maka meskipun orang baru ini tidak mempunyai banyak pengikut (follower), tweetnya dianggap bernilai (valuable)

• Satu pengguna mengikuti penguna lain dalam media sosial adalah analog dengan satu halaman ber-link ke halaman lain pada Web –keduanya adalah bentuk rekomendasi

• http://www.technologyreview.com/web/24353/ 68

Page 69: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

RS vs. SE I

• Penelitian Recommender system telah mengambil teknik-teknik dari IR (misal: content-based filtering)

• Search engines telah menggunakan ide dari recommender systems (suatu halaman dikatakan penting jika di-link-kan/disokong oleh halaman lain)

• IR berurusan dengan repo besar content tak-terstruktur mengenai berbagai topik

• RS fokus pada repo content kecil pada satu topik khusus

• Personalization dalam IR (personalized searchengines) menerima banyak perhatian lebih (misal: personalized google) – learning to rank.

69

Page 70: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

RS vs. SE II

• IR berurusan dengan “locating relevant content” –pengguna sebaiknya mampu mengevaluasi relevansi dari himpunan yang diretrieve

• RS berurusan dengan “differentiating relevantcontent” – pengguna punya tidak cukup pengetahuan untuk mengevaluasi relevansi– Contoh. Bandingkan memilih kamera dengan Google dan

dengan dpreview.com

• IR dan RS mendukung tahapan berbeda dari proses pencarian/penemuan informasi

• Sistem informasi yang efektif harus memadukan teknik-teknik yang hadir dari dua disiplin ini.

70

Page 71: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

SE Vertical dan LBS

• Vertical SE adalah specialists (fokus pada topik spesifik) dalam perbandingan terhadap generalists (Misal: Google dan Yahoo!)

– Health dan medicine: medstory.com

– Situs Travel: Kayak.com atau Expedia.com

– Real-estate: Zillow.com atau Trulia.com (pencarian berbasis lokasi)

– Job search: Indeed.com atau Monster.com

– Shopping search engines: Shopzilla.com dan MySimon.com

• Location-based search (LBS) menggunakan informasi geografis untuk menyediakan hasil pencarian yang lebih relevan. 71

Page 72: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Search Engine Dinamis

72

Page 73: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Medstory.comQuery: Retinoblastoma

73

Page 74: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Hasil Pencarian di GoogleQuery: Retinoblastoma

74

Page 75: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Zillow.com

75

Page 76: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Trulia: Real-Estate Search

76

Page 77: Sistem Temu-Kembali Informasi - Komputasi · PDF file•Temu-Kembali Informasi atau Information Retrieval ... penyimpanan dan ... dalam ruangan yang crowded terdengar kata-kata yang

Bahan Bacaan

• Andrei Z. Broder: A taxonomy of web search. SIGIR Forum 36(2): 3-10 (2002)

• Gary Marchionini: Exploratory search: from finding to understanding. Commun. ACM 49(4): 41-46 (2006)

• Resnick, P. and Varian, H. R. (1997). Recommender systems. Communications of the ACM,40(3):56-58.

77