Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi...

29
Temu-Kembali Informasi 2018 02: Arsitektur Search Engine Versi Ringkas ++

Transcript of Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi...

Page 1: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data

Temu-Kembali Informasi 2018

02: Arsitektur Search Engine

Versi Ringkas ++

Page 2: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data

Arsitektur Software

• Arsitektur Software merujuk ke struktur tingkat tinggi dari suatu sistem perangkat lunak.

• Struktur ini diperlukan untuk menjelaskan tentang sistem perangkat lunak.

• Setiap struktur terdiri dari elemen perangkat lunak, hubungan di antara mereka, dan properti dari elemen dan relasi tersebut.

• [Wikipedia]

Page 3: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data

Contoh 1:

Arsitektur Search Engine

Page 4: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data
Page 5: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data
Page 6: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data

Proses Indexing

Proses Pencarian (Search)

Data Storage

Indeks

Page 7: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data

Proses Indexing

Proses Pencarian (Search)

Data Storage

Akuisisi

Konversi ke plain text dan unified encoding

Document Store

Indeks

Page 8: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data

Proses Indexing

Proses Pencarian (Search)

Data Storage

Akuisisi Transformasi

Konversi ke plain text dan unified encoding

Index terms, fitur, klasifikasi, meta data

Document Store

Indeks

Page 9: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data

Proses Indexing

Proses Pencarian (Search)

Data Storage

Akuisisi Transformasi

Konversi ke plain text dan unified encoding

Index terms, fitur, klasifikasi, meta data

Indexing

Statistika,Pembobotan

AuxDocument

StoreIndeks

Bulk IndexingStatistika, inversi

Page 10: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data

Proses Indexing

Proses Pencarian (Search)

Data Storage

Akuisisi Transformasi

Konversi ke plain text dan unified encoding

Index terms, fitur, klasifikasi, meta data

Indexing

Statistika,Pembobotan

AuxDocument

StoreIndeks

Bulk IndexingStatistika, inversi

Querying

Transformasi

q

Query meaningQuery definitionQuery synonym

Query

Log

Page 11: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data

Proses Indexing

Proses Pencarian (Search)

Data Storage

Akuisisi Transformasi

Konversi ke plain text dan unified encoding

Index terms, fitur, klasifikasi, meta data

Indexing

Statistika,Pembobotan

AuxDocument

StoreIndeks

Bulk IndexingStatistika, inversi

Querying

Transformasi

q

Ranking

Query meaningQuery definitionQuery synonym

Query

Log

Page 12: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data

Proses Indexing

Proses Pencarian (Search)

Data Storage

Akuisisi Transformasi

Konversi ke plain text dan unified encoding

Index terms, fitur, klasifikasi, meta data

Indexing

Statistika,Pembobotan

AuxDocument

StoreIndeks

Bulk IndexingStatistika, inversi

Browsing

Querying

Transformasi

q

Ranking Presentasi

Query meaningQuery definitionQuery synonym

Query

Log

Page 13: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data

Proses Indexing

Proses Pencarian (Search)

Data Storage

Akuisisi Transformasi

Konversi ke plain text dan unified encoding

Index terms, fitur, klasifikasi, meta data

Indexing

Statistika,Pembobotan

AuxDocument

StoreIndeks

Bulk IndexingStatistika, inversi

Browsing

Querying

TransformasiPseudo Relevance Feedback

q

Ranking Presentasi

Query meaningQuery definitionQuery synonym

Query

Log

Page 14: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data

Proses Indexing

Proses Pencarian (Search)

Data Storage

Akuisisi Transformasi

Konversi ke plain text dan unified encoding

Index terms, fitur, klasifikasi, meta data

Indexing

Statistika,Pembobotan

AuxDocument

StoreIndeks

Bulk IndexingStatistika, inversi

Browsing

Querying

TransformasiPseudo Relevance Feedback

q

Ranking Presentasi

Query meaningQuery definitionQuery synonym

Query

Log

Page 15: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data

Proses Indexing

Proses Pencarian (Search)

Data Storage

Akuisisi Transformasi

Konversi ke plain text dan unified encoding

Index terms, fitur, klasifikasi, meta data

Indexing

Statistika,Pembobotan

AuxDocument

StoreIndeks

Bulk IndexingStatistika, inversi

Browsing

Querying

TransformasiPseudo Relevance Feedback

q

Ranking Presentasi

Query meaningQuery definitionQuery synonym

Query

(In)direct Relevance Feedback

LogQuery, Klik

& User

Page 16: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data

Proses Indexing

Proses Pencarian (Search)

Data Storage

Akuisisi Transformasi

Konversi ke plain text dan unified encoding

Index terms, fitur, klasifikasi, meta data

Indexing

Statistika,Pembobotan

AuxDocument

StoreIndeks

Bulk IndexingStatistika, inversi

Browsing

Querying

TransformasiPseudo Relevance Feedback

q

Ranking Presentasi

Query meaningQuery definitionQuery synonym

Query

(In)direct Relevance Feedback

LogQuery, Klik

& User

E V

A L

U A

S I

Page 17: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data
Page 18: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data

Contoh 2:

Arsitektur Search Engine

dari Microsoft Research

Page 19: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data

Arsitektur Search Engine

Inverted Index

Crawler

Halaman Tersimpan

Statistika Situs & Halaman

Internet

Pembangkit Index

Pengurai Halaman Pembangkit Graf Web Graf Web

Analisa Tautan

Pages

Sisi Offline

Sisi Online

User Interface

Caching

Indexing & Ranking

Query

Ranking Halaman

Hal

aman

Taut

an &

An

chor

s

Kata

Page 20: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data

Arsitektur: Crawler

Inverted Index

Crawler

Halaman Tersimpan

Statistika Situs & Halaman

Internet

Pembangkit Index

Pengurai Halaman Pembangkit Graf Web Graf Web

Analisa Tautan

Pages

Sisi Offline

Sisi Online

User Interface

Caching

Indexing & Ranking

Query

Ranking Halaman

Hal

aman

Taut

an &

An

chor

sKata

➢ Fungsi▪ Mengambil (Fetch) halaman web

dengan mengikuti hyperlink▪ Me-refresh halaman secara periodik

➢Masalah Inti▪ Bandwidth & storage terbatas vs.

volume data sangat besar▪ Frekuensi update halaman

➢ Solusi▪ Prioritaskan crawling berdasarkan

pada ranking halaman dan statistiklain

Page 21: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data

Arsitektur: Page Parser

Inverted Index

Crawler

Halaman Tersimpan

Statistika Situs & Halaman

Internet

Pembangkit Index

Pengurai Halaman Pembangkit Graf Web Graf Web

Analisa Tautan

Pages

Sisi Offline

Sisi Online

User Interface

Caching

Indexing & Ranking

Query

Ranking Halaman

Hal

aman

Taut

an &

An

chor

sKata

➢ Fungsi▪ Mengekstrak aliran data untuk indexing

a. Title: kata-kata dalam <title>…</title>b. URLc. Body

▪ Teks Anchor▪ Teks Plain▪ H1…6▪ Bold, Italic, etc▪ Large, Medium, Small

▪ Membangun peta link parsial▪ Mengirim hyperlink yang ditemukan ke

crawler

➢Masalah Inti▪ Fitur apa yang akan diekstrak?

Page 22: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data

Arsitektur: Index Builder

Inverted Index

Crawler

Halaman Tersimpan

Statistika Situs & Halaman

Internet

Pembangkit Index

Pengurai Halaman Pembangkit Graf Web Graf Web

Analisa Tautan

Pages

Sisi Offline

Sisi Online

User Interface

Caching

Indexing & Ranking

Query

Ranking Halaman

Hal

aman

Taut

an &

An

chor

sKata

➢ Fungsi▪ Membangun inverted index berdasarkan

pada data halaman yang telah diparse

➢ Masalah Inti▪ Efisiensi vs. memory terbatas & terdistribusi

➢ Solusi▪ Indexing terdistribusi▪ Partisi berdasarkan dokumen, bukan partisi

berdasarkan term

Page 23: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data

Inverted Index

Crawler

Halaman Tersimpan

Statistika Situs & Halaman

Internet

Pembangkit Index

Pengurai Halaman Pembangkit Graf Web Graf Web

Analisa Tautan

Pages

Sisi Offline

Sisi Online

User Interface

Caching

Indexing & Ranking

Query

Ranking Halaman

Hal

aman

Taut

an &

An

chor

s

Kata

Arsitektur: Link Analysis

➢ Fungsi▪ Mengukur kualitas atau otoritas dari suatu

halaman berdasarkan pada graf link

➢ Masalah Inti▪ Algoritma yang efisien pada graf raksasa▪ Link-spam?▪ Apakah hanya link analysis cara untuk

menentukan qualitas dari halaman?

Page 24: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data

Arsitektur: Indexing & Ranking

Inverted Index

Crawler

Halaman Tersimpan

Statistika Situs & Halaman

Internet

Pembangkit Index

Pengurai Halaman Pembangkit Graf Web Graf Web

Analisa Tautan

Pages

Sisi Offline

Sisi Online

User Interface

Caching

Indexing & Ranking

Query

Ranking Halaman

Hal

aman

Taut

an &

An

chor

s

Kata

➢ Masalah utama dalam komunitas IR dan telah dikajipuluhan tahun

➢ Fungsi▪ Indexing: dengan cepat menemukan halaman yang

mengandung term query▪ Ranking: mengurutkan halaman sesuai dengan relevansi

terhadap query

➢ Masalah Inti▪ Kinerja: inverted list untuk suatu term hot mungkin

ratusan megabyte.▪ Akurasi: fungsi ranking dengan ratusan parameter:

▪ Teks Anchor▪ Ranking halaman▪ Term proximity▪ TF*IDF▪ …

➢ Solusi▪ Kinerja: Top-K query & index pruning▪ Akurasi: Tuning atau learning?

Page 25: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data

Arsitektur: Caching

Inverted Index

Crawler

Halaman Tersimpan

Statistika Situs & Halaman

Internet

Pembangkit Index

Pengurai Halaman Pembangkit Graf Web Graf Web

Analisa Tautan

Pages

Sisi Offline

Sisi Online

User Interface

Caching

Indexing & Ranking

Query

Ranking Halaman

Hal

aman

Taut

an &

An

chor

s

Kata

➢ Fungsi▪ Men-cache hasil dari query yang

sering untuk menjawab ribuan query per detik dengan waktu responinteraktif

➢Masalah Inti▪ Apa yang dicache?

➢ Solusi▪ Cahing banyak level

▪ Level Query▪ Level Term

Page 26: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data

Contoh Lain Arsitektur Search Engine

Page 27: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data

Search Engine Google

Page 28: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data

Arsitektur Search Engine

CrawlerStore

Indexer

100 Million GBindexes

indexes

Search Interface

Algorithms(Programs)

trash

trash

trash

Sorted based on Content / Factors

WWW

60 Trillion PagesOr

60 Lakh Crore

Page 29: Temu-Kembali Informasi 2018 01: Pengantar Perkuliahan · Data Storage Akuisisi Transformasi Konversi ke plain text dan unified encoding Index terms, fitur, klasifikasi, meta data