INDEXING

17
INDEXING Teknik Informatika Universitas Trunojoyo Semester Genap 2011-2012

description

INDEXING. Teknik Informatika Universitas Trunojoyo Semester Genap 2011-2012. INDEXING. INVERTED FILES SUFFIX TREE & SUFFIX ARRARYS SIGNATURE FILES. INVERTED FILES. Terdiri dari Vocabulary (kata) daftar kata yang berbeda dari sebuah object kalimat/document Occurrences (kemunculan) - PowerPoint PPT Presentation

Transcript of INDEXING

Page 1: INDEXING

INDEXING

Teknik Informatika

Universitas Trunojoyo

Semester Genap 2011-2012

Page 2: INDEXING

INDEXING

INVERTED FILES SUFFIX TREE & SUFFIX ARRARYS SIGNATURE FILES

Page 3: INDEXING

INVERTED FILES

Terdiri dari Vocabulary (kata)

daftar kata yang berbeda dari sebuah object kalimat/document

Occurrences (kemunculan)Daftar posisi kemunculan dalam database dari masing-

masing kata

Page 4: INDEXING

Contoh INVERTED FILES

Kebutuhan penyimpanan vocabulary lebih kecil Kemunculan banyak kata mempengaruhi besarnya

penyimpanan apalagi kalau tiap kemunculan harus ditampilkan

Page 5: INDEXING

INVERTED FILES – Block Addressing

Suatu teknik yang digunakan untuk menguraingi kebutuhan penyimpanan, dengn jalan: Membagi text menjadi beberapa block Occurance mengacu pada block

Kelebihan Mengurangi jumlah pointers Selluruh kemunculan kata dalam single block

digabung dalam satu reference yaitu block

Page 6: INDEXING

Contoh Block Addressing

Page 7: INDEXING

Index Size

Page 8: INDEXING

INVERTED FILES Searching

Model pencarian yang dapat dilakukan Single Word Query diakhiri dengan

ditemukannya daftar dari posisi kata yang dicari Context Query lebih jika sulit dilakukan dengan

inverted files

Page 9: INDEXING

INVERTED FILES Search Algorithm

1. Vocabulary Search Kata atau paterns query dicari dalam vocabulary Frase dan kedekatan kata query dibagi menjadi single

word

2. Retrieval of Occurances Daftar posisi dari kata yang ditemukan ditampilkan

3. Manipulation of Occurances Daftar posisi diproses lagi untuk menemukan kata

kedekatan atau operasi boolean Jika block addressing digunakan, maka butuh pencarian

text langsung untuk menemukan kesalahan informasi dalam occurances

Page 10: INDEXING

INVERTED FILES - construction

Page 11: INDEXING

Construction – Large Text

Page 12: INDEXING

Suffix Tree

Melihat text sebagai sebuah sting yang panjang, setiap posisi dalam text diawali sebuah suffix text, dan setiap suffix text ditandai dengan posisi yang uniq

Page 13: INDEXING

Suffix Trees Structure

Page 14: INDEXING

Suffix Array

Page 15: INDEXING

Supra Indices – Suffix Array

Page 16: INDEXING

Signature Files

Page 17: INDEXING

Implementasi pd IR Model

INVERTED FILES Vocabulary & Occurrences Position index

SUFFIX TREE & SUFFIX ARRAY Phrase search & Keyword search

SIGNATURE FILES Efficient