INDEXING
description
Transcript of INDEXING
INDEXING
Teknik Informatika
Universitas Trunojoyo
Semester Genap 2011-2012
INDEXING
INVERTED FILES SUFFIX TREE & SUFFIX ARRARYS SIGNATURE FILES
INVERTED FILES
Terdiri dari Vocabulary (kata)
daftar kata yang berbeda dari sebuah object kalimat/document
Occurrences (kemunculan)Daftar posisi kemunculan dalam database dari masing-
masing kata
Contoh INVERTED FILES
Kebutuhan penyimpanan vocabulary lebih kecil Kemunculan banyak kata mempengaruhi besarnya
penyimpanan apalagi kalau tiap kemunculan harus ditampilkan
INVERTED FILES – Block Addressing
Suatu teknik yang digunakan untuk menguraingi kebutuhan penyimpanan, dengn jalan: Membagi text menjadi beberapa block Occurance mengacu pada block
Kelebihan Mengurangi jumlah pointers Selluruh kemunculan kata dalam single block
digabung dalam satu reference yaitu block
Contoh Block Addressing
Index Size
INVERTED FILES Searching
Model pencarian yang dapat dilakukan Single Word Query diakhiri dengan
ditemukannya daftar dari posisi kata yang dicari Context Query lebih jika sulit dilakukan dengan
inverted files
INVERTED FILES Search Algorithm
1. Vocabulary Search Kata atau paterns query dicari dalam vocabulary Frase dan kedekatan kata query dibagi menjadi single
word
2. Retrieval of Occurances Daftar posisi dari kata yang ditemukan ditampilkan
3. Manipulation of Occurances Daftar posisi diproses lagi untuk menemukan kata
kedekatan atau operasi boolean Jika block addressing digunakan, maka butuh pencarian
text langsung untuk menemukan kesalahan informasi dalam occurances
INVERTED FILES - construction
Construction – Large Text
Suffix Tree
Melihat text sebagai sebuah sting yang panjang, setiap posisi dalam text diawali sebuah suffix text, dan setiap suffix text ditandai dengan posisi yang uniq
Suffix Trees Structure
Suffix Array
Supra Indices – Suffix Array
Signature Files
Implementasi pd IR Model
INVERTED FILES Vocabulary & Occurrences Position index
SUFFIX TREE & SUFFIX ARRAY Phrase search & Keyword search
SIGNATURE FILES Efficient