TEMU KEMBALI CITRA DAN TEKS DENGAN · PDF filedalam bahasa Inggris, Perancis, dan Jerman....
Transcript of TEMU KEMBALI CITRA DAN TEKS DENGAN · PDF filedalam bahasa Inggris, Perancis, dan Jerman....
TEMU KEMBALI CITRA DAN TEKS DENGAN PENCARIAN
TEKSTUAL BERBASIS INFORMATION GAIN, LATENT
SEMANTIC ANALYSIS DAN WEIGHTED TREE SIMILARITY
Hasan Dwi Cahyono1), Agus Zainal Arifin2), Nanik Suciati3)
Teknik Informatika, Fakultas Teknologi Informasi
Institut Teknologi Sepuluh Nopember
Surabaya, Indonesia
Email : [email protected], [email protected], [email protected]
ABSTRAK
Akses informasi seiring perkembangan internet pada konten multimedia dan teks mengalami kemajuan
yang cukup pesat. Bahkan pada beberapa tahun terakhir telah banyak mesin pencari berbasis sistem temu kembali
citra berbasis konten dikembangkan. Namun karena hasil pencarian metode tersebut masih terbatas dan kurang
memuaskan dibanding pencarian berbasis teks, maka diperlukan metode yang mampu mengabungkan pencarian
berbasis teks dan citra dengan anotasi teks tidak hanya dalam satu bahasa. Selain itu, sekumpulan dataset dengan
jumlah besar dan sangat heterogen, membutuhkan metode yang dapat mengatur penggunaan informasi tekstual.
Oleh karena itu, dalam penelitian ini diusulkan metode baru pada temu kembali citra dan teks dengan pencarian
tekstual berbasis Information Gain (IG), Latent Semantic Analysis (LSA), dan Weighted Tree (W-Tree) similarity
dalam bahasa Inggris, Perancis, dan Jerman. Pada tahap pertama, LSA digunakan untuk menemukan relasi
semantik pada informasi tekstual serta IG untuk mengatur penggunaan informasi tekstual serta memilih
kombinasi bahasa yang tepat. Selanjutnya, dilakukan proses pembentukan dan pencocokan W-Tree dari database
dengan W-Tree dari query user. Sistem akan menampilkan keluaran berupa daftar dokumen beserta nilai
kemiripannya. Dari percobaan pada dataset sebanyak 28.550, pencarian tekstual berbasis LSA, IG, dan W-Tree
similarity mampu meningkatkan Mean Average Precision 30% dibanding pencarian tekstual LSA dan W-Tree
pada temu kembali citra dan teks, serta 117% dibanding pencarian visual saja.
Kata kunci: pencarian teks dan citra, LSA, W-tree, information gain.
ABSTRACT
Access to information on the internet as the development of multimedia and text contents are
progressing quite rapidly. Even in recent years image-based search engine has been developed. However,
because of the result of these methods is limited and less satisfying than text-based search, it requires a method
that able to combines text and image-based search. In addition, a set of datasets with large and highly
heterogeneous, requiring a method that able to regulate the use of textual information. Therefore, this study
proposed a new method on image and text retrieval with textual search based on Information Gain (IG), Latent
Semantic Analysis (LSA), and Weighted Tree (W-Tree) similarity in English, France, and German. At the first
stage, LSA is used to find semantic relations on textual information and the IG to regulate the use of textual
information. Furthermore, performed a process of forming and matching between database W-Tree and user
queries W-Tree. The system will show a list of documents and their output value of similarity. From experiments
on the dataset as much as 28,550, textual search based on LSA, IG, and W-Tree similarity able to increase the
Mean Average Precision 30% compared to LSA and W-Tree similarity, and 117% compared to visual search
only.
Keywords: text and image retrieval, LSA, W-tree, information gain.
PENDAHULUAN
Berbagai macam jenis informasi dalam
jumlah besar terakumulasi di internet setiap
harinya, dan jumlahnya juga semakin
bertambah setiap hari. Maka dari itu perlu
dilakukan automatisasi sebagai cara untuk
mendapatkan akses informasi yang lebih efektif
dan efisien [1]. Salah satu cara pencarian
informasi diinternet secara efektif adalah
pencarian berdasarkan informasi teks yang
dapat ditemukan pada hampir semua mesin
pencari. Dan faktanya, pencarian berdasarkan
informasi teks ini memiliki hasil yang cukup
baik untuk citra dengan anotasi teks seperti
nama entitas, manusia, objek, atau tempat,
namun pencarian seperti ini tidak dapat bekerja
baik pada anotasi teks yang bersifat umum.
Pencarian berbasis anotasi teks jarang
menggambarkan background setting atau
gambaran visual, seperti warna, tekstur, bentuk,
dan juga ukuran dari objek. Selain itu,
pencarian berbasis teks pada konten non
tekstual tidak terstruktur seperti video, audio,
dan juga citra, tidak sebagus dan seefektif
pencarian pada dokumen tekstual [2] [3].
Berlandaskan keterbatasan tersebut,
pencarian tekstual saja tidak cukup untuk
melakukan pencarian gambar atau juga konten
multimedia lainnya. Sehingga perlu adanya
penggabungan pencarian tekstual dengan teknik
yang mempertimbangkan fitur visual. Saat ini
diketahui adanya peningkatan ketertarikan yang
cukup pesat terhadap sistem yang tidak hanya
dapat menyimpan informasi citra tetapi juga
linked text (metadata). Bahkan ide ini telah
dibuktikan dalam berbagai forum dan
konferensi ilmiah pada beberapa tahun
belakangan [4].
Salah satu cara untuk memperdalam
makna teks pada citra adalah penggunaan
model kemiripan tekstual yang seringkali
mengalami kendala pada sisi leksikal. Solusi
tersebut adalah dibangun sebuah model
kemiripan berdasarkan metode Latent Semantic
Analysis (LSA) dan Weighted tree (W-Tree )
yang terbukti mampu menangani kelemahan
leksikal. LSA dan W-Tree terbukti efektif
namun pada jumlah data dalam jumlah besar
yang terdiri lebih dari satu bahasa dan dengan
tingkat heterogensi yang tinggi metode tersebut
tidak mampu mengatasi noise yang terjadi.
Oleh karena itu dalam penelitian ini,
diusulkan metode baru pada temu kembali citra
dan teks dengan pencarian tekstual berbasis
Information Gain (IG), LSA, dan W-Tree
similary. Metode ini digunakan pada dataset
sebanyak 28.550 yang terdiri dalam bahasa
Inggris, bahasa Perancis, dan bahasa Jerman.
METODE
Latent Semantic Analysis (LSA) LSA adalah suatu metode dimana
dekomposisi nilai singular digunakan untuk
membentuk generalisasi semantik dari bagian
tekstual. LSA menggunakan fakta bahwa kata-
kata tertentu muncul dalam konteks yang sama
untuk membangun hubungan antara makna dari
kata [5]. Proses tersebut dilakukan dengan
membangun sebuah matriks term-document.
Dalam hal ini masing-masing baris mewakili
kata/term yang unik dan kolomnya mewakili
masing-masing dokumen. Kemudian sel pada
matrik diisi frekuensi kemunculan kata/term
tersebut. Selanjutnya matriks tersebut akan
diproses menggunakan teknik Single Value
Decomposition (SVD).
SVD didasarkan pada sebuah teorema
dalam aljabar linier yang menyatakan bahwa
sebuah matriks persegi dapat dipecah menjadi
perkalian dari tiga matriks : sebuah matriks
orthogonal U, sebuah matriks diagonal S, dan
sebuah matriks transpose dari matriks
orthogonal V. Teorema tersebut dinyatakan
pada persamaan:
Am×n = Um×r . Sr×r. Vr×n,T (1)
dimana UTU = I; VTV = I; kolom dari U adalah
eigenvector orthonormal dari AAT, kolom dari
V adalah eigenvector orthonormall dari ATA,
dan S adalah sebuah matriks diagonal yang
berisi akar dari nilai eigenvalue dari U atau V
dalam urutan dari besar ke kecil.
Pada penelitian ini, implementasi
perhitungan SVD memanfaatkan package
LingPipe dari Java [6].
Information Gain Information gain adalah sebuah
pengukuran berdasarkan entropi dari sistem,
yaitu disorder degree dari sistem [7].
Pengukuran ini mengindikasikan pada apa
entropi sistem secara keseluruhan berkurang jika
diketahui nilai dari atribut tertentu (cabang pada
kasus yang diangkat). Sehingga, dapat
ditunjukkan bagaimana seluruh sistem
terhubung pada sebuah atribut. Dengan kata
lain, seberapa banyak informasi pada atribut
berkontribusi kepada sistem. Persamaan untuk
menghitung IG adalah:
,|| ECHCHECIG (2)
dimana IG(C|E) adalah information gain dari
cabang atau atribut E, H(C) adalah sistem
entropi dan H(C|E) adalah entropi relatif
terhadap sistem ketika nilai cabang dari E
diketahui.
Entropi terhadap sistem
mengindikasikan disorder degree dengan
persamaan:
|C|
1i
)ip(c2)logip(cCH , (3)
dimana p(ci) adalah nilai probabilitas terhadap i.
Berikut adalah persamaan entropi relatif:
,||
1
)|(2log)|(||
1
)(|
C
ijeicpjeicp
E
ijepECH
(4)
dimana p(ei) adalah nilai probabilitas i terhadap
atribut e, dan p(ci|ej) adalah probabilitas ci
terhadap ej.
Weighted Tree Similarity
Weighted Tree Similarity pada dasarnya
merupakan metode untuk mengetahui kemiripan
kebutuhan antara buyer dan seller dengan
menggunakan Weighted Tree sebagai
representasi informasinya.
Struktur Weighted Tree
memperkenalkan konsep node berlabel, arc
berlabel, dan arc berbobot yang
merepresentasikan relasi parent – child dari
suatu atribut produk / jasa. Informasi semantik
dikandung tidak hanya pada label node tetapi
juga pada label arc.
Sedangkan bobot arc merepresentasikan
tingkat kepentingan (importance) dari suatu arc
(atribut produk/jasa). Berikut dijabarkan definisi
Weighted Tree secara bertahap mulai dari tree
yang paling sederhana hingga tree yang telah
sempurna berbentuk struktur Weighted Tree.
Contoh Weighted Tree dengan cabang
berlabel dan berbobot ditampilkan pada
Gambar 1.
Gambaran Dataset Pengujian
Dalam penelitian ini, dataset yang
digunakan adalah metadata yang memiliki citra
dan teks yang saling berkesuaian oleh CLEF
(Cross-Language Evaluation Forum) pada tema
khusus yaitu Wikipedia Retrieval. Tema ini
dikenal sebagai ImageCLEF 2010 Wikipedia
Collection. Dataset percobaan terdiri dari
ImageCLEF Wiki 2010 terdiri dari 28.550 citra
beserta annotasi teks dalam bentuk xml seperti
pada
Gambar 2.
Adapun sebaran dataset tersaji dalam
. Sebaran tersebut menunjukkan anotasi
teks dalam ImageCLEF 2010 Wikipedia sangat
heterogen, dengan hampir 3% dari dataset yang
memiliki anotasi pada ketiga bahasa, 16% pada
dua bahasa, 45% pada satu bahasa, dan 1.5%
tidak terdapat keterangan. Adapun bagian yang
digunakan untuk pengujian adalah description,
caption, dan juga comment yang berada pada
anotasi bahasa Inggris (en), bahasa Jerman (de),
dan bahasa Perancis (fr) saja. Untuk bagian
yang lain tidak dimasukkan dalam pengujian.
Arsitektur Sistem
Pada sistem yang digagas, ada 3 tahapan
yaitu preprocessing, pencarian, dan
penggabungan. Proses tersebut seperti pada
Gambar 3.
Gambar 1. Tree dengan label dan bobot.
Tabel 1. Sebaran anotasi teks dataset
Bahasa Jumlah
Inggris 5666
Jerman 4080
Perancis 3144
Inggris + Jerman 1760
Inggris + Perancis 1648
Jerman + Perancis 1128
Inggris + Jerman + Perancis 778
Tanpa Anotasi 385
Gambar 2. Salah satu dataset yang terdiri dari citra dan teks.
CBIR System (GIFT)
1. Local Colour2. Global Colour,3. Local Texture
4. Global Texture
Image Dataset
List of Relevant Document
(Lv)
Chancellery in Berlin, since 2001 (en)Bundeskanzleramtsgebäude in Berlin (de)
La chancellerie (fr)
LSAInformation
Gain
Text Dataset
Image Query Tekstual Query
1. Document Vector 2. Scales
3. Term Vector
W-TreeList of Relevant
Document(LT)
Merging both list
List of Relevant Document
(Lfinal)
Gambar 3. Arsitektur sistem.
Preprocessing
Untuk dapat menganalisa strategi
pengabungan yang akan dilakukan, dua
percobaan dilakukan. Pertama berdasarkan citra
dan yang kedua berdasarkan tekstual [8].
Pada pemrosesan citra, setiap citra
diproses dengan menggunakan sistem CBIR
bernama GIFT1. Sistem ini menggunakan
empat fitur pada proses retrieval-nya. Fitur
yang dipakai GIFT adalah local color, global
color, local texture, dan global texture.
Pada pemrosesan tekstual, dilakukan
stemming dengan menggunakan snowball
stemmer untuk bahasa Inggris, bahasa Perancis,
dan bahasa Jerman pada setiap dokumen.
Setelah itu diproses dengan metode LSA untuk
mendapatkan Term Document Metric.
Selanjutnya, dengan SVD didapatkan document
vector, term vector, dan scales.
Pencarian Dokumen Tekstual Dan Visual
Pada pencarian visual, setelah
dilakukan ekstraksi fitur, dilakukan pencocokan
dengan dataset citra. Hasil yang didapat pada
pencarian visual berkisar pada 0 s/d 1. Semakin
mendekati 1 berarti citra yang ditampilkan
semakin mirip dengan citra user. Dokumen
hasil dari pencarian visual diberikan notasi LV.
Untuk efektifitas, hanya 1000 dokumen dengan
nilai relevansi teratas saja yang diambil.
Pada pencarian tekstual, setelah
dilakukan perhitungan dengan LSA dan
didapatkan document score (nilai kemiripan),
pada setiap cabang dan pada setiap kombinasi
bahasa (en, de, fr, en+de, en+fr, de+fr,
en+de+fr).
Permasalahan yang muncul ketika
dilakukan penggabungan bahasa adalah
memilih nilai document score (kemiripan) yang
tepat jika ada lebih dari 1 nilai. Untuk memilih
document score digunakan nilai maksimal
seperti pada persamaan berikut: ),_(max
jijscoredoc
is
(5)
dimana i adalah cabang (description, comment,
caption) dan j adalah kombinasi bahasa(en, de,
fr, en+de, en+fr, en+de+fr).
Setelah document score didapatkan,
maka dilakukan pemisahan cabang berdasarkan
IG. Cabang dengan IG tertinggi menjadi C1, 2
cabang tertinggi menjadi C2, dan seluruh
cabang tanpa memperhitungkan nilai IG yaitu
C3 (W-Tree).
Penggabungan Hasil Pencarian Untuk menggabungkan hasil pencarian
tekstual dan visual, dilakukan beberapa
percobaan dengan berat pada hasil pencarian
visual dan tekstual. Rumus yang digunakan
untuk menggabungkan kedua hasil pencarian
sebagai berikut:
,1 visualtextTOTAL RSVRSVRSV(6)
dimana α ϵ [0, 1] adalah nilai yang diberikan
pada RSV tekstual terhadap RSV visual. Total
percobaan yang dilakukan adalah 9 dimana
nilai α = {0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8,
0.9} ditambah tekstual saja α = 1 dan visual
saja α = 0.
Pengukuran Efektifitas Sistem Untuk mengukur seberapa efektif
sistem yang digagas, digunakan mean average
precision (MAP). Secara geometri, MAP
berada dibawah area grafik recall – precision.
MAP memberikan informasi lebih
banyak dari pengukuran lain seperti precision
ataupun R-precision, dan oleh karena itu, lebih
efektif dan dapat memberikan hasil dengan
stabilitas lebih baik [9].
Untuk mendapatkan nilai MAP,
digunakan TREC_EVAL2 yang sudah terbukti
dapat melakukan evaluasi dengan batasan
precision dan recall untuk menilai performa
temu kembali informasi [10].
HASIL DAN PEMBAHASAN
Tujuan utama dilakukan percobaan ini
adalah menunjukkan bahwa dengan
penggunaan cabang dengan nilai IG tertinggi
lebih baik daripada menggunakan seluruh
cabang yang ada. Untuk itu digunakan dataset
seperti pada Tabel 2.
Adapun proses pencarian yang
dilakukan terbagi menjadi pencarian visual,
pencarian tekstual, dan penggabungan
pencarian visual dan tekstual.
Pencarian Visual Pada Tabel 2, query dengan indeks Q2,
Q3, Q4, dan Q5 pada sistem pencarian visual
mampu mendapatkan hasil yang sesuai.
Beberapa studi yang telah dilakukan
menunjukkan bahwa MAP yang didapatkan
tidak jauh berbeda dengan yang telah dilakukan
seperti yang pada penelitian [11] yaitu dengan
MAP 0.0003.
Pada pencarian visual ini masih
terdapat kegagalan dalam proses pencarian citra
roller coaster. Dimana hasil pencarian tidak
menemukan citra yang sesuai dengan query.
Hal ini dikarenakan pencarian visual yang
menggunakan fitur color dan texture tidak
dapat menemukan dokumen yang sesuai
dengan citra query. Fitur color dan texture tidak
menjadi fitur yang dapat menemukan kemiripan
yang baik sehingga tidak didapat hasil
pencarian yang sesuai.
Salah satu cara yang dapat meningkat
presisi hasil pencarian visual adalah
menambahkan salah satu fitur yaitu tepi (edge)
yang terbukti pada penelitian yang telah
dilakukan [12].
Pencarian Tekstual Pada pencarian tekstual digunakan
metode LSA+IG+W-Tree similarity. Adapun
metode pembanding untuk menguji kehandalan
metode pencarian yang diusulkan adalah
metode LSA+W-Tree similarity. Dimana
metode LSA+W-Tree similarity tersebut pada
penelitian sebelumnya terbukti efektif dengan
mampu meningkatkan performa pencarian
sebesar 50% dari metode W-Tree similarity
[13] .
Tabel 2 menunjukkan hasil pencarian
bahwa dengan menggunakan metode LSA dan
W-Tree similarity pada cabang dengan nilai IG
tertinggi (C1 atau C2) mampu memberikan
hasil yang lebih relevan dari metode LSA+W-
Tree saja (C3). Hal ini dibuktikan dari
pencarian tekstual dengan metode LSA+IG+W-
Tree similarity mampu memberikan kenaikan
rata-rata MAP sebesar 30% dibanding metode
LSA+W-Tree similarity.
Selain itu, pencarian tekstual dengan
menggunakan metode LSA+IG+W-Tree saja
juga terbukti lebih unggul dari pencarian visual
saja dimana terjadi peningkatan MAP sebesar
71%. Selain itu, dari 5 query yang diujikan,
metode LSA+IG+W-Tree terbukti mampu
memberikan hasil yang lebih memuaskan
karena memberikan 3 hasil pencarian dengan
MAP > 0 dibanding LSA+W-Tree yang hanya
memberikan 2 hasil pencarian dengan MAP >
0.
Beberapa penelitian sebelumnya telah
membuktikan bahwa penggunaan cabang yang
hanya memberikan kontribusi lebih kepada
sistem terbukti mampu memberikan hasil yang
lebih relevan dari pada menggunakan seluruh
cabang tanpa memperhatikan kontribusi
terhadap sistem [14].
Pada proses pencarian tekstual ini juga
terdapat kegagalan pencarian yaitu proses
pencarian pada query dengan indeks Q2 dan Q5
yang mendapatkan hasil MAP 0. Hal ini
dikarenakan kata-kata dalam query user tersebut
hanya ditemukan dalam 1 dokumen 28.550
dokumen. Dalam konsep semantik, kata tersebut
diabaikan karena tidak memberikan informasi
tentang relasi antar dokumen [5].
Tabel 1. Query yang digunakan
Query Koleksi
Indeks Citra Teks relevan
Q1
en roller coaster wide shot
8 de Weitwinkelaufnahme von
Achterbahnen
fr plan large d'une montagne russe
Q2
en skeleton of dinosaur
10 de Dinosaurierskelette
fr squelette de dinosaure
Q3
en chinese characters
22 de chinesische Schriftzeichen
fr caractères chinois
Q4
en male color portrait
10 de männliches Farbporträt
fr portrait masculin en couleur
Q5
en yellow flames
7 de gelbe Flammen
fr flamme jaune
Tabel 2. MAP hasil pencarian tekstual dan visual
Indeks
Jumlah
Dokumen
Relevan
MAP (x 10-2)
Visual Tekstual
C1 C2 Max(C1,C2) C3
Q1 8 0 0.03 0 0.03 0
Q2 10 0.01 0 0 0 0
Q3 22 0.02 0.01 0 0.01 0.01
Q4 10 0.1 0 0.2 0.2 0.17
Q5 7 0.01 0 0 0 0
Rata-rata 0.028
0.048 0.036
Gambar 4. Hasil penggabungan informasi visual dan
tekstual
Tabel 3. Hasil penggabungan informasi visual dan
tekstual
Similarity (%) Q3 (x 10-2) Q4 (x 10-2)
Tekstual Visual
LSA LSA LSA LSA
IG W-
Tree IG
W-
Tree
W-
Tree
W-
Tree
100 0 0.01 0.01 0.04 0.04
0 100 0.02 0.02 0.1 0.1
10 90 0.03 0.03 0.22 0.2
20 80 0.03 0.03 0.25 0.22
30 70 0.03 0.03 0.22 0.19
40 60 0.03 0.02 0.23 0.19
50 50 0.03 0.02 0.26 0.21
60 40 0.03 0.02 0.28 0.21
70 30 0.03 0.02 0.27 0.2
80 20 0.03 0.02 0.18 0.14
90 10 0.03 0.02 0.11 0.09
Rata-rata: 0.03 0.02 0.22 0.18
Tabel 4. Perbandingan MAP visual, tekstual, dan
penggabungan
Indeks Visual
(x 10-2)
Tekstual + Visual
(x 10-2)
LSA
IG
W-Tree
LSA
W-Tree
Q3 0.02 0.03 0.02
Q4 0.1 0.22 0.18
Rata-rata: 0.06 0.13 0.1
Penggabungan Pencarian Visual dan
Tekstual Setelah didapatkan daftar dokumen
yang relevan berdasarkan fitur visual dan fitur
tekstual dengan nilai MAP tertinggi,
selanjutnya dilakukan penggabungan dengan
persamaan (6).
Pada Tabel 2, query dengan indeks Q1,
Q2, dan Q5 tidak digunakan untuk
penggabungan informasi visual dan tekstual.
Hal ini dikarenakan untuk dapat dilakukan
penggabungan diperlukan informasi visual dan
tekstual dengan nilai MAP > 0.
Sementara query indeks Q3 dan Q4
dapat digunakan untuk penggabungan karena
nilai kemiripan visual dan tekstual
mendapatkan hasil MAP > 0.
Pada proses penggabungan query
indeks Q3 memiliki nilai MAP yang lebih stabil
dengan query indeks Q4 karena perbedaan
kemiripan tekstual dan visual query indeks Q3
lebih kecil dari query indeks Q4. Semakin kecil
perbedaan kemiripan visual dan tekstual, akan
menghasilkan hasil pengabungan yang semakin
stabil dimana indikasi tersebut juga telah
disampaikan pada penelitian sebelumnya [14].
Hasil penggabungan dengan nilai MAP
maksimum pada query dengan indeks Q4
didapat pada 60% kemiripan tekstual dan 40%
kemiripan visual seperti pada Tabel 4. Nilai
penggabungan visual dan tekstual tersebut pun
sama seperti yang telah didapatkan pada
penelitian sebelumnya [14].
Adapun hasil penggabungan informasi
tekstual dengan visual menunjukkan nilai
relevansi lebih dari 117% dibanding pencarian
visual saja seperti pada Tabel 5. Kenaikan MAP
yang diperoleh ini lebih besar dari kenaikan
penelitian sebelumnya yaitu sebesar 90% [14].
Hasil percobaan pada Tabel 4
menunjukkan temu kembali citra dan teks
dengan metode pencarian tekstual LSA+IG+W-
Tree similarity mendapatkan MAP 30% lebih
tinggi dari metode LSA+W-Tree similarity.
Beberapa studi empiris menunjukkan
bahwa dengan mempertimbangkan kontribusi
elemen terhadap sistem secara keseluruhan
menggunakan IG dapat memberikan hasil yang
lebih memuaskan seperti pada penelitian yang
telah dilakukan [15].
SIMPULAN Pada sistem ini diusulkan
pendekatan baru dengan metode pencarian
menggunakan LSA, IG, dan W-Tree
similarity yang dapat membantu
meningkatkan relevansi hasil temu
kembali citra dan teks.
Pada penelitian ini terbukti bahwa
dengan penggabungan informasi visual
dan tekstual menghasilkan pencarian yang
lebih baik dari pencarian visual saja.
Peran IG dalam pencarian tekstual
berbasis LSA dan W-Tree similarity juga
memberikan efek positif yaitu dengan
meningkatkan relevansi hasil pencarian.
Dengan menggunakan cabang
yang memberikan kontribusi lebih besar
pada sistem serta terbukti mampu
memberikan MAP lebih tinggi dari pada
menggunakan seluruh cabang tanpa
memperhatikan kontribusi cabang tersebut
terhadap sistem.
DAFTAR PUSTAKA
[1] Hsin C. F., Yeong. Y. X., & Hsiao T.
P., 2005, "Multimodal Search for
Effective Image Retrieval".
[2] Kherfi M.L. Bernardi D.Z.A, 2004,
"Image retrieval from the world wide
web: issues, techniques, and systems,"
ACM Computing Surveys 36 (1), pp.
35-67.
[3] He R., Xiong N.,Yang L. T, 2011,
"Using Multi-Modal Semantic
Association Rules to fuse keywords and
visual features automatically for Web
image retrieval," Information Fusion
12, pp. 223–230.
[4] Quack T., Monich U., Thiele L,
Manjunath B.S., 2004, "Cortina: A
System for Largescale, Content-based
Web Image Retrieval," Electrical and
Computer Engineering Department,
University of California.
[5] Landauer T., Foltz P., Laham D., 1998,
"Introduction to Latent Semantic
Analysis. Discourse Processes".
[6] SVD Tutorial. [Online]. 2008
http://alias-i.com/lingpipe/demos/tutori
al/svd/read-me.html
[7] Shannon C. E, 1998."A Mathematical
Theory of Communication," The Bell
System Technical Journal, pp. 379–423,
623–656.
[8] GNU Software. GNU. [Online].
http://www.gnu.org/software/gift/
[9] Buckley C., Voorhees E. M., 2008
"Evaluating evaluation measure
stability," In Proceeding of the 23rd
annual international ACM SIGIR
conference on research and
development in information retrieval,
pp. 33-40.
[10] Eckard E., Chappelier J.C., 2007, "Free
Software for research in Information
Retrieval and Textual Clustering".
[11] Tsikrika T., Muller H., Forner P. , 2011
"Report on outcomes of first year
evaluation activities," Participative
Research Laboratory for Multimedia
and Multilingual Information System
Evaluation, D6.1.
[12] Anil J., Aditya V., 1998, "Shape-
Based Retrieval: A Case Study with
Trademark Image Databases," in
Pattern Recognition, pp. 1369-1390.
[13] Sa'adah U., Sarno R., Yuhana U.L,
2012, "Metode Latent Semantic
Analysis dan Algoritma Weighted Tree
Similarity untuk Pencarian Berbasis
Semantic," Program Studi Magister
Jurusan Teknik Informatika ITS.
[14] Martın-Valdivia M.T., Dıaz-Galiano
M.C., Montejo-Raez A., Urena-Lopez
L.A., 2008, "Using information gain to
improve multi-modal information
retrieval systems," ELSEVIER
Information Processing and
Management, pp. 1146-1158
[15] Lee W., Xiang , 2001,"Information-
Theoritic Measure for Anomaly
Detection," in IEEE Symposium on
Security and Privacy.