Langkah-langkah information retrieval

9
Langkah - langkah Information Retrieval FARADILA MULYANINGRUM A11.2012.07064 ANINDYA KHRISNA WARDHANI A11.2012.06628 ANDHY TIRTA PRAYOGA A11.2012.07137 LESTIAN CAHYA ARDIANATA A11.2012.06690 DERRY SETIAWAN A11.2012.06944

description

information retrieval

Transcript of Langkah-langkah information retrieval

Diapositiva 1

Langkah - langkah Information RetrievalFARADILA MULYANINGRUMA11.2012.07064ANINDYA KHRISNA WARDHANIA11.2012.06628ANDHY TIRTA PRAYOGA A11.2012.07137LESTIAN CAHYA ARDIANATA A11.2012.06690DERRY SETIAWAN A11.2012.06944 TokenizingPada prinsipnya proses ini adalah memisahkan setiap kata yang menyusun suatu dokumen. Pada umumnnya setiap kata terindentifikasi atau terpisahkan dengan kata yang lain oleh karakter spasi, sehingga proses tokenizing mengandalkan karakter spasi pada dokumen untuk melakukan pemisahan kata.

Contoh Tokenizing

FilteringProses Filtering adalah proses pengambilan kata-kata yang dianggap penting atau mempunyai makna saja.

Pada proses ini kata-kata yang dianggap tidak mempunyai makna seperti kata sambung akan dihilangkan.Pada proses ini biasanya digunakan daftar stopword yang tersimpan dalam suatu tabel basis data, yang nantinya digunakan sebagai acuan penghilangan kata. Daftar stopword berbeda untuk setiap bahasanya.

Contoh stop words untuk bahasa Inggris diantaranya of, the. Sedangkan untuk bahasa Indonesia diantaranya yang, di, ke.

StemmingProses stemming adalah proses untuk mencari root dari kata hasil dari proses filtering. Pencarian root sebuah kata atau biasa disebut dengan kata dasar dapat memperkecil hasil indeks tanpa harus menghilangkan makna.

Contohnya adalah istilah membaca, dibacakan, terbaca akan diubah menjadi kata dasarnya yaitu istilah baca.

Tagging

Proses tagging adalah mencari bentuk utama/root dan suatu kata lampau. Proses tagging tidak digunakan pada dokumen berbahasa Indonesia dikarenakan bahasa Indonesia tidak mengenal kata bentuk lampau.

Term WeightingPada tahap ini akan dilakukan penghitungan bobot tiap term yang dicari pada setiap dokumen sehingga dapat diketahui ketersediaan dan kemiripan suatu term di dalam dokumen. Term frequency (tf) adalah frekuensi dari kemunculan sebuah term dalam dokumen yang bersangkutan.Inverse document frequency (Idf) merupakan sebuah perhitungan dari bagaimana term didistribusikan secara luas pada koleksi dokumen yang bersangkutan. Inverse document frequency menunjukkan hubungan ketersediaan sebuah term dalam seluruh dokumen.

Semakin sedikit jumlah dokumen yang mengandung term yang dimaksud, maka nilai idf semakin besar.RefrensiManning C.D.; Raghavan P.; Schtze H. (2009). An Introduction to Information Retrieval. Cambridge, England: Cambridge University Press.

Gudivada, V.N.; Raghavan, V.V.; Grosky, William I.; Kasanagottu, R. (2002). Information Retrieval on the World Wide Web. Dow Jones Markets, USA: IEEE.

Raymond J. Mooney. CS 391L: Machine Learning Text Categorization. University of Texas at Austin, 2006.

Doyle, Lauren; Becker, Joseph (1975). Information Retrieval and Processing. Melville. pp.410 pp. ISBN0-471-22151-1.