Presentasi sidang dream searchengine

of 25/25
MEISYA FITRI (D03106038) 4 Februari 2013 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS TANJUNGPURA 2013 PERANCANGAN SISTEM TEMU BALIK INFORMASI DENGAN METODE PEMBOBOTAN KOMBINASI TF-IDF UNTUK PENCARIAN DOKUMEN BERBAHASA INDONESIA
  • date post

    12-Jun-2015
  • Category

    Documents

  • view

    874
  • download

    19

Embed Size (px)

Transcript of Presentasi sidang dream searchengine

  • 1. PERANCANGAN SISTEM TEMU BALIK INFORMASI DENGAN METODE PEMBOBOTAN KOMBINASI TF-IDF UNTUKPENCARIAN DOKUMEN BERBAHASA INDONESIA MEISYA FITRI(D03106038)4 Februari 2013 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS TANJUNGPURA 2013

2. Latar BelakangDiperlukanSistem Temu Balik Informasi (Information Retrieval) 3. Latar belakang Pembobotan kata diharapkan dapatjuga Penambahan istilah pada query menemukankembali informasi yang paling relevan dengandiperlukan untuk meningkatkan performaindeks istilah terbaik.pencarian Metode pembobotan kata berdasarkan Informasi berupa dokumen teks yangkombinasi TF-IDF memberikan bobot lebihtersedia di internet memiliki banyak variasi.kepada istilah yang lebih penting.Fokus utama penelitian ini, berupa temu Oleh karena itu diperlukan suatu sistemdokumen hasil crawling dari situs informasibalik informasi yang mampu mencariberita, tanpa menutup kemungkinan untukberdasarkan bentuk Natural Language Processingmelakukan pencarian terhadap dokumen(NLP) dari kata kunci pencarian hasil crawling dari situs lain. 4. Perumusan Masalah Bagaimana merancang sistem temu balik informasiyang mampu mencari informasi yang dibutuhkansecara efektif dan efisien berdasarkan bentuk NaturalLanguage Processing (NLP) dari kata kunci pencariandengan memberikan bobot pada setiap kata denganmetode pembobotan kombinasi TF-IDF, danmenampilkan serta mengurutkan data yang palingrelevan terhadap kata kunci pencarian. 5. Tujuan Penelitian Menghasilkan suatu sistem temu balik informasi khususnya berita yang didalamnya terdapat proses pengumpulan dokumen, pembobotan kata dan pencarian dokumen dengan menggunakan metode pembobotan kombinasi TF-IDF sehingga dapat ditemukan informasi yang dibutuhkan dengan efektif dan efisien. 6. Pembatasan Masalah Penelitian ini difokuskan pada prosespengumpulan dokumen dan pencarian dokumendengan menggunakan metode pembobotan kata. Tipe dokumen yang digunakan adalah dokumenberita hasil crawling dari beberapa situs berita yangtelah ditentukan yaitu www.detik.com,www.antaranews.com, pontianak.tribunnews.com. Dokumen yang digunakan hanya dokumen yangberbahasa Indonesia. 7. Metodologi PenelitianBahan Penelitian Bahan penelitian yang digunakan berupa berita hasil crawling website penyedia berita yang telah ditentukan sebelumnya yaitu www.detik.com, www.antaranews.com, pontianak.tribunnews.com. 8. Metodologi PenelitianAlat Penelitian Penelitian Entity Relationship Diagram (ERD), untukMetode Crawling Dokumen, untuk menggambarkanproses dan komponen yang digunakan dalammenjelaskan hubungan antardata dalam basiscrawling dokumen.data berdasarkan objek-objek dasar data yang mempunyai hubungan antarrelasi.Metode Indexing Dokumen, untuk menggambarkan Data Flow komponen yang digunakan dalamproses dan Diagram (DFD), untukindexing dokumen. Dalam indexing dokumenmenggambarkan pembobotan kombinasi TF-IDFdigunakan metode aliran data pada sistem yangterdirimenghasilkan index yang akan digunakanuntuk dari dua bagian utama yaitu sistem inputdata dan sistem analisis datadalam pencarian. Metode Searching Dokumen, untuk menggambarkanproses dan komponen yang digunakan dalamsearching dokumen. 9. Metodologi PenelitianPerangkat Lunak Sistem operasi Windows 7 Professional Apache Tomcat Version 6.0.26 sebagaiweb server Bahasa pemograman JSP Basisdata MySQL 5.0.27 Notepad++ sebagai aplikasi untuksource code editor Netbean 6.9.1 10. MulaiDiagram Studi LiterarturAlirPenelitianAnalisis Sistem PengembanganPerancanganAplikasiSistem TahapPengujian SistemtidakSesuai Dengan PerancanganyaKesimpulan Selesai 11. (1)Tinjauan Pustaka Sistem Temu Balik Informasi (InformationRetrieval) digunakan untuk menemukan kembali (retrieve) secara otomatis informasi- informasi yangrelevan terhadap kebutuhan pengguna dari suatu kumpulan informasi (Hadhiatma, 2010). Crawler Crawler merupakan program yang berjalan secara otomatis, berisi script program yangmelakukan crawling melalui halaman website untuk mengumpulkan data berdasarkan indeksdari halaman web yang ditemukan (Sasongko, 2010). Tujuan dari crawler adalah dengan cepatdan efisien mengumpulkan banyak informasi dari halaman web yang berguna, berikut denganstruktur link yang terkoneksi dengan halaman web tersebut. Indexing proses membangun basis data indeks dari koleksi dokumen (Bunyamin, 2008). TF diperoleh dari perhitungan frekuensi kemunculan suatu istilah pada dokumen IDF merupakan banyaknya istilah tertentu dalam keseluruhan dokumen 12. ArsitekturSistem WEBUser ResultQuery User Query Interface SearcherExpansion CrawlerDokumen IndexedIndexerSearcherStemmerDirectory Stemmer 13. Perancangan Perangkat LunakDiagram KonteksData AdminKata Dasar Kata kunci pencarian Stop WordSistem Temu TesaurusUser Balik AdminInformasiHasil Pencarian 14. Perancangan Perangkat LunakDiagram OverviewHak Aksesurl Hak AksesAdmin2.0 DokumenCrawlingBerita url UsernamePerintah IndexingUsername Dokumen Password Password 1.0namaAdminLoginData AdminHak AksesKata DasarKata Dasar 3.0Data AdminKataDasar IndexingKata DasarStop WordTesaurus Stop WordStop Word StopList 4.0Manipulasi Tesaurus TesaurusData Data index Sinonim Hasil PencarianStop Word Kata Dasar 5.0UserSearching IndexedDirectoryData index Kata kunci pencarian 15. Perancangan Perangkat Lunak2.1 Baca Daftar1.0Situs Hak AksesDiagram Rinci Proses Crawlingurlurl 3.0Perintah Indexing metadata 2.32.2Ekstraksi LinkMulai Crawling 2.6 urlmetadata Ekstraksi Berita validasi2.4beritaCek Link validasi 2.7 url Cek Berita url2.5Simpan Link berita 2.8 Dokumenberita Simpan Berita 16. Perancangan Perangkat Lunak DokumenDokumen 3.1MembacaDokumenDiagram Rinci Proses Indexing Berita Perintah Indexingurlteks 1.0 Hak Akses 2.03.2 Tokenisasi4.0 Kata kata Stop wordStop word3.3 StopListEliminasi Stop WordKata dasarKata kataKata dasar 3.4 Kata kata KataDasarStemmingKata kata dasar3.5 Pembobotan IndexedDirectoryKataData index 17. Perancangan Perangkat Lunak User5.1Membaca Kata Kata kunci5.2TokenisasiDiagram Rinci pencarian Kata kunciProses Searching Kunci 4.04.0 StopList Kata kata Stop word Stop wordSinonimKata dasar 5.3Hasil Pencarian Data indexEliminasi Stop Word IndexedDirectory KataDasar Tesaurus Kata kata Kata dasarData index sinonimKata kata dasar sinonim 5.45.65.5Query PencarianStemming Kata kataExpansionsinonim Kata katasinonim 18. Perancangan Perangkat LunakEntity Relationship Diagram (ERD)Id_adminHyperlinkIsiJudul M Admin mengumpulkan Dokumen 1 1URL JudulIsi IndexMMembuat Indexed Directory Mencari Pengguna M 1 19. Hasil Perancangan Sistem temu balik informasi yang dirancang memiliki proses utama berupa penemuan kembali dokumen berita dari website penyedia berita online. Berita yang dikenali dari judul, repoter, tanggal dan isi berita. Berita yang telah dikenali dapat diproses dan diindeks untuk mengenali varian morfologik dari istilah-istilah yang terdapat dalam berita. Kata yang memiliki banyak varian morfologik diproses untuk mendapatkan kata dasar tanpa stop word. 20. Pengujian White Box Prosedur Pembobotan kata1Jalur 1 : 1-7Jalur 2 : 1-2-3-4-6-1-7Jalur 3 : 1-2-4-6-1-72Jalur 4 : 1-2-4-5-6-1-73 4Cyclomatic Complexity Region Edge predict5 6 node+2 node+17 4 97+2 3+1 = 4=4 21. Indexing Mode Non StemIndexing Mode Stem Pengujian Pembobotan Kata Jumlah Dokum Jumlah DokumenJumlah enKata KunciRecall Precision dokumenNIAP dengan Indexing Mode Stem RelevandalamRelevan ditemukanditemukan KoleksiNon Non Non Non Non StemStemStemStemStemStemStemStemStemStemPenculikananak 5 5 5 35 34 1.0000 1.0000 0.1429 0.1471 0.1868 0.2108 0.20870.2308PendidikanSMA5 5 5 15 15 1.0000 1.0000 0.3333 0.3333 1.0000 0.9429Korupsi1 1 1 1 2 1 1 2111.0000 1.0000 1.00001.0000 0.5000 0.5000 1.00001.0000 1.0000 1.0000 1.00001.0000DahlanDahlanIskan 1 1 1 1 1 1 1 1111.0000 1.0000 1.00001.0000 1.0000 1.0000 1.00001.0000 1.0000 1.0000 1.00001.0000IskanBanjirBanjirJakarta15 15 15 41 4115 15 15 41 41 1.0000 1.0000 1.00001.0000 0.3659 0.3659 0.36590.3659 0.8956 0.8956 0.77630.7763Jakarta 22. Analisis Hasil Pengujian Pengujian pada sistem temu balik informasi denganmenggunakan metode white box berhasil dilakukandengan error nol, dimana setiap statement padaprogram telah dieksekusi paling tidak satu kaliselama pengujian dan semua kondisi logis telah diujidan berhasil. Pencarian dokumen dengan kata kunci akanmenampilkan semua dokumen yang mengandungkata kunci dan menampilkan dokumen palingrelevan ke urutan teratas. Sistem dapat menemukan semua dokumen relevan. Indexing non stem lebih baik dalam ketepatanmengurutkan dokumen relevan. 23. Kesimpulan Sistemdapat melakukan proses pencarian danProses indexing mengumpulkan dokumenSistem mampu dapat membantu prosesmenemukan informasi crawling menjadi lebihberita melalui proses yang relevan berdasarkanpenemuan kembali dokumen website danhasil pengujian yang dilakukan pencarianmemberikan bobot dengan pada 5 kataefisien dengan dilakukannyakunci. Data hasil pengujian menghasilkan nilaiterhadap dokumen index bahwa pembobotanmengimplementasikan metode semuarecall 1 yang menunjukkan yang telah memilikibobot dokumen.kata dengan metode kombinasi Tf-Idf secaradokumen yang relevan dapat ditemukan sistemlengkap precision antara 0.1429 dan 1 yangdan nilai sehingga lebih banyak data relevanmenunjukkan terdapat dokumen lain selainyang dapat diperhitungkan dalam pencarian.dokumen relevan yang ikut ditemukan olehsistem. Nilai NIAP yang dihasilkan mencapai nilai1 yang menunjukkan sistem dapat mengurutkandokumen relevan ke dalam urutan hasilpencarian teratas. 24. Saran Perlu tambahan extractor berita Perlu penyempurnaan extractor berita yang sudahada Dibuat suatu sistem untuk mengolah pengumpulandokumen dari website yang mampu menanganidokumen dalam jumlah yang tak terbatas denganpenggunaan perangkat keras yang terdistribusi. Perlu penyempurnaan teknik query expansiondengan menambahakan tesaurus yang lebihlengkap, sehingga kata hasil dari proses ini memilikimakna dari sebuah kata. 25. SEKIAN DAN TERIMA KASIH Senin, 4 Februari 2013 18.45-Selesai