Ekstraksi Teks Mining Dengan Metoda Sequence Matching (1)

Ekstraksi Data Akademik Pada Text-Mining Dengan Metoda Sequence Matching (SM)1) Sumijan

2) Julius Santony 1,2)Jl. Raya Lubuk Begalung, Padang, Sumatera Barat,

Email : 1) [email protected] / 2)[email protected],2)Jl. Raya Lubuk Begalung, Padang, Sumatera Barat, Universitas Putra Indonesia YPTKAbstrakPesatnya pertumbuhan repositori data teks menyulitkan orang-orang untuk mengakses informasi yang dibutuhkan dengan cara yang efesien dan efektif. Permasalahan ini muncul sebagai dampak banyaknya informasi yang terintegrasi dalam teks yang kurang terstruktur. Akibatnya, komputer tidak dapat melakukan interpretasi dengan mudah. Dalam makalah ini, disajikan Ekstraksi data akademik pada text-mining dengan metoda sequence matching dalam peranannya untuk menjawab kebutuhan masa depan dalam hal penyediaan informasi yang bermanfaat dan mudah diakses oleh khalayak akademik dan umum. Sebagai contoh Aplikasi sistem informasi akademik, dibahas mengenai informasi akademik seperti krs online, SPMB online, KHS online, jurnal online, library online dan masih banyak lagi kegiatan akademik yang online. Proses ekstraksi data akademik pada text mining dengan menggunakan teknik SM untuk menemukan dan mengekstrak informasi dari database akademik dan seluruh layanan pada web tersebut. Dilakukan pengujian dengan parameter precision, recall serta f-measure untuk mengevaluasi kecocokan informasi yang dibutuhkan, Sehingga didapatkan performansi kinerja dari sisfokampus sesuai dengan relevansi informasi yang dibutuhkan. Penggunaan metoda tersebut mempercepat pencarian data dan layanan web terkait informasi akademik dan non akademik. Tantangan dari web database akademik mining adalah jumlah data atau volume data yang pertambahannya semakin lama semakin banyak untuk mempermudah pengaksesan dengan pengembalian data baik online maupun offline dari source text mining dari web data mining. Penelitian ini telah memberikan solusi bahwa dengan ekstrasi data akademik pafa text mining terintegrasi dengan metoda SM memperlancar proses pencarian dan pengaksesan informasi akademik baik yang tidak tersetruktur (informasi dari portal) bersifat portal, dan tersetruktur (Informasi dari aplikasi).Kata Kunci:text-mining,ekstraksi informasi,Sequence Matching, ekstraksi web dat, data mining,1. PENDAHULUANText miningmenjadi kunci penting untuk menjawab permasalahan di masa depan mengenai pengaksesan informasi yang bermanfaat dengan jumlah data yang terus mengalami peningkatan. Dalam makalah ini, diterapkan sistematika sebagai berikut. Bagian pertama akan membahas pendahuluan, yaitu mengenai latar belakang dan sistematika penulisan makalah. Selanjutnya, akan dibahas mengenai penelitian terkait yang telah dilakukan sebelumnya. Di bagian berikutnya, akan dijelaskan mengenai tahap-tahap yang digunakan metoda sequence matching dalam ekstraksi data padatext mining. Pada bagian keempat, akan dibahas mengenai aplikasitext miningdalam biologi sebagai ilmi interdisipliner. Sebagai penutup, akan disajikan kesimpulan dan arah pengembangan di masa depan yang diperoleh darireviewmakalah.

2.PENELITIAN TERKAITDalam bagian ini dipaparkan mengenai penelitian-penelitian yang telah dilakukan sebelumnya. Pada bagian 2.1 dibahas mengenai penelitian yang telah dilakukan sebelumnya terkait dengan ekstraksi data mining secara umum, sedangkan pada bagian 2.2 dibahas mengenai penelitian yang telah dilakukan sebelumnya terkait dengan ekstraksi data dengan metoda sequence matching. Kedua penelitian tersebut memiliki peran penting dalam menyiapkan data setengah-jadi yang kemudian akan diolah lebih lanjut tentang ekstrakasi data akademik pada text mininguntuk memperoleh informasi yang dibutuhkan.

2.1 Penelitian Terkait Ekstrasi Data MiningWeb mining merupakan penggunaan teknik data mining untuk menemukan dan mengekstrak informasi dari dokumen dan layanan web. Tantangan dari web mining adalah jumlah informasi yang banyak untuk mempermudah akses dengan pengembalian data baik online maupun offline dari source teks dari web . Penelitian web mining terintegrasi dengan berbagai macam penelitian disiplin ilmu pengetahuan lainnya seperti DataBase (DB), Data Mining, Information Retrieval (IR), Machine Learning (ML), Natural Language Process (NLP). Web mining dapat dibagi menjadi tiga kategori utama, yaitu: content mining, usage mining, dan structure mining.

Makalah ini memfokuskan kepada web content mining. Web content mining yaitu merupakan aplikasi untuk me-mining, mengekstrak dan menggabungkan data, informasi dan pengetahuan yang bermanfaat dari isi halaman web. Data web content terdiri dari:

1. Unstructured data (teks bebas).

2. Semi structured data (dokumen HTML).

3. More structured data (data pada table, DB yang dihasilkan halaman HTML).

Pada intinya web content mining mendeskripsikan penemuan informasi yang berguna dari data, dokumen atau isi web pada halaman web. Ada dua cara pandang yang berbeda dalam melakukan penelitian mengenai web content mining, yaitu :

1. Cara pandang database: cara pandang ini mencoba untuk memodelkan data pada web dan mengintegrasikannya agar dapat digunakan sebaik mungkin.

2. Cara pandang information retrieval: cara pandang ini membantu atau memperbaiki kualitas informasi yang ditemukan dalam web atau dengan kata lain menyaring informasi yang relevan. Web content mining kadangkala disebut juga web text mining karena isi teks lebih sering digunakan sebagai penelitian. Kegunaan web content mining pada World Wide Web antara lain menemukan informasi yang relevan dan menciptakan pengetahuan dari informasi yang ada, sehingga informasi dalam jumlah yang banyak di situs web tetapi mudah untuk mengaksesnya. Informasi tersebut berupa semi-structured dengan kode HTML, yang mana biasanya halaman web berisi campuran informasi seperti main content (isi utama), iklan, navigation panel, copyright notice, logo, dan lain-lain. Sedangkan pada makalah ini akan memanfaatkan tag HTML yang akan di-mining untuk digunakan dalam proses ekstraksi.3. Web Mining

Perkembangan dan terdistribusinya informasi di Internet merupakan suatu pengetahuan yang sangat bernilai. Dengan semakin pesatnya jumlah informasi yang tersedia, maka dibutuhkan suatu tool bagi pengguna untuk mendapatkan informasi tertentu secara efektif dan efisien. Meskipun mesin pencari atau search engine dapat menelurusi dan mencari informasi yang diinginkan, tetapi kadang kala dibutuhkan tool yang dapat mengambil isi (content) dari sebuah halaman Web yang diperoleh. Untuk itu penelitian dan pengembangan teknologi untuk menggali informasi ini terus berkembang. Web mining adalah suatu bidang penelitian yang sangat berkembang saat ini, meskipun saat ini belum diperoleh kesepakatan mengenai definisi Web mining itu sendiri. Web mining adalah sebuah integrasi beberapa teknologi, seperti data mining, statistik, informatika, dan sebagainya (Jicheng, 1999). Web mining adalah suatu aktifitas untuk menidentifikasi pola p yang terkandung dalam sebuah koleksi dokumen C, yang dapat dituliskan sebagai pemetaan . Definisi tersebut di atas menunjukkan bahwa Web mining mempunyai kemiripan dengan data mining. Tetapi Web mining memiliki karakteristik khusus, antara lain adalah sumber yang digunakan adalah dokumen web. Selain itu pola yang dapat diperoleh dari Web mining adalah isi dari dokumen web atau struktur dari Web, sebab sebuah dokumen Web berisi informasi dan hyperlink. Selain itu Web mining mengolah data yang bersifat semi terstruktur sedangkan data mining mengolah data yang lebih terstruktur seperti basis data. Pencarian informasi Web adalah sebuah proses untuk memperoleh himpunan bagian dokumen S yang sesuai dengan query q tertentu dari kumpulan dokumen C, atau dapat dituliskan sebagai berikut: . Pencarian informasi Web mempunyai tujuan yang berbeda dengan Web mining. Web mining adalah proses lebih lanjut dari pencarian informasi Web. Meskipun demikian keduanya saling melengkapi.

Gambar 2. Penggolongan Web Mining

Perbedaan informasi dalam Web menumbuhkan variasi dari Web mining. Berdasarkan tipe sumber (source), Web mining secara umum dapat dibagi menjadi dua bagian utama, yaitu Web content mining dan Web structure mining. Bagian pertama akan lebih berkaitan dengan proses ekstraksi pengetahuan dari kandungan dokumen Web, sedangkan bagian kedua lebih condong kepada masalah pengetahuan akan organisasi dan link dari dokumen Web. Web structure mining dapat dibagi lagi menjadi tiga bagian, yaitu struktur eksternal (hyperlink antar dokumen), struktur internal dan URL mining. Sedangkan Web content mining dibagi menjadi text mining dan multimedia mining. Dalam text mining tercakup masalah file teks maupun dokumen HTML. Meskipun multimedia mining sangat menarik perhatian orang banyak, text mining adalah lebih mendasar dan penting, sebab teks adalah pembawa informasi utama. Penggolongan Web mining ini selengkapnya dapat dilihat pada Gambar 1.

Beberapa aplikasi dalam Web text mining adalah kategorisasi teks, perangkuman informasi, analisis asoisiasi, dan peramalan. Penjelasan lebih lanjut aplikasi tersebut adalah sebagai berikut:

a. Kategorisasi teks

Pada aplikasi ini diberikan sekumpulan dokumen C yang kemudian akan dikelompokkan ke dalam kelompok tertentu. Hal ini akan memudahkan pengguna untuk melakukan pencarian dokumen berdasarkan kelompok tertentu.

b. Perangkuman informasi

Pada aplikasi ini diberikan sekumpulan dokumen C yang kemudian masing-masing akan diekstrak untuk diambil informasi tertentu untuk kemudian digabungkan menjadi sekumpulan data sehingga dapat dibangun satu basis data informasi tertentu.

c. Analisis asosiasi

Pada aplikasi ini yang dilakukan adalah melakukan ekstraksi hubungan antara tahapan dan kata dalam sebuah dokumen.

d. Prediksi

Aplikasi ini merupakan langkah lebih lanjut dari aplikasi perangkuman informasi. Aplikasi ini setelah melakukan ekstraksi terhadap dokumen akan melakukan prediksi berdasarkan infdormasi atau data yang dia peroleh.Pada dasarnya metode dalam Web mining ini mirip dengan mining file teks biasa, tetapi harus ditambah untuk memisahkan antara teks informasi dengan teks sebuah tag HTML yang telah dijelaskan pada bagian sebelumnya.

3. Ekstraksi Web DataHalaman Web yang dibangun menggunakan berbasis teks Bahasa mark-up (HTML dan XHTML), dan sering mengandung kekayaan data yang berguna dalam bentuk teks. Namun, Halaman web yang paling dirancang untuk manusia pengguna akhir dan tidak untuk kemudahan penggunaan otomatis. Karena itu, alat kit yang mengikis konten web diciptakan. Sebuah web scraper sebuah API untuk mengekstrak data dari sebuah situs web. Kami membantu Anda untuk membuat semacam API yang membantu Anda untuk mengikis data yang sesuai kebutuhan Anda. Kami menyediakan web berkualitas dan terjangkau aplikasi Data Ekstraksi

A. Pengumpulan Data

Biasanya, transfer data antar program dilakukan dengan menggunakan struktur data cocok untuk pemrosesan otomatis oleh komputer, bukan orang. Format dan protokol pertukaran seperti biasanya kaku terstruktur, terdokumentasi dengan baik, mudah diurai, dan menjaga ambiguitas untuk minimum. Sangat sering, transmisi ini bukan manusia-dibaca sama sekali. Itulah mengapa elemen kunci yang membedakan data yang menggores dari parsing biasa adalah bahwa output yang tergores dimaksudkan untuk ditampilkan ke pengguna akhir.

B. Email Extractor

Sebuah alat yang membantu Anda untuk mengekstrak id email dari sumber terpercaya otomatis yang disebut extractor email. Pada dasarnya layanan fungsi mengumpulkan kontak bisnis dari berbagai Halaman Web, file HTML, file teks atau format lainnya tanpa id email duplikat.

C. Layar scrapping

Scraping layar disebut praktek membaca data teks dari layar tampilan komputer terminal dan mengumpulkan data visual dari sebuah sumber, bukan parsing data di web gesekan.Ekstraksi informasi web merupakan masalah mengekstraksi item-item informasi target dari halaman-halaman Web. Dua masalah umum: Ekstraksi informasi dari teks bahasa natural, Ekstraksi data terstruktur dari halaman-halaman web, dengan Program yang mengekstrak data terstruktur dari halaman web disebut wrapper.Dalam data extraction ini kita akan menerapkan sebuah teknik yang dinamakan dengan partial tree alignment , yang kunci pokoknya adalah bagaimana mencocokkan corresponding data item atau field dari data semua data records. Ada dua langkah penting dalam data extraction:

1. Membuat satu root tag tree untuk masing-masin data record :

Setelah semua data record telah teridentifikasi, sub-trees pada masing data records di susun ulang ke dalam single tree .Masing-masing data record ada kemungkinan memiliki lebih dari satu sub-trees dari sebuah original tag tree pada sebuah halaman , dan masing-masing data record mungkin tidak memiliki kesamaan (Case 1 dan Case 2 pada kasus Pengidentifikasian data record). Sub-step ini diperlukan untuk menyusun single tree untuk masing-masing data record(sebuah root node buatan yang dapat di tambah setiap saat).

2. Partial tree aligment: tag trees dari semua data dalam masing-masing data region di aligned menggunakan metode partial alignment berdasarkan tree matching

4. Text MiningText mining (biasa dikenal juga dengan text data mining atau penemuan pengetahuan) dalam database tekstual adalah semi-otomatis proses ekstraksi pola (informasi yang berguna dan pengetahuan) dari sumber data yang tidak terstruktur dalam jumlah yang besar. Sedangkan data mining adalah proses identifikasi valid, novel, yang berpotensi berguna, dan pada akhirnya dapat dipahami pola data yang tersimpan dalam database yang terstruktur, dimana data diorganisir dalam catatan terstruktur dengan kategori, ordinal, atau variabel yang terus menerus. Text mining mempunyai tujuan dan menggunakan proses yang sama dengan data mining, tetapi text mining input proses adalah koleksi data file tidak terstruktur misalnya Word dokumen, PDF file, text excerpts,XML file, dll sedangkan data mining data file yang terstruktur dalam database. Manfaat text mining sangat jelas ketika jumlah data tekstual yang dihasilkan sangat besar, misalnya penelitian akademis (artikel penelitian), hukum (order pengadilan), dll. Area lain dimana proses otomatisasi dari text tidak terstruktur mempunyai pengaruh yang besar dalam komunikasi elektronik dan e-mail. Text mining tidak hanya dapat digunakan untuk mengklasifikasi dan memfilter junk e-mail, tetapi dapat juga digunakan untuk otomatisasi prioritas e-mail. Natural Language Processing (NLP) adalah komponen yang penting dalam text mining dan subbidang dari kecerdasan buatan (artificial intelligence) dan komputasi linguistik. NLP mempelajari masalah pemahaman bahasa alami manusia, dengan mengkonversi penggambaran bahasa manusia (seperti dokumen tekstual) ke dalam representasi formal lebih (dalam bentuk data numeric dan simbolik) yang lebih memudahkan program computer untuk memanipulasi. Tujuan dari NLP adalah melebihi manipulasi teks sintaks-driven (yang sering disebut penghitung kata) untuk pemahaman yang benar dan pengolahan bahasa alami yang mempertimbangkan keterbatasan gramatikal dan sematik sebagus konteksnya. NLP berhasil diterapkan melalui program computer untuk memproses bahasa secara otomatis, misalnya mesin penerjemah dan meringkas otomatis.

Proses Text Mining:

Ada beberapa tool yang dapat digunakan untuk text mining. Software yang berbayar misalnya ClearForest dan IBM Intelligent Miner Data Mining Suit. Sedangkan software yang gratis misalnya GATE, LingPipe, S-EM (Spy-EM), dan Vivisimo.5. Web MiningWeb mining merupakan penerapan teknik data mining terhadap web dengan tujuan untuk memperoleh pengetahuan dan informasi lebih dari dalam web. Web mining dapat dikategorikan ke dalam tiga ruang lingkup yang berbeda, yaitu web content mining, web structure mining dan web usage mining (Srivastava et al., 2000).

a) Web Content Mining mengacu pada ekstraksi informasi yang berguna dari halaman web. dokumen dapat diekstrak dalam beberapa format terbaca-mesin sehingga teknik otomatis dapat menghasilkan beberapa informasi tentang halaman web. Web crawler digunakan untuk membaca isi sebuah situs web secara otomatis. informasi yang dikumpulkan dapat meliputi karakteristik dokumen mirip dengan apa yang digunakan dalam text mining, tetapi bisa termasuk konsep tambahan, seperti hirarki dokumen. Web Content Mining juga dapat digunakan untuk meningkatkan hasil yang dihasilkan oleh mesin pencari.

b) Web Structure Mining adalah proses penggalian informasi yang berguna dari link embedded dalam dokumen web. Digunakan untuk mengidentifikasi otoritatif halaman dan hub, yang merupakan landasan dari algoritma page-rank kontemporer yang penting bagi mesin pencari populer seperti Google dan Yahoo!. Analisis link sangat penting dalam memahami hubungan timbal balik antara sejumlah besar halaman web, yang mengarah ke pemahaman yang lebih baik dari komunitas web tertentu, klan, atau klik.

c) Web Usage Mining adalah pengambilan informasi yang berguna dari data yang dihasilkan melalui kunjungan halaman web dan transaksi. Masand et al. (2002) menyatakan bahwa setidaknya tiga jenis data yang dihasilkan melalui kunjungan halaman web:

(i) Secara otomatis data yang tersimpan dalam server access log, referrer log, agent log, dan cookie client-side

(ii) Profil Pengguna

(iii) Metadata, seperti atribut halaman, atribut konten, dan data penggunaan.

Aplikasi Web mining menurut Nasraoui (2006):

a) Menentukan nilai hidup/ lifetime value klien

b) Desain strategi cross-marketing seluruh produk

c) Evaluasi kampanye promosi

d) Target iklan elektronik dan kupon pada kelompok pengguna didasarkan pada pola akses pengguna

e) Memprediksi perilaku pengguna dengan mempelajari ketentuan sebelumnya dan profil pengguna

f) Menyajikan informasi yang dinamis untuk pengguna berdasarkan kepentingan mereka dan profil

2.2. Penelitian Terkait Ekstraksi Text MiningMeskipun identifikasi entitas dari teks telah cukup membantu untuk mendapatkan informasi lebih lanjut, namun inferensi terhadap isi dokumen membutuhkan lebih dari sekedar identifikasi entitas. Konteks dari entitas dalam sebuah dokumen dapat diturunkan dari analisis relasi antar-entitas dalam dokumen. Penelitian mengenai relasi ini sangat membantu dalam penerapan sistem ekstraksi informasi dan penjawabanqueryakademik yang akan dibahas lebih lanjut pada bagian selanjutnya. Beberapa pendekatan yang telah digunakan untuk melakukan ekstraksi relasi antraa lain sebagai berikut [2].

(i)Pendekatanco-occurence-basedDengan pendekatan ini, setelah entitas biologi diekstrak dari dokumen, relasi diantaranya kemudian diturunkan dengan asumsi bahwa 2 entitas dalam kalimat atau abstrak yang sama dinyatakan berhubungan. Negasi dalam teks tidak diperhitungkan.

(ii) Pendekatanlinguistic-basedPendekatan ini umumnya menggunakan teknikshallow parsinguntuk mengetahui lokasi kata kerja atau kata benda dalam suatu dokumen.Ruledikembangkan secara spesifik untuk mengekstrak kata-kata latar daritermyang didefinisikan sebelumnya dan memformatnya sebagai relasi.

(iii) Pendekatan campuran

Pendekatan campuran ini dapat berupa mekanismeunsupervised learninguntuk melakukan ektraksi relasi dari konsep ilmu tertentu. Sebagai contoh, dilakukan ekstraksi relasi antara konsep dalam biologi molekular dari abstrak jurnal MEDLINE yang merupakan bagian daricorpusGENIA [2]. Untuk tiap kalimat yang mengandung 2 entitas biologi, graf berarah dibuat untuk menunjukkan ketergantungan antara kedua entiti tersebut berdasarkan analisis linguistik. Meskipun akan terdapat banyak graf berarah dari ekstraksi awalcorpus, hanya beberapa graf signifikan saja yang akan diidentifikasikan sebagai relasi biologi.

3.TAHAP-TAHAP DALAMTEXT-MINING DAN SEQUENCE MATCHINGJika prosesdata miningmelakukan penemuan pengetahuan dari data yang sifatnya terstruktur, makatext miningmenemukan dan melakukan ekstraksi pengetahuan dari data yang tidak terstruktur.Text miningmelibatkan 3 aktivitas utama : (i) temu-balik informasi, yang mengumpulkan teks-teks yang relevan dengan kebutuhan, (ii) ekstraksi informasi, yang mengidentifikasi dan mengekstrak beberapa tipe spesifik dari informasi yang dicari, dan (iii) data mining, yang menemukan asosiasi antara potongan-potongan informasi yang diekstrak dari beberapa teks berbeda [1].

3.1Tahap Temu-Balik InformasiTahap temu-balik informasi merupakan aktivitas untuk menemukan dokumen yang dapat menjawab kebutuhan informasi dengan menggunakan bantuan indeks. Hampir seluruh komputer pada saat ini menggunakan sistem temu-balik informasi secara frekuentif, seperti mesin pencari GoogleTM. Para pengguna yang memanfaatkan jasa mesin pencari ini harus menghadapi permasalahan yang sama : membaca dokumen yang sangat banyak untuk kemudian menemukan fakta yang dan menentukan apakah infornasi yang dibutuhkan terdapat di dalamnya.

Selain mesin pencari untuk tujuan yang tidak spesifik, telah banyak pula terdapat perangkat temu-balik informasi yang telah didesain secara spesifik untuk melakukan query terhadap basis data penerbit jurnal-jurnal yang berkaitan dengan ilmu tertentu. Beberapa contohnya antara lain sebagai berikut Textpresso, Query Chem, iHOP, dan PubMatrix [1].3.2 Tahap Ekstraksi Informasi Dengan Sequence Matching (SM)Untuk melakukan identifikasi dan tabulasi dari fakta yang berada pada dokumen dalam kuantitas sangat besar, ekstraksi informasi merupakan teknologi yang sangat relevan untuk menjawab kebutuhan tersebut. Tujuan akhir dari aplikasi teknologi ini adalah untuk melakukan ekstraksi informasi dari teks tanpa mensyaratkanend-userperlu membaca teks. Ekstraksi informasi dapat digunakan untuk mendukung layanan temu-balik fakta atau sebagai tahapan dalam melakukan text miningberbasiskan teks konseptual.Tujuan dari sequence matching adalah untuk mencari common part dari halaman web yang akan diekstrak. Untuk melakukan proses ini, metode sequence matching mencoba untuk mengadopsi teknik penghitungan string edit distance atau biasa juga disebut Levenshtein Distance [4]. Operasi yang dilakukan dalam string edit distance di antaranya adalah insert, delete dan substitute [1]. Maksud dari edit distance ini sendiri adalah menghitung jumlah minimum dari operasi insert, delete dan substitution yang dilakukan untuk mengganti string S1 menjadi S2 [2]. Sebagai contoh, edit distance antara kitten dan sitting adalah 3, nilai tersebut berasal dari 3 operasi yang dilakukan, yaitu: a. kitten sitten (substitution 's' untuk 'k') b. sitten sittin (substitution 'i' untuk 'e') c. sittin sitting (insert 'g' diakhir string)[4].Algoritma 2, sequence matching ini menggunakan input berupa dua halaman web yang telah direpresentasikan dalam TSReC. Seperti perhitungan konvensional string edit distance, algoritma ini juga menggunakan teknik dynamic programming (baris 03-19). Dynamic programming digunakan karena efisien dalam pencarian solusi optimal untuk problem yang memiliki banyak overlapping sub-problem [10]. Berbeda dengan string edit distance yang membandingkan karakter di dalam string, algoritma ini membandingkan TS di dalam TSReC (baris 11). Jika kedua TS yang dibandingkan memiliki nama tag dan konten teks yang sama, maka kedua TS tersebut dianggap sama (cocok).

Dalam penelitian ini ada tiga parameter yang digunakan untuk mengetahui tingkat keberhasilan sistem yang dibangun, yaitu precision, recall, dan FMeasure. Dalam penelitian ini ada tiga parameter yang digunakan untuk mengetahui tingkat keberhasilan sistem yang dibangun, yaitu precision, recall, dan F-Measure menurut rujukan (Prof Joydeep Ghosh dan Prof Dik Lee, 2009). Kebutuhan informasi yang diterjemahkan ke dalam query Relevansi dinilai relatif terhadap informasi tidak perlu query. Misalnya, Informasi yang diutuhkan: Saya mencari informasi apakah IPK mahasiswa jurusan Sistem Informasi dan Teknik Informatika lebih baik dari program studi Sistem Komputer dan Psikologi. Mengevaluasi apakah dokumen yang terkait dengan database akademik memenuhi kebutuhan informasi, apakah ia memiliki IPK yang relevan atau tidak relevan. Untuk itu IR (Information Retrievel) menguji performansi kinerja ekstraksi web data mining dimana patokan yang digunakan seperti terlihat pada Gambar 10a. dan 10b. 3.3. Precision, Recall, dan F-Measure

Precision merupakan perbandingan dari pengembalian dokumen yang relevan. Bisa dikatan bahwa precision merupakan pecahan atau fraction dari dokumen yang didapatkan yang relevan dari informasi yang diinginkan sesuai rujukan (Prof Joydeep Ghosh dan Prof Dik Lee, 2009).

Recall merupakan perbandingan dari dokumen relevan yang sudah dikembalikan. Atau bisa dikatakan bahwa recall merupakan fraction dari dokumen yang relevan berdasarkan query atau permintaan yang sukses dijawab atau dikembalikan. Gambar 2 menyajikan illustrasi dari Precision dan Recall.

F-Measure didefinisikan sebagai kombinasi dari recall dan precision dengan bobot yang seimbang, rumusan dari F-Measure adalah sebagai berikut :

3.3 TahapData MiningTahapdata miningdigunakan untuk menemukan asosiasi yang tidak ditemukan sebelumnya dari antara fakta-fakta yang telah diekstrak oleh tahapan sebelumnya. Tahap ini merupakan tahapan yang membungkus integrasi antaratext miningdandata mining.Kebanyakan teknikdata miningyang diterapkan pada biologi menggunakan asumsi bahwa data yang ada merupakan data biologi yang telah terstruktur dengan baik, tidak seperti data tekstual tak terstruktur yang digunakan dalam tekniktext mining. Data tekstual tak terstruktur yang telah digunakan untuk meningkatkan performansi hasil PSI-BLAST (position spesific iteratedBLAST), dan pencarian homolog sekuensial telah berhasil mengintegrasikantext miningdengandata mininguntuk keperluan klasifikasi fungsional berbasis sekuens dari protein dengan menggunakan metodesupervised machine-learning.Akan tetapi, karenaclustertersebut masih relatif sedikit yang melalui tahap validasi,text miningmasih digunakan sebagai satu tahapan maju dariclusteringekspresi gen dan menginterpretasikanclustertersebut melalui asosiasi dengan literatur dari penerbit.

4.TEXT-MININGDALAM BIOLOGI SEBAGAI ILMU INTERDISIPLINER4.1TEXT MININGDALAM PEMBUATAN HIPOTESISBiologi merupakan salah satu contoh bidang ilmu yang menunjukkan pergeseran kecenderungan pengetahuan sains dari cara berpikir yang digerakkan oleh hipotesis ke arah cara berpikir terintegrasi yang bersifat holistik, yaitu memadukan hipotesis dengan data. Data mengenai ilmu pengetahuan interdisiplin seperti biologi dapat ditemui dalam bentuk yang sangat beragam, seperti data terstruktur yang berasal dari basis data, data eksperimen, atau bahkan data tak terstruktur yang berasal dari teks bebas. Jumlah data tekstual yang bersifat tak terstruktur mengalami peningkatan yang sangat pesat hingga sangat sulit untuk menemukan pengetahuan dan membuat hipotesis sains tanpa penggunaan teknologi akstraksi pengetahuan, yang sangat bertumpu pada teknikdata mining.Dalam disiplin ilmu dengan data yang melimpah namun kurang berisi dalam hal hipotesis di dalamnya (seperti data gen fungsional dan biomedik), metode sains deduktif sulit untuk dipertahankan karena tidak dapat memberikan perkembangan terakhir dari ilmu pengetahuan tertentu dengan cepat. Untuk itu, pada saat ini penemuan pengetahuan dengan metode induksi yang digerakkan oleh data mengalami perkembangan yang pesat. Ciri khas metode ini adalahrapid miningkandidat hipotesis dari literatur-literatur, yang kemudian diuji dan divalidasi secara subsekuens dengan data eksperimen yang tersedia [1].

Dengan metode tersebut dapat dibuat koneksi antara beberapa argumen yang nampak terpisah dan tidak memilki korelasi apapun. Beberapa koneksi dari jurnal-jurnal dan informasi penerbit MEDLINE yang dibuat dengan metode ini antara lain sebagai berikut: (i) keterhubungan antara penyakitmigrainedan defisiensi magnesium, yang telah divalidasi secara subsekuens melalui eksperimen, (ii) keterhubungan antaraindomethacindan gangguan Alzheimer, (iii) serta keterhubungan antaraCurcuma longadan gangguan retina. Dengan menggunakan teknik yang sama pula dan dengan berdasar kepada bukti literatur, dapat diberikan saran mengenai pemberianthalidomideuntuk penanganan beberapa penyakit, seperti hepatitis C kronis dan gangguan pankreas akut [1].

Pembuatan hipotesis dengantext miningdilakukanberdasarkan fakta bahwa kemungkinan adanya keterhubungan atau asosiasi antara entitas atau fakta yang terpisah satu sama lain dapat terjadi. Kemungkinan-kemungkinan ini dimunculkan dan dipadukan dengan data-data yang ada, sehingga dapat menghasilkan informasi yang berguna.

4.2TEXT MININGDALAM SISTEM EKSTRAKSI INFORMASI DAN PENJAWABANQUERYBIOLOGIUntuk memperoleh pemahaman yang lebih mendalam mengenai sistem ekstraksi informasi biologi ini, dibahas secara spesifik mengenai salah satu contohnya, yaitu BIEQA :Biological Information Extraction and Query Answering.BIEQA secara khusus dirancang untuk menerima teks atau dokumen biologi yang telah diberikantagsecara ontologis sebagai input dan melakukan ekstraksi dari informasi tersebut mengenai relasi yang menghubungkan dua konsep biologi dalam teks tersebut. Relasi hasil ekstraksi digunakan untuk membantu pengguna melakukan ekstraksi informasi dari dokumen teks dengan cara yang lebih efisien. Sistem ini dibuat khusus dengan menggunakancorpusontologi GENIA dan bersifat spesifik untuk jurnal-jurnal yang ada dalam basis data penerbit MEDLINE.

Beberapa aspek unik dari BIEQA antara lain sebagai berikut.

(i) Sistem menggunakan pendekatan yang mengintegrasikan pemrosesan bahasa alami dan teknik pencocokan pola untuk memperoleh seluruh relasi biologi yang terdapat dalam sebuahcorpus.Sistem telah dirancang untuk bekerja dengan koleksi abstrak di mana entitas biologinya telah diberitagsesuai dengan konsep ontologinya, bersama dengan ontologi yang menjadi input. Hal ini menginisiasipattern miningdengan rangkaian konsep ontologi untuk mengekstrak relasi database akademik di dalamnya.

(ii) Relasi biner yang telah diekstrak kemudian direpresentasikan dalam bentuk triplet berurut , di mana Cidan Cjmerupakan konsep biologi dan R merupakan relasi biologi yang diperoleh daricorpus. Seluruh relasi diasosiasikan dengan nilai keanggotaanfuzzy,berdasarkan frekuensi relatif kemunculan relasi. Seluruh relasi didefinisikan pada level konseptual untuk memudahkan deskripsinya.

(iii) Seluruh informasi relevan, seperti nama entitas biologi dan kategori biologisnya, serta relasi biologi dan kemunculannya, seluruhnya dikumpulkan dalam sebuah basis data pengetahuan yang terstruktur. Basis pengetahuan ini kemudian diindeks berdasarkan relasi, entitas, dan konsepnya dengan menggunakan mekanisme indeks novel.

Secara umum, sistem yang dibahas memiliki 5 modul utama yang memilki peranan masing-masing yang terintegrasi dalam sistem [2].

(i) Ekstraktor Entitas

Modul ini menerima masukan berupa abstrak makalah biologi yang telah mengandungtagdan mengekstrak nama entitas dari teks. Karena entitas dapat saja diselipkan dalamtagtunggal maupun ganda, maka diperlukan desainruleuntuk melakukan pre-proses dan kemudian mengekstrak entitas biologi dari dokumen teks yang telah diberitag.(i)Meta Language (ML) Tag Filterdan POSTaggerModul ini berfungsi untuk menyaringtag-tagML dari dokumen input. Dokumen yang telah disaring kemudian dianalisa dengan bantuan POS (Part-of-Speech)Taggeruntuk mengubah tiap kalimat ke dalam bentuk semi-terstruktur berbasiskan konsep.

(ii)Biological Relation ExtractorModul ini menggunakan rekord semi-terstruktur yang dihasilkan dari modul sebelumnya melalui kolaborasi dengan ontologi yang telah didefinisikan sebelumnya, untuk pertama-tama mengekstrak seluruh komponen informasi dan seluruh triplet relasi biologi (Ci, R, Cj).

(iii)Knowledge Base ManagerModul ini menyimpan koleksi abstrak untuk melakukan ekstraksi informasi yang lebih efisian dari waktu ke waktu. Di dalamnya terdapatparserdokumen yang menyimpan lokasi terdapatnya relasi biologi dalam koleksi untuk membuat basis data yang telah terindeks menurut entitas, konsep, dan relasi.

(iv) PemrosesQueryModul pemrosesanquerymenyediakan antar-muka query intelijen yang memungkinkan pengguna untuk membuat formulasiquerypada tingkat spesifikasi yang berbeda-beda.Queryyang dimasukkan oleh pengguna dapat mengandung informasi yang sederhana hingga kompleks, dapat meliputi pertanyaan mengenai eksistensi nama entitas tertentu hingga eksistensi sepasang entiitas atau konsep yang dihubungkan oleh relasi biologi tertentu.

5. KESIMPULANTeknologitext miningdapat diaplikasikan dalam berbagai area ilmu pengetahuan, termasuk biologi sebagai ilmu interdisipliner. Beberapa pengembangantext-miningdalam bidang biologi antara lain pembuatan hipotesis/kesimpulan secara induktif serta pembuatan sistem ekstraksi informasi biologi untuk identifikasi relasi dan akses literatur yang relevan.

Beberapa arah pengembangantext-mininguntuk menjadi teknologi masa depan yang dapat membantu perkembangan ilmu pengetahuan antara lain sebagai berikut [1].

i) Tersedianya jurnal atau literatur dalam formatfull-textakan memberikan signifikansi yang cukup besar dalam performansitext-mining, mengingat masih banyaknya abstrak yang kekurangan informasi relevan di dalamnya.

ii) Integrasitext miningdengandata miningakan merintis pengembangan aplikasi yang lebih luas dalam berbagai bidang ilmu pengetahuan teori maupun terapan, seperti pencarian similaritas struktur kimiawi atau integrasi rekam medis dengan data gen dan bukti dari literatur untuk kepentingan aplikasi farmasi. Dengan memadukan aplikasi dengan konsep sistem tersebar, maka akan memberikan lebih banyak manfaat kepada masyarakat.

iii) Pengembangan konseptext-miningjuga dapat dimanfaatkan dalam pembuatan model berdasarkan litaratur yang ada. Pembuatan model ini dapat diawali dengan perancangan model kualitatif atau struktural, yang biasanya diturunkan dari rangkaian gen dan kemudian dapat diintegrasikan dengan bukti yang diturunkan dari literatur melalui konseptext-mining.

Eksplorasi dan eksploitasi teknik data mining masih berada pada tahap awal pengembangan, namun telah mencapai kemajuan yang cukup pesat. Teknik ini diharapkan dapat menjadi alat yang dapat diandalkan oleh para ahli ilmu pengetahuan di masa depan untuk dapat melakukan ekstraksi informasi pengetahuan intersisipliner dengan lebih efektif dan efisien, yang pada akhirnya akan membawa kemajuan yang lebih pesat pada perkembangan ilmu pengetahuan secara keseluruhan.

6. DAFTAR REFERENSI[1] Ananiaduo, Sophia.et al. (2006)Text mining and its appplications in systems biology.

[2] Abulaish, M. and Dey, Lipika. (2006)Biological relation extraction and query answering from MEDLINE abstracts using ontology-based text mining.

[3] Cohen, Aaron M. and Hersh, William R. (2004)A survey of current work in biomedical text mining.

[4] Spasic, Irene.et al. (2005)Text mining and ontologies in biomedicine : Making sense of raw text.

[5]. Turban, Efraim, Ramesh Sharda, Dursun Delen. Decision Support and Business Intelligence System. Pearson Education.

[6]. http://seagate.staff.ugm.ac.id/?p=15

[7]. http://www.anvari.net/23_BI/turban_dss9e_ch07.ppt[8]. Caglayan, P., Harrison, C., 1997, Agent SourceBook: A Complete Guide to Desktop, Internet, and Intranet Agents, John Wiley & Sons, Inc, New York.

[9].Cheong, Fan-Chun, 1996, Internet Agents: Spiders, Wanderers, Brokers, and Bots, New Riders Publishing, Indianapolis.

[10].Gilbert, D., 1997, Intelligent Agents: The Right Information at the Right Time, IBM white paper, http://www.networking.ibm.com/iag/iagwp1.html.

[11].Karnik, Neeran, 1999, Security in Mobile Agent System, PH.D. Dissertation, University of Minessota.

[12].Maes, P., 1994, Agents that Reduce work and Information Overload, Communications of the ACM, 37(7): page 31-40.

[13].Murugesan, San, 1998, Intelligent Agents on the Internet and Web, IEEE, page 97 - 102.

[14].Turban, Efraim, Lee, Jae, King, David, Chung, H. Michael, 2000, Electronic Commerce : A Managerial Perspective, Prentice-Hall, New-Jersey.

[15].Wooldridge, J., Jennings, N.R., 1995, Intelligent agents: Theory and Practice, The Knowledge Engineering Review,

[16].Wuthrich, B., Cho, V., Leung, S., Permunetilleke, Sankaran, K, Zhang, J., Lam, W., 1998, Daily Stock Market Forecast from Textual Web Data, Hong Kong.Web mining

Content mining

Structure mining

Text mining

Multimedia mining

External Structure mining

Internal Structure mining

URL mining

..( 1 )

EMBED Equation.3

..( 2 )

EMBED Equation.3

EMBED Equation.3

..( 3 )

_1058168541.unknown

_1403178983.unknown

_1404819784.unknown

_1403163971.unknown

_1058168539.unknown

Ekstraksi Teks Mining Dengan Metoda Sequence Matching (1)

Documents

Transcript of Ekstraksi Teks Mining Dengan Metoda Sequence Matching (1)