26111 22 text mining

R.M. NASRUL HALIM D., M.KOM

DEFINISI Menambang data berupa text/kata.

Sumber data didapatkan dari dokumen.

Proses ekstraksi pola berupa informasi danpengetahuan yang berguna dari sejumlah besarsumber data teks, seperti dokumen Word, PDF,kutipan teks, e-mail, dll.

TUJUAN Tujuannya untuk mencari kata-kata yang dapat

mewakili apa yang ada di dalam dokumen, sehingga dapat dilakukan analisa hubungan antar dokumen

KARAKTERISTIK Dokumen email merupakan dokumen yang tidak

memiliki struktur bahasa yang baku, karena didalamnya terkadang muncul istilah slank seperti ”r uthere?”, ”helllooo bosss, whatzzzzzzz up?”, dansebagainya.

Diperlukan beberapa tahap agar teks dapat diubahmenjadi lebih terstruktur.

PROSES TEXT MINING

TAHAPAN Tokenizing (Penandaan)

Filtering (Penyaringan)

Stemming (Asal Kata)

Tagging (Pelabelan)

Analyzing (Analisis)

Tokenizing Proses memecah sekumpulan karakter dalam suatu

teks ke dalam satuan kata.

Bagaimana membedakan karakter-karakter tertentuyang dapat diperlakukan sebagai pemisah kata ataubukan.

Contoh: karakter whitespace, seperti enter, tabulasi,spasi dianggap sebagai pemisah kata.

Dalam memperlakukan karakter-karakter dalam tekssangat tergantung sekali pada kontek aplikasi yangdikembangkan.

Tokenizing

Filtering Tahap mengambil kata-kata penting dari hasil token.

Bisa menggunakan algoritma stop list (membuangkata yang kurang penting) atau word list (menyimpankata penting)

Filtering

Stemming Tahap mencari kata dasar dari tiap kata hasil filtering.

Stemming

Tagging Tahap mencari bentuk awal/dasar dari tiap kata

lampau atau kata hasil stemming.

Tagging

Analyzing Tahap penentuan seberapa jauh keterhubungan antar

kata-kata antar dokumen yang ada.

Term Frequency-Inversed Document Frequency (TF-TDF) merupakan algoritma yang paling sederhanayang biasanya digunakan untuk penentuan skor.

Analyzing

26111 22 text mining

Data & Analytics

Transcript of 26111 22 text mining