26111 22 text mining
-
Upload
universitas-bina-darma-palembang -
Category
Data & Analytics
-
view
77 -
download
2
Transcript of 26111 22 text mining
R.M. NASRUL HALIM D., M.KOM
DEFINISI Menambang data berupa text/kata.
Sumber data didapatkan dari dokumen.
Proses ekstraksi pola berupa informasi danpengetahuan yang berguna dari sejumlah besarsumber data teks, seperti dokumen Word, PDF,kutipan teks, e-mail, dll.
TUJUAN Tujuannya untuk mencari kata-kata yang dapat
mewakili apa yang ada di dalam dokumen, sehingga dapat dilakukan analisa hubungan antar dokumen
KARAKTERISTIK Dokumen email merupakan dokumen yang tidak
memiliki struktur bahasa yang baku, karena didalamnya terkadang muncul istilah slank seperti ”r uthere?”, ”helllooo bosss, whatzzzzzzz up?”, dansebagainya.
Diperlukan beberapa tahap agar teks dapat diubahmenjadi lebih terstruktur.
PROSES TEXT MINING
TAHAPAN Tokenizing (Penandaan)
Filtering (Penyaringan)
Stemming (Asal Kata)
Tagging (Pelabelan)
Analyzing (Analisis)
Tokenizing Proses memecah sekumpulan karakter dalam suatu
teks ke dalam satuan kata.
Bagaimana membedakan karakter-karakter tertentuyang dapat diperlakukan sebagai pemisah kata ataubukan.
Contoh: karakter whitespace, seperti enter, tabulasi,spasi dianggap sebagai pemisah kata.
Dalam memperlakukan karakter-karakter dalam tekssangat tergantung sekali pada kontek aplikasi yangdikembangkan.
Tokenizing
Filtering Tahap mengambil kata-kata penting dari hasil token.
Bisa menggunakan algoritma stop list (membuangkata yang kurang penting) atau word list (menyimpankata penting)
Filtering
Stemming Tahap mencari kata dasar dari tiap kata hasil filtering.
Stemming
Tagging Tahap mencari bentuk awal/dasar dari tiap kata
lampau atau kata hasil stemming.
Tagging
Analyzing Tahap penentuan seberapa jauh keterhubungan antar
kata-kata antar dokumen yang ada.
Term Frequency-Inversed Document Frequency (TF-TDF) merupakan algoritma yang paling sederhanayang biasanya digunakan untuk penentuan skor.
Analyzing