Text Mining

24
Text Mining

description

Text Mining. Definisi. adalah suatu proses untuk mengambil informasi dari teks yang ada. Text mining mencari pola-pola yang ada di teks teks dalam bahasa natural yang tidak terstuktur seperti buku, email, artikel, halaman web, dll. - PowerPoint PPT Presentation

Transcript of Text Mining

Page 1: Text Mining

Text Mining

Page 2: Text Mining

Definisi

• adalah suatu proses untuk mengambil informasi dari teks yang ada.

• Text mining mencari pola-pola yang ada di teks teks dalam bahasa natural yang tidak terstuktur seperti buku, email, artikel, halaman web, dll.

• Kegiatan yang biasa dilakukan oleh text mining adalah text categorization, text clustering, conception/entity extraction, dll.

Page 3: Text Mining

Text Mining vs data Mining

• Yang membedakan hanyalah sumber data yang digunakan

• Data pada Data Mining data yang digunakan adalah data terstruktur

• Text mining data yang digunakan adalah data yang tidak terstruktur berupa teks.

Page 4: Text Mining

3 proses kegiatan text mining1. Characterization of data

Teks yang ada distrukturkan dengan proses seperti parsing, dan diamsukkan ke dalam sebuah database

2. Data miningDari data yang ada, dilakukan sebuah pencarian dengan algoritma tertentu untuk mendapatkan pola dari data tersebut

3. Data visualizationHasil pencarian yang ada akan diinterpretasi dan dikeluarkan dalam bentuk output yang dapat dimengerti dengan mudah.

Page 5: Text Mining

Preprocessing data TM

• yaitu proses pendahulu yang diterapkan terhadap data teks yang bertujuan untuk menghasilkan data numerik.

Page 6: Text Mining

Tahap Preprosesing1. Penghapusan format dan markup

Jika dokumen yang digunakan bukan berupa teks murni maka tahap ini dilakukan. Karena dokumen teks yang biasanya kita lihat berupa format non teks seperti html, pdf atau dalam bentuk word. Format-format ini mengharuskan sebuah teks dilengkapi unsur-unsur tambahan untuk dapat menghasilkan tampilan yang friendly dimata kita. Informasi-informasi itu dihilangkan karena dianggap tidak perlu dan tidak mencerminkan isi sebuah dokumen teks

2. Penghapusan tanda baca dan angka Tanda baca juga dianggap tidak penting, karena kebetulan dalam penelitian yang saya lakukan tidak memperhatikan keterkaitan kata, kalimat ataupun sejenisnya, so kata dianggap berdiri sendiri.

Page 7: Text Mining

Tahap Preprosesing3. Pengubahan dari huruf besar ke huruf kecil semua.4. Parsing dan Stemming

Penguraian kata kedalam bentuk tunggal dan pembentukan kata kedalam bentuk dasarnya, sehingga kata-kata yang mempunyai bentuk kata dasar yang sama akan dikelompokkan.

5. Pembobotan Dimulai dengan perhitungan jumlah kata dalam setiap dokumen, yang kemudian akan dihitung menggunakan skema pembobotan yang dikehendaki.

Page 8: Text Mining

Aplikasi Text Mining • Aplikasi Marketing

Text mining dapat digunakan untuk cross-selling dan up-selling dengan menganalisis data yang tidak terstruktur yang dihasilkan oleh call center.

• Aplikasi KeamananPada tahun 2007 ,EUROPOL mengembangkan sistem terintegrasi yang mampu mengakses ,memyimpan dan menganalisis sejumlah besar sumber data terstruktur dan tak terstruktur untuk melacak organisasi kriminal transnasional.

• Aplikasi BiomedisPubGene yang menggabungkan text mining biomedis dengan visualisasi jaringan sebagai sebuah layanan Internet. Contoh lainnya yaitu GoPubMed Semantic similarity yang juga telah digunakan oleh sistem text mining, yaitu, GOAnnotato.

• Aplikasi AkademikNational Centre for Text Mining yang merupakan hasil kolaborasi Universitas Manchester dan Liverpool,digunakan untuk menyediakan customized tools,fasiitas penelitian ,dan saran pada text mining untuk komunitas akademik.

Page 9: Text Mining

Proses Text Mining

• Input dari proses text mining berupa kumpulan data terstruktur maupun tidak terstruktur.

• Sedangkan outputnya merupakan pengetahuan berkonteks khusus yang dapat digunakan untuk mengambil keputusan.

• Kontrol atau hambatan prosesnya mencakup keterbatasan hardware, masalah privasi,kesulitan pemrosesan teks yang ditampilkan dalam bentuk natural language.

• Mekanisme proses termasuk teknik yang tepat,peralatan software,dan domain keahlian.

Page 10: Text Mining

Proses Text MiningPada level yang sangat tinggi proses text mining dapat dipecah menjadi 3 task

yaitu :

1) Membentuk Korpus : Bertujuan mengumpulkan semua dokumen yang berhubungan dengan konteks yang sedang dipelajari. Setelah dikumpulkan,dokumen-dokumen teks di ubah dan diorganisir dalam suatu bentuk sehingga dokumen-dokumen tersebut berada dalam bentuk representasi yang sama.

2) Menciptakan term-document matrix : Pada tahap ini,pendigitalan dan peorganisasian dokumen (korpus) digunakan untuk menciptakan term-document matrix (TDM).Tujuan utama tahap ini adalah menkonvert daftar dokumen yang terorganisir kedalam TDM dimana sel-sel nya berisi indeks yang paling tepat.

3) Menggali pengetahuan : text mining menggunakan data mining algoritma seperti klasifikasi,clustering,assosiasi,dan sequence discovery untuk menggali pengetahuan dari algoritma tersebut.

Page 11: Text Mining

Garis besar cara kerja text mining adalah sebagai berikut :

Page 12: Text Mining

Tahapan yang dilakukan secara umum adalah :

Page 13: Text Mining

TokenizingTahap Tokenizing adalah tahap pemotongan string input

berdasarkan tiap kata yang menyusunnya

Page 14: Text Mining

FilteringTahap Filtering adalah tahap mengambil kata-kata

penting dari hasil token. Bisa menggunakan algoritma stop list (membuang kata yang kurang penting) atau

word list (menyimpan kata penting)

Page 15: Text Mining

StemmingTahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering.

Page 16: Text Mining

TaggingTahap tagging adalah tahap mencari

bentuk awal / root dari tiap kata lampau atau kata hasil stemming

Page 17: Text Mining

AnalyzingTahap analyzing merupakan tahap penentuan seberapa jauh

keterhubungan antar kata-kata antar dokumen yg ada.

Page 18: Text Mining

Text Mining Tools

Commercial Software Tools : ClearForest,IBM Intelligent Miner Data Mining Suite,Megaputer Text Analyst ,SAS Text Miner,SPSS Text Mining,The Statistica Text Mining,VantagePoint,The WordSTat Analysis module,dll.

Free Software Tools : bersifat open source diantranya GATE,LingPipe,S-EM(Spy-EM) dan Vivisimo/Clusty.

Page 19: Text Mining

Web Mining

• Proses menemukan hubungan intrinsik dari data web yang diekspresikan dalam bentuk tekstual ,linkage atau informasi yang berguna.

• Web mining dapat didefinisikan sebagai penemuan dan analisis informasi yang menarik dan berguna dari web,mengenai web dan biasanya menggunakan peralatan berbasis web.

• Berdasarkan analisis target,web mining dapat dibagi menjadi 3 jenis yaitu :– Web usage mining,– Web content mining dan– Web structure mining.

Page 20: Text Mining

Analisis Target• Web Usage Mining:

Web usage mining adalah penggalian informasi yg berguna dari data yang dihasilkan melalui kunjungan dan transaksi halaman web. Web usage mining mengacu pada pengembangan informasi yang berguna melalui analisis web server log,profil pengguna dan informasi transaksi.

• Web Content Mining:Mengacu pada penggalian data yang berguna dari halaman web. Dokumen-dokumen mungkin digali dalam beberapa mesin dengan format yang dapat dibaca sehingga teknik otomatis dapat menghasilkan beberapa informasi mengenai halaman web.Web content mining kadang disebut juga web text mining, karena isi teks adalah daerah yang paling banyak diteliti. Teknologi yang biasa digunakan dalam web content mining adalah NLP (Natural language processing) dan IR (Information retrieval).

• Web Structure Mining:Proses penggalian informasi yang berguna dari link-link yang tertanam pada dokumen web. Web structure mining digunakan untuk mengidentifikasi kepemilikan web dan hub,yang mana merupakan pilar dari algoritma page-rank(peringkat halaman).

Page 21: Text Mining

Tahapan Web Mining• Tahapan pada web mining dibagi menjadi tiga kelompok yaitu: preprocess, process, dan,

post process. • Tahapan preprocess meliputi data cleaning, transaction identification, integration, dan

transformation.• Pada tahap process diterapkan sejumlah formulasi statistik antara lain untuk mengurangi

jumlah atribut dengan cara membuang atribut yang tidak berpengaruh (information gain). Pada tahap ini dapat juga dilakukan teknik clustering, asosiasi, dan klasifikasi.

• Pada tahap post processing dilakukan analisis lebih lanjut untuk mengolah hasil mining pada tahapan sebelumnya. Hal ini perlu dilakukan sebab sering sekali hasil yang diperoleh pada tahap process tidak memberikan sesuatu yang dapat digunakan secara langsung, sehingga diperlukan teknik lainnya seperti visualisasi grafik dan analisis statistik lainnya.

• Tahapan process merupakan tahapan utama dalam web mining. Pada tahap ini, atribut yang akan diolah harus diminimalisasi terlebih dahulu dengan tujuan untuk membuang atirbut yang tidak perlu sehingga hanya atribut yang mempunyai relevansi kuat yang akan diproses, sehingga efisiensi space dan waktu dapat dicapai dan kualitas data yang dihasilkan lebih baik. Salah satu cara untuk mereduksi atribut adalah dengan information gain.

Page 22: Text Mining

Penerapan Web Mining

• Peralatan Web Mining menganalisis web logs untuk informasi berguna yang berkaitan dengan pelanggan yang dapat membantu personalisasi situs web berdasarkan perilaku pengguna. Peralatan web mining juga digunakan untuk mencari web untuk kata kunci,frase dan konten lainnya.

Page 23: Text Mining

Web Mining Software

• Perangkat lunak open source untuk web mining termasuk RapidMiner, yang menyediakan modul untuk pengelompokan teks, kategorisasi teks, ekstraksi informasi, yang dinamakan pengakuan entitas, dan analisis sentimen. RapidMiner digunakan misalnya pada aplikasi penyaringan berita otomatis untuk personalisasi survey berita.

Page 24: Text Mining

Selesai