Text dan Web Mining -...

27
Text dan Web Mining Budi Susanto Teknik Informatika UKDW Yogyakarta

Transcript of Text dan Web Mining -...

Page 1: Text dan Web Mining - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/textwebmining/Minggu1.pdf · Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami

Text dan Web Mining

Budi SusantoTeknik Informatika UKDW

Yogyakarta

Page 2: Text dan Web Mining - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/textwebmining/Minggu1.pdf · Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami

Deskripsi

Matakuliah ini secara prinsip menekankan tentang teknik-teknik yang perlu diketahui mahasiswa dalam mengelola kumpulan dokumen teks dan atau web dalam skala cukup besar. Pengelolaan tidak hanya terkait tentang bagaimana mengatur penyimpanan, namun juga terkait dengan pemanfaatannya, antara lain untuk menunjang pencarian dokumen dengan menggunakan teknik information retrieval, penerapan konsep data mining pada kumpulan dokumen teks/web.

Page 3: Text dan Web Mining - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/textwebmining/Minggu1.pdf · Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami

Kompetensi Matakuliah

Setelah mengikuti matakuliah ini, mahasiswa dapat memahami tentang:

● konsep umum text mining● algoritma data mining dasar● pembentukan vektor dokumen ● supervised● unsupervised● information retrieval● link analysis dan web crawling.

Page 4: Text dan Web Mining - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/textwebmining/Minggu1.pdf · Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami

Silabus

● Pengantar Text Mining dan Intelligent Web● Metode-metode dasar● Dasar-dasar Data Mining: Association Rules● Dasar-dasar Data Mining: Supervised Learning● Dasar-dasar Data Mining: Unsupervised Learning● Pembentukan Vektor Dokumen● Information Retrieval: Indexing● Retrieval Strategy (2 kali)● Link Analysis● Web Crawling

Page 5: Text dan Web Mining - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/textwebmining/Minggu1.pdf · Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami

Komposisi Nilai

● Tugas : 50% (ada 5 tugas yang terkait dengan struktur data dan algoritma)

● TTS : 20%● TAS : 30%

Page 6: Text dan Web Mining - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/textwebmining/Minggu1.pdf · Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami

Referensi

1. Marmanis, H., Babenko, D. (2009). Algorithms of the intelligent web. Manning Publication Co.

2. Grossman, D.A., Frieder, O. (2004). Information retrieval: Algorithms and Heuristics, 2nd edition. Springer.

3. Konchady, M. (2006). Text mining application programming. Charles River Media.

4. Liu, B. (2007). Web data mining: Exploring hyperlinks, contents, and usage data. Springer.

5. Weiss, S. M., Indurkhya, N., Zhang, T., Damerau, F. J. (2005). Text mining: Predictive methods for analyzing unstructured information. Springer.

6. Wittern, I.H., Frank, E. (2005). Data mining: Practical machine learning tools and techniquues. Elsevier Inc.

Page 7: Text dan Web Mining - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/textwebmining/Minggu1.pdf · Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami

Pengantar Text Mining dan Intelligent Web

budi susanto

Page 8: Text dan Web Mining - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/textwebmining/Minggu1.pdf · Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami

Data Warehouse

● Data warehouse merupakan suatu rekaman dari informasi transaksional dan operasional yang telah lalu yang disimpan dalam suatu database yang dirancang agar dapat melakukan pelaporan dan analisis data yang efisien.

● Data warehouse tidak diperuntukkan untuk data yang sedang digunakan saat ini.

● Data warehouse seringkali menyimpan informasi dalam jumlah besar yang terkadang juga dibagi menjadi unit-unit logika yang lebih kecil yang disebut dependent data mart.

Page 9: Text dan Web Mining - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/textwebmining/Minggu1.pdf · Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami

Pembuatan Data Warehouse

● menggabungkan data dari struktur database yang tersebar dan berbeda yang dapat memberikan fasilitas gambaran global dan analisis komprehensif dalam data warehouse;

● memisahkan antara data yang digunakan dalam operasi sehari-hari dengan data yang digunakan dalam data warehouse untuk tujuan pelaporan, pendukung keputusan, analisis dan pengendalian.

Page 10: Text dan Web Mining - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/textwebmining/Minggu1.pdf · Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami

Blok Proses Datawarehouse

Page 11: Text dan Web Mining - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/textwebmining/Minggu1.pdf · Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami

Data Mining

● Data mining adalah suatu proses yang secara otomatis mencari atau menemukan informasi yang bermanfaat dari suatu kumpulan data yang besar.

● Tidak semua tugas penemuan informasi disebut sebagai data mining.

○ Sebagai contoh, pencarian data pribadi dengan menggunakan sebuah sistem manajemen basis data, atau

○ pencarian suatu halaman web tertentu dengan cara melakukan query pada search engine di Internet.

○ Pekerjaan-pekerjaan seperti itu merupakan bidang Information Retrieval.

Page 12: Text dan Web Mining - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/textwebmining/Minggu1.pdf · Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami

Tahapan Data Mining

Data Mining lebih dekat pada bidang pencarian pengetahuan dalam basis data (knowledge discovery in database / KDD), yang merupakan proses konversi dari data mentah menjadi informasi yang bermanfaat.

Page 13: Text dan Web Mining - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/textwebmining/Minggu1.pdf · Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami

Kelompok Data Mining

Data mining dibagi dalam dua kelompok jenis tugas analisis data:

● predictive task○ bertugas untuk memprediksi nilai sebuah atribut tertentu

(target) didasarkan pada nilai atribut lain (explanatory) ● descriptive task

○ bertugas mendapatkan pola analisis asosiasi (association analysis), pengelompokan (clustering), penyimpangan (anomaly detection) yang meringkas hubungan-hubungan dalam data.

Page 14: Text dan Web Mining - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/textwebmining/Minggu1.pdf · Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami

Text Mining

● Text mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, yaitu proses penganalisisan teks guna menyarikan informasi yang bermanfaat untuk tujuan tertentu.

● Berdasarkan ketidakteraturan struktur data teks, maka proses text mining memerlukan beberapa tahap awal yang pada intinya adalah mempersiapkan agar teks dapat diubah menjadi lebih terstruktur.

Page 15: Text dan Web Mining - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/textwebmining/Minggu1.pdf · Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami

Tahapan Text Mining

Page 16: Text dan Web Mining - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/textwebmining/Minggu1.pdf · Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami

Masalah Umum yang ditangani

● Klasifikasi Dokumen ● Information Retrieval ● Pengorganisasian dan Clustering Dokumen● Information Extraction

Page 17: Text dan Web Mining - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/textwebmining/Minggu1.pdf · Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami

Clustering Dokumen

Page 18: Text dan Web Mining - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/textwebmining/Minggu1.pdf · Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami

Analisis Cluster

● Analisis cluster adalah pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya.

● Pola-pola dalam suatu cluster akan memiliki kesamaan ciri/sifat daripada pola-pola dalam cluster yang lainnya.

Page 19: Text dan Web Mining - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/textwebmining/Minggu1.pdf · Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami

Analisis Cluster

● Clustering bermanfaat untuk melakukan analisis pola-pola yang ada, mengelompokkan, membuat keputusan dan machine learning, termasuk data mining, document retrieval, segmentasi citra, dan klasifikasi pola.

● Metodologi clustering lebih cocok digunakan untuk eksplorasi hubungan antar data untuk membuat suatu penilaian terhadap strukturnya.

Page 20: Text dan Web Mining - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/textwebmining/Minggu1.pdf · Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami

Information Retrieval

Page 21: Text dan Web Mining - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/textwebmining/Minggu1.pdf · Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami

Information Retrieval

Konsep dasar dari IR adalah pengukuran kesamaan● sebuah perbandingan antara dua dokumen, mengukur

sebearapa mirip keduanya. Setiap input query yang diberikan, dapat dianggap sebagai sebuah dokumen yang akan dicocokan dengan dokumen-dokumen lain. Pengukuran kemiripan serupa dengan metode klasifikasi yang disebut metode nearest-neighbour.

Page 22: Text dan Web Mining - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/textwebmining/Minggu1.pdf · Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami

Information Extraction

Page 23: Text dan Web Mining - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/textwebmining/Minggu1.pdf · Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami

Information Extraction

● Information Extraction bermanfaat untuk menggali struktur informasi dari sekumpulan dokumen.

● Dalam menerapkan IE, perlu sekali dilakukan pembatasan domain problem.

● IE sangat memerlukan NLP untuk mengetahui gramatikal dari setiap kalimat yang ada.

● Sebagai contoh:○ “Indonesia dan Singapore menandatangani MoU

kerjasama dalam bidang informasi dan komunikasi.”○ KerjaSama(Indonesia, Singapore, TIK)

Page 24: Text dan Web Mining - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/textwebmining/Minggu1.pdf · Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami

Information Extraction

● Dengan IE, kita dapat menemukan:○ concepts (CLASS)○ concept inheritance (SUBCLASS-OF)○ concept instantiation (INSTANCE-OF)○ properties/relations (RELATION)○ domain and range restrictions (DOMAIN/RANGE)○ equivalence

Page 25: Text dan Web Mining - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/textwebmining/Minggu1.pdf · Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami

Web Mining: Karakteristik Web

● jumlah data/informasi di web sangat besar dan terus bertambah.

● tipe data beragam● informasi pada web sangat beragam.● informasi-informasi di web saling terhubung.● informasi di web sangat "kotor".● web juga merupakan service.● web dinamis● web merupakan sarana komunitas sosial virtual.

Page 26: Text dan Web Mining - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/textwebmining/Minggu1.pdf · Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami

Web Mining

Web Mining bertujuan untuk menemukan informasi atau pengetahuan dari

● Web hyperlink structure○ contoh:

■ menemukan halaman web terpenting■ menemukan komunitas pemakai yang berbagi

ketertarikan topik yang sama● page content ● usage data.

○ contoh:■ menemukan pola akses pemakai terhadap web,

melalaui click stream.

Page 27: Text dan Web Mining - lecturer.ukdw.ac.idlecturer.ukdw.ac.id/budsus/pdf/textwebmining/Minggu1.pdf · Kompetensi Matakuliah Setelah mengikuti matakuliah ini, mahasiswa dapat memahami

Sekian!