Bab 8 Text Mining

BAB 8 TEXT MINING

Pendahuluan Kebanyakan studi tentang data mining dipusatkan pada data terstruktur, seperti data relasional, transaksional dan warehouse. Namun, dalam kenyataannya terdapat banyak informasi yang tersimpan dalam basisdata teks atau basisdata dokumen, yang berisi sejumlah besar koleksi dokumen dari berbagai sumber seperti artikel berita, paper riset, buku, perpustakaan digital, pesan e-mail dan halaman web. Basisdata teks berkembang dengan pesat karena meningkatnya jumlah informasi yang tersedia dalam bentuk elektronik seperti publikasi elektronik, CD-ROM dan World-Wide-Web (WWW sebenarnya juga dapat dipandang sebagai basisdata teks yang sangat besar, saling terkoneksi dan dinamis)

Data yang disimpan dalam basisdata teks disebut data semi-terstruktur (semi-structured data) yang bukan tidak terstruktur dan juga bukan sangat terstruktur.Sebagai contoh, sebuah dokumen mungkin mengandung sedikit field yang terstruktur seperti judul, penulis, tanggal publikasi, panjang, kategori dan sebagainya, namun juga mengandung sejumlah besar komponen teks yang tidak terstruktur seperti abstrak dan isi. Sudah banyak studi tentang pemodelan dan penerapan data semi-terstruktur dalam riset basisdata saat ini. Terlebih lagi, teknik temu-kembali informasi (information retrieval) seperti metode pembuatan indeks teks, telah dikembangkan untuk menangani dokumen tidak terstruktur.

Teknik temu-kembali informasi tradisional menjadi tidak mencukupi bagi data teks yang besar dan terus bertambah. Biasanya, hanya sebagian kecil dari banyak dokumen yang tersedia yang relevan untuk orang atau individu tertentu. Tanpa pengetahuan tentang apa yang mungkin ada dalam dokumen, sukar untuk merumuskan query yang efektif untuk melakukan analisis data dan ekstraksi informasi yang bermanfaat. Pengguna memerlukan perangkat untuk membandingkan dokumen yang berbeda, membuat peringkat berdasarkan tingkat kepentingan dan relevansi dokumen, atau menemukan pola dan trend dari beberapa dokumen. Oleh karena itu, text mining menjadi semakin populer dan menjadi tema penting dalam data mining. 8.1 Analisis Data Teks dan Temu-Kembali Informasi Apakah temu-kembali informasi (information retrieval) ? Temu-kembali informasi adalah bidang yang telah berkembang secara paralel bersama sistem basisdata selama beberapa tahun. Tidak seperti bidang sistem basisdata, yang fokus pada query dan pengolahan transaksi dari data terstruktur, temu-kembali informasi menekuni organisasi dan temu-kembali informasi dari sejumlah besar dokumen berbasis teks. Masalah yang umum pada temu-kembali informasi adalah menemukan dokumen yang relevan berdasarkan masukan dari pengguna, seperti kata kunci atau dokumen contoh. Contoh sistem temu-kembali informasi adalah sistem katalog perpustakaan on-line dan sistem manajemen dokumen on-line.

Modul Kuliah Data Mining Departemen Ilmu Komputer FMIPA IPB 146

Karena temu-kembali informasi dan sistem basisdata masing-masing menangani jenis data yang berbeda, maka terdapat beberapa masalah dalam sistem basisdata yang umumnya tidak muncul dalam sistem temu-kembali informasi, seperti kendali konkurensi, recovery, manajemen transaksi dan update. Terdapat pula masalah yang umum pada temu-kembali informasi yang biasanya tidak muncul pada sistem basisdata tradisional seperti dokumen tidak-terstruktur, pendekatan pencarian berdasarkan kata kunci dan ukuran relevansi

8.2 Ukuran dasar bagi Temu-Kembali Teks Seandainya sistem temu-kembali informasi menerima sejumlah dokumen berdasarkan masukan yang diberikan melalui query. Dapatkah kita memeriksa seberapa akurat atau benar sistem tersebut ? Misal himpunan dokumen yang relevan dengan query disebut {relevan}, dan himpunan dokumen yang terambil disebut {retrieved}. Maka himpunan dokumen yang terambil dan relevan dinyatakan dengan {relevan} {retrieved}, seperti ditunjukkan dalam diagram Venn di Gambar 8.1.

Gambar 8.1. Hubungan antar dokumen yang terambil dengan yang relevan

Terdapat dua ukuran dasar untuk memeriksa kualitas dari temu-kembali teks:

Precision : persentase dokumen yang terambil yang memang relevan dengan query (yaitu memberikan respon yang benar). Secara formal didefinisikan sebagai

|}{||}{}{|

RetrievedRetrievedRelevantprecision =

Recall : persentase dari dokumen yang relevan dengan kuery dan memang terambil. Secara formal didefinisikan sebagai

Temu-Kembali berdasarkan kata kunci dan kesamaan Metode apa yang tersedia untuk temu-kembali informasi ? Kebanyakan sistem temu-kembali informasi mendukung retrieval berdasarkan kata kunci (keyword) dan/atau kesamaan (similarity).


Dalam sistem temu-kembali berbasis kata kunci, dokumen direpresentasikan oleh string, yang dapat di-identifikasikan oleh himpunan dari kata. Pengguna memberikan kata kunci atau ekspresi yang tersusun dari himpunan kata kunci seperti car and repair shop, tea or coffe atau database system but not Oracle. Sistem temu-kembali informasi yang baik seharusnya dapat mempertimbangkan sinonim kata ketika menjawab query seperti di atas. Misalnya, diberikan kata kunci car, sinonin seperti automobile dan vehicle seharusnya juga dipertimbangkan dalam pencarian. Retrieval berbasis kata kunci merupakan model sederhana yang dapat mengalami dua kesulitan utama.

o Masalah Sinonim : sebuah kata kunci, seperti software product, mungkin tidak muncul dimanapun dalam dokumen, meskipun sebenarnya dokumen tersebut terkait erat dengan software product

o Masalah Polisemi : kata kunci yang sama, misalnya mining, mungkin bermakna hal yang berbeda dalam konteks yang lain.

Sistem temu-kembali informasi berdasarkan kesamaan mencari dokumen yang mirip berdasarkan himpunan kata kunci yang umum. Keluaran dari sistem ini didasarkan pada degree of relevance, dimana relevansi diukur berdasarkan kedekatan dokumen dengan kata kunci, frekuensi relatif kata kunci, dan sebagainya. Perhatikan bahwa pada banyak kasus, sukar untuk memberikan ukuran yang teliti dari degree of relevance diantara himpunan kata kunci, seperti jarak antara data mining dengan data analysis.

Bagaimana sistem temu kembali informasi berdasarkan kata kunci dan berdasarkan kesamaan bekerja ? Sistem temu kembali teks sering mengasosiasikan stop list dengan himpunan dokumen. Stop list adalah himpunan kata-kata yang dianggap irrelevan. Misalnya , a, the, of, for, with dan sebagainya merupakan stop word meskipun kata-kata tersebut sering muncul. Stop list dapat bervariasi ketika himpunan dokumen bervariasi. Misalnya database system merupakan kata kunci yang penting dalam basisdata. Namun, database system dapat dipertimbangkan sebagai stop word dalam himpunan paper riset yang disajikan dalam konferensi tentang sistem basisdata.

Grup kata-kata yang berbeda juga dapat berbagi akar kata (word stem) yang sama. Sistem temu kembali perlu melakukan identifikasi grup kata dimana kata-kata dalam grup tersebut memiliki variasi sintak (syntactic variants) yang kecil, dan mengumpulkan hanya akar kata yang umum per grup. Sebagai contoh, grup kata drug, drugged dan drugs berbagi akar kata yang sama yaitu drug dan dapat dilihat sebagai kemunculan yang berbeda dari kata yang sama

Bagaimana kita dapat memodelkan dokumen untuk memfasilitasi temu kembali informasi ? Diawali dengan himpunan d dokumen dan himpunan t term, kita dapat memodelkan masing-masing dokumen sebagai vektor v dalam ruang t dimensi Rt. Koordinat ke-j dari v adalah bilangan yang mengukur asosiasi term ke-j dengan dokumen yang diberikan; biasanya didefinisikan sebagai 0 jika dokumen tidak mengandung term tersebut, dan bukan 0 untuk kondisi selainnya.Terdapat banyak


cara untuk mendefinisikan term-weighting untuk entri bukan 0 dalam vektor tersebut. Sebagai contoh, kita dapat dengan mudah mendefinisikan vj = 1 selama term ke-j muncul dalam dokumen, atau tetapkan vj sebagai term frequency, yaitu jumlah kemunculan term tj, atau sebagai relative term frequency yaitu term frequency dibagi jumlah total kemunculan seluruh term dalam dokumen. Tabel 1. adalah contoh term frequency matrix dimana masing-masing baris merepresentasikan term, kolom merepresentasikan vektor dokumen, dan setiap entry frequency_matrix(i,j) mencatat jumlah kemunculan term ti dalam dokumen dj Tabel 8.1. Term Frequency Matrix

Term/dokumen d1 d2 d3 d4 d5 d6 d7t1 321 48 31 68 72 15 430 t2 354 91 71 56 82 6 392 t3 15 32 167 46 289 225 17 t4 22 143 72 203 51 15 54 t5 74 87 85 92 25 54 121

Bagaimana kita dapat menentukan jika dua dokumen adalah sama ? Karena dokumen yang sama diharapkan untuk memiliki relative tem frequencies yang sama, kita dapat mengukur kesamaan diantara himpunan dokumen atau atara dokumen dengan query (sering didefinisikan sebagai himpunan kata kunci) berdasarkan kemunculan term yang sama secara relatif dalam tabel frekuensi.

Alternatif lain, banyak ukuran yang telah diusulkan untuk mengukur kesamaan dokumen. Ukuran yang representatif adalah cosine measure, didefinisikan sebagai berikut. Ditetapkan v1 dan v2 adalah dua vektor dokumen, cosine similarity mereka adalah

||||),(

21

2121 vv

vvvvsim =

dimana inner product adalah standard vector dot product, didefinisikan

sebagai dan norm |v21 vv

=ti iivv1 21 1| = 11 vv . Visualisasi sudut kosinus untuk vektor tiga dimensi terlihat pada Gambar 8.2.


Gambar 8.2. Cosine Similarity

Bagaimana kita dapat menggunakan ukuran kesamaan? Dengan menggunakan ukuran kesamaan numerik untuk dokumen, kita dapat membangun indek berdasarkan kesamaan untuk dokumen tersebut. Query berbasis teks dapat dinyatakan sebagai vektor, yang dapat digunakan untuk mencari tetangga terdekatnya dalam koleksi dokumen. Namun, bagi basisdata dokumen non-trivial, jumlah term T dan jumlah dokumen D bisa jadi sangat besar. Dimensi yang tinggi menyebabkan masalah komputasi yang tidak efisien, karena tabel frekuensi yang dihasilkan akan berukuran TxD. Lebih jauh, dimensi yang tinggi menyebabkan vektor yang sangat jarang (very sparse vectors) dan meningkatkan kesulitan untuk mendeteksi dan mengeksploitasi relasi antar term (misal sinonim). Untuk mengatasi masalah-masalah tersebut, dikembangkan latent semantic indexing yang secara efektif mengurangi ukuran tabel frekuensi yang akan dianalisis.

Latent Semantic Indexing Bagaimana latent semantic indexing mengurangi ukuran matriks frekuensi term ? Metode Latent Semantic Indexing menggunakan singular value decomposition (SVD), sebuah teknik yang telah dikenal dengan baik dalam teori matriks, untuk mengurangi ukuran matriks frekuensi term. Diberikan matriks frekuensi term berukuran TxD yang merepresentasikan T term dan D dokumen, metode SVD menghapus baris dan kolom untuk mengurangi dimensi matriks menjadi KxK, biasanya K bernilai beberapa ratus (misal 200) untuk koleksi dokumen yang besar.Untuk meminimalkan jumlah informasi yang hilang, hanya bagian yang signifikan dari matriks frekuensi yang dipertahankan.

Metode transformasi matriks dengan SVD tidak dibahas dalam modul ini. Namun tersedia paket perangkat lunak seperti MATLAB (www.mathworks.com) dan LAPACK (www.netlib.org/lapack++).


Secara umum metode latent semantic indexing mengandung langkah-langkah dasar berikut:

1. Buat matriks frekuensi term, frequency_matrix 2. Hitung dekomposisi nilai singular dari frequency_matrix dengan membagi

matriks ke dalam tiga matriks yang lebih kecil , U, S,V dimana U dan V merupakan matriks ortogonal (yakni UTU=I ) dan S adalah matriks diagonal dari nilai singular. Matriks S berukuran KxK dan merupakan versi yang diperkecil dari matriks frekuensi asli

3. Untuk setiap dokumen d, ganti vektor dokumen asli dengan nilai yang baru tanpa term yang telah dihilangkan selama SVD

4. Simpan seluruh vektor, dan buat indeks untuk vektor-vektor tersebut menggunakan teknik indeks multi-dimensional lanjutan.

Melalui dekomposisi nilai singular dan indeks multi-dimensional, vektor dokumen hasil transformasi dapat digunakan untuk membandingkan kesamaan diantara dua dokumen atau untuk mencari N dokumen teratas yang sesuai dengan query. Teknik Temu-Kembali Teks lainnya Terdapat beberapa teknik indexing temu kembali teks yang telah diadopsi secara luas termasuk inverted indices dan signature files.

Inverted index adalah struktur indeks yang mengelola dua tabel indeks hash atau B+-tree, yaitu document_table dan term_table dimana

o document_table terdiri dari himpunan record dokumen, setiap record mengandung dua field yaitu doc_id dan posting_list dimana posting_list adalah daftar term (atau pointer ke term) yang muncul dalam dokumen, diurutkan menurut ukuran relevansi tertentu

o term_table terdiri dari himpunan record term, masing-masing mengandung dua field yaitu term_id dan posting_list yang memuat daftar identifier dokumen yang mengandung term tertentu.

Dengan pengorganisasian seperti di atas, maka mudah untuk menjawab query seperti Cari seluruh term yang berasosiasi dengan himpunan dokumen yang diberikan Sebagai contoh, untuk mencari seluruh dokumen yang berasosiasi dengan himpunan term, pertama kita dapat mencari daftar identifier dokumen dalam term_table untuk setiap term, kemudian dicari perpotongannya (intersection) untuk memperoleh himpunan dokumen yang relevan. Inverted indices digunakan secara luas di industri. Meskipun inverted indices mudah diterapkan, namun tidak memuaskan saat menangani sinonim dan polisemi. Posting_list bisa jadi sangat panjang, sehingga membutuhkan ruang penyimpanan yang besar

Signature files Signature file adalah file yang menyimpan record signature untuk setiap dokumen dalam basisdata. Setiap signature memiliki ukuran yang tetap b bit merepresentasikan term.Skema pengkodean dilakukan sebagai berikut:


o Setiap bit pada signature file di-inisialisasi dengan nilai 0 o Sebuah bit di-set 1 jika term yang direpresentasikannya muncul dalam

dokumen

o Signature S1 sepadan dengan signature lainnya S2 jika setiap bit yang bernilai 1 dalam S2 juga bernilai 1 dalam S1.

o Karena biasanya jumlah term lebih banyak dari jumlah bit yang tersedia, mungkin beberapa term dipetakan ke dalam bit yang sama. Pemetaan multiple-to-one membuat pencarian menjadi lama karena dokumen yang cocok dengan signature yang dijadikan query belum tentu berisi hinpunan kunci yang diinginkan. Dokumen harus diambil, di-parsing, di-stem dan di-periksa. Untuk mempercepat pencarian, pertama dapat dilakukan analisis frekuensi, stemming, dan filter stop word, kemudian menggunakan teknik hashing dan superimposed coding untuk mengkodekan daftar term dalam representasi bit. Namun, tetap ada masalah pemetaan multiple-to-one, yang menjadi masalah utama dalam pendekatan ini

1. Text Mining : Asosiasi berbasis kata kunci dan Klasifikasi Dokumen Bagaimana dengan mining association dalam basisdata teks? Dapatkah kita membangkitkan skema klasifikasi dokumen? Analisis Asosiasi berdasarkan kata kunci Apakah analisis asosiasi berdasarkan kata kunci? Yaitu analisis yang mengumpulkan himpunan kata kunci atau term yang sering muncul bersamaan and menemukan hubungan asosiasi atau korelasi diantara mereka.

Seperti analisis basisdata teks lainnya, analisis asosiasi pertama melakukan pengolahan awal (pre-processing) data teks dengan parsing, stemming, removing stop word dan sebagainya, baru kemudian menjalankan algoritma association mining. Dalam basisdata dokumen, masing-masing dokumen dapat dipandang sebagai transaksi, dengan kata kunci dalam dokumen dapat dianggap sebagai item dalam transaksi tersebut. Dengan demikian basisdata dapat memiliki format

{document_id, a_set_of_keyword} Dengan format basisdata seperti di atas, masalah association mining kata kunci dalam basisdata dokumen dapat dipetakan kepada association mining item dalam basisdata traksaksi, dimana banyak metode menarik sedang dikembangkan.

Perhatikan bahwa himpunan kata kunci yang sering muncul bersamaan atau letaknya berdekatan dapat membentuk term atau phrase. Proses association mining dapat membantu mendeteksi compound association, yaitu term atau frasa yang tergantung pada domain (domain-dependent) seperti {Stanford,University} atau {U.S., president, Bill, Clinton} atau non-compound-association seperti {dollars, shares, exchange, total, commision,stake,securities}

Mining berdasarkan pada asosiasi ini disebut term level association mining (kebalikan dari mining kata secara individual). Term recognition dan term level association mining mendapatkan dua keuntungan dari analisis teks


Term dan frasa secara otomatis diberi tag, sehingga tidak diperlukan orang untuk memberikan tag secara manual ke dalam dokumen

Jumlah hasil yang tidak memiliki makna banyak dikurangi, demikian pula waktu eksekusi algoritma mining

Analisis Klasifikasi Dokumen Klasifikasi dokumen secara otomatis merupakan pekerjaan data mining yang penting, dengan banyaknya jumlah dokumen on-line, maka semakin penting untuk dapat mengorganisasikan dokumen tersebut secara otomatis ke dalam kelas-kelas sehingga dapat memfasilitasi temu kembali dokumen dan analisis selanjutnya.

Bagaimana melakukan klasifikasi dokumen secara otomatis? Prosedur umum adalah sebagai berikut

1. Himpunan dokumen yang telah diklasifikasi (preclassified document) digunakan sebagai training set

2. Training set dianalisis untuk mendapatkan skema klasifikasi. Skema klasifikasi ini sering perlu diperbaiki melalui proses pengujian.

3. Skema klasifikasi yang dihasilkan digunakan untuk melakukan klasifikasi pada dokumen on-line lainnya.

Proses di atas mirip dengan klasifikasi pada data relasional. Namun, terdapat perbedaan yang mendasar.

o Data relasional merupakan data yang terstruktur dengan baik, yaitu setiap tupel didefinisikan oleh beberapa pasang atribut-value. Misal, pada tupel {sunny, warm, dry,not_windy,play_tennis} nilai sunny berkoresponden dengan atribut weather_outlook, nilai warm berkoresponden dengan atribut temperature dan sebagainya. Analisis klasifikasi memutuskan pasangan attribut-value mana yang memiliki daya pembeda (discriminating power) terbesar untuk menentukan apakah seseorang akan bermain tenis atau tidak.

o Pada sisi lain, basisdata dokumen tidak terstruktur menurut pasangan attribute-value. Himpunan kata kunci yang berasosiasi dengan himpunan dokumen tidak diatur dalam himpunan atribut atau dimensi yang tetap. Sehingga, metode klasifikasi yang umum digunakan pada data relasional seperti analisis pohon keputusan, tidak dapat digunakan untuk klasifikasi basisdata dokumen.

Metode yang efektif untuk klasifikasi dokumen adalah dengan klasifikasi berbasis asosiasi (association-based classification). Metode klasifikasi berbasis asosiasi akan membuat klasifikasi dokumen berdasarkan pola teks yang berasosiasi dan sering terjadi. Berikut langkah yang dilakukan

1. Kata kunci dan term dapat di-ekstrak melalui teknik temu-kembali informasi dan analsis asosiasi sederhana


2. Hirarki konsep bagi kata kunci dan term dapat diperoleh menggunakan kelas-kelas term yang telah ada, seperti WordNet atau mengandalkan pengetahuan pakar, atau sistem klasifikasi kata kunci. Dokumen dalam training set juga dapat diklasifikasi ke dalam kelas hirarki.

3. Metode term association mining kemudian dijalankan untuk menemukan himpunan term yang berasosiasi sehingga dapat digunakan untuk memaksimalkan pembeda antara satu kelas dokumen dengan lainnya. Metode ini akan menghasilkan himpunan association rule yang berasosiasi dengan masing-masing kelas dokumen

4. Aturan klasifikasi yang ditemukan dapat diurutkan berdasarkan frekuensi kemunculannya dan daya pembeda-nya (discriminative power), dan digunakan untuk melakukan klasifikasi dokumen baru.

Aturan klasifikasi dokumen (document classifier) yang berdasarkan pada asosiasi telah terbukti efektif. Untuk klasifikasi dokumen web, informasi link dari halaman web dapat digunakan untuk membantu identifikasi kelas dokumen. Metode analisis link web akan dibahas pada bagian lain.


Bab 8 Text Mining

Documents

Transcript of Bab 8 Text Mining