78934397 Makalah Dokumen Mining

download 78934397 Makalah Dokumen Mining

of 14

Transcript of 78934397 Makalah Dokumen Mining

  • 7/16/2019 78934397 Makalah Dokumen Mining

    1/14

    1

    Makalah Dokumen Mining

    Mata Kuliah : Kecerdasan Buatan

    Dosen : Nelly Indriani W, S.SI

    Anggota Kelompok :

    Hilman Fauzi (10108471)

    Yana (10108476)

    Beny Pribadi (10108492)

    Dewan Teguh H (10108495)

    Kelas : IF-10

    Fakultas Teknik dan Ilmu Komputer

    Jurusan Teknik Informatika

    Universitas Komputer Indonesia

    2011

  • 7/16/2019 78934397 Makalah Dokumen Mining

    2/14

    2

    Abstrak

    Penyimpanan dokumen secara digital berkembang dengan pesat seiring meningkatnya penggunaan komputer.

    Kondisi tersebut memunculkan masalah untuk mengakses informasi yang diinginkan secara akurat dan cepat.

    Oleh karena itu, walaupun sebagian besar dokumen digital tersimpan dalam bentuk teks dan berbagai algoritma

    yang efisien untuk pencarian teks telah dikembangkan, teknik pencarian terhadap seluruh isi dokumen yang

    tersimpan bukanlah solusi yang tepat mengingat pertumbuhan ukuran data yang tersimpan umumnya.

    Pencarian informasi (Information Retrieval) adalah salah satu cabang ilmu yang menangani masalah ini yang

    bertujuan untuk membantu pengguna dalam menemukan informasi yang relevan dengan kebutuhan mereka

    dalam waktu singkat. Aplikasi pencarian informasi yang telah ada salah satunya adalah web mining untuk

    pencarian berdasarkan kata kunci dengan teknikclustering. Selain itu, pada dokumen dilakukan juga text mining

    dan perhitungan jumlah kata, dari jumlah kata tersebut dilakukan pengklusteran dengan metode CLHM

    (Centroid Linkage Hierarchical Method). Untuk jumlah klusternya, pemakai tidak mengetahui berapa jumlah yang

    tepat untuk mengklusterkan dokumen-dokumen tersebut. Untuk itu, dipakailah metode Hill Climbing yang

    bertugas untuk melakukan identifikasi terhadap pergerakan varian dari tiap tahap pembentukan kluster dan

    menganalisa polanya sehingga jumlah kluster akan terbentuk secara otomatis. Penggunaan text mining,

    pengklusteran dengan CLHM dan proses Hill Climbing Automatic Clustering sangat memudahkan pemakai karena

    menghasilkan kluster secara otomatis dan tepat dengan waktu yang cepat.

    Kata kunci: Information Retrieval, Centroid Linkage Hierarchical Method, Hill Climbing Automatic Clustering, Text

    mining

    Pendahuluan

    Perkembangan teknologi dewasa ini khususnya internet berkembang sangat pesat. Hal ini diiringi juga dengan

    semakin berkembangnya teknologi informasi yang dibutuhkan oleh pengguna sehingga mengakibatkan

    munculnya suatu cabang ilmu baru dalam teknologi informasi, yaitu pencarian informasi ( information retrieval).

    Information Retrieval adalah studi tentang sistem pengindeksan, pencarian, dan mengingat data, khususnya

    teks atau bentuk tidak terstruktur lainnya [virtechseo.com] sedangkan arti menurut Wikipedia, Information

    Retrieval adalah seni dan ilmu mencari informasi dalam dokumen, mencari dokumen itu sendiri, mencari

    metadata yang menjelaskan dokumen, atau mencari dalam database, apakah relasional database itu berdiri

    sendiri atau database hypertext jaringan seperti Internet atau intranet, untuk teks, suara, gambar, atau data.

    Penggalian Data (Data Mining)

    Penggalian data (bahasa Inggris: data mining) adalah ekstraksi pola yang menarik dari data dalam jumlah besar.

    Suatu pola dikatakan menarik apabila pola tersebut tidak sepele, implisit, tidak diketahui sebelumnya, dan

    berguna. Pola yang disajikan haruslah mudah dipahami, berlaku untuk data yang akan diprediksi dengan derajat

    kepastian tertentu, berguna, dan baru. Penggalian data memiliki beberapa nama alternatif, meskipun definisi

    eksaknya berbeda, seperti KDD (knowledge discovery in database), analisis pola, arkeologi data, pemanenan

    informasi, dan intelegensia bisnis. Penggalian data diperlukan saat data yang tersedia terlalu banyak (misalnya

    data yang diperoleh dari sistem basis data perusahaan, e-commerce, data saham, dan data bioinformatika), tapi

    tidak tahu pola apa yang bisa didapatkan.

    Proses Pencarian Pola

    http://id.wikipedia.org/wiki/Polahttp://id.wikipedia.org/wiki/Datahttp://id.wikipedia.org/w/index.php?title=Sistem_basis_data&action=edit&redlink=1http://id.wikipedia.org/wiki/E-commercehttp://id.wikipedia.org/wiki/Sahamhttp://id.wikipedia.org/wiki/Bioinformatikahttp://id.wikipedia.org/wiki/Bioinformatikahttp://id.wikipedia.org/wiki/Sahamhttp://id.wikipedia.org/wiki/E-commercehttp://id.wikipedia.org/w/index.php?title=Sistem_basis_data&action=edit&redlink=1http://id.wikipedia.org/wiki/Datahttp://id.wikipedia.org/wiki/Pola
  • 7/16/2019 78934397 Makalah Dokumen Mining

    3/14

    3

    Penggalian data adalah salah satu bagian dari proses pencarian pola. Berikut ini urutan proses pencarian pola:

    1. Pembersihan Data: yaitu menghapus data pengganggu (noise) dan mengisi data yang hilang.2. Integrasi Data: yaitu menggabungkan berbagai sumber data.3. Pemilihan Data: yaitu memilih data yang relevan.4. Transformasi Data: yaitu mentransformasi data ke dalam format untuk diproses dalam penggalian data.5. Penggalian Data: yaitu menerapkan metode cerdas untuk ekstraksi pola.6. Evaluasi pola: yaitu mengenali pola-pola yang menarik saja.7. Penyajian pola: yaitu memvisualisasi pola ke pengguna.

    Definisi Text Mining

    Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari

    dokumen, dan tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat

    dilakukan analisa keterhubungan antar dokumen. Sedangkan menurut situs wikipedia, Penambangan teks

    (bahasa Inggris:text mining) adalah proses ekstraksi pola berupa informasi dan pengetahuan yang berguna dari

    sejumlah besar sumber data teks, seperti dokumen Word, PDF, kutipan teks, dll. Jenis masukan untukpenambangan teks ini disebut data tak terstruktur dan merupakan pembeda utama dengan penambangan data

    yang menggunakan data terstruktur atau basis data sebagai masukan. Penambangan teks dapat dianggap

    sebagai proses dua tahap yang diawali dengan penerapan struktur terhadap sumber data teks dan dilanjutkan

    dengan ekstraksi informasi dan pengetahuan yang relevan dari data teks terstruktur ini dengan menggunakan

    teknik dan alat yang sama dengan penambangan data. Proses yang umum dilakukan oleh penambangan teks di

    antaranya adalah perangkuman otomatis, kategorisasi dokumen, penggugusan teks, dll.

    Tujuan dari text mining adalah untuk mendapatkan informasi yang berguna dari sekumpulan dokumen. Jadi,

    sumber data yang digunakan pada text mining adalah kumpulan teks yang memiliki format yang tidak

    http://id.wikipedia.org/w/index.php?title=Pembersihan_Data&action=edit&redlink=1http://id.wikipedia.org/w/index.php?title=Integrasi_Data&action=edit&redlink=1http://id.wikipedia.org/w/index.php?title=Pemilihan_Data&action=edit&redlink=1http://id.wikipedia.org/w/index.php?title=Transformasi_Data&action=edit&redlink=1http://id.wikipedia.org/w/index.php?title=Evaluasi_pola&action=edit&redlink=1http://id.wikipedia.org/w/index.php?title=Penyajian_pola&action=edit&redlink=1http://id.wikipedia.org/wiki/Bahasa_Inggrishttp://id.wikipedia.org/wiki/Polahttp://id.wikipedia.org/wiki/Informasihttp://id.wikipedia.org/wiki/Pengetahuanhttp://id.wikipedia.org/wiki/Datahttp://id.wikipedia.org/w/index.php?title=Teks&action=edit&redlink=1http://id.wikipedia.org/wiki/Microsoft_Wordhttp://id.wikipedia.org/wiki/PDFhttp://id.wikipedia.org/w/index.php?title=Masukan&action=edit&redlink=1http://id.wikipedia.org/wiki/Penambangan_datahttp://id.wikipedia.org/wiki/Basis_datahttp://id.wikipedia.org/w/index.php?title=Ekstraksi_informasi&action=edit&redlink=1http://id.wikipedia.org/w/index.php?title=Perangkuman_otomatis&action=edit&redlink=1http://id.wikipedia.org/w/index.php?title=Kategorisasi_dokumen&action=edit&redlink=1http://id.wikipedia.org/w/index.php?title=Penggugusan_teks&action=edit&redlink=1http://andyku.files.wordpress.com/2008/11/step-datamining.jpghttp://id.wikipedia.org/w/index.php?title=Penggugusan_teks&action=edit&redlink=1http://id.wikipedia.org/w/index.php?title=Kategorisasi_dokumen&action=edit&redlink=1http://id.wikipedia.org/w/index.php?title=Perangkuman_otomatis&action=edit&redlink=1http://id.wikipedia.org/w/index.php?title=Ekstraksi_informasi&action=edit&redlink=1http://id.wikipedia.org/wiki/Basis_datahttp://id.wikipedia.org/wiki/Penambangan_datahttp://id.wikipedia.org/w/index.php?title=Masukan&action=edit&redlink=1http://id.wikipedia.org/wiki/PDFhttp://id.wikipedia.org/wiki/Microsoft_Wordhttp://id.wikipedia.org/w/index.php?title=Teks&action=edit&redlink=1http://id.wikipedia.org/wiki/Datahttp://id.wikipedia.org/wiki/Pengetahuanhttp://id.wikipedia.org/wiki/Informasihttp://id.wikipedia.org/wiki/Polahttp://id.wikipedia.org/wiki/Bahasa_Inggrishttp://id.wikipedia.org/w/index.php?title=Penyajian_pola&action=edit&redlink=1http://id.wikipedia.org/w/index.php?title=Evaluasi_pola&action=edit&redlink=1http://id.wikipedia.org/w/index.php?title=Transformasi_Data&action=edit&redlink=1http://id.wikipedia.org/w/index.php?title=Pemilihan_Data&action=edit&redlink=1http://id.wikipedia.org/w/index.php?title=Integrasi_Data&action=edit&redlink=1http://id.wikipedia.org/w/index.php?title=Pembersihan_Data&action=edit&redlink=1
  • 7/16/2019 78934397 Makalah Dokumen Mining

    4/14

    4

    terstruktur atau minimal semi terstruktur. Adapun tugas khusus dari text mining antara lain yaitu

    pengkategorisasian teks (text categorization) dan pengelompokan teks text clustering).

    Text Mining

    Text mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, yaituproses penganalisisan teks guna menyarikan informasi yang bermanfaat untuk tujuan tertentu.

    Berdasarkan ketidakteraturan struktur data teks, maka proses text mining memerlukan beberapa tahapawal yang pada intinya adalah mempersiapkan agar teks dapat diubah menjadi lebih terstruktur.

    Tahapan Text Mining

    Masalah Umum yang ditangani

    Klasifikasi Dokumen Information Retrieval Pengorganisasian dan Clustering Dokumen Information Extraction

    Clustering Dokumen

    Analisis Cluster

  • 7/16/2019 78934397 Makalah Dokumen Mining

    5/14

    5

    Analisis cluster adalah pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasaratas kesamaannya.

    Pola-pola dalam suatu cluster akan memiliki kesamaan ciri/sifat daripada pola-pola dalam cluster yanglainnya.

    Clustering bermanfaat untuk melakukan analisis pola-pola yang ada, mengelompokkan, membuatkeputusan dan machine learning, termasuk data mining, document retrieval, segmentasi citra, dan

    klasifikasi pola.

    Metodologi clustering lebih cocok digunakan untuk eksplorasi hubungan antar data untuk membuat suatupenilaian terhadap strukturnya.

    Information Retrieval

    Konsep dasar dari IR adalah pengukuran kesamaan

    sebuah perbandingan antara dua dokumen, mengukur sebearapa mirip keduanya.

    Setiap input query yang diberikan, dapat dianggap sebagai sebuah dokumen yang akan dicocokan dengan

    dokumen-dokumen lain.

    Pengukuran kemiripan serupa dengan metode klasifikasi yang disebut metode nearest-neighbour.

    Information Extraction

  • 7/16/2019 78934397 Makalah Dokumen Mining

    6/14

    6

    Information Extraction bermanfaat untuk menggali struktur informasi dari sekumpulan dokumen. Dalam menerapkan IE, perlu sekali dilakukan pembatasan domain problem. IE sangat memerlukan NLP untuk mengetahui gramatikal dari setiap kalimat yang ada. Sebagai contoh:

    o Indonesia dan Singapore menandatangani MoU kerjasama dalam bidang informasi dan komunikasi. o KerjaSama(Indonesia, Singapore, TIK)

    Dengan IE, kita dapat menemukan:o concepts (CLASS)o concept inheritance (SUBCLASS-OF)o concept instantiation (INSTANCE-OF)o properties/relations (RELATION)o domain and range restrictions (DOMAIN/RANGE)o equivalence

    Algoritma yang digunakan pada text mining, biasanya tidak hanya melakukan perhitungan hanya pada dokumen,

    tetapi pada juga feature. Empat macam feature yang sering digunakan:

    Character, merupakan komponan individual, bisa huruf, angka, karakter spesial dan spasi, merupakanblock pembangun pada level paling tinggi pembentuk semantik feature, seperti kata, term dan concept.

    Pada umumnya, representasi character-based ini jarang digunakan pada beberapa teknik pemrosesan

    teks.

    Words.

    Terms, merupakan single word dan frasa multiword yang terpilih secara langsung dari corpus.Representasi term-based dari dokumen tersusun dari subset term dalam dokumen.

    Concept, merupakan feature yang di-generate dari sebuah dokumen secara manual, rule-based, ataumetodologi lain. Pada tugas akhir ini, konsep di-generate dari argument atau verb yang sudah diberi label

    pada suatu dokumen.

    Proses text mining meliputi proses tokenizing, filtering, stemming, dan tagging.

    Tokenizing

    Tokenizing adalah proses penghilangan tanda baca pada kalimat yang ada dalam dokumen sehingga

    menghasilkan kata-kata yang berdiri sendiri-sendiri.

    Manajemen pengetahuan adalah

    sebuah konsep baru di dunia bisnis.

    manajemen

    pengetahuan

    adalah

    sebuah

    konsep

    baru

    di

    dunia

    bisnis

    Teks input

    Hasil token

  • 7/16/2019 78934397 Makalah Dokumen Mining

    7/14

    7

    Filtering

    Tahap filtering adalah tahap pengambilan kata-kata yang penting dari hasil tokenizing. Tahap filtering ini dapat

    menggunakan algoritma stoplist atau wordlist. Stoplist yaitu penyaringan (filtering) terhadap kata-kata yang

    tidak layak untuk dijadikan sebagai pembeda atau sebagai kata kunci dalam pencarian dokumen sehingga kata-

    kata tersebut dapat dihilangkan dari dokumen. Sedangkan wordlist adalah daftar kata-kata yang mungkin

    digunakan sebagai kata kunci dalam pencarian dokumen.

    Stemming

    Stemming adalah proses mengubah kata menjadi kata dasarnya dengan menghilangkan imbuhan-imbuhan pada

    kata dalam dokumen atau mengubah kata kerja menjadi kata benda. Stem (akar kata) adalah bagian dari kata

    yang tersisa setelah dihilangkan imbuhannya (awalan dan akhiran).

    Contoh: connect adalah stem dari connected, connecting, connection, dan connections.

    Gambar. Bagan metode stemming

    Porter stemmer merupakan algoritma penghilangan akhiran morphological dan infleksional yang umum dari

    bahasa Inggris. Step-step algoritma Porter

    Stemmer:

    1. Step 1a : remove plural suffixation2. Step 1b : remove verbal inflection3. Step 1b1 : continued for -ed and -ing rules4. Step 1c : y and i5. Step 36. Step 4 : delete last suffix 47. Step 5a : remove e8. Step 5b : reduction

    Algoritma Stemming

    Successo

    r Variety

    Affix

    Removal

    N-Grams

    Confiatio

    Porter Stemmer

    manajemen

    pengetahuan

    adalah

    sebuah

    konsep

    baru

    di

    dunia

    bisnis

    manajemen

    pengetahuan

    konsep

    baru

    dunia

    bisnis

    Hasil token

    Hasil filter

  • 7/16/2019 78934397 Makalah Dokumen Mining

    8/14

    8

    Gambar. Control flow algoritma Porter Stemmer

    Tagging

    Tahap tagging adalah tahap mencari bentuk awal / root dari tiap kata lampau atau kata hasil stemming. Contoh:

    Analyzing

    Tahap analyzing merupakan tahap penentuan seberapa jauh keterhubungan antar kata-kata dengan dokumen

    yang ada.

    Automatic Clustering

    Clustering adalah proses membuat pengelompokan sehingga semua anggota dari setiap partisi mempunyai

    persamaan berdasarkan matrik tertentu. Sebuah cluster adalah sekumpulan objek yang digabung bersama

    karena persamaan atau kedekatannya. Clustering atau klasterisasi merupakan sebuah teknik yang sangat

    berguna karena akan mentranslasi ukuran persamaan yang intuitif menjadi ukuran yang kuantitatif.

    CLHM (Centroid Linkage Hierarchical Method)

    Centroid Linkage adalah proses pengklasteran yang didasarkan pada jarak antar centroidnya [6]. Metode ini baik

    untuk kasus clustering dengan normal data setdistribution. Akan tetapi metode ini tidak cocok untuk data yang

    mengandung outlier. Algoritma Centroid Linkage Hierarchical Methodadalah sebagai berikut:

    1. Diasumsikan setiap data dianggap sebagai cluster. Kalau n=jumlah data dan c=jumlah cluster, berarti ada c=n.2. Menghitung jarak antar clusterdengan Euclidian distance.

    Word

    Mismatched; fail

    Matched; condition not met; fail

    Matched;

    Word = Stem

    Step 2

    Step 3

    Step 4

    Step 5 Stem

    Rule 1

    Rule 2

    Rule 3

    Rule 4

    Step 1

  • 7/16/2019 78934397 Makalah Dokumen Mining

    9/14

    9

    3. Mencari 2 clusteryang mempunyai jarakcentroidantar clusteryang paling minimal dan digabungkan (merge)kedalam clusterbaru (sehingga c=c-1).

    4. Kembali ke langkah 3, dan diulangi sampai dicapai clusteryang diinginkan.

    Analisa Cluster

    Analisa cluster adalah suatu teknik analisa multivariate (banyak variabel) untuk mencari dan mengorganisir

    informasi tentang variabel tersebut sehingga secara relatif dapat dikelompokkan dalam bentuk yang homogen

    dalam sebuah cluster. Secara umum, bisa dikatakan sebagai proses menganalisa baik tidaknya suatu proses

    pembentukan cluster. Analisa cluster bisa diperoleh dari kepadatan cluster yang dibentuk (cluster density).

    Kepadatan suatu clusterbisa ditentukan dengan variance within cluster(Vw) dan variance between cluster(Vb).

    Varian tiap tahap pembentukan

    clusterbisa dihitung dengan rumus:

    ...(1)

    Dimana:

    Vc2 = varian pada cluster c

    c = 1..k, dimana k = jumlah cluster

    nc = jumlah data pada cluster c

    yi = data ke-i pada suatu cluster

    yi = rata-rata dari data pada suatu cluster

    Selanjutnya dari nilai varian diatas, kita bisa menghitung nilai variance within cluster(Vw) dengan rumus:

    ...(2)

    Dimana, N= Jumlah semua data

    ni = Jumlah data clusteri

    Vi = Varian pada clusteri

    Dan nilai variance between cluster(Vb) dengan rumus:

    ...(3)

    Dimana, y = rata-rata dari yi

    Salah satu metode yang digunakan untuk menentukan clusteryang ideal adalah batasan variance, yaitu dengan

    menghitung kepadatan cluster berupa variance within cluster (Vw) dan variance between cluster (Vb). Cluster

  • 7/16/2019 78934397 Makalah Dokumen Mining

    10/14

    10

    yang ideal mempunyai Vw minimum yang merepresentasikan internal homogenity dan maksimum Vb yang

    menyatakan external homogenity.

    ...(4)

    Hill Climbing

    Pada Hill-climbing didefinisikan bahwa kemungkinan mencapai global optimum terletak pada tahap ke-i, jika

    memenuhi persamaan berikut:

    Vi+1 > . Vi ........... (5)

    Dimana, adalah nilai tinggi.

    Nilai tinggi digunakan untuk menentukan seberapa mungkin metode ini mencapai global optimum. Nilai yang

    biasa digunakan adalah 2,3, dan 4. Persamaan diatas, diperoleh berdasar analisa pergerakan varian pola Hill

    climbing yang ditunjukkan pada gambar berikut:

    Gambar. Pola nilai beda Hill-climbing

    Berikut tabel 1 yang menunjukkan polapola valley tracing dan hill climbing yang mungkin mencapai global

    optimum. Pola yang mungkin ditandai dengan simbol .

    Tabel. Tabel kemungkinan pola hill climbing mencapai global optimum

    Selanjutnya, dengan pendekatan metode hill climbing dilakukan identifikasi perbedaan nilai tinggi () pada tiap

    tahap, yang didefinisikan dengan:

    = Vi+1 . (Vi * ) ...(6)

  • 7/16/2019 78934397 Makalah Dokumen Mining

    11/14

    11

    Nilai digunakan untuk menghindari local optima, dimana persamaan ini diperoleh dari maksimum yang

    dipenuhi pada persamaan 6. Untuk membentuk cluster secara otomatis, yaitu cluster yang mencapai global

    optima, digunakan nilai sebagai threshold, sehingga clustersecara

    otomatis terbentuk ketika memenuhi:

    max() .....(7)

    Untuk mengetahui keakuratan dari suatu metode pembentukan cluster pada hierarchical method, dengan

    menggunakan hill climbing digunakan persamaan sebagai berikut:

    ...(8)

    Dimana nilai terdekat ke max() adalah nilai kandidat max() sebelumnya. Nilai yang lebih besar atau sama

    dengan 2 (2), menunjukkan clusteryang terbentuk merupakan clusteryang wellseparated(terpisah dengan

    baik).

    Implementasi

    Gambar. Use case utama (Architecturally Significant)

    Gambar diatas adalah gambaran sistem secara garis besar yang dibedakan menjadi lima proses utama, yaitu

    proses searching dan simpan dokumen online, proses text mining, proses pengklasteran dengan algoritma

    Centroid Linkage Hierarchical Method, proses pembentukan jumlah clustersecara otomatis (automatic clustering)

    dan bagaimana menampilkan hasil pencarian dokumen.

  • 7/16/2019 78934397 Makalah Dokumen Mining

    12/14

    12

    Gambar. Use case diagram proses pencarian dan penyimpanan dokumen dari internet

    Gambar ini adalah merupakan use-case diagram untuk proses pencarian dan penyimpanan dokumen yangdiambil dari internet.

    Gambar. Use case diagram proses text mining

    Gambar di atas adalah use-case diagram untuk proses text mining dimana useryang akan melakukan pencarian

    dokumen harus memasukkan keywords (kata kunci) terlebih dahulu kemudian sistem akan melakukan proses

    dari text mining.

    Gambar. Use case diagram proses clustering dengan CLHM

    Gambar ini menunjukkan proses clustering dengan menggunakan metode CLHM (Centroid Linkage Hierarchical

    Method). Kata kunci yang dimasukkan oleh user akan dicari jumlahnya oleh sistem pada dokumen kemudian

    jumlah ini yang akan menentukan proses clustering berikut.

  • 7/16/2019 78934397 Makalah Dokumen Mining

    13/14

    13

    Gambar. Use case diagram proses automatic clustering dengan hill climbing

    Gambar tersebut menunjukkan proses dari pembentukan automatic clustering dengan melihat pola pergerakan

    varian yang ada. Dengan menggunakan metode hill climbing maka dianalisa posisiglobal optimum yang mungkin

    sehingga bisa dibentuk jumlah clusteryang tepat.

    Gambar. Use case diagram proses hasil pencarian dokumen sesuai kata kunci

    Gambar terakhir menunjukkan hasil akhir dari proses clustering engine ini. Yaitu menampilkan hasil dokumen

    yang tepat sesuai dengan kata kunci yang diinputkan oleh user.

  • 7/16/2019 78934397 Makalah Dokumen Mining

    14/14

    14

    Kesimpulan

    Dari hasil uji coba dan analisa yang telah dilakukan, maka dapat diambil kesimpulan:

    1. Penggunaan text mining untuk pengkategorisasian teks dokumen bahasa Inggris memudahkan dalampencarian dokumen yang sesuai dengan keinginan dari pengguna.

    2. Pencarian dokumen dengan menggunakan algoritma Centroid Linkage Hierarchical Method dengan polaanalisa varian Hill Climbing dapat digunakan untuk mengelompokkan dokumen secara otomatis dengan

    jumlah clusteryang tepat.

    3. Pola analisa varian dengan menggunakan metode Hill Climbing memerlukan waktu yang lebih cepat dalammelakukan analisa jumlah cluster jika dibandingkan dengan metode valley tracing. Hal ini disebabkan

    karena pengclusteran hasil dari Hill Climbing mendukung akses kecepatan penghitungan dokumen pada

    tiap clusternya.

    4. Pola analisa varian dengan menggunakan metode Hill Climbing sangat sesuai untuk pencarian dokumendengan jumlah yang sangat besar dan kata kunci yang panjang. Hal ini berpotensi untuk implementasi

    program dalam skala yang lebih luas.

    Daftar Pustaka

    web mining.pdf(http://www.google.com/)

    text mining.pdf(http://www.google.com/)

    data mining.pdf(http://www.google.com/)

    http://www.google.com/http://www.google.com/http://www.google.com/http://www.google.com/http://www.google.com/http://www.google.com/http://www.google.com/http://www.google.com/http://www.google.com/http://www.google.com/http://www.google.com/http://www.google.com/