Makalah Data Mining

download Makalah Data Mining

of 20

  • date post

    18-Oct-2015
  • Category

    Documents

  • view

    1.456
  • download

    4

Embed Size (px)

description

Rangkuman materi Data Mining

Transcript of Makalah Data Mining

  • Makalah DATA MINING UNIVERSITAS MUHAMMADIYAH SIDOARJO

    2014

    TITIS FITRIA 6B PAGI

    3/11/2014

  • Makalah Data Mining / Universitas Muhammadiyah siidoarjo

    2

    Bab 1. Data Mining

    1.1 Pengertian Data Mining

    Data Mining adalah kegiatan yang meliputi pengumpulan dan penggunaan

    database untuk menentukan suatu pola pada data set yang jumlahnya banyak..

    Perangkat lunak ini mampu menemukan pola-pola tersembunyi maupun

    hubungan-hubungan yang terdapat dalam basis data yang besar dan

    menghasilkan aturan-aturan yang digunakan untuk memperkirakan perilaku di

    masa mendatang.

    Data mining sering dikatakan berurusan dengan penemuan pengetahuan dalam

    basis data.

    1.2 Konsep dasar

    a. Bagaimana Data Mining Bekerja

    Data mining bekerja untuk menemukan pola-pola tertentu dalam data.

    Data mining cerdas menghasilkan informasi dari datawarehouse yang tidak

    dapat divisualisasikan oleh laporan-laporan dan query.

    b. Dimana langkah-langkah untuk melakukan data mining adalah sebagai

    berikut :

  • Makalah Data Mining / Universitas Muhammadiyah siidoarjo

    3

    -Data cleaning (untuk menghilangkan noise data yang tidak konsisten) Data integration

    (di mana sumber data yang terpecah dapat disatukan)

    - Data selection (di mana data yang relevan dengan tugas analisis dikembalikan ke

    dalam database)

    - Data transformation (di mana data berubah atau bersatu menjadi bentuk yang tepat

    untuk menambang dengan ringkasan performa atau operasi agresi)

    - Data mining (proses esensial di mana metode yang intelejen digunakan untuk

    mengekstrak pola data)

    - Pattern evolution (untuk mengidentifikasi pola yang benar-benar menarik yang

    mewakili pengetahuan berdasarkan atas beberapa tindakan yang menarik)

    - Knowledge presentation (di mana gambaran teknik visualisasi dan pengetahuan

    digunakan untuk memberikan pengetahuan yang telah ditambang kpada user).

    Arsitektur dari data mining yang khas memiliki beberapa komponen utama yaitu :

    - Database, data warehouse, atau tempat penyimpanan informasi lainnya.

    - Server database atau data warehouse.

    - Knowledge base

    - Data mining engine.

    - Pattern evolution module.

    - Graphical user interface.

    Bab 2. Web Mining

    2.1 Pengertian

    Web mining adalah sebuah integrasi beberapa teknologi, seperti data mining,

    statistik, informatika, dan sebagainya (Jicheng, 1999). Web mining adalah suatu

    aktifitas untuk menidentifikasi pola p yang terkandung dalam sebuah koleksi dokumen

    C, yang dapat dituliskan sebagai pemetaan . Definisi tersebut di atas menunjukkan

    bahwa Web mining mempunya kemiripan dengan data mining. Tetapi Web mining

    memiliki karakteristik khusus, antara lain adalah sumber yang digunakan adalah

    dokumen web. Selain itu pola yang dapat diperoleh dari Web mining adalah isi dari

    dokumen web atau struktur dari Web, sebab sebuah dokumen Web berisi informasi dan

    hyperlink.

  • Makalah Data Mining / Universitas Muhammadiyah siidoarjo

    4

    2.2 Konsep Dasar

    Penelitian web mining terintegrasi dengan berbagai macam penelitian disiplin

    ilmu pengetahuan lainnya seperti DataBase (DB), Data Mining, Information Retrieval

    (IR), Machine Learning (ML), Natural Language Process (NLP). Web mining dapat

    dibagi menjadi tiga kategori utama, yaitu: content mining, usage mining, dan structure

    mining.

    :

  • Makalah Data Mining / Universitas Muhammadiyah siidoarjo

    5

    Bab 3. Text Mining

    3.1 Pengertian Text Mining

    Text mining adalah salah satu bidang khusus dari data mining. Sesuai dengan

    buku The Text Mining Handbook, text mining dapat didefinisikan sebagai suatu proses

    menggali informasi dimana seorang user berinteraksi dengan sekumpulan dokumen

    menggunakan tools analisis yang merupakan komponenkomponen dalam data mining

    yang salah satunya adalah kategorisasi. Tujuan dari text mining adalah untuk

    mendapatkan informasi yang berguna dari sekumpulan dokumen. Jadi, sumber data

    yang digunakan pada text mining adalah kumpulan teks yang memiliki format yang

    tidak terstruktur atau minimal semi terstruktur. Adapun tugas khusus dari text mining

    antara lain yaitu pengkategorisasian teks (text categorization) dan pengelompokan teks

    (text clustering).

    3.2 Konsep Dasar text mining

    Permasalahan yang dihadapi pada text mining sama dengan permasalahan yang

    terdapat pada data mining, yaitu jumlah data yang besar, dimensi yang tinggi, data dan

    struktur yang terus berubah, dan data noise. Perbedaan di antara keduanya adalah pada

    data yang digunakan. Pada data mining, data yang digunakan adalah structured data,

    sedangkan pada text mining, data yang digunakan text mining pada umumnya adalah

    unstructured data, atau minimal semistructured. Hal ini menyebabkan adanya tantangan

    tambahan pada text mining yaitu struktur text yang complex dan tidak lengkap, arti

    yang tidak jelas dan tidak standard, dan bahasa yang berbeda ditambah translasi yang

    tidak akurat.

    Koleksi Dokumen

    Salah satu elemen kunci dari text mining adalah kumpulan dokumen yang

    berbasis teks. Pada prakteknya, text mining ditujukan untuk menemukan pola dari

    sekumpulan dokumen yang jumlahnya sangat besar dan bisa mencapai jumlah ribuan

    bahkan sampai jutaan. Koleksi dokumen bisa statis, dimana dokumen tidak berubah,

    atau dinamis, dimana dokumen selalu diupdate sepanjang waktu.

    Representasi feature pada dokumen

  • Makalah Data Mining / Universitas Muhammadiyah siidoarjo

    6

    Algoritma yang digunakan pada text mining, biasanya tidak hanya melakukan

    perhitungan hanya pada dokumen, tetapi pada juga feature. Empat macam feature yang

    sering digunakan:

    1. Character, merupakan komponan individual, bisa huruf, angka, karakter spesial dan

    spasi, merupakan block pembangun pada level paling tinggi pembentuk semantik

    feature, seperti kata,term dan concept.Pada umumnya, representasi character-based ini

    jarang digunakan pada beberapa teknik pemrosesan teks.

    2. Words.

    3. Terms merupakan single word dan frasa multiword yang terpilih secara langsung dari

    corpus. Representasi term-based dari dokumen tersusun dari subset term dalam

    dokumen.

    4. Concept, merupakan feature yang di-generate dari sebuah dokumen secara manual,

    rule-based, atau metodologi lain. Pada tugas akhir ini, concept di-generate dari

    argument atau verb yang sudah diberi label pada suatu dokumen.

    Text Preprocessing

    Struktur data yang baik dapat memudahkan proses komputerisasi secara otomatis.

    Pada text mining, informasi yang akan digali berisi informasi-informasi yang

    strukturnya sembarang. Oleh karena itu, diperlukan proses pengubahan bentuk menjadi

    data yang terstruktur sesuai kebutuhannya untuk proses dalam data mining, yang

    biasanya akan menjadi nilai-nilai numerik. Proses ini sering disebut Text Preprocessing.

    Setelah data menjadi data terstruktur dan berupa nilai numerik maka data dapat

    dijadikan sebagai sumber data yang dapat diolah lebih lanjut.

    Ekstraksi Dokumen

  • Makalah Data Mining / Universitas Muhammadiyah siidoarjo

    7

    Case folding adalah mengubah semua huruf dalam dokumen menjadi huruf kecil.

    Hanya huruf a sampai dengan z yang diterima. Karakter selain huruf dihilangkan dan

    dianggap delimiter. Tahap tokenizing / parsing adalah tahap pemotongan string input

    berdasarkan tiap kata yang menyusunnya. Contoh dari tahap ini adalah sebagai berikut:

    Tahap filtering adalah tahap mengambil kata - kata penting dari hasil token. Bisa

    menggunakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist

    (menyimpan kata penting). Stoplist / stopword adalah katakata yang tidak deskriptif

    yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopwords adalah yang,

    dan, di, dari dan seterusnya. Contoh dari tahapan ini adalah sebagai berikut:

  • Makalah Data Mining / Universitas Muhammadiyah siidoarjo

    8

    Tahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering. Pada tahap

    ini dilakukan proses pengembalian berbagai bentukan kata ke dalam suatu representasi

    yang sama. Tahap ini kebanyakan dipakai untuk teks berbahasa inggris dan lebih sulit

    diterapkan pada teks berbahasa Indonesia. Hal ini dikarenakan bahasa Indonesia tidak

    memiliki rumus bentuk baku yang permanen. Contoh dari tahapan ini pada teks

    berbahasa inggris adalah sebagai berikut:

    Bab 4. Sistem Pakar

    4.1 Pengertian sistem pakar menurut para ahli

    Menurut Martin dan Oxman "

    Sistem pakar adalah sistem berbasis computer yang menggunakan pengetahuan,

    fakta, dan teknik penalaran dalam memecahkan masalah, yang biasanya hanya dapat

    diselesaikan oleh seorang pakar dalam bidang tertentu.

    Menurut Ignizio "