Makalah Data Mining

download Makalah Data Mining

of 20

description

Rangkuman materi Data Mining

Transcript of Makalah Data Mining

  • Makalah DATA MINING UNIVERSITAS MUHAMMADIYAH SIDOARJO

    2014

    TITIS FITRIA 6B PAGI

    3/11/2014

  • Makalah Data Mining / Universitas Muhammadiyah siidoarjo

    2

    Bab 1. Data Mining

    1.1 Pengertian Data Mining

    Data Mining adalah kegiatan yang meliputi pengumpulan dan penggunaan

    database untuk menentukan suatu pola pada data set yang jumlahnya banyak..

    Perangkat lunak ini mampu menemukan pola-pola tersembunyi maupun

    hubungan-hubungan yang terdapat dalam basis data yang besar dan

    menghasilkan aturan-aturan yang digunakan untuk memperkirakan perilaku di

    masa mendatang.

    Data mining sering dikatakan berurusan dengan penemuan pengetahuan dalam

    basis data.

    1.2 Konsep dasar

    a. Bagaimana Data Mining Bekerja

    Data mining bekerja untuk menemukan pola-pola tertentu dalam data.

    Data mining cerdas menghasilkan informasi dari datawarehouse yang tidak

    dapat divisualisasikan oleh laporan-laporan dan query.

    b. Dimana langkah-langkah untuk melakukan data mining adalah sebagai

    berikut :

  • Makalah Data Mining / Universitas Muhammadiyah siidoarjo

    3

    -Data cleaning (untuk menghilangkan noise data yang tidak konsisten) Data integration

    (di mana sumber data yang terpecah dapat disatukan)

    - Data selection (di mana data yang relevan dengan tugas analisis dikembalikan ke

    dalam database)

    - Data transformation (di mana data berubah atau bersatu menjadi bentuk yang tepat

    untuk menambang dengan ringkasan performa atau operasi agresi)

    - Data mining (proses esensial di mana metode yang intelejen digunakan untuk

    mengekstrak pola data)

    - Pattern evolution (untuk mengidentifikasi pola yang benar-benar menarik yang

    mewakili pengetahuan berdasarkan atas beberapa tindakan yang menarik)

    - Knowledge presentation (di mana gambaran teknik visualisasi dan pengetahuan

    digunakan untuk memberikan pengetahuan yang telah ditambang kpada user).

    Arsitektur dari data mining yang khas memiliki beberapa komponen utama yaitu :

    - Database, data warehouse, atau tempat penyimpanan informasi lainnya.

    - Server database atau data warehouse.

    - Knowledge base

    - Data mining engine.

    - Pattern evolution module.

    - Graphical user interface.

    Bab 2. Web Mining

    2.1 Pengertian

    Web mining adalah sebuah integrasi beberapa teknologi, seperti data mining,

    statistik, informatika, dan sebagainya (Jicheng, 1999). Web mining adalah suatu

    aktifitas untuk menidentifikasi pola p yang terkandung dalam sebuah koleksi dokumen

    C, yang dapat dituliskan sebagai pemetaan . Definisi tersebut di atas menunjukkan

    bahwa Web mining mempunya kemiripan dengan data mining. Tetapi Web mining

    memiliki karakteristik khusus, antara lain adalah sumber yang digunakan adalah

    dokumen web. Selain itu pola yang dapat diperoleh dari Web mining adalah isi dari

    dokumen web atau struktur dari Web, sebab sebuah dokumen Web berisi informasi dan

    hyperlink.

  • Makalah Data Mining / Universitas Muhammadiyah siidoarjo

    4

    2.2 Konsep Dasar

    Penelitian web mining terintegrasi dengan berbagai macam penelitian disiplin

    ilmu pengetahuan lainnya seperti DataBase (DB), Data Mining, Information Retrieval

    (IR), Machine Learning (ML), Natural Language Process (NLP). Web mining dapat

    dibagi menjadi tiga kategori utama, yaitu: content mining, usage mining, dan structure

    mining.

    :

  • Makalah Data Mining / Universitas Muhammadiyah siidoarjo

    5

    Bab 3. Text Mining

    3.1 Pengertian Text Mining

    Text mining adalah salah satu bidang khusus dari data mining. Sesuai dengan

    buku The Text Mining Handbook, text mining dapat didefinisikan sebagai suatu proses

    menggali informasi dimana seorang user berinteraksi dengan sekumpulan dokumen

    menggunakan tools analisis yang merupakan komponenkomponen dalam data mining

    yang salah satunya adalah kategorisasi. Tujuan dari text mining adalah untuk

    mendapatkan informasi yang berguna dari sekumpulan dokumen. Jadi, sumber data

    yang digunakan pada text mining adalah kumpulan teks yang memiliki format yang

    tidak terstruktur atau minimal semi terstruktur. Adapun tugas khusus dari text mining

    antara lain yaitu pengkategorisasian teks (text categorization) dan pengelompokan teks

    (text clustering).

    3.2 Konsep Dasar text mining

    Permasalahan yang dihadapi pada text mining sama dengan permasalahan yang

    terdapat pada data mining, yaitu jumlah data yang besar, dimensi yang tinggi, data dan

    struktur yang terus berubah, dan data noise. Perbedaan di antara keduanya adalah pada

    data yang digunakan. Pada data mining, data yang digunakan adalah structured data,

    sedangkan pada text mining, data yang digunakan text mining pada umumnya adalah

    unstructured data, atau minimal semistructured. Hal ini menyebabkan adanya tantangan

    tambahan pada text mining yaitu struktur text yang complex dan tidak lengkap, arti

    yang tidak jelas dan tidak standard, dan bahasa yang berbeda ditambah translasi yang

    tidak akurat.

    Koleksi Dokumen

    Salah satu elemen kunci dari text mining adalah kumpulan dokumen yang

    berbasis teks. Pada prakteknya, text mining ditujukan untuk menemukan pola dari

    sekumpulan dokumen yang jumlahnya sangat besar dan bisa mencapai jumlah ribuan

    bahkan sampai jutaan. Koleksi dokumen bisa statis, dimana dokumen tidak berubah,

    atau dinamis, dimana dokumen selalu diupdate sepanjang waktu.

    Representasi feature pada dokumen

  • Makalah Data Mining / Universitas Muhammadiyah siidoarjo

    6

    Algoritma yang digunakan pada text mining, biasanya tidak hanya melakukan

    perhitungan hanya pada dokumen, tetapi pada juga feature. Empat macam feature yang

    sering digunakan:

    1. Character, merupakan komponan individual, bisa huruf, angka, karakter spesial dan

    spasi, merupakan block pembangun pada level paling tinggi pembentuk semantik

    feature, seperti kata,term dan concept.Pada umumnya, representasi character-based ini

    jarang digunakan pada beberapa teknik pemrosesan teks.

    2. Words.

    3. Terms merupakan single word dan frasa multiword yang terpilih secara langsung dari

    corpus. Representasi term-based dari dokumen tersusun dari subset term dalam

    dokumen.

    4. Concept, merupakan feature yang di-generate dari sebuah dokumen secara manual,

    rule-based, atau metodologi lain. Pada tugas akhir ini, concept di-generate dari

    argument atau verb yang sudah diberi label pada suatu dokumen.

    Text Preprocessing

    Struktur data yang baik dapat memudahkan proses komputerisasi secara otomatis.

    Pada text mining, informasi yang akan digali berisi informasi-informasi yang

    strukturnya sembarang. Oleh karena itu, diperlukan proses pengubahan bentuk menjadi

    data yang terstruktur sesuai kebutuhannya untuk proses dalam data mining, yang

    biasanya akan menjadi nilai-nilai numerik. Proses ini sering disebut Text Preprocessing.

    Setelah data menjadi data terstruktur dan berupa nilai numerik maka data dapat

    dijadikan sebagai sumber data yang dapat diolah lebih lanjut.

    Ekstraksi Dokumen

  • Makalah Data Mining / Universitas Muhammadiyah siidoarjo

    7

    Case folding adalah mengubah semua huruf dalam dokumen menjadi huruf kecil.

    Hanya huruf a sampai dengan z yang diterima. Karakter selain huruf dihilangkan dan

    dianggap delimiter. Tahap tokenizing / parsing adalah tahap pemotongan string input

    berdasarkan tiap kata yang menyusunnya. Contoh dari tahap ini adalah sebagai berikut:

    Tahap filtering adalah tahap mengambil kata - kata penting dari hasil token. Bisa

    menggunakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist

    (menyimpan kata penting). Stoplist / stopword adalah katakata yang tidak deskriptif

    yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopwords adalah yang,

    dan, di, dari dan seterusnya. Contoh dari tahapan ini adalah sebagai berikut:

  • Makalah Data Mining / Universitas Muhammadiyah siidoarjo

    8

    Tahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering. Pada tahap

    ini dilakukan proses pengembalian berbagai bentukan kata ke dalam suatu representasi

    yang sama. Tahap ini kebanyakan dipakai untuk teks berbahasa inggris dan lebih sulit

    diterapkan pada teks berbahasa Indonesia. Hal ini dikarenakan bahasa Indonesia tidak

    memiliki rumus bentuk baku yang permanen. Contoh dari tahapan ini pada teks

    berbahasa inggris adalah sebagai berikut:

    Bab 4. Sistem Pakar

    4.1 Pengertian sistem pakar menurut para ahli

    Menurut Martin dan Oxman "

    Sistem pakar adalah sistem berbasis computer yang menggunakan pengetahuan,

    fakta, dan teknik penalaran dalam memecahkan masalah, yang biasanya hanya dapat

    diselesaikan oleh seorang pakar dalam bidang tertentu.

    Menurut Ignizio "

    Sistem pakar merupakan bidang yang dicirikan oleh system berbasis

    pengetahuan (Knowledge Base System), memungkinkan adanya komponen untuk

    berpikir dan mengambil kesimpulan dari sekumpulan kaidah

    4.2 Konsep dasar Sistem Pakar

    Menurut Efraim Turban, konsep dasar sistem pakar mengandung beberapa hal yang

    di antaranya:

    a) Keahlian

    Merupakan suatu kelebihan penguasaan pengetahuan di bidang tertentu yang diperoleh

    dari pelatihan, membaca atau pengalaman. Contoh bentuk pengetahuan ; Strategi-

    strategi global untuk menyelesaikan masalah

    b) Ahli (Pakar)

  • Makalah Data Mining / Universitas Muhammadiyah siidoarjo

    9

    Merupakan seseorang yang memiliki pengetahuan, penilaian, pengalaman, metode

    tertentu, serta mampu menerapkan keahlian dalam memberikan advise untuk

    pemecahan persoalan, serta mampu menjelaskan suatu tanggapan, mempelajari hal-hal

    baru seputar topik permasalahan, mengenali & merumuskan permasalahan, menyusun

    kembali pengetahuan jika dipandang perlu, memecah aturan-aturan jika dibutuhkan, dan

    mampu menentukan relevan tidaknya keahlian mereka.

    c) Pengalihan Keahlian

    Merupakan pengalihan keahlian dari para ahli ke komputer untuk kemudian dialihkan

    lagi ke orang lain yang bukan ahli, dimana pengetahuan yang disimpan di komputer ini

    disebut dengan nama basis pengetahuan. Ada 2 tipe pengetahuan, yaitu: fakta dan

    prosedur (biasanya berupa aturan).

    d) Inferensi

    Kemampuan untuk melakukan penalaran dengan menggunakan pengetahuan yang ada

    untuk menghasilkan suatu kesimpulan atau hasil akhir. dengan menggunakan motor

    interafe yang merupakan permodelan proses berfikir dan bernalar layaknya manusia.

    e) Aturan

    Sebagian besar sistem pakar dibuat dalam bentuk rule-based system, dimana

    pengetahuan disimpan dalam bentuk aturan-aturan yang biasanya berbentuk IF-THEN

    f) Kemampuan Menjelaskan

    Kemampuan untuk menjelaskan dan merekomendasi, yang membedakan sistem pakar

    dengan sistem konvensional.

    Diagram Struktur Sistem Pakar

  • Makalah Data Mining / Universitas Muhammadiyah siidoarjo

    10

    Bab 5. Decision Tree

    5.1 Pengertian Decision Tree

    Decision tree (pohon keputusan) adalah alat pendukung keputusan yang

    menggunakan pohon. Seperti grafik atau model keputusan dan kemungkinan

    konsekuensi mereka, termasuk hasil peristiwa kebetulan, biaya sumber daya, dan utilitas.

    Decision tree biasanya digunakan dalam operations research (penelitian operasional),

    khususnya dalam decision analysis (analisis keputusan), untuk membantu

    mengidentifikasi strategi yang paling mungkin untuk mencapai tujuan. Lain yang

    menggunakan decision tree adalah sebagai alat deskriptif untuk menghitung probabilitas

    kondisional.

    5.2 Konsep dasar

    Dalam analisis keputusan, sebuah Decision tree digunakan sebagai visual dan

    alat pendukung keputusan analisis, di mana nilai-nilai yang diharapkan (atau utilitas

    yang diharapkan) dari alternatif bersaing dihitung.

    Decision Tree terdiri dari 3 jenis node:

  • Makalah Data Mining / Universitas Muhammadiyah siidoarjo

    11

    1. Decision nodes umum diwakili oleh kuadrat

    2. Chance nodes diwakili oleh kalangan

    3. End nodes diwakili oleh segitiga

    Ditarik dari kiri ke kanan, Decision Tree hanya burst nodes (membelah jalan) tapi tidak

    ada sink nodes (konvergen jalan). Oleh karena itu, digunakan secara manual, mereka

    dapat tumbuh sangat besar dan kemudian sering kali sulit untuk menarik sepenuhnya

    dengan tangan.

    Bab 6. Clustering

    6.1 Pengertian

    Clustering merupakan teknik yang umum digunakan dalam menganalisa data

    statistik untuk berbagai bidang, misalnya machine learning, pattern analysis , image

    analysis, information retrieval dan bio informatika.

    6.2 Konsep dasar

    Clustering Dengan Pendekatan Partisi

    K-Means

    Salah satu metode yang banyak digunakan dalam melakukan clustering dengan partisi

    ini adalah metode k-means. Secara umum metode k-means ini melakukan proses

    pengelompokan dengan prosedur sebagai berikut:

    Tentukan jumlah cluster

    Alokasikan data secara random ke cluster yang ada

    Hitung rata-rata setiap cluster dari data yang tergabung di dalamnya

    Alokasikan kembali semua data ke cluster terdekat

  • Makalah Data Mining / Universitas Muhammadiyah siidoarjo

    12

    Ulang proses nomor 3, sampai tidak ada perubahan atau perubahan yang terjadi

    masih sudah di bawah treshold

    Clustering dengan Pendekatan Hirarki

    Clustering dengan pendekatan hirarki mengelompokkan data yang mirip dalam

    hirarki yang sama dan yang tidak mirip di hirarki yang agak jauh. Ada dua metode yang

    sering diterapkan yaitu agglomerative hieararchical clustering dan divisive hierarchical

    clustering. Agglomerative melakukan proses clustering dari N cluster menjadi satu

    kesatuan cluster, dimana N adalah jumlah data, sedangkan divisive melakukan proses

    clustering yang sebaliknya yaitu dari satu cluster menjadi N cluster.

    Beberapa metode hierarchical clustering yang sering digunakan dibedakan

    menurut cara mereka untuk menghitung tingkat kemiripan. Ada yang menggunakan

    Single Linkage, Complete Linkage, Average Linkage, Average Group Linkage dan lain-

    lainnya. Seperti juga halnya dengan partition-based clustering, kita juga bisa memilih

    jenis jarak yang digunakan untuk menghitung tingkat kemiripan antar data.

    Salah satu cara untuk mempermudah pengembangan dendogram untuk hierarchical

    clustering ini adalah dengan membuat similarity matrix yang memuat tingkat kemiripan

    antar data yang dikelompokkan. Tingkat kemiripan bisa dihitung dengan berbagai

    macam cara seperti dengan Euclidean Distance Space. Berangkat dari similarity matrix

    ini, kita bisa memilih lingkage jenis mana yang akan digunakan untuk

    mengelompokkan data yang dianalisa.

    Bab 7. Association

    7.1 pengertian Association

    Teknik Association adalah metode data mining digunakan secara luas dan

    mengarah ke penemuan yang menarik hubungan antara variabel-variabel seperti yang

    ditemukan di gudang data di bawah pemeriksaan. Data penambang menetapkan formula

    yang disebut "aturan asosiasi". Dia kemudian memprediksi model masa depan dan

    bertindak berdasarkan model untuk mendapatkan informasi penting. Sebagai contoh

    mengambil kasus gelar akademik untuk spesialisasi. Jika seorang mahasiswa opt-in

  • Makalah Data Mining / Universitas Muhammadiyah siidoarjo

    13

    untuk program tertentu maka mungkin ada probabilitas tinggi bahwa ia juga dapat

    memilih spesialisasi yang relevan di masa depan untuk meningkatkan peluang karirnya.

    7.2 Konsep Dasar Association

    Bentuk Dasar Association Rule

    Ada beberapa simbol yang akan membantu untuk menerapkan association rule, yaitu:

    Association rule: implikasi yang dimisalkan dengan bentuk X -> Y, dimana X dan Y

    saling disjoin (X Y)

    Support count((X)): jumlah transaksi yang memuat itemset tertentu

    Support (s(X->Y)): tingkat intensitas kemunculan gabungan rule(X U Y) pada

    association rule pada seluruh data set

    Confidence(c(X->Y)): tingkat intensitas kemunculan item Y pada transaksi yang

    memuat X

    Rumus support dan confidence:

    Kegunaan dari support itu sendiri adalah untuk mengukur tingkat intensitas

    kemunculan suatu rule, dimana jika support yang dimiliki rendah, maka akan besar

    kemungkinan rendah juga tingkat keuntungan yang didapatkan dari item-item yang ada

    pada rule tersebut.

    Sedangkan kegunaan dari confidence adalah untuk mengukur tingkat

    kebenaran(reability) dari kesimpulan yang diambil oleh rule yang dibuat. Pada implikasi

    X->Y, jika nilai confidence rendah maka kemungkinan munculnya Y yang memuat X

    semakin rendah pula.

    Bab 8. Classification

    8.1 pengertian

  • Makalah Data Mining / Universitas Muhammadiyah siidoarjo

    14

    Classification adalah metode yang paling umum pada data mining. Persoalan

    bisnis sperti Churn Analysis, dan Risk Management biasanya melibatkan metode

    Classification.

    Classification adalah tindakan untuk memberikan kelompok pada setiap keadaan.

    Setiap keadaan berisi sekelompok atribut, salah satunya adalah class attribute. Metode

    ini butuh untuk menemukan sebuah model yang dapat menjelaskan class attribute itu

    sebagai fungsi dari input attribute.

    Class adalah attribute CollegePlans yang berisi dua pernyataan, Yes dan No,

    perhatikan ini.

    Sebuah Classification Model akan menggunakan atribut lain dari kasus tersebut (input

    attribut; yaitu kolom IQ, Gender, ParentIncome, dan ParentEncouragement) untuk

    dapat menentukan pola (pattern) class (Output Attribute; yaitu Kolom CollegePlans

    yang berisi Yes atau No).

    Algoritma Data Mining yang membutuhkan variabel target untuk belajar (sampai

    mendapatkan rule / pola yang berlaku pada data tersebut) kita standarkan dengan

    sebuthan dengan Supervised Algorithm.

    Bab 9. Algoritma Bayes

    9.1 Pengertian

    Nave Bayes adalah salah satu algoritma pembelajaran induktif yang paling

    efektif dan efisien untuk machine learning dan data mining. Klasifikasi adalah tugas

    yang penting dalam data mining, dalam klasifikasi, sebuah pengklasifikasi dibuat dari

    sekumpulan data latih dengan kelas yang telah ditemukan sebelumnya.

    9.2 Konsep dasar

    A. Konsep Dasar dan Definisi Metode Bayes

    Metode Find-S tidak dapat digunakan untuk data yang tidak konsisten dan data

    yang bias, sehingga untuk bentuk data semacam ini salah satu metode sederhana yang

    dapat digunakan adalah metode bayes.

    Metode Bayes merupakan pendekatan statistic untuk melakukan inferensi

    induksi pada persoalan klasifikasi. Pertama kali dibahas terlebih dahulu tentang konsep

  • Makalah Data Mining / Universitas Muhammadiyah siidoarjo

    15

    dasar dan definisi pada Teorema Bayes, kemudian menggunkan teorema ini untuk

    melakukan klasifikasi dalam Data Mining.

    Metode Bayes menggunakan propabilitas bersyarat sebagai dasarnya. Dalam

    ilmu probabilitas bersyarat dinyatakan sebagai:

    Probabilitas X di dalam Y adalah probabilitas inteseksi X dan Y dari

    probabilitas Y, atau dengan bahasa lain P(X|Y) adalah prosentase banyaknya X di

    dalam Y. Probabilitas bersyarat dalam data diilustrasikan pada contoh berikut.

    Banyaknya data berolah-raga=ya adalah 4 dari 6 data maka dituliskan P(olahraga)= 4/6.

  • Makalah Data Mining / Universitas Muhammadiyah siidoarjo

    16

    Banyaknya data cerah dan berolah-raga adalah 4 dari 6 data, maka dituliskan

    P(cuaca=cerah dan Olahraga=ya)= 4/6. Dari informasi tersebut, maka probabilitas cuaca

    cerah pada saat olahraga adalah:

    Bab 10 Algoritma Apriori

    10.1 Pengertian

    Algoritma Apriori adalah algoritma paling terkenal untuk menemukan pola

    frekuensi tinggi. Pola frekuensi tinggi adalah pola-pola item di dalam suatu database

    yang memiliki frekuensi atau support di atas ambang batas tertentu yang disebut dengan

    istilah minimum support.

    10.2 Konsep dasar

    Algoritma Apriori dibagi menjadi beberapa tahap yang disebut iterasi atau pass.

    Tiap iterasi menghasilkan pola frekuensi tinggi dengan panjang yang sama dimulai dari

    pass pertama yang menghasilkan pola frekuensi tinggi dengan panjang satu.

    Iterasi kedua menghasilkan 2-itemset yang tiap set-nya memiliki dua item.

    Pertama dibuat kandidat 2-itemset dari kombinasi semua 1-itemset. Lalu untuk tiap

    kandidat 2-itemset ini dihitung support-nya dengan men-scan database. Support disini

    artinya jumlah transaksi dalam database yang mengandung kedua item dalam kandidat

    2-itemset. Setelah support dari semua kandidat 2-itemset didapatkan, kandidat 2-itemset

    yang memenuhi syarat minimum support dapat ditetapkan sebagai 2-itemset yang juga

    merupakan pola frekuensi tinggi dengan panjang 2.

    Untuk selanjutnya pada iterasi ke-k dapat dibagi lagi menjadi beberapa bagian :

    1. Pembentukan kandidat itemset, Kandidat k-itemset dibentuk dari kombinasi (k-1)-

    itemset yang didapat dari iterasi sebelumnya. Satu ciri dari algoritma Apriori adalah

    adanya pemangkasan kandidat k-itemset yang subset-nya yang berisi k-1 item tidak

    termasuk dalam pola frekuensi tinggi dengan panjang k-1

    2. Penghitungan support dari tiap kandidat k-itemset. Support dari tiap kandidat

    k-itemset didapat dengan men-scan database untuk menghitung jumlah transaksi yang

  • Makalah Data Mining / Universitas Muhammadiyah siidoarjo

    17

    memuat semua item di dalam kandidat k-itemset tsb. Ini adalah juga ciri dari algoritme

    Apriori dimana diperlukan penghitungan dengan scan seluruh database sebanyak k-

    itemset terpanjang.

    3. Tetapkan pola frekuensi tinggi. Pola frekuensi tinggi yang memuat k item

    atau k-itemset ditetapkan dari kandidat k-itemset yang support-nya lebih besar dari

    minimum support.

    4. Bila tidak didapat pola frekuensi tinggi baru maka seluruh proses dihentikan.

    Bila tidak, maka k ditambah satu dan kembali ke bagian 1.

    Pseudocode dari algoritma Apriori dapat dilihat di Gambar berikut :

    Bab 11 Algoritma K-Means

    11.1 Pengertian

    K-Means merupakan metode klasterisasi yang paling terkenal dan banyak

    digunakan di berbagai bidang karena sederhana, mudah diimplementasikan, memiliki

    kemampuan untuk mengklaster data yang besar, mampu menangani data outlier, dan

    kompleksitas waktunya linear O(nKT) dengan n adalah jumlah dokumen, K adalah

    jumlah kluster, dan T adalah jumlah iterasi. K-means merupakan metode pengklasteran

    secara partitioning yang memisahkan data ke dalam kelompok yang berbeda. Dengan

    partitioning secara iteratif, KMeans mampu meminimalkan rata-rata jarak setiap data ke

    klasternya. Metode ini dikembangkan oleh Mac Queen pada tahun 1967.

    11.2 Konsep dasar

  • Makalah Data Mining / Universitas Muhammadiyah siidoarjo

    18

    Dasar algoritma K-means adalah sebagai berikut :

    1. Tentukan nilai k sebagai jumlah klaster yang ingin dibentuk.

    2. Bangkitkan k centroid (titik pusat klaster) awal secara random.

    3. Hitung jarak setiap data ke masing-masing centroid menggunakan rumus korelasi

    antar dua objek yaitu Euclidean Distance dan kesamaan Cosine.

    4. Kelompokkan setiap data berdasarkan jarak terdekat antara data dengan centroidnya.

    5. Tentukan posisi centroid baru ( k C ) dengan cara menghitung nilai rata-rata dari

    data-data yang ada pada centroid yang sama.

    Dimana k n adalah jumlah dokumen dalam cluster k dan i d adalah dokumen dalam

    cluster k.

    6. Kembali ke langkah 3 jika posisi centroid baru dengan centroid lama tidak sama.

    Adapun karakteristik dari algoritma K-Means salah satunya adalah sangat

    sensitif dalam penentuan titik pusat awal klaster karena K-Means membangkitkan titik

    pusat klaster awal secara random. Pada saat pembangkitan awal titik pusat yang random

    tersebut mendekati solusi akhir pusat klaster, K-Means mempunyai posibilitas yang

    tinggi untuk menemukan titik pusat klaster yang tepat. Sebaliknya, jika awal titik pusat

    tersebut jauh dari solusi akhir pusat klaster, maka besar kemungkinan ini menyebabkan

    hasil pengklasteran yang tidak tepat. Akibatnya K-Means tidak menjamin hasil

    pengklasteran yang unik. Inilah yang menyebabkan metode K-Means sulit untuk

    mencapai optimum global, akan tetapi hanya minimum lokal. Selain itu, algoritma K-

    Means hanya bisa digunakan untuk data yang atributnya bernilai numeric.

    Bab 12. Sequential Pattern

    12.1 pengertian

    Terdapat:

    Database sequence

    Minimum menetapkan user yang mendukung(support), minsup

    Task:

  • Makalah Data Mining / Universitas Muhammadiyah siidoarjo

    19

    Menemukan semua subsequence dengan user yang mendukup minsup

    12.2 Konsep dasar

    Contoh :

    Sequential Pattern Mining

    Object Timestamp Events

    A 1 1,2,4

    A 2 2,3

    A 3 5

    B 1 1,2

    B 2 2,3,4

    C 1 1, 2

    C 2 2,3,4

    C 3 2,4,5

    D 1 2

    D 2 3, 4

    D 3 4, 5

    E 1 1, 3

    E 2 2, 4, 5

  • Makalah Data Mining / Universitas Muhammadiyah siidoarjo

    20