Makalah Data Mining

Makalah DATA MINING UNIVERSITAS MUHAMMADIYAH SIDOARJO

2014

TITIS FITRIA 6B PAGI

3/11/2014

Makalah Data Mining / Universitas Muhammadiyah siidoarjo

2

Bab 1. Data Mining

1.1 Pengertian Data Mining

Data Mining adalah kegiatan yang meliputi pengumpulan dan penggunaan

database untuk menentukan suatu pola pada data set yang jumlahnya banyak..

Perangkat lunak ini mampu menemukan pola-pola tersembunyi maupun

hubungan-hubungan yang terdapat dalam basis data yang besar dan

menghasilkan aturan-aturan yang digunakan untuk memperkirakan perilaku di

masa mendatang.

Data mining sering dikatakan berurusan dengan penemuan pengetahuan dalam

basis data.

1.2 Konsep dasar

a. Bagaimana Data Mining Bekerja

Data mining bekerja untuk menemukan pola-pola tertentu dalam data.

Data mining cerdas menghasilkan informasi dari datawarehouse yang tidak

dapat divisualisasikan oleh laporan-laporan dan query.

b. Dimana langkah-langkah untuk melakukan data mining adalah sebagai

berikut :


3

-Data cleaning (untuk menghilangkan noise data yang tidak konsisten) Data integration

(di mana sumber data yang terpecah dapat disatukan)

- Data selection (di mana data yang relevan dengan tugas analisis dikembalikan ke

dalam database)

- Data transformation (di mana data berubah atau bersatu menjadi bentuk yang tepat

untuk menambang dengan ringkasan performa atau operasi agresi)

- Data mining (proses esensial di mana metode yang intelejen digunakan untuk

mengekstrak pola data)

- Pattern evolution (untuk mengidentifikasi pola yang benar-benar menarik yang

mewakili pengetahuan berdasarkan atas beberapa tindakan yang menarik)

- Knowledge presentation (di mana gambaran teknik visualisasi dan pengetahuan

digunakan untuk memberikan pengetahuan yang telah ditambang kpada user).

Arsitektur dari data mining yang khas memiliki beberapa komponen utama yaitu :

- Database, data warehouse, atau tempat penyimpanan informasi lainnya.

- Server database atau data warehouse.

- Knowledge base

- Data mining engine.

- Pattern evolution module.

- Graphical user interface.

Bab 2. Web Mining

2.1 Pengertian

Web mining adalah sebuah integrasi beberapa teknologi, seperti data mining,

statistik, informatika, dan sebagainya (Jicheng, 1999). Web mining adalah suatu

aktifitas untuk menidentifikasi pola p yang terkandung dalam sebuah koleksi dokumen

C, yang dapat dituliskan sebagai pemetaan . Definisi tersebut di atas menunjukkan

bahwa Web mining mempunya kemiripan dengan data mining. Tetapi Web mining

memiliki karakteristik khusus, antara lain adalah sumber yang digunakan adalah

dokumen web. Selain itu pola yang dapat diperoleh dari Web mining adalah isi dari

dokumen web atau struktur dari Web, sebab sebuah dokumen Web berisi informasi dan

hyperlink.


4

2.2 Konsep Dasar

Penelitian web mining terintegrasi dengan berbagai macam penelitian disiplin

ilmu pengetahuan lainnya seperti DataBase (DB), Data Mining, Information Retrieval

(IR), Machine Learning (ML), Natural Language Process (NLP). Web mining dapat

dibagi menjadi tiga kategori utama, yaitu: content mining, usage mining, dan structure

mining.

:


5

Bab 3. Text Mining

3.1 Pengertian Text Mining

Text mining adalah salah satu bidang khusus dari data mining. Sesuai dengan

buku The Text Mining Handbook, text mining dapat didefinisikan sebagai suatu proses

menggali informasi dimana seorang user berinteraksi dengan sekumpulan dokumen

menggunakan tools analisis yang merupakan komponenkomponen dalam data mining

yang salah satunya adalah kategorisasi. Tujuan dari text mining adalah untuk

mendapatkan informasi yang berguna dari sekumpulan dokumen. Jadi, sumber data

yang digunakan pada text mining adalah kumpulan teks yang memiliki format yang

tidak terstruktur atau minimal semi terstruktur. Adapun tugas khusus dari text mining

antara lain yaitu pengkategorisasian teks (text categorization) dan pengelompokan teks

(text clustering).

3.2 Konsep Dasar text mining

Permasalahan yang dihadapi pada text mining sama dengan permasalahan yang

terdapat pada data mining, yaitu jumlah data yang besar, dimensi yang tinggi, data dan

struktur yang terus berubah, dan data noise. Perbedaan di antara keduanya adalah pada

data yang digunakan. Pada data mining, data yang digunakan adalah structured data,

sedangkan pada text mining, data yang digunakan text mining pada umumnya adalah

unstructured data, atau minimal semistructured. Hal ini menyebabkan adanya tantangan

tambahan pada text mining yaitu struktur text yang complex dan tidak lengkap, arti

yang tidak jelas dan tidak standard, dan bahasa yang berbeda ditambah translasi yang

tidak akurat.

Koleksi Dokumen

Salah satu elemen kunci dari text mining adalah kumpulan dokumen yang

berbasis teks. Pada prakteknya, text mining ditujukan untuk menemukan pola dari

sekumpulan dokumen yang jumlahnya sangat besar dan bisa mencapai jumlah ribuan

bahkan sampai jutaan. Koleksi dokumen bisa statis, dimana dokumen tidak berubah,

atau dinamis, dimana dokumen selalu diupdate sepanjang waktu.

Representasi feature pada dokumen


6

Algoritma yang digunakan pada text mining, biasanya tidak hanya melakukan

perhitungan hanya pada dokumen, tetapi pada juga feature. Empat macam feature yang

sering digunakan:

1. Character, merupakan komponan individual, bisa huruf, angka, karakter spesial dan

spasi, merupakan block pembangun pada level paling tinggi pembentuk semantik

feature, seperti kata,term dan concept.Pada umumnya, representasi character-based ini

jarang digunakan pada beberapa teknik pemrosesan teks.

2. Words.

3. Terms merupakan single word dan frasa multiword yang terpilih secara langsung dari

corpus. Representasi term-based dari dokumen tersusun dari subset term dalam

dokumen.

4. Concept, merupakan feature yang di-generate dari sebuah dokumen secara manual,

rule-based, atau metodologi lain. Pada tugas akhir ini, concept di-generate dari

argument atau verb yang sudah diberi label pada suatu dokumen.

Text Preprocessing

Struktur data yang baik dapat memudahkan proses komputerisasi secara otomatis.

Pada text mining, informasi yang akan digali berisi informasi-informasi yang

strukturnya sembarang. Oleh karena itu, diperlukan proses pengubahan bentuk menjadi

data yang terstruktur sesuai kebutuhannya untuk proses dalam data mining, yang

biasanya akan menjadi nilai-nilai numerik. Proses ini sering disebut Text Preprocessing.

Setelah data menjadi data terstruktur dan berupa nilai numerik maka data dapat

dijadikan sebagai sumber data yang dapat diolah lebih lanjut.

Ekstraksi Dokumen


7

Case folding adalah mengubah semua huruf dalam dokumen menjadi huruf kecil.

Hanya huruf a sampai dengan z yang diterima. Karakter selain huruf dihilangkan dan

dianggap delimiter. Tahap tokenizing / parsing adalah tahap pemotongan string input

berdasarkan tiap kata yang menyusunnya. Contoh dari tahap ini adalah sebagai berikut:

Tahap filtering adalah tahap mengambil kata - kata penting dari hasil token. Bisa

menggunakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist

(menyimpan kata penting). Stoplist / stopword adalah katakata yang tidak deskriptif

yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopwords adalah yang,

dan, di, dari dan seterusnya. Contoh dari tahapan ini adalah sebagai berikut:


8

Tahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering. Pada tahap

ini dilakukan proses pengembalian berbagai bentukan kata ke dalam suatu representasi

yang sama. Tahap ini kebanyakan dipakai untuk teks berbahasa inggris dan lebih sulit

diterapkan pada teks berbahasa Indonesia. Hal ini dikarenakan bahasa Indonesia tidak

memiliki rumus bentuk baku yang permanen. Contoh dari tahapan ini pada teks

berbahasa inggris adalah sebagai berikut:

Bab 4. Sistem Pakar

4.1 Pengertian sistem pakar menurut para ahli

Menurut Martin dan Oxman "

Sistem pakar adalah sistem berbasis computer yang menggunakan pengetahuan,

fakta, dan teknik penalaran dalam memecahkan masalah, yang biasanya hanya dapat

diselesaikan oleh seorang pakar dalam bidang tertentu.

Menurut Ignizio "

Sistem pakar merupakan bidang yang dicirikan oleh system berbasis

pengetahuan (Knowledge Base System), memungkinkan adanya komponen untuk

berpikir dan mengambil kesimpulan dari sekumpulan kaidah

4.2 Konsep dasar Sistem Pakar

Menurut Efraim Turban, konsep dasar sistem pakar mengandung beberapa hal yang

di antaranya:

a) Keahlian

Merupakan suatu kelebihan penguasaan pengetahuan di bidang tertentu yang diperoleh

dari pelatihan, membaca atau pengalaman. Contoh bentuk pengetahuan ; Strategi-

strategi global untuk menyelesaikan masalah

b) Ahli (Pakar)


9

Merupakan seseorang yang memiliki pengetahuan, penilaian, pengalaman, metode

tertentu, serta mampu menerapkan keahlian dalam memberikan advise untuk

pemecahan persoalan, serta mampu menjelaskan suatu tanggapan, mempelajari hal-hal

baru seputar topik permasalahan, mengenali & merumuskan permasalahan, menyusun

kembali pengetahuan jika dipandang perlu, memecah aturan-aturan jika dibutuhkan, dan

mampu menentukan relevan tidaknya keahlian mereka.

c) Pengalihan Keahlian

Merupakan pengalihan keahlian dari para ahli ke komputer untuk kemudian dialihkan

lagi ke orang lain yang bukan ahli, dimana pengetahuan yang disimpan di komputer ini

disebut dengan nama basis pengetahuan. Ada 2 tipe pengetahuan, yaitu: fakta dan

prosedur (biasanya berupa aturan).

d) Inferensi

Kemampuan untuk melakukan penalaran dengan menggunakan pengetahuan yang ada

untuk menghasilkan suatu kesimpulan atau hasil akhir. dengan menggunakan motor

interafe yang merupakan permodelan proses berfikir dan bernalar layaknya manusia.

e) Aturan

Sebagian besar sistem pakar dibuat dalam bentuk rule-based system, dimana

pengetahuan disimpan dalam bentuk aturan-aturan yang biasanya berbentuk IF-THEN

f) Kemampuan Menjelaskan

Kemampuan untuk menjelaskan dan merekomendasi, yang membedakan sistem pakar

dengan sistem konvensional.

Diagram Struktur Sistem Pakar


10

Bab 5. Decision Tree

5.1 Pengertian Decision Tree

Decision tree (pohon keputusan) adalah alat pendukung keputusan yang

menggunakan pohon. Seperti grafik atau model keputusan dan kemungkinan

konsekuensi mereka, termasuk hasil peristiwa kebetulan, biaya sumber daya, dan utilitas.

Decision tree biasanya digunakan dalam operations research (penelitian operasional),

khususnya dalam decision analysis (analisis keputusan), untuk membantu

mengidentifikasi strategi yang paling mungkin untuk mencapai tujuan. Lain yang

menggunakan decision tree adalah sebagai alat deskriptif untuk menghitung probabilitas

kondisional.

5.2 Konsep dasar

Dalam analisis keputusan, sebuah Decision tree digunakan sebagai visual dan

alat pendukung keputusan analisis, di mana nilai-nilai yang diharapkan (atau utilitas

yang diharapkan) dari alternatif bersaing dihitung.

Decision Tree terdiri dari 3 jenis node:


11

1. Decision nodes umum diwakili oleh kuadrat

2. Chance nodes diwakili oleh kalangan

3. End nodes diwakili oleh segitiga

Ditarik dari kiri ke kanan, Decision Tree hanya burst nodes (membelah jalan) tapi tidak

ada sink nodes (konvergen jalan). Oleh karena itu, digunakan secara manual, mereka

dapat tumbuh sangat besar dan kemudian sering kali sulit untuk menarik sepenuhnya

dengan tangan.

Bab 6. Clustering

6.1 Pengertian

Clustering merupakan teknik yang umum digunakan dalam menganalisa data

statistik untuk berbagai bidang, misalnya machine learning, pattern analysis , image

analysis, information retrieval dan bio informatika.

6.2 Konsep dasar

Clustering Dengan Pendekatan Partisi

K-Means

Salah satu metode yang banyak digunakan dalam melakukan clustering dengan partisi

ini adalah metode k-means. Secara umum metode k-means ini melakukan proses

pengelompokan dengan prosedur sebagai berikut:

Tentukan jumlah cluster

Alokasikan data secara random ke cluster yang ada

Hitung rata-rata setiap cluster dari data yang tergabung di dalamnya

Alokasikan kembali semua data ke cluster terdekat


12

Ulang proses nomor 3, sampai tidak ada perubahan atau perubahan yang terjadi

masih sudah di bawah treshold

Clustering dengan Pendekatan Hirarki

Clustering dengan pendekatan hirarki mengelompokkan data yang mirip dalam

hirarki yang sama dan yang tidak mirip di hirarki yang agak jauh. Ada dua metode yang

sering diterapkan yaitu agglomerative hieararchical clustering dan divisive hierarchical

clustering. Agglomerative melakukan proses clustering dari N cluster menjadi satu

kesatuan cluster, dimana N adalah jumlah data, sedangkan divisive melakukan proses

clustering yang sebaliknya yaitu dari satu cluster menjadi N cluster.

Beberapa metode hierarchical clustering yang sering digunakan dibedakan

menurut cara mereka untuk menghitung tingkat kemiripan. Ada yang menggunakan

Single Linkage, Complete Linkage, Average Linkage, Average Group Linkage dan lain-

lainnya. Seperti juga halnya dengan partition-based clustering, kita juga bisa memilih

jenis jarak yang digunakan untuk menghitung tingkat kemiripan antar data.

Salah satu cara untuk mempermudah pengembangan dendogram untuk hierarchical

clustering ini adalah dengan membuat similarity matrix yang memuat tingkat kemiripan

antar data yang dikelompokkan. Tingkat kemiripan bisa dihitung dengan berbagai

macam cara seperti dengan Euclidean Distance Space. Berangkat dari similarity matrix

ini, kita bisa memilih lingkage jenis mana yang akan digunakan untuk

mengelompokkan data yang dianalisa.

Bab 7. Association

7.1 pengertian Association

Teknik Association adalah metode data mining digunakan secara luas dan

mengarah ke penemuan yang menarik hubungan antara variabel-variabel seperti yang

ditemukan di gudang data di bawah pemeriksaan. Data penambang menetapkan formula

yang disebut "aturan asosiasi". Dia kemudian memprediksi model masa depan dan

bertindak berdasarkan model untuk mendapatkan informasi penting. Sebagai contoh

mengambil kasus gelar akademik untuk spesialisasi. Jika seorang mahasiswa opt-in


13

untuk program tertentu maka mungkin ada probabilitas tinggi bahwa ia juga dapat

memilih spesialisasi yang relevan di masa depan untuk meningkatkan peluang karirnya.

7.2 Konsep Dasar Association

Bentuk Dasar Association Rule

Ada beberapa simbol yang akan membantu untuk menerapkan association rule, yaitu:

Association rule: implikasi yang dimisalkan dengan bentuk X -> Y, dimana X dan Y

saling disjoin (X Y)

Support count((X)): jumlah transaksi yang memuat itemset tertentu

Support (s(X->Y)): tingkat intensitas kemunculan gabungan rule(X U Y) pada

association rule pada seluruh data set

Confidence(c(X->Y)): tingkat intensitas kemunculan item Y pada transaksi yang

memuat X

Rumus support dan confidence:

Kegunaan dari support itu sendiri adalah untuk mengukur tingkat intensitas

kemunculan suatu rule, dimana jika support yang dimiliki rendah, maka akan besar

kemungkinan rendah juga tingkat keuntungan yang didapatkan dari item-item yang ada

pada rule tersebut.

Sedangkan kegunaan dari confidence adalah untuk mengukur tingkat

kebenaran(reability) dari kesimpulan yang diambil oleh rule yang dibuat. Pada implikasi

X->Y, jika nilai confidence rendah maka kemungkinan munculnya Y yang memuat X

semakin rendah pula.

Bab 8. Classification

8.1 pengertian


14

Classification adalah metode yang paling umum pada data mining. Persoalan

bisnis sperti Churn Analysis, dan Risk Management biasanya melibatkan metode

Classification.

Classification adalah tindakan untuk memberikan kelompok pada setiap keadaan.

Setiap keadaan berisi sekelompok atribut, salah satunya adalah class attribute. Metode

ini butuh untuk menemukan sebuah model yang dapat menjelaskan class attribute itu

sebagai fungsi dari input attribute.

Class adalah attribute CollegePlans yang berisi dua pernyataan, Yes dan No,

perhatikan ini.

Sebuah Classification Model akan menggunakan atribut lain dari kasus tersebut (input

attribut; yaitu kolom IQ, Gender, ParentIncome, dan ParentEncouragement) untuk

dapat menentukan pola (pattern) class (Output Attribute; yaitu Kolom CollegePlans

yang berisi Yes atau No).

Algoritma Data Mining yang membutuhkan variabel target untuk belajar (sampai

mendapatkan rule / pola yang berlaku pada data tersebut) kita standarkan dengan

sebuthan dengan Supervised Algorithm.

Bab 9. Algoritma Bayes

9.1 Pengertian

Nave Bayes adalah salah satu algoritma pembelajaran induktif yang paling

efektif dan efisien untuk machine learning dan data mining. Klasifikasi adalah tugas

yang penting dalam data mining, dalam klasifikasi, sebuah pengklasifikasi dibuat dari

sekumpulan data latih dengan kelas yang telah ditemukan sebelumnya.

9.2 Konsep dasar

A. Konsep Dasar dan Definisi Metode Bayes

Metode Find-S tidak dapat digunakan untuk data yang tidak konsisten dan data

yang bias, sehingga untuk bentuk data semacam ini salah satu metode sederhana yang

dapat digunakan adalah metode bayes.

Metode Bayes merupakan pendekatan statistic untuk melakukan inferensi

induksi pada persoalan klasifikasi. Pertama kali dibahas terlebih dahulu tentang konsep


15

dasar dan definisi pada Teorema Bayes, kemudian menggunkan teorema ini untuk

melakukan klasifikasi dalam Data Mining.

Metode Bayes menggunakan propabilitas bersyarat sebagai dasarnya. Dalam

ilmu probabilitas bersyarat dinyatakan sebagai:

Probabilitas X di dalam Y adalah probabilitas inteseksi X dan Y dari

probabilitas Y, atau dengan bahasa lain P(X|Y) adalah prosentase banyaknya X di

dalam Y. Probabilitas bersyarat dalam data diilustrasikan pada contoh berikut.

Banyaknya data berolah-raga=ya adalah 4 dari 6 data maka dituliskan P(olahraga)= 4/6.


16

Banyaknya data cerah dan berolah-raga adalah 4 dari 6 data, maka dituliskan

P(cuaca=cerah dan Olahraga=ya)= 4/6. Dari informasi tersebut, maka probabilitas cuaca

cerah pada saat olahraga adalah:

Bab 10 Algoritma Apriori

10.1 Pengertian

Algoritma Apriori adalah algoritma paling terkenal untuk menemukan pola

frekuensi tinggi. Pola frekuensi tinggi adalah pola-pola item di dalam suatu database

yang memiliki frekuensi atau support di atas ambang batas tertentu yang disebut dengan

istilah minimum support.

10.2 Konsep dasar

Algoritma Apriori dibagi menjadi beberapa tahap yang disebut iterasi atau pass.

Tiap iterasi menghasilkan pola frekuensi tinggi dengan panjang yang sama dimulai dari

pass pertama yang menghasilkan pola frekuensi tinggi dengan panjang satu.

Iterasi kedua menghasilkan 2-itemset yang tiap set-nya memiliki dua item.

Pertama dibuat kandidat 2-itemset dari kombinasi semua 1-itemset. Lalu untuk tiap

kandidat 2-itemset ini dihitung support-nya dengan men-scan database. Support disini

artinya jumlah transaksi dalam database yang mengandung kedua item dalam kandidat

2-itemset. Setelah support dari semua kandidat 2-itemset didapatkan, kandidat 2-itemset

yang memenuhi syarat minimum support dapat ditetapkan sebagai 2-itemset yang juga

merupakan pola frekuensi tinggi dengan panjang 2.

Untuk selanjutnya pada iterasi ke-k dapat dibagi lagi menjadi beberapa bagian :

1. Pembentukan kandidat itemset, Kandidat k-itemset dibentuk dari kombinasi (k-1)-

itemset yang didapat dari iterasi sebelumnya. Satu ciri dari algoritma Apriori adalah

adanya pemangkasan kandidat k-itemset yang subset-nya yang berisi k-1 item tidak

termasuk dalam pola frekuensi tinggi dengan panjang k-1

2. Penghitungan support dari tiap kandidat k-itemset. Support dari tiap kandidat

k-itemset didapat dengan men-scan database untuk menghitung jumlah transaksi yang


17

memuat semua item di dalam kandidat k-itemset tsb. Ini adalah juga ciri dari algoritme

Apriori dimana diperlukan penghitungan dengan scan seluruh database sebanyak k-

itemset terpanjang.

3. Tetapkan pola frekuensi tinggi. Pola frekuensi tinggi yang memuat k item

atau k-itemset ditetapkan dari kandidat k-itemset yang support-nya lebih besar dari

minimum support.

4. Bila tidak didapat pola frekuensi tinggi baru maka seluruh proses dihentikan.

Bila tidak, maka k ditambah satu dan kembali ke bagian 1.

Pseudocode dari algoritma Apriori dapat dilihat di Gambar berikut :

Bab 11 Algoritma K-Means

11.1 Pengertian

K-Means merupakan metode klasterisasi yang paling terkenal dan banyak

digunakan di berbagai bidang karena sederhana, mudah diimplementasikan, memiliki

kemampuan untuk mengklaster data yang besar, mampu menangani data outlier, dan

kompleksitas waktunya linear O(nKT) dengan n adalah jumlah dokumen, K adalah

jumlah kluster, dan T adalah jumlah iterasi. K-means merupakan metode pengklasteran

secara partitioning yang memisahkan data ke dalam kelompok yang berbeda. Dengan

partitioning secara iteratif, KMeans mampu meminimalkan rata-rata jarak setiap data ke

klasternya. Metode ini dikembangkan oleh Mac Queen pada tahun 1967.

11.2 Konsep dasar


18

Dasar algoritma K-means adalah sebagai berikut :

1. Tentukan nilai k sebagai jumlah klaster yang ingin dibentuk.

2. Bangkitkan k centroid (titik pusat klaster) awal secara random.

3. Hitung jarak setiap data ke masing-masing centroid menggunakan rumus korelasi

antar dua objek yaitu Euclidean Distance dan kesamaan Cosine.

4. Kelompokkan setiap data berdasarkan jarak terdekat antara data dengan centroidnya.

5. Tentukan posisi centroid baru ( k C ) dengan cara menghitung nilai rata-rata dari

data-data yang ada pada centroid yang sama.

Dimana k n adalah jumlah dokumen dalam cluster k dan i d adalah dokumen dalam

cluster k.

6. Kembali ke langkah 3 jika posisi centroid baru dengan centroid lama tidak sama.

Adapun karakteristik dari algoritma K-Means salah satunya adalah sangat

sensitif dalam penentuan titik pusat awal klaster karena K-Means membangkitkan titik

pusat klaster awal secara random. Pada saat pembangkitan awal titik pusat yang random

tersebut mendekati solusi akhir pusat klaster, K-Means mempunyai posibilitas yang

tinggi untuk menemukan titik pusat klaster yang tepat. Sebaliknya, jika awal titik pusat

tersebut jauh dari solusi akhir pusat klaster, maka besar kemungkinan ini menyebabkan

hasil pengklasteran yang tidak tepat. Akibatnya K-Means tidak menjamin hasil

pengklasteran yang unik. Inilah yang menyebabkan metode K-Means sulit untuk

mencapai optimum global, akan tetapi hanya minimum lokal. Selain itu, algoritma K-

Means hanya bisa digunakan untuk data yang atributnya bernilai numeric.

Bab 12. Sequential Pattern

12.1 pengertian

Terdapat:

Database sequence

Minimum menetapkan user yang mendukung(support), minsup

Task:


19

Menemukan semua subsequence dengan user yang mendukup minsup

12.2 Konsep dasar

Contoh :

Sequential Pattern Mining

Object Timestamp Events

A 1 1,2,4

A 2 2,3

A 3 5

B 1 1,2

B 2 2,3,4

C 1 1, 2

C 2 2,3,4

C 3 2,4,5

D 1 2

D 2 3, 4

D 3 4, 5

E 1 1, 3

E 2 2, 4, 5


20

Makalah Data Mining

Documents

Transcript of Makalah Data Mining