Peran Utama DM

24
DATA MINING DAN FUNGSI Data mining adalah sebuah proses percarian informasi yang berguna secara otomatis dalam tempat penyimpanan data berukuran besar. Istilah lain yang sering digunakan diantaranya knowledge discovery (mining) from data (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, dan business intelligence.Peran Utama DM : Estimation, Prediction, Classification, Clustering, Association Data mining adalah bagian integral dari knowledge discovery from data (KDD). Keseluruhan proses KDD untuk konversi raw data ke dalam informasi yang berguna ditunjukkan dalam Gambar 1.1. Tujuan dari preprocessing adalah mentransformasikan data input mentah ke dalam format yang sesuai untuk analisis selanjutnya. Langkah- langkah dalam preprocessing data meliputi mengabungkan data dari berbagai sumber, membersihkan (cleaning) data untuk membuang noise dan observasi duplikat, dan menyeleksi record dan fitur yang relevan untuk pekerjaan data mining. Tahapan-tahapan proses KDD pada Gambar 1.3 adalah sebagai berikut: 1. Pembersihan data (data cleaning). Pembersihan data dilakukan untuk menghilangkan noise dan data yang tidak konsisten. 2. Integrasi data (data integration). Tahapan ini dilakukan untuk menggabungkan data yang berasal dari berbagai sumber. 3. Seleksi data (data selection). Proses seleksi data merupakan proses pengambilan data yang relevan dengan proses analisis yang dilakukan. 4. Transformasi data (data transformation). Data ditransformasikan atau digabungkan ke dalam bentuk yang sesuai untuk dilakukan proses data mining dengan cara melakukan peringkasan atau operasi agregasi. 5. Data mining. Tahapan ini merupakan proses utama, dimana metode- metode cerdas diaplikasikan untuk mengekstrak pola-pola dari kumpulan data. 6. Evaluasi pola (pattern evaluation). Merupakan suatu proses untuk mengidentifikasi pola-pola tertentu pada data yang menarik dan merepresentasikan pengetahuan. Gambar 1.1 Proses dalam KDD (Tan et al, 2006)

description

data mining

Transcript of Peran Utama DM

Page 1: Peran Utama DM

DATA MINING DAN FUNGSI

Data mining adalah sebuah proses percarian informasi yang berguna secara otomatis dalam tempat penyimpanan data berukuran besar. Istilah lain yang sering digunakan diantaranya knowledge discovery (mining) from data (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, dan business intelligence.Peran Utama DM : Estimation, Prediction, Classification, Clustering, AssociationData mining adalah bagian integral dari knowledge discovery from data (KDD). Keseluruhan proses KDD untuk konversi raw data ke dalam informasi yang berguna ditunjukkan dalam Gambar 1.1.

Tujuan dari preprocessing adalah mentransformasikan data input mentah ke dalam format yang sesuai untuk analisis selanjutnya. Langkah-langkah dalam preprocessing data meliputi mengabungkan data dari berbagai sumber, membersihkan (cleaning) data untuk membuang noise dan observasi duplikat, dan menyeleksi record dan fitur yang relevan untuk pekerjaan data mining.

Tahapan-tahapan proses KDD pada Gambar 1.3 adalah sebagai berikut: 1. Pembersihan data (data cleaning). Pembersihan data dilakukan untuk menghilangkan noise dan

data yang tidak konsisten. 2. Integrasi data (data integration). Tahapan ini dilakukan untuk menggabungkan data yang berasal

dari berbagai sumber. 3. Seleksi data (data selection). Proses seleksi data merupakan proses pengambilan data yang

relevan dengan proses analisis yang dilakukan. 4. Transformasi data (data transformation). Data ditransformasikan atau digabungkan ke dalam

bentuk yang sesuai untuk dilakukan proses data mining dengan cara melakukan peringkasan atau operasi agregasi.

5. Data mining. Tahapan ini merupakan proses utama, dimana metode-metode cerdas diaplikasikan untuk mengekstrak pola-pola dari kumpulan data.

6. Evaluasi pola (pattern evaluation). Merupakan suatu proses untuk mengidentifikasi pola-pola tertentu pada data yang menarik dan merepresentasikan pengetahuan.

Representasi pengetahuan (knowledge Representation). Penggunaan visualisasi dan teknik representasi untuk menunjukkan penemuan pengetahuan hasil proses mining kepada pengguna.

Tugas-tugas dalam data mining secara umum dibagi ke dalam dua kategori utama: - Prediktif. Tujuan dari tugas prediktif adalah untuk memprediksi nilai dari atribut tertentu

berdasarkan nilai dari atribut-atribut lain. Atribut yang diprediksi umumnya dikenal sebagai target atau variabel tak bebas, sedangkan atribut-atribut yang digunakan untuk membuat prediksi dikenal sebagai variabel explanatory atau variabel bebas.

- Deskriptif. Tujuan dari tugas deskriptif adalah untuk menurunkan pola-pola (korelasi, trend, cluster, trayektori, dan anomali) yang meringkas hubungan dalam data. Tugas data mining deskriptif umumnya merupakan penyelidikan dan seringkali memerlukan teknik postprocessing untuk validasi dan penjelasan hasil.

Gambar 1.1 Proses dalam KDD (Tan et al, 2006)

Page 2: Peran Utama DM

Proses Utama DM : Input, Metode, OutputMetode Learning pada DM

1. Supervised Learning (Pembelajaran dengan Guru):• Sebagian besar algoritma data mining (estimation, prediction/forecasting,

classification) adalah supervised learning • Variabel yang menjadi target/label/class ditentukan• Algoritma melakukan proses belajar berdasarkan nilai dari variabel target yang

terasosiasi dengan nilai dari variable prediktor• Tujuan mempelajari aturan klasifikasi yang dapat menentukan kelas dengan tepat

apabila diberikan contoh kasus baru. • Contoh Algoritma : linear discriminant analysis (LDA), k-nearest neighbour (KNN),

jaringan syaraf tiruan propagasi balik, voting feature interval 5 (VFI5), dan lain-lain.2. Unsupervised Learning (Pembelajaran tanpa Guru):

• Algoritma data mining mencari pola dari semua variable (atribut)• Variable (atribut) yang menjadi target/label/class tidak ditentukan (tidak ada)• Algoritma clustering adalah algoritma unsupervised learning• Tujuan mencari keteraturan dan pengelompokan alami (clustering) di antara

contoh-contoh tersebut. • Contoh Algoritma: K-means clustering, Fuzzy c-means clustering, Self Organinzing

map Kohonen (SOM Kohonen), dan lain-lain. 3. Association Learning (Pembelajaran untuk Asosiasi Atribut)

• Proses learning pada algoritma asosiasi (association rule) agak berbeda karena tujuannya adalah untuk mencari atribut yang muncul bersamaan dalam satu transaksi

• Algoritma asosiasi biasanya untuk analisa transaksi belanja, dengan konsep utama adalah mencari “produk/item mana yang dibeli bersamaan”

• Pada pusat perbelanjaan banyak produk yang dijual, sehingga pencarian seluruh asosiasi produk memakan cost tinggi, karena sifatnya yang kombinatorial

• Algoritma association rule seperti a priori algorithm, dapat memecahkan masalah ini dengan efisien

Komponen arsitektur- Basis data, data warehouse atau tempat penyimpanan informasi lainnya. - Basis data dan data warehouse server. Komponen ini bertanggung jawab dalam pengambilan

data yang relevan, berdasarkan permintaan pengguna. - Basis pengetahuan. Komponen ini merupakan domain pengetahuan yang digunakan untuk

memandu pencarian atau mengevaluasi pola-pola yang dihasilkan. Pengetahuan tersebut meliputi hirarki konsep yang digunakan untuk mengorganisasikan atribut atau nilai atribut ke dalam level abstraksi yang berbeda. Pengetahuan tersebut juga dapat berupa kepercayaan pengguna (user belief), yang dapat digunakan untuk menentukan kemenarikan pola yang diperoleh. Contoh lain dari domain pengetahuan adalah threshold dan metadata yang menjelaskan data dari berbagai sumber yang heterogen.

- Data mining engine. Bagian ini merupakan komponen penting dalam arsitektur sistem data mining. Komponen ini terdiri modul-modul fungsional data mining seperti karakterisasi, asosiasi, klasifikasi, dan analisis cluster.

- Modul evaluasi pola. Komponen ini menggunakan ukuran-ukuran kemenarikan dan berinteraksi dengan modul data mining dalam pencarian pola-pola menarik. Modul evaluasi pola menggunakan threshold kemenarikan untuk mem-filter pola-pola yang diperoleh.

- Antarmuka pengguna grafis. Modul ini berkomunikasi dengan pengguna dan sistem data mining. Melalui modul ini, pengguna berinteraksi dengan sistem dengan menentukan kueri atau task data mining. Antarmuka juga menyediakan informasi untuk memfokuskan pencarian dan melakukan eksplorasi berdasarkan hasil data mining antara. Komponen ini juga memungkinkan

Page 3: Peran Utama DM

pengguna untuk mencari data dalam basis data dan skema data warehouse atau struktur data, evaluasi pola yang diperoleh dan visualisasi pola dalam berbagai bentuk.

Jenis data : Data mining dapat diaplikasikan pada berbagai jenis penyimpanan data seperti basis data relasional, data warehouse, transactional database, objectoriented and object-relational databases, spatial databases, time-series data and temporal data, text databases and multimedia databases, heterogeneous and legacy databases dan WWW. Task DM:- Analisis Asosiasi (Korelasi dan kausalitas)

Analisis asosiasi adalah pencarian aturan-aturan asosiasi yang menunjukkan nilai atribut yang sering terjadi bersama-sama dalam sekumpulan data. Analisis asosiasi sering digunakan untuk menganalisa market basket dan data transaksi. Contoh dari aturan asosiasi adalah age(X, “20..29”) ^ income(X, “20..29K”) ⇒ buys(X, “PC”) [support = 2%, confidence = 60%] contains(T, “computer”) ⇒ contains(x, “software”) [1%, 75%]

- Klasifikasi dan Prediksi Klasifikasi adalah proses menemukan model (fungsi) yang menjelaskan dan membedakan kelas-kelas atau konsep, dengan tujuan agar model yang diperoleh dapat digunakan untuk memprediksikan kelas atau objek yang label kelasnya tidak diketahui. Model diturunkan berdasarkan analisis dari training data (yaitu objek data yang memiliki label kelas yang diketahui). Model yang diturunkan dapat direpresentasikan dalam berbagai bentuk seperti aturan klasifikasi IF-THEN, pohon keputusan, formula matematika atau jaringan syarf tiruan. Dalam banyak kasus, pengguna ingin memprediksikan nilai-nilai data yang tidak tersedia atau hilang (bukan label dari kelas). Dalam kasus ini biasanya nilai data yang akan diprediksi merupakan data numerik. Kasus ini seringkali dirujuk sebagai prediksi. Di samping itu, prediksi lebih menekankan pada identifikasi trend dari distribusi berdasarkan pada data yang tersedia.

- Analisis Cluster Tidak seperti klasifikasi dan prediksi, yang menganalisis objek data yang diberi label kelas, clustering menganalisis objek data dimana label kelasnya tidak diketahui. Clustering dapat digunakan untuk menentukan label kelas yang tidak diketahui dengan cara mengelompokkan data untuk membentuk kelas baru. Sebagai contoh clustering untuk mengelompokan rumah untuk menemukan pola distribusinya. Prinsip dalam clustering adalah memaksimumkan kemiripan intra-class, yaitu kemiripan objek-objek dalam satu cluster dan meminimumkan kemiripan interclass, yaitu kemiripan objekobjek antar cluster.

- Analisis Outlier Outlier merupakan objek data yang tidak mengikuti perilaku umum dari data. Outlier dapat dianggap sebagai noise atau pengecualian. Analisis outlier dinamakan outlier mining. Teknik ini berguna dalam fraud detection dan rare events analysis.

- Analisis Trend dan Evolusi Analisis evolusi data menjelaskan dan memodelkan trend dari objek yang memiliki perilaku yang berubah setiap waktu. Teknik ini dapat meliputi karakterisasi, diskriminasi, asosiasi, klasifikasi, atau clustering dari data yang berkaitan dengan waktu.

DATA

Tipe data; Data set berbeda dalam beberapa hal. Sebagai contoh, atribut-atribut digunakan untuk menjelaskan objek-objek data dari tipe-tipe yang berbeda, kualitatif atau kuantitatif. Data set juga dapat memiliki karakter khusus; misalnya beberapa data set mengandung deret waktu atau objek dengan hubungan eksplisit ke objek yang lain. Tipe data menentukan tool yang mana dan teknik apa yang akan digunakan untuk menganalisis data. Kualitas data; Data seringkali jauh dari sempurna. Walaupun kebanyakan teknik data mining dapat mentoleransi beberapa tingkat ketidaksempurnaan dalam data, pemahaman dan peningkatan

Page 4: Peran Utama DM

kualitas data secara khusus meningkatkan kualitas dari analisis yang dihasilkan. Isu kualitas data meliputi adanya noise dan outlier; data yang hilang, data yang tidak konsisten, atau data duplikat; dan data yang bias. Ukuran Kemiripan dan Ketidakmiripan; Kemiripan dan ketidakmiripan data perlu ditetapkan khususnya dalam beberapa teknik data mining seperti clustering, nearest neighbor classification, dan

deteksi anomali.Atribut adalah sebuah sifat atau karakteristik dari sebuah objek yang dapat bervariasi, baik dari satu objek ke objek yang lain atau dari satu waktu ke waktu yang lain.Skala pengukuran adalah aturan (fungsi) yang menghubungkan nilai numerik atau simbolik dengan

sebuah atribut dari sebuah objek. Proses pengukuran adalah pengunaan skala pengukuran untuk menghubungkan sebuah nilai dengan sebuah atribut tertentu dari sebuah objek.Dikret; Sebuah atribut diskret memiliki himpunan nilai berhingga atau tidak berhingga. Atribut demikian dapat berupa atribut kategori, seperti kode pos, Nomor ID karyawan, atau numerik seperti

Page 5: Peran Utama DM

count. Atribut biner adalah kasus khusus dari atribut diskret dan hanya memiliki dua nilai, seperti yes/no, benar/salah, laki-laki/perempuan, atau 0/1. Atribut biner sering direpresentasikan dengan menggunakan variabel Boolean, atau sebagai variabel integer yang hanya mempunyai nilai 0 atau 1. Kontinu; Atribut kontinu adalah atribut yang memiliki nilai berupa bilanganreal. Contoh atribut tersebut adalah temperatur, tinggi atau berat. Atribut kontinu secara khusus direpresentasikan sebagai variabel floating-point. Secara khusus, atribut nominal dan ordinal adalah biner atau diskret, sedangkan atribut interval dan rasio adalah kontinu. Atribut count dapat berupa diskret atau juga atribut rasio. Atribut asimetrik adalah atribut yang hanya memiliki nilai tak nol. Untuk data set dimana setiap objek adalah mahasiswa dan setiap atribut mencatat apakah mahasiswa mengambil mata kuliah tertentu atau tidak. Untuk mahasiswa tertentu, sebuah atribut memiliki nilai 1 jika mahasiswa tersebut mengambil mata kuliah yang terkait dengan atribut tersebut dan bernilai 0 untuk selainnya. Karena mahasiswa hanya mengambil sejumlah kecil dari mata kuliah yang ditawarkan, sebagian besar nilai dari data set adalah 0. Dengan demikian, analisis lebih bermakna dan lebih efisien bila difokuskan pada nilai tak nol. Atribut biner yang hanya memiliki nilai tak nol dinamakan atribut biner asimetrik.

Karakter data set:1. Dimensionalitas banyaknya atribut yang dimiliki objek dalam data set. 2. Sparsity keuntungan karena biasanya hanya nilai-nilai tak nol yang perlu disimpan dan

dimanipulasi. Hasil ini secara signifikan menghemat biaya komputasi dan tempat penyimpanan. 3. Resolusi. Data pada tingkat resolusi yang berbeda seringkali diperoleh, dan sering pula sifat-sifat

dari data berbeda pada resolusi yang berbeda. Sebagai contoh, permukaan bumi terlihat sangat tidak rata pada resolusi tertentu (dari beberapa meter), tetapi terlihat halus jika terlihat dari puluhan kilo meter. Pola data juga tergantung pada level resolusi. Jika resolusi terlalu halus, pola tertentu dapat tidak tampak atau dapat terkubur dalam noise; jika resolusi terlalu kasar, pola dapat hilang.

Berikut adalah tiga kategori dari data set: - Data record kumpulan record (objek data), masing-masing record mengandung sekumpulan field data (atribut) (Gambar 2.1 (a)). Data record biasanya disimpan dalam flat file atau dalam basis data relasioanal.

(b) Data transaksi

(a) Data record

Tid Refund Marital Status

Taxable Income

Cheat

1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorce

d 95K Yes

6 No Married 60K No 7 Yes Divorce

d 220K No

8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes

TID Items 1 Bread, Coke, Milk 2 Beer, Bread 3 Beer, Coke, Diaper,

Milk 4 Beer, Bread, Diaper,

Milk 5 Coke, Diaper, Milk

Page 6: Peran Utama DM

(c) matriks data (d) Document-term matrix Gambar 2.1 Variasi yang berbeda dari data record

Data transaksi atau data market basket adalah bentuk khusus dari data record, dimana setiap record (transaksi) meliputi

sekumpulan item. Sebagai contoh pada toko grosir, sekumpulan produk yang dibeli oleh seorang pelanggan selama satu kali perjalanan belanja merupakan sebuah transaksi, dengakan produk individual yang dibeli merupakan item. Tipe data ini dinamakan data market basket karena item-item dalam setiap record adalah produk-produk dalam keranjang belanja seorang pelanggan. Data transaksi adalah koleksi dari himpunan-himpunan item, tetapi data tersebut dapat dipandang sebagai sekumpulan record yang memiliki field-field berupa atribut asimetrik.Matriks Data adalah variasi dari data record, tetapi karena matriks data terdiri dari atribut-atribut numerik, maka operasi dasar matriks dapat diaplikasikan untuk mentranformasi atau memanipulasi data. Matriks data jarang (sparse data matrix) adalah kasus khusus dari matriks data dimana atribut-atribut memiliki tipe yang sama dan merupakan atribut asimetrik (hanya nilai yang tak nol yang penting). Contohnya dalah data dokumen. Representasi dari koleksi dokumen sering dinamakan document-term matrix.

Tipe-tipe yang berbeda dari data terurut:Data sekuensial. Data sekuensial jika dirujuk sebagai data temporal. Data tersebut dapat dipandang sebagai perluasan dari data record, dimana setiap record memiliki nilai waktu yang berkaitan dengan record tersebut.Data urutan (Sequence Data). Data urutan terdiri dari data set yang merupakan urutan dari entitas individual seperti urutan kata atau huruf. Data ini hampir mirip dengan data sekuesial, kecuali bahwa dalam data urutan tidak ada unsur waktu, akan tetapi terdapat posisi dalam rangkaian yang terurut. Sebagai contoh, informasi genetik dari tanaman dan binatang dapat direpresentasikan dalam bentuk rangkaian nucleotide yang dikenal sebagai gen.Data time series. Data time series adalah bentuk khusus dari data sekuensial dimana setiap record adalah sebuah time series, yaitu sebuah rangkaian dari pengukuran yang diambil sepanjang waktu. Sebagai contoh, data set finansial dapat terdiri dari objek-objek yang merupakan time series dari harga harian dari berbagai stock. Data spasial. Beberapa objek memiliki atribut-atribut spasial, seperti posisi atau area, juga tipe atribut lainnya. Salah satu contoh dari data spasial adalah data cuaca (curah hujan, temperatur, dan tekanan) yang dikumpulkan dari berbagai lokasi geografis.

Faktor yang pengaruhi kualitas data:- Error Pengukuran - Noise adalah komponen acak dari error pengukuran- Outlier adalah (1) objek data yang memiliki karakteristik yang berbeda dari kebanyakan objek data lainnya dalam data set, atau (2) nilai dari atribut yang tidak biasa terhadap nilai khas untuk atribut tersebut.- Nilai yang hilang, karena memang tidak dikumpulkan datanya dan atributnya tidak mungkin diterapkan pd semua kasus. Caranya dengan : - Buang, hapus sama objectnya, - Estimate/diduga, -Atributnya hapus- Nilai yang tidak konsisten, dikarenakan pemasukan data atau kesalahan dalam membaca formulir yang berisi data tersebut.

Projection of x Load

Projection of y load

Distance

Load

Thickness

10.23 5.27 15.22

2.7

1.2

12.65 6.25 16.22

2.2

1.1

Page 7: Peran Utama DM

- Data Duplikat Sebuah data set mungkin meliputi objek data yang merupakan duplikat, atau hampir, dari data yang lain.

Untuk mendeteksi dan menghilangkan duplikasi demikian, perlu diperhatikan hal-hal berikut: 1. Jika terdapat dua objek yang secara aktual merepresentasikan sebuah objek, maka nilai dari

atribut yang terkait dapat berbeda, dan nilai yang tidak konsisten tersebut harus diatasi. 2. Diperlukan langkah yang hati-hati untuk menghindari penggabungan secara tidak sengaja dari

data objek yang mirip, tetapi bukan duplikat, misalnya dua orang yang berbeda dengan nama yang identik.

Kemiripan & Ketidakmiripan antara atribut sederhanaTipe atribut Ketakmiripan Kemiripan

Nominal 0,if x = y 1,if x≠ y

1,if x = y s =

0,if x≠y

Ordinal d = |x − y|/(n − 1) (nilai dipetakan ke integer 0 sampai dengan n − 1, dimana n adalah banyaknya nilai.

s = 1 − d

Interval atau rasio d = |x − y| s =-d, s= 1/(1+d), s= 1-((d-mind)/(maxd-mind))

b. Ketakmiripan dan Kemiripan antara Objek Data Salah satu jenis ketidakmiripan adalah jarak (distance). Jarak Euclidean, d, antara dua titik, x dan y, dalam ruang dimensi satu, dua, tiga, atau lebih tinggi, diberikan oleh formula berikut:

d(x,y) = , (2.1) dimana n adalah banyaknya dimensi, xk dan yk berturut-turut adalah atribut (komponen) ke-k dari x dan y. Jika d(x, y) adalah jarak antara dua titik, x dan y, maka sifat berikut dipenuhi: 1. Positivity

a. d(x, y) ≥ 0 untuk semua x dan y, b. d(x, y) = 0 untuk semua x = y.

2. Symmetry d(x, y) = d(y, x) untuk semua x dan y. 3. Triangle Inequality d(x, z) ≤ d(x, y) + d(y, z), untuk semua x,

y dan z. Ukuran-ukuran yang memenuhi ketiga sifat ini dikenal sebagai metrics.

Untuk kemiripan, sifat triangle inequality tidak dipenuhi. Jika s(x, y) adalah kemiripan antara titik x dan y, maka sifat kemiripan adalah sebagai berikut:

1. s(x, y) = 1 hanya jika x = y. (0 ≤ s ≤ 1) 2. s(x, y) = s(y, x) untuk semua x dan y (symmetry). c. Contoh-contoh Ukuran Proximity Berikut adalah contoh-contoh spesifik dari ukuran-ukuran kemiripan dan ketidakmiripan.

x( y )k k2

k 1

n −

=∑

Page 8: Peran Utama DM

Ukuran Kemiripan untuk Data Biner Ukuran kemiripan antara objek yang hanya mengandung atribut-atribut biner dinamakan koefisien kemiripan, dan biasanya memiliki nilai antara 0 dan 1. Nilai 1 menunjukkan bahwa kedua objek tersebut adalah sangat mirip, sedangkan nilai 0 menunjukkan bahwa kedua objek tersebut sangat tidak mirip. Misalkan x dan y adalah dua objek yang terdiri dari n atribut biner. Perbandingan dari kedua objek tersebut, yaitu dua vektor biner, memberikan empat kuantitas (frekuensi) berikut:

f00 = banyaknya atribut dimana x adalah 0 dan y adalah 0 f01 =

banyaknya atribut dimana x adalah 0 dan y adalah 1 f10 = banyaknya atribut dimana x adalah 1 dan y adalah 0 f1 = banyaknya atribut dimana x adalah 1 dan y adalah 1

ANALISIS CLUSTER

Tujuan analisis cluster:- mencari grup yang memiliki makna, maka cluster seharusnya menangkap struktur alami dari data, disebut juga clustering for understanding- peringkasan data (data summarization), disebut juga clustering for utility.

• Summarization. Banyak teknik analisis data, seperti regresi atau PCA, memiliki kompleksitas O(m2) atau lebih tinggi (dimana m adalah jumlah obyek), sehingga tidak praktis untuk dataset yang besar. Namun, daripada menerapkan algoritma ke seluruh dataset, algoritma tersebut dapat diterapkan ke dataset yang telah dikurangi, mengandung hanya cluster prototype. Tergantung dari tipe analisis, jumlah prototipe, dan tingkat akurasi prorotipe dalam mewakili data, hasil algoritma dapat dibandingkan dengan jika menggunakan seluruh data.

• Compression. Cluster prototype dapat juga digunakan untuk kompresi data. Secara umum, dibuat sebuah tabel yang berisi prototipe dari setiap cluster, misal masing-masing prototipe diberikan nilai integer berupa indeks dari prototipe yang terasosiasi

Page 9: Peran Utama DM

dengan cluster-nya. Tipe kompresi ini dikenal sebagai vector quantization dan sering diterapkan pada data citra, suara dan video, dimana (1) banyak obyek data yang sangat mirip satu dengan lainnya, (2) kehilangan informasi sampai tingkat tertentu masih dapat ditolerir, dan (3) diinginkan tingkat pengurangan ukuran data yang nyata.

• Efficiently Finding Nearest Neighbors. Mencari nearest neighbors memerlukan perhitungan jarak antar pasangan obyek, untuk semua titik. Seringkali cluster dan cluster prototype dapat ditemukan dengan jauh lebih efisien.

Ada beberapa tipe clustering jika dilihat dari beberapa sudut pandang, yaitu: • Hierarchical versus Partitional.

Partitional Clustering adalah membagi himpunan obyek data ke dalam sub-himpunan (cluster) yang tidak overlap, sehingga setiap obyek data berada dalam tepat satu cluster. Dilihat secara individual, setiap koleksi cluster dalam Gambar 1(b-d) adalah partitional clustering.

Jika kita mengizinkan cluster untuk memiliki subcluster, maka akan terbentuk Hierarchical Clustering, yang merupakan himpunan nested cluster yang diatur dalam bentuk tree. Gambar 6.3 memperlihatkan empat obyek data sebagai dendogram dan nested cluster.

Gambar 6.3. Dendogram dan Nested Cluster.

• Exclusive versus Overlapping versus Fuzzy Clustering pada Gambar 6.2 semuanya bersifat exclusive, karena masingmasing obyek ditempatkan dalam satu cluster. Dalam banyak situasi dimana satu titik masuk akal ditempatkan dalam lebih satu cluster maka situasi ini menimbulkan overlapping clustering atau non-exclusive clusering. Misalnya, seseorang dalam universitas bisa menjadi mahasiswa sekaligus karyawan universitas tersebut. Dalam fuzzy clustering, setiap obyek menjadi milik setiap cluster dengan nilai keanggotaan diantara 0 (multak bukan anggota cluster) dan 1 (mutlak anggota cluster). Dengan kata lain, cluster diperlakukan sebagai himpunan fuzzy.

• Complete versus Partial Complete clustering akan menetapak setiap obyek ke dalam cluster, sedangkan partial clustering tidak. Alasan partial clustering adalah karena beberapa obyek dalam dataset mungkin bukan anggota kelompok yang telah didefinisikan dengan baik. Banyak obyek dalam dataset mungkin mewakili noise, outlier atau “uninteresting background”. Sebagai contoh, beberapa artikel surat kabar mungkin berbagai tema yang sama, seperti pemanasan global, sedangkan artikel lainnya lebih umum atau one-of-a-kind. Sehingga, untuk mencari topik yang penting dalam artikel bulan lalu, kita hanya ingin mencari cluster dokumen yang terkait erat dengan tema umum. Dalam kasus lain, mungkin yang diperlukan adalah complete clustering. Misal, aplikasi yang menggunakan clustering untuk mengatur dokumen untuk browsing yang perlu menjamin semua dokumen dapat di-browse.

Telah banyak algoritma clustering yang dikembangkan, Gambar 6.4 menyajikan beberapa algoritma clustering dan hubungan diantara algoritma-algoritma tersebut. Sedangkan yang akan dibahas pada modul ini hanya algoritma K-mean, Agglomerative Hierarchical dan DBSCAN.

Page 10: Peran Utama DM

Gambar 6.4. Algoritma Clustering. 6.1.3. Tipe Cluster Clustering bertujuan mencari kelompok obyek (cluster) yang bermanfaat, sedangkan tingkat manfaat ditentukan oleh tujuan analisis data yang ditetapkan. Oleh karena itu, terdapat beberapa jenis cluster, yaitu: • Well-Separated. Cluster merupakan himpunan titik sehingga sembarang titik dalam

cluster lebih dekat (atau lebih mirip) dengan setiap titik dalam cluster dibandingkan dengan sembarang titik yang tidak di dalam cluster. Gambar 6.5 merupakan ilustrasi Well-Separated Cluster.

Gambar 6.5 Tiga Well-Separated Cluster

• Prototype-Based/Center-Based. Cluster merupakan himpunan obyek, sehingga sebuah obyek dalam cluster lebih dekat (lebih mirip) dengan “pusat” cluster, daripada dengan pusat cluster lainnya. Yang sering dijadikan pusat cluster adalah centroid dan medoid. Centroid adalah rataan semua titik dalam cluster, sedangkan medoid adalah titik yang paling mewakili cluster. Center-based cluster di-ilustrasikan pada Gambar 6.

Gambar 6.6. Empat Center-Based Cluster

• Graph-Based. Jika data direpresentasikan sebagai graph, dimana obyek menjadi node dan link menyatakan koneksi diantara obyek, maka cluster dapat didefinisikan sebagai connected component; yaitu grup obyek yang terkoneksi satu sama lain, tetapi tidak memiliki koneksi dengan obyek di luar grup. Contoh penting dari graph-based cluster adalah contiguitybased cluster, dimana dua obyek terkoneksi hanya jika keduanya berada dalam jarak tertentu satu sama lain. Contoh contiguity-based cluster dapat dilihat pada Gambar 6.7

Gambar 6.7 Contiguity-based cluster • Density-Based. Sebuah cluster adalah wilayah yang padat obyek dikelilingi oleh wilayah

dengan kepadatan rendah. Cluster tipe ini berguna untuk membentuk cluster dengan bentuk tak-teratur (irregular) atau terpilin (intertwined), dan juga jika terdapat noise dan outlier. Gambar 6.8 merupakan contoh Density-Based Clustering

Page 11: Peran Utama DM

Gambar 6.8 Density-Based Clustering. • Shared-Property (Conceptual Cluster). Mencari cluster dengan beberapa sifat yang

sama, atau menyatakan konsep tertentu. Gambar 6.9 merupakan cluster yang mempunyai sifat “lingkaran”

Gambar 6.9 Dua Overlapping Circles

Algoritma EM (Expact on Maximization) adalah algoritma dengan mengembangkan paradigma algoritma k-mean dengan sebuah cara yang lain. Untuk menandakan tiap tiap obyek ke dalam sebuah calon atau dedicated cluster, untuk menandakan masing masing obyek ke dalam sebuah cluster diperhitungkan menurut lebar yang mewakili kemungkinan keanggotaan. Dengan kata lain,tidak ada batasan yang tegas antar cluster. Oleh karena itu nilai mean yang baru dihitung berdasarkan ukuran lebar yang ditentukan.

Properties algoritma k-means :

• Selalu ada K cluster. • Minimal ada satu item data pada masing masing cluster. • Cluster adalah metode non-hierarchical dan cluster tersebut tidak overlap. • Setiap anggota sebuah cluster merupakan “closest” untuk cluster tersebut dari cluster lain

karena kedekatan tidak selalu melibatkan ‘center’ dari cluster

Agglomerative dan Divisive Hierarchical Clustering

Agglomeretive Hierarchical Clustering : Strategi bottom-up ini dimulai dengan menempatkan setiap obyek pada clusternya masing-masing dan menggabungkan cluster-cluster atomik ini menjadi cluster-cluster yang lebih besar, terus sampai semua obyek berada pada 1 cluster atau sampai kondisi berhenti tercapai. Kebanyakan metode clustering hirarkis menggunakan metode yang masuk ke kategori ini. Perbedaannya hanya pada definisi similarity intercluster.

Divise Hierarchical Clustering : Strategi top-down ini merupakan kebalikan dari

Agglomeretive Hierarchical Clustering. Dimulai dengan menempatkan seluruh obyek pada satu cluster. Kemudian dibagi-bagi terus sampai menjadi bagian yang lebih kecil sampai tiap obyek memiliki cluster sendiri atau kriteria berhenti tercapai.

Pendekatan agglomerative dan divise di-ilustrasikan pada Gambar 6.11

Page 12: Peran Utama DM

Step 4 Step 3 Step 2 Step 1 Step 0 ( DIANA )

Gambar 6.11 . Agglomerative dan Divisive Hierarchical Clustering

Untuk meningkatkan kualitas clustering salah satu cara yang dapat dilakukan adalah dengan mengintegrasikan hierachical clustering dengan teknik clustering lainnya membentuk multiple phase clustering. Beberapa metode telah ditemukan antara lain BIRCH. BIRCH dimulai dengan mempartisi obyek secara hirarkis dengan struktur tree, dan kemudian mengaplikasikan algoritma clustering lainnya untuk menemukan cluster.

BIRCH: Balanced Iterative Reducing and Clustering Using Hierarchies

BIRCH memperkenalkan dua konsep yaitu clustering feature dan clustering feature tree (CF-tree). CF adalah informasi tentang sub-cluster dari obyek

CF tree adalah height-balanced tree yang menyimpan CF untuk hierarchical clustering

BIRCH bekerja dalam dua fase :

1. Scan database untuk inisialisasi in-memori CF tree (kompresi multi level data yang mencoba menyimpan struktur clustering yang melekat pada data). Fase scan disajikan dalam Gambar 6.12.

divisive

AGNES) (agglomerative

a b c d e

c d e

d e

a b a

e

c

d

b

Step 4Step 3Step 2 Step 1 Step 0

Page 13: Peran Utama DM

2. Gunakan algoritma clustering yang diinginkan untuk mencari cluster pada leaf node

pada CF tree. Fase ini digambarkan pada Gambar 6.13

6.4. DBSCAN

DBSCAN adalah salah satu algoritma clustering density-based. Algoritma memperluas wilayah dengan kepadatan yang tinggi ke dalam cluster dan menempatkan cluster irregular pada database spasial dengan noise. Metode ini mendefiniskan cluster sebagai maximal set dari titik-titik yang density-connected.

DBSCAN memiliki 2 parameter yaitu Eps (radius maksimum dari neighborhood) dan

MinPts (jumlah minimum titik dalam Eps-neighborhood dari suatu titik).

Ide dasar dari density-based clustering berkaitan dengan beberapa definisi baru

1. Neighborhood dengan radius Eps dari suatu obyek disebut Epsneighborhood dari suatu obyek tersebut

2. Jika Eps-neighborhood dari suatu obyek mengandung titik sekurangkurangnya jumlah minimum, MinPts, maka suatu obyek tersebut dinamakan core object

3. Diberikan set obyek D, obyek p dikatakan directly density-reachable dari obyek q jika p termasuk dalam Eps-neighborhood dari q dan q adalah core objek.

Gambar 6.14 memberikan ilustrasi Eps-neighborhood

Page 14: Peran Utama DM

4. Sebuah obyek p adalah density-reachable dari obyek q dengan memperhatikan Eps dan

MinPts dalam suatu set objek ,D, jika terdapat serangkaian obyek p1,…,pn, p1=q dan pn=p dimana pi+1 adalah directly density-reachable dari pi dengan memperhatikan Eps dan MinPts, untuk 1 <= i <= n, pi elemen D. Konsep density-reachable di-ilustrasikan pada Gambar 6.15.

5. Sebuah obyek p adalah density-connected terhadap obyek q dengan memperhatikan Eps dan MinPts dalam set obyek D, jika ada sebuah obyek o elemen D sehingga p dan q keduanya density-reachable dari o dengan memperhatikan Eps dan MinPts. Gambar 6.16 merupakan ilustrasi dari konsep density-connected.

Sifat density-reach ability adalah transitive closure dari direct density reachable dan relasi ini simetris. Sedangkan density connectivity adalah relasi simetris. Algoritma DBSCAN

Arbitrary select a point p Retrieve all points density-reachable from p wrt Eps and MinPts. If p is a core point, a cluster is formed. If p is a border point, no points are density-reachable from p and DBSCAN visits

the next point of the database. Continue the process until all of the points have been processed

Page 15: Peran Utama DM

Contoh :

Contoh Studi kasus dengan data base yang diujikan :

Pemakaian DBSCAN:

Diketahui MinPts= 3 dan ε = 1 cm

a.

Misalkan dalam iterasi terpilih node C1. Maka dicari node-node εneighborhood dari C1. Sesuai dengan ketentuan bahwa ε yaitu 1 cm maka diperoleh ε-neighborhood dari C1 yaitu 1,2,3,4, dan 5. Karena ketentuan bahwa MinPts yang ada adalah 3 node, maka node C1 dengan εneighborhood sebanyak 5 node (lebih banyak dari pada MinPts) menjadi Core Object.

b.

Iterasi dilanjutkan dengan node lain dalam database. Diperoleh titik C2. Didapat ε-neighborhood dari C2 yaitu 1,2,4,6 dan 7. Karena ε-neighborhood berjumlah 5 dan itu lebih besar dari MinPts-nya maka C2 merupakan Object core.

c.

Page 16: Peran Utama DM

Dipilih titik C3 didapat ε-neighborhood nya yaitu node 4,5, dan 6. Sesuai dengan ketentuan bahwa ε-neighborhood dari suatu titik jika dia lebih banyak atau sama dengan MinPts maka node tersebut merupakan core object.

C1, C2 dan C3 adalah density-reachable. Hal ini terjadi karena C1 directdensity-reachable dari C2 maupun C3 dan node 4 sendiri merupakan core object maka semua merupakan Core object maka mereka saling densityconnected.

Iterasi terus dilakukan terhadap node yang belum pernah menjadi coreobject masuk

Dari iterasi tersebut didapat 4, 7, C1, C2, C3, C4, C5, dan C6 sebagai core, mereka density-reachable dan saling density-connected.

Iterasi dilanjutkan untuk semua node/ object pada database.

Ci dan Cn direct density reachable dan sudah tentu mereka density-connected.

Page 17: Peran Utama DM

Iterasi yang terus dilakukan saat berada di node n. Maka akan dicari ε-neighborhood dari n didapat node h dan i, karena jumlah ε-neighborhood tidak mencapai MinPts maka n bukan merupakan core object dan karena n,h,i tidak termasuk ε-neighborhood dari core object yang ada maka mereka dianggap sebagai noise.

Sehingga didapatkan cluster sebanyak dua kelompok dengan beberapa noise

KNNAlgoritma K-nearest neighbor

Hasil klasifikasi data baru berdasar kepada kategori mayoritas tetangga terdekat ke-K Tujuan mengklasifikasikan objek baru berdasarkan atribut dan data training Klasifikasi dilakukan tanpa menggunakan model namun hanya berdasarkan memori Kelemahan :

1. Perlu menentukan parameter K2.Jarak sebagai basis pembelajaran tidak jelas, tipe jarak apa yang harus digunakan dan atribut mana saja yang harus digunakan untuk mendapatkan hasil yang optimal. Apakah semua atribut harus digunakan atau hanya atribut tertentu saja? 3. Computation cost sangat tinggi karena harus menghitung jarak antara data baru dengan semua data training. Beberapa metode pengindeksan (misal, . K-D tree) mungkin dapat mengurangi computational cost.

Tahapan :- Tentukan parameter K = jumlah tetangga terdekat - hitung jarak antara data baru dengan semua data training - urutkan jarak tersebut dan tetapkan tetangga terdekat berdasarkan jarak minimum ke-K - periksa kelas dari tetangga terdekat - gunakan mayoritas sederhana dari kelas tetangga terdekat sebagai nilai prediksi data baru

Contoh:Diberikan data training berikut, terdiri dari 2 atribut dengan skala kuantitatif yaitu X1 dan X2 serta 2 kelas yaitu baik dan buruk. Jika terdapat data baru dengan nilai X1=3 dan X2=7, tentukan kelasnya!

X1 X2 Y 7 7 Buruk 7 4 Buruk3 4 Baik 1 4 Baik

1. Tentukan parameter K = jumlah tetangga terdekat Misalkan ditetapkan K = 3

2. hitung jarak antara data baru dengan

Page 18: Peran Utama DM

3. Urutkan jarak tersebut dan tetapkan tetangga terdekat berdasarkan jarak minimum ke-K 4. periksa kelas dari tetangga terdekat 5. gunakan mayoritas sederhana dari kelas tetangga terdekat sebagai nilai prediksi data baru Hasil pada no 4 menunjukkan bahwa dari 3 tetangga terdekat, terdapat 2 kelas Baik dan 1 kelas Buruk, maka disimpulkan bahwa data baru termasuk ke dalam kelas Baik.