bds spatial data mining
-
Upload
universitas-bina-darma-palembang -
Category
Data & Analytics
-
view
61 -
download
4
Transcript of bds spatial data mining
Modul 4 Basis Data Spasial 1
MODUL 4 SPATIAL DATA MINING Pengantar Data mining juga popular disebut dengan knowledge discovery from data
(KDD)merupakan ekstrasi otomatis dari pola-‐pola mewakili pengetahuan
implisit yang disimpan dan tertangkap dalam suatu basis data besar, gudang
data, web, data stream atau repository informasi masif yang lain. Data mining
merupakan bidang multidisiplin yang melibatkan berbagai area kerja seperti
teknologi basis data, mesin pembelajaran, statistic, pengenalan pola, pencarian
informasi, jaringan saraf, sistem berbasis pengetahuan, kecerdasan buatan,
komputasi berkinerja tinggi dan visualisasi data.
Tahapan Data Mining
Langkah-‐langkah yang terlibat dalam data mining bila dilihat sebagai proses
penemuan pengetahuan adalah sebagai berikut :
• Pembersihan data, yaitu suatu proses untuk menghilangkan atau
mengubah data yang rusak dan data yang tidak konsisten
• Integrasi data, yaitu tahap dimana beberapa sumber data dapat
dikombinasikan
• Seleksi data, yaitu tahap dimana memilih data yang relevan dengan tugas
analisis yang diambil dari basis data
• Transformasi data, merupakan suatu tahap dimana data diubah atau
dikonsolidasikan ke dalam bentuk yang sesuai untuk mining
• Data mining, merupakan proses penting dimana metode yang cerdas dan
efisien diterapkan untuk mengekstrak pola
• Evaluasi pola, merupakan tahap dimana dilakukan suatu proses untuk
mengidentifikas pola yang benar-‐benar menarik untuk mewakili
pengetahuan berdasarkan beberapa kriteria dan tindakan ketertarikan.
2 Modul 4 Basis Data Spasial
• Presentasi pengetahuan, dimana visualisasi dan teknik representasi
pengetahuan digunakan untuk menyajikan pengetahuan yang telah
ditambang kepada pengguna.
Seperti yang telah disampaikan pada pertemuan sebelumnya, bahwa manfaat
data mining dalam kebutuhan bisnis adalah sebagai berikut : Suatu toserba
dapat menggunakan data mining untuk membantu kampanye pemasaran target.
MDengan menggunakan fungsi data mining seperti asosiasi, toko dapat
menggunakan aturan asosiasi untuk menentukan produk yang dibeli oleh suatu
kelompok pelanggan yang mungkin akan mengarahkan kepada pembelian
produk tertentu lainnya. Dengan infromasi ini, toko bisa mengirimkan materi
pemasaran hanya untuk tipe pelanggan tersebut yang menunjukkan
kemungkinan besar untuk membeli produk tambahan. Analisis statistic
sederhana tidak dapat menangani sejumlah besar data seperti data pelanggan di
suatu department store.
Fungsi Data Mining
Data mining memiliki beberapa fungsi sebagai berikut :
• Characterization, merupakan ringkasan dari karakteristik umum atau
fitur dari kelas target data. Misalnya saja profil dari semua mahasiswa
ITech tahun pertama yang memiliki IPK tinggi.
• Discrimination, merupakan perbandingan fitur umum dari sasaran obyek
kelas data dengan fitur umum dari satu atau sekumpulan kelas yang
berlawanan. Misalnya, fitur umum dari mahasiswa dengan IPK tinggi bisa
dibandingkan dengan fitur umum dari mahasiswa dengan IPK yang
rendah.
• Association, merupakan penemuan aturan sosiasi yang menampilkan
kondisi nilai atribut yang sering terjadi bersama-‐sama dalam satu set
data. Misalnya suatu sistem data mining menemukan aturan asosiasi
seperti
𝑚𝑎𝑗𝑜𝑟 (𝑋,teknik informatika)⇒ memiliki (X, 𝑘𝑜𝑚𝑝𝑢𝑡𝑒𝑟𝑝𝑟𝑖𝑏𝑎𝑑𝑖") [𝑠𝑢𝑝𝑝𝑜𝑟𝑡 =
12%, 𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒 = 98%
Modul 4 Basis Data Spasial 3
Dimana X merupakan variable yang mewakili mahasiswa. Aturan
mengindikasikan bahwa mahasiswa yang masih kuliah, 12 %(support) di
Teknik Informatika dan memiliki computer pribadi. Terdapat probabilitas
98% (confidence, atau kepastian) bahwa mahasiswa dalam grup ini
memiliki computer pribadi.
• Classification, membangun suatu set model (atau fungsi) yang
menggambarkan dan membedakan kelas data atau konsep. Klasifikasi
digunakan untuk memprediksi label kelas dari obyek data.
• Clustering, menganalisis obyek data tanpa berhubungan dengan label
kelas yang diketahui. Obyek-‐obyek dikelonpokkan berdasarkan
prinsipmemaksimalkan kesamaan intraclass dan meminimalkan
kesamaan interclass. Setiap cluster yang terbentuk dapat dilihat sebagai
kelas obyek. Clustering juga dapat memfasilitasi pembentukan taksonomi,
yaitu pengamatan organisasi ke dalam hierarki kelas ke dalam kelompok
yang serupa.
• Data evolution analysis, mendeskripsikan evolusi dan keteraturan model
atau kecenderungan untuk obyek yang perilakunya berubah seiring
waktu, meskipun mungkin termasuk dalam characterization,
discrimination, association, classification, atau clustering data yang
berhubungan dengan waktu. Fitur yang berbeda dari analisis tersebut
meliputi analisis data berdasarkan waktu, urutan atau pencocokan pola
secara periodic, dan kesamaan berbasis analisis data.
Konsep Data Mining Spasial
Data mining spasial adalah penerapan metode data mining untuk data spasia.
Data mining spasial memiliki fungsi yang sama dengan data mining dalam basis
data relasional, namun memiliki tujuan akhir untuk menemukan suatu pola
dalam geografi. Bisa dikatakan bahwa Data Mining Spasial meruupakan proses
untuk menemukan pola non trivia yang menarik dan berguna dari data set
spasial yang besar.
4 Modul 4 Basis Data Spasial
Komponen dari Data Mining , sebagai berikut :
• Input, merupakan tabel dengan beberapa kolom yang merupakan domain
o Data, terdiri atribut spasial dan non spasial
o Hubungan antara data, bisa secara spasial dan non spasial.
Hubungan data non spasial, misalnya secara ranking, aritmetik dan
biasanya eksplisit. Hubungan data spasial biasanya implisit, dan
berdasarkan beberapa kategori seperti set-‐oriented (union,
intersection, membership, dan sebagainya), topological (meet,
within, overlap,dsb), directional (left, above, behind, North, dsb).
Metric (jarak, arah, perimeter,dsb), dinamis (update, create, dsb),
serta berdasarkan bentuk dan visibilitas.
• Dasar Statistik
• Output, merupakan ukuran ketertarikan dan pola
• Proses komputasi, merupakan algoritma yang digunakan
Menurut Kriegel, perbedaan utama antara data mining dalam basis data
relasional dengan data mining dalam basis data spasial adalah bahwa atribut
dari beberapa objek yang menarik dari tetangga mungkin memiliki pengaruh
pada obhek dank arena itu harus dipertimbangkan juga. Lokasi yang eksplisit
dan perluasan objek spasial juga mendefinisikan hubungan implisit dari
lingkungan spasial, seperti topologi, hubungan jarak dan arah yang digunakan
oleh algortima data mining spasial. Oleh karena itu,, teknik baru sangat
diperlukan untuk data mining yang efektif dan efisien.
Sebagai contoh, suatu tanaman industri baru dapat mencemari lingkungan yang
tergantung pada jarak dan arah utama angina. Perhatikan Gambar 1. Gambar
tersebut memperlihatkan peta yang digunakan dalam penilaian lokasi yang
mungkin dapat digunakan untuk industry tanaman baru.. Peta menunjukkan tiga
daerah dengan derajat yang berbeda polusi (ditandai dengan warna yang
berbeda) yang disebabkab oleh industri tanaman yang direncanakan. Selain itu,
gambar tersebut juga menunjukkan obyek lain yang dipengaruhi, seperti
masyarakat dan hutan.
Modul 4 Basis Data Spasial 5
Dalam ruang spasial terdapat tiga hubungan biner, yaitu topologi, jarah dan
hubungan arah. Objyek spasial dapat berupa titik (point) atau obyek spasial yang
diperpanjang, seperti garis, polygon atau polyhedron. Obyek spasial yang
diperpanjang dapat diwakili oleh satu set point pada permukaannya. Sebagai
contoh oleh titik yang terkandung dalam obyek, seperti piksel dari suatu obyek
dalam citra raster (representasi raster). Oleh karena itu, kita dapat
menggunakan set titik sebagai representasi generic spasial obyek.
Hubungan topologi (topological relations) adalah hubungan yang invariant
dalam transformasi topologi, yaitu jika kedua obyek diputar (dirotasikan),
diterjemahkan, atau ditingkatkan secara bersamaan. Perhatikan ilustrasi
berikut. Suatu hubungan topologi antara dua obyek A dan B, berasal dari
Sembilan persimpangan dari batas-‐batas dalan melengkapi satu sama lain.
Hubungan tersebut adalah : A disjoint B, A meets B, A overlap B, A equals B, A
covers B, A covers B, A covered by B, A contains B, A inside B, dan sebagainya
Hubungan jarak (distance relations) adalah hubungan yang membandingkan
jarak duaobyek secara konstan dengan menggunakan salah satu operator
aritmatika. Sebagai contoh, jika dist adalah fungsi jarak, dan σ menjadi salah satu
predikat aritmatika <,> atau = , jika c merupakan bilangan real serta A dan B
merupakan obyek spasial : A,B ∈ 2 titik. Maka hubungan jarak A distance σ c B
,holds iff dist (A,B) σ c.
Untuk definisi arah,perhatikan ilustrasi berikut :
Jika rep (A) menjadi wakil dari obyek A, maka
B northeast A terjadi, iff ∀ b ∈B: bx ≥ 𝑟𝑒𝑝 𝐴 ! ∧ 𝑏! ≥ 𝑟𝑒𝑝 (𝐴)!
Dimana southeast, southwest dan northwest didefinisikan secara analog
Beberapa Fungsi Data Mining Spasial
Clustering adalah tugas pengelompokan obyek-‐obyek basis data ke dalam sub
class bermakna yaitu cluster, sehingga anggota cluster yang sama menjadi
6 Modul 4 Basis Data Spasial
semirip mungkin, sedangkan anggota kelompok yang berbeda cluster, memiliki
perbedaan sebanyak mungkin. Aplikasi pengelompokkan atau clustering dalan
basis data spasial misalnya deteksi kesalahan seismic oleh grup. Ilustrasi ini
menggunakan dua filter predikat yang berbeda dalam entri suatu katalog gempa
atau menciptakan peta tematik di sistem informasi geografis dengan
mengelompokkan fitur.
Characterizing merupakan tugas untuk menemukan dekripsi yang ringkas untuk
subses yang dipilih (target yang ditetapkan) dari basis data. Suatu karakterisasi
spasial adalah deskripsi dari sifat spasial dan non spasial yang khas untuk obyek
sasaran tetapi tidak untuk seluruh basis data. Frekuensi related dari nilai atribut
non-‐spasial dari jenis obyek berbeda digunakan sebagai sifat yang menarik.
Misalnya jenis obyek berbeda dalam basis data geografis adalah masyarakat,
gining, danau, jalan raya, rel kereta api, dan sebagainya. Untuk mendapatkan
karakterisasi spasial, tidak hanya property dari obyek target yang dinilai, tetapi
juga sifat-‐sifat tetangga mereka (sampai jumlah maksimum edge yang diberikan
dalam grafik lingkungan relevan) juga dianggap.
Deteksi tren spasial merupakan perubahan biasa dari satu atau lebih atribut
non-‐spasial ketika bergerak menjauh dari yang diberikan pada objek o.
Lingkungan jalur mulai dari o digunakan untuk model gerakan dan analisis
regeresi dilakukan pada nilai atribut masing-‐masing untuk objek dari jalan
tetangga untuk menggambarkan keteraturan perubahan. Untuk regresi, jarak
dari o adalah variable independen dan perbedaan dari nilai atribut merupakan
variable dependen untuk regresi. Korelasi nilai atribut yang diamati dengan
nilai-‐nilai diprediksi oleh regresi fungsi menghasilkan ukuran kepercayaan
untuk menemukan tren.
Contoh Penggunaan Data Mining Spasial
Beberapa organisasi di USA yang menggunakan data mining spasial antara lain :
• NASA Earth Observing System (EOS) : digunakan untuk menambang data
ilmu bumi
Modul 4 Basis Data Spasial 7
• US National Intitute of Justice : digunakan untuk memetakan criminal
• US Census Bureau, Departement of Commerce : digunakan untuk
mensensus data
• US Departement of Transportation (DOT) : digunakan untuk menambah
data lalu lintas.
• US National Institute of Health (NIH) : digunakan untuk mengelompokkan
penyebaran kanker.
Tantangan dalam Data Mining Spasial
Miller dan Han (2001) menyampaikan beberapa tantangan yang dihadapi
sekaligus kebutuhan dalam penelitian dan pengembangan Data Mining Spasial
yaitu :
• Mengembangkan dan mendukung gudang data geografis (Geographic
Data Warehouse); sifat spasial biasanya sering direduksi menjadi atribut
non spasial sederhana dalam gudang data utama. Membuat gudang data
terpadu membutuhkan solusi dalam pemecahan masalah
interoperabilitas data spasial dan temporal, termasuk perbedaan
semantic, sistem referensi, geometri, akurasi dan posisi.
• Representasi spatio-‐temporal yang lebih baik dalam penemuan
pengetahuan geografis; metode penemuan pengetahuan geografis saat ini
umumnya menggunakan representasi obyek geografis dan hubungan
spasial yang sangat sederhana. Metode data mining geografis harus
mengenali obyek geografis yang lebih kompleks (seperti garis dan
polygon) dan hubungan (jarak non-‐Euclidean, arah, konektivitas dan
interaksi yang dibentuk ruang geografis seperti daerah).Waktu juga harus
lebih terintegrasi ke dalam hubungan dan representasi geografis.
• Penemuan pengetahuan geografis menggunakan beragam jenis fata;
metode penemuan pengetahuan geografis harus dikembangkan untuk
dapat menangani beragam jenis data di luar model raster dan vector
tradisional, termasuk citra, multimedia berbasis geografis, serta data tipe
dinamis (seperti animasi dan video stream).
8 Modul 4 Basis Data Spasial
Referensi :
Ester, Martin, Hans-‐Peter Kriegel and Jorg Sander. 1999. Knowledge Discovery in
Spatial Databases. Paper at German Conferences on Artificial Intelligence.
Germany.
Miller, H. and Han, J., (eds.), 2001, Geographic Data Mining and Knowledge Discovery, (London: Taylor & Francis)