bds spatial data mining

8
Modul 4 Basis Data Spasial 1 MODUL 4 SPATIAL DATA MINING Pengantar Data mining juga popular disebut dengan knowledge discovery from data (KDD)merupakan ekstrasi otomatis dari polapola mewakili pengetahuan implisit yang disimpan dan tertangkap dalam suatu basis data besar, gudang data, web, data stream atau repository informasi masif yang lain. Data mining merupakan bidang multidisiplin yang melibatkan berbagai area kerja seperti teknologi basis data, mesin pembelajaran, statistic, pengenalan pola, pencarian informasi, jaringan saraf, sistem berbasis pengetahuan, kecerdasan buatan, komputasi berkinerja tinggi dan visualisasi data. Tahapan Data Mining Langkahlangkah yang terlibat dalam data mining bila dilihat sebagai proses penemuan pengetahuan adalah sebagai berikut : Pembersihan data, yaitu suatu proses untuk menghilangkan atau mengubah data yang rusak dan data yang tidak konsisten Integrasi data, yaitu tahap dimana beberapa sumber data dapat dikombinasikan Seleksi data, yaitu tahap dimana memilih data yang relevan dengan tugas analisis yang diambil dari basis data Transformasi data, merupakan suatu tahap dimana data diubah atau dikonsolidasikan ke dalam bentuk yang sesuai untuk mining Data mining, merupakan proses penting dimana metode yang cerdas dan efisien diterapkan untuk mengekstrak pola Evaluasi pola, merupakan tahap dimana dilakukan suatu proses untuk mengidentifikas pola yang benarbenar menarik untuk mewakili pengetahuan berdasarkan beberapa kriteria dan tindakan ketertarikan.

Transcript of bds spatial data mining

Page 1: bds spatial data mining

Modul  4  Basis  Data  Spasial   1    

MODUL  4  SPATIAL  DATA  MINING      Pengantar    Data   mining   juga   popular   disebut   dengan   knowledge   discovery   from   data  

(KDD)merupakan   ekstrasi   otomatis   dari   pola-­‐pola   mewakili   pengetahuan  

implisit   yang   disimpan   dan   tertangkap   dalam   suatu   basis   data   besar,   gudang  

data,  web,   data   stream   atau   repository   informasi  masif   yang   lain.   Data  mining  

merupakan   bidang   multidisiplin   yang   melibatkan   berbagai   area   kerja   seperti  

teknologi   basis   data,  mesin  pembelajaran,   statistic,   pengenalan  pola,   pencarian  

informasi,   jaringan   saraf,   sistem   berbasis   pengetahuan,   kecerdasan   buatan,  

komputasi  berkinerja  tinggi  dan  visualisasi  data.    

 

Tahapan  Data  Mining  

 

Langkah-­‐langkah   yang   terlibat   dalam   data   mining   bila   dilihat   sebagai   proses  

penemuan  pengetahuan  adalah  sebagai  berikut  :    

• Pembersihan   data,   yaitu   suatu   proses   untuk   menghilangkan   atau  

mengubah  data  yang  rusak  dan  data  yang  tidak  konsisten  

• Integrasi   data,   yaitu   tahap   dimana   beberapa   sumber   data   dapat  

dikombinasikan  

• Seleksi  data,  yaitu  tahap  dimana  memilih  data  yang  relevan  dengan  tugas  

analisis  yang  diambil  dari  basis  data  

• Transformasi   data,   merupakan   suatu   tahap   dimana   data   diubah   atau  

dikonsolidasikan  ke  dalam  bentuk  yang  sesuai  untuk  mining  

• Data  mining,  merupakan  proses  penting  dimana  metode  yang  cerdas  dan  

efisien  diterapkan  untuk  mengekstrak  pola  

• Evaluasi   pola,   merupakan   tahap   dimana   dilakukan   suatu   proses   untuk  

mengidentifikas   pola   yang   benar-­‐benar   menarik   untuk   mewakili  

pengetahuan  berdasarkan  beberapa  kriteria  dan  tindakan  ketertarikan.    

Page 2: bds spatial data mining

2   Modul  4  Basis  Data  Spasial    

• Presentasi   pengetahuan,   dimana   visualisasi   dan   teknik   representasi  

pengetahuan   digunakan   untuk   menyajikan   pengetahuan   yang   telah  

ditambang  kepada  pengguna.    

 

Seperti   yang   telah   disampaikan   pada   pertemuan   sebelumnya,   bahwa   manfaat  

data   mining   dalam   kebutuhan   bisnis   adalah   sebagai   berikut   :   Suatu   toserba  

dapat  menggunakan  data  mining  untuk  membantu  kampanye  pemasaran  target.  

MDengan   menggunakan   fungsi   data   mining   seperti   asosiasi,   toko   dapat  

menggunakan  aturan  asosiasi  untuk  menentukan  produk  yang  dibeli  oleh  suatu  

kelompok   pelanggan   yang   mungkin   akan   mengarahkan   kepada   pembelian  

produk   tertentu   lainnya.   Dengan   infromasi   ini,   toko   bisa   mengirimkan   materi  

pemasaran   hanya   untuk   tipe   pelanggan   tersebut   yang   menunjukkan  

kemungkinan   besar   untuk   membeli   produk   tambahan.     Analisis   statistic  

sederhana  tidak  dapat  menangani  sejumlah  besar  data  seperti  data  pelanggan  di  

suatu  department  store.    

 

Fungsi  Data  Mining  

 

Data  mining  memiliki  beberapa  fungsi    sebagai  berikut  :    

• Characterization,   merupakan   ringkasan   dari   karakteristik   umum   atau  

fitur   dari   kelas   target   data.   Misalnya   saja   profil   dari   semua  mahasiswa  

ITech  tahun  pertama  yang  memiliki  IPK  tinggi.    

• Discrimination,  merupakan  perbandingan  fitur  umum  dari  sasaran  obyek  

kelas   data   dengan   fitur   umum   dari   satu   atau   sekumpulan   kelas   yang  

berlawanan.  Misalnya,  fitur  umum  dari  mahasiswa  dengan  IPK  tinggi  bisa  

dibandingkan   dengan   fitur   umum   dari   mahasiswa   dengan   IPK   yang  

rendah.  

• Association,   merupakan   penemuan   aturan   sosiasi   yang   menampilkan  

kondisi   nilai   atribut   yang   sering   terjadi   bersama-­‐sama   dalam   satu   set  

data.   Misalnya   suatu   sistem   data   mining   menemukan   aturan   asosiasi  

seperti  

𝑚𝑎𝑗𝑜𝑟  (𝑋,teknik  informatika)⇒  memiliki  (X,  𝑘𝑜𝑚𝑝𝑢𝑡𝑒𝑟𝑝𝑟𝑖𝑏𝑎𝑑𝑖")  [𝑠𝑢𝑝𝑝𝑜𝑟𝑡 =

12%, 𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒 = 98%      

Page 3: bds spatial data mining

Modul  4  Basis  Data  Spasial   3    

Dimana   X   merupakan   variable   yang   mewakili   mahasiswa.   Aturan  

mengindikasikan  bahwa  mahasiswa  yang  masih  kuliah,  12  %(support)  di  

Teknik  Informatika  dan  memiliki  computer  pribadi.  Terdapat  probabilitas  

98%   (confidence,   atau   kepastian)   bahwa   mahasiswa   dalam   grup   ini  

memiliki  computer  pribadi.    

• Classification,   membangun   suatu   set   model   (atau   fungsi)   yang  

menggambarkan   dan   membedakan   kelas   data   atau   konsep.   Klasifikasi  

digunakan  untuk  memprediksi  label  kelas  dari  obyek  data.  

• Clustering,   menganalisis   obyek   data   tanpa   berhubungan   dengan   label  

kelas   yang   diketahui.   Obyek-­‐obyek   dikelonpokkan   berdasarkan  

prinsipmemaksimalkan   kesamaan   intraclass   dan   meminimalkan  

kesamaan   interclass.  Setiap  cluster  yang   terbentuk  dapat  dilihat   sebagai  

kelas  obyek.  Clustering  juga  dapat  memfasilitasi  pembentukan  taksonomi,  

yaitu  pengamatan  organisasi  ke  dalam  hierarki  kelas    ke  dalam  kelompok  

yang  serupa.  

• Data  evolution  analysis,  mendeskripsikan  evolusi  dan  keteraturan  model  

atau   kecenderungan   untuk   obyek   yang   perilakunya   berubah   seiring  

waktu,   meskipun   mungkin   termasuk   dalam   characterization,  

discrimination,   association,   classification,   atau   clustering   data   yang  

berhubungan   dengan   waktu.   Fitur   yang   berbeda   dari   analisis   tersebut    

meliputi   analisis   data   berdasarkan  waktu,   urutan   atau   pencocokan   pola  

secara  periodic,  dan  kesamaan  berbasis  analisis  data.    

 

Konsep  Data  Mining  Spasial  

 

Data  mining   spasial   adalah   penerapan  metode   data  mining   untuk   data   spasia.  

Data  mining  spasial  memiliki  fungsi  yang  sama  dengan  data  mining  dalam  basis  

data   relasional,   namun   memiliki   tujuan   akhir   untuk   menemukan   suatu   pola  

dalam  geografi.    Bisa  dikatakan  bahwa  Data  Mining  Spasial  meruupakan  proses  

untuk   menemukan   pola   non   trivia   yang   menarik   dan   berguna   dari   data   set  

spasial  yang  besar.    

 

 

Page 4: bds spatial data mining

4   Modul  4  Basis  Data  Spasial    

Komponen  dari  Data  Mining  ,  sebagai  berikut  :  

• Input,  merupakan  tabel  dengan  beberapa  kolom  yang  merupakan  domain  

o Data,  terdiri  atribut  spasial  dan  non  spasial  

o Hubungan   antara   data,   bisa   secara   spasial   dan   non   spasial.  

Hubungan  data  non  spasial,  misalnya  secara  ranking,  aritmetik  dan  

biasanya   eksplisit.   Hubungan   data   spasial   biasanya   implisit,   dan  

berdasarkan   beberapa   kategori   seperti   set-­‐oriented   (union,  

intersection,   membership,   dan   sebagainya),   topological   (meet,  

within,   overlap,dsb),   directional   (left,   above,   behind,   North,   dsb).  

Metric   (jarak,  arah,  perimeter,dsb),  dinamis   (update,   create,  dsb),  

serta  berdasarkan  bentuk  dan  visibilitas.  

• Dasar  Statistik  

• Output,  merupakan  ukuran  ketertarikan  dan  pola  

• Proses  komputasi,  merupakan  algoritma  yang  digunakan  

 

Menurut   Kriegel,   perbedaan   utama   antara   data   mining   dalam   basis   data  

relasional   dengan   data   mining   dalam   basis   data   spasial   adalah   bahwa   atribut  

dari   beberapa   objek   yang   menarik   dari   tetangga   mungkin   memiliki   pengaruh  

pada   obhek   dank   arena   itu   harus   dipertimbangkan   juga.   Lokasi   yang   eksplisit  

dan   perluasan   objek   spasial   juga   mendefinisikan   hubungan   implisit   dari  

lingkungan   spasial,   seperti   topologi,   hubungan   jarak   dan   arah   yang   digunakan  

oleh   algortima   data   mining   spasial.   Oleh   karena   itu,,   teknik   baru   sangat  

diperlukan  untuk  data  mining  yang  efektif  dan  efisien.    

 

Sebagai  contoh,  suatu  tanaman  industri  baru  dapat  mencemari  lingkungan  yang  

tergantung   pada   jarak   dan   arah   utama   angina.   Perhatikan   Gambar   1.   Gambar  

tersebut   memperlihatkan   peta   yang   digunakan   dalam   penilaian   lokasi   yang  

mungkin  dapat  digunakan  untuk  industry  tanaman  baru..  Peta  menunjukkan  tiga  

daerah   dengan   derajat   yang   berbeda   polusi   (ditandai   dengan   warna   yang  

berbeda)  yang  disebabkab  oleh  industri  tanaman  yang  direncanakan.  Selain  itu,  

gambar   tersebut   juga   menunjukkan   obyek   lain   yang   dipengaruhi,   seperti  

masyarakat  dan  hutan.    

 

Page 5: bds spatial data mining

Modul  4  Basis  Data  Spasial   5    

Dalam   ruang   spasial   terdapat   tiga   hubungan   biner,   yaitu   topologi,   jarah   dan  

hubungan  arah.  Objyek  spasial  dapat  berupa  titik  (point)  atau  obyek  spasial  yang  

diperpanjang,   seperti   garis,   polygon   atau   polyhedron.   Obyek   spasial   yang  

diperpanjang   dapat   diwakili   oleh   satu   set   point   pada   permukaannya.   Sebagai  

contoh  oleh  titik  yang  terkandung  dalam  obyek,  seperti  piksel  dari  suatu  obyek  

dalam   citra   raster   (representasi   raster).   Oleh   karena   itu,   kita   dapat  

menggunakan  set  titik  sebagai  representasi  generic  spasial  obyek.    

 

Hubungan   topologi   (topological   relations)   adalah   hubungan   yang   invariant  

dalam   transformasi   topologi,   yaitu   jika   kedua   obyek   diputar   (dirotasikan),  

diterjemahkan,   atau   ditingkatkan   secara   bersamaan.     Perhatikan   ilustrasi  

berikut.   Suatu   hubungan   topologi   antara   dua   obyek   A   dan   B,   berasal   dari  

Sembilan   persimpangan   dari   batas-­‐batas   dalan   melengkapi   satu   sama   lain.  

Hubungan  tersebut  adalah  :  A  disjoint  B,  A  meets  B,    A  overlap  B,  A  equals  B,  A  

covers  B,  A  covers  B,  A  covered  by  B,  A  contains  B,  A  inside  B,  dan  sebagainya  

 

Hubungan   jarak   (distance   relations)   adalah   hubungan   yang   membandingkan  

jarak   duaobyek   secara   konstan   dengan   menggunakan   salah   satu   operator  

aritmatika.  Sebagai  contoh,  jika  dist  adalah  fungsi  jarak,  dan  σ  menjadi  salah  satu  

predikat   aritmatika   <,>   atau   =   ,   jika   c  merupakan   bilangan   real   serta   A   dan   B  

merupakan  obyek  spasial  :  A,B  ∈  2  titik.  Maka  hubungan  jarak  A  distance  σ  c  B  

,holds  iff  dist  (A,B)  σ  c.    

 

Untuk  definisi  arah,perhatikan  ilustrasi  berikut  :  

Jika  rep  (A)    menjadi  wakil  dari  obyek  A,  maka    

B  northeast  A  terjadi,  iff  ∀  b  ∈B:  bx  ≥ 𝑟𝑒𝑝 𝐴 !  ∧  𝑏!  ≥ 𝑟𝑒𝑝  (𝐴)!    

Dimana  southeast,  southwest  dan  northwest  didefinisikan  secara  analog  

 

 

Beberapa  Fungsi  Data  Mining  Spasial  

 

Clustering   adalah   tugas   pengelompokan   obyek-­‐obyek   basis   data   ke   dalam   sub  

class   bermakna   yaitu   cluster,   sehingga   anggota   cluster   yang   sama   menjadi  

Page 6: bds spatial data mining

6   Modul  4  Basis  Data  Spasial    

semirip  mungkin,  sedangkan  anggota  kelompok  yang  berbeda  cluster,  memiliki  

perbedaan   sebanyak  mungkin.   Aplikasi   pengelompokkan   atau   clustering   dalan  

basis   data   spasial   misalnya   deteksi   kesalahan   seismic   oleh   grup.   Ilustrasi   ini  

menggunakan  dua  filter  predikat  yang  berbeda  dalam  entri  suatu  katalog  gempa  

atau   menciptakan   peta   tematik   di   sistem   informasi   geografis   dengan  

mengelompokkan  fitur.      

 

Characterizing  merupakan  tugas  untuk  menemukan  dekripsi  yang  ringkas  untuk  

subses  yang  dipilih  (target  yang  ditetapkan)  dari  basis  data.  Suatu  karakterisasi  

spasial  adalah  deskripsi  dari  sifat  spasial  dan  non  spasial  yang  khas  untuk  obyek  

sasaran  tetapi  tidak  untuk  seluruh  basis  data.  Frekuensi  related  dari  nilai  atribut  

non-­‐spasial   dari   jenis   obyek   berbeda   digunakan   sebagai   sifat   yang   menarik.  

Misalnya   jenis   obyek   berbeda   dalam   basis   data   geografis   adalah   masyarakat,  

gining,   danau,   jalan   raya,   rel   kereta   api,   dan   sebagainya.   Untuk   mendapatkan  

karakterisasi  spasial,  tidak  hanya  property  dari  obyek  target  yang  dinilai,  tetapi  

juga  sifat-­‐sifat  tetangga  mereka  (sampai  jumlah  maksimum  edge  yang  diberikan  

dalam  grafik  lingkungan  relevan)  juga  dianggap.  

 

Deteksi   tren   spasial   merupakan   perubahan   biasa   dari   satu   atau   lebih   atribut  

non-­‐spasial   ketika   bergerak   menjauh   dari   yang   diberikan   pada   objek   o.  

Lingkungan   jalur   mulai   dari   o   digunakan   untuk   model   gerakan   dan   analisis  

regeresi   dilakukan   pada   nilai   atribut   masing-­‐masing   untuk   objek   dari   jalan  

tetangga   untuk   menggambarkan   keteraturan   perubahan.   Untuk   regresi,   jarak  

dari  o  adalah  variable   independen  dan  perbedaan  dari  nilai  atribut  merupakan  

variable   dependen   untuk   regresi.   Korelasi   nilai   atribut   yang   diamati   dengan  

nilai-­‐nilai   diprediksi   oleh   regresi   fungsi   menghasilkan   ukuran   kepercayaan  

untuk  menemukan  tren.  

 

Contoh  Penggunaan  Data  Mining  Spasial  

 

Beberapa  organisasi  di  USA  yang  menggunakan  data  mining  spasial  antara  lain  :    

• NASA  Earth  Observing  System  (EOS)  :  digunakan  untuk  menambang  data  

ilmu  bumi  

Page 7: bds spatial data mining

Modul  4  Basis  Data  Spasial   7    

• US  National  Intitute  of  Justice  :  digunakan  untuk  memetakan  criminal  

• US   Census   Bureau,   Departement   of   Commerce   :   digunakan   untuk  

mensensus  data  

• US  Departement  of  Transportation   (DOT)   :  digunakan  untuk  menambah  

data  lalu  lintas.  

• US  National  Institute  of  Health  (NIH)  :  digunakan  untuk  mengelompokkan  

penyebaran  kanker.    

 

Tantangan  dalam  Data  Mining  Spasial  

 

Miller   dan   Han   (2001)   menyampaikan   beberapa   tantangan   yang   dihadapi  

sekaligus   kebutuhan   dalam   penelitian   dan   pengembangan  Data  Mining   Spasial  

yaitu  :    

• Mengembangkan   dan   mendukung   gudang   data   geografis   (Geographic  

Data  Warehouse);  sifat  spasial  biasanya  sering  direduksi  menjadi  atribut  

non  spasial  sederhana  dalam  gudang  data  utama.  Membuat  gudang  data  

terpadu   membutuhkan   solusi   dalam   pemecahan   masalah  

interoperabilitas   data   spasial   dan   temporal,   termasuk   perbedaan  

semantic,  sistem  referensi,  geometri,  akurasi  dan  posisi.    

• Representasi   spatio-­‐temporal   yang   lebih   baik   dalam   penemuan  

pengetahuan  geografis;  metode  penemuan  pengetahuan  geografis  saat  ini  

umumnya   menggunakan   representasi   obyek   geografis   dan   hubungan  

spasial   yang   sangat   sederhana.   Metode   data   mining   geografis   harus  

mengenali   obyek   geografis   yang   lebih   kompleks   (seperti   garis   dan  

polygon)   dan   hubungan   (jarak   non-­‐Euclidean,   arah,   konektivitas   dan  

interaksi  yang  dibentuk  ruang  geografis  seperti  daerah).Waktu  juga  harus  

lebih  terintegrasi  ke  dalam  hubungan  dan  representasi  geografis.    

• Penemuan   pengetahuan   geografis   menggunakan   beragam   jenis   fata;  

metode   penemuan   pengetahuan   geografis   harus   dikembangkan   untuk  

dapat   menangani   beragam   jenis   data   di   luar   model   raster   dan   vector  

tradisional,  termasuk  citra,  multimedia  berbasis  geografis,  serta  data  tipe  

dinamis  (seperti  animasi  dan  video  stream).  

 

Page 8: bds spatial data mining

8   Modul  4  Basis  Data  Spasial    

 

 

Referensi  :    

 

Ester,  Martin,  Hans-­‐Peter  Kriegel  and   Jorg  Sander.  1999.  Knowledge  Discovery   in  

Spatial   Databases.   Paper   at   German   Conferences   on   Artificial   Intelligence.  

Germany.    

 

Miller,  H.  and  Han,  J.,  (eds.),  2001,  Geographic  Data  Mining  and  Knowledge  Discovery,  (London:  Taylor  &  Francis)