TUGAS 1_pengantar Data Mining

DATA MININGPAPERPENGANTAR DATA MINING, KEGUNAAN DATA MINING DAN K-MEANS

Oleh:Dwi Ade Riandayani (0904505021)

PROGRAM STUDI TEKNOLOGI INFORMASIFAKULTAS TEKNIK UNIVERSITAS UDAYANAJIMBARAN2012

PENGANTAR DATA MINING

1. Pengertian dan Konsep Data MiningData mining adalah serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basisdata dengan melakukan penggalian pola-pola dari data dengan tujuan untuk memanipulasi data menjadi informasi yang lebih berharga yang diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basisdata. Karena itu DM sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database. Beberapa teknik yang sering disebut-sebut dalam literatur DM antara lain : clustering, classification, association rule mining, neural network, genetic algorithm dan lain-lain.

2. Motivasi Lahirnya Data MiningApa sebenarnya yang memotivasi datamining dan mengapa data mining begitu penting ? Alasan utama mengapa data mining sangat menarik perhatian industri informasi dalam beberapa tahun belakangan ini adalah karena tersedianya data dalam jumlah yang besar dan semakin besarnya kebutuhan untuk mengubah data tersebut menjadi informasi dan pengetahuan yang berguna.Data mining adalah kegiatan mengekstraksi atau menambang pengetahuan dari data yang berukuran/berjumlah besar, informasi inilah yang nantinya sangat berguna untuk pengembangan.

3. Model Data MiningDalam perkembangan teknologi data mining, terdapat model atau mode yang digunakan untuk melakukan proses penggalian informasi terhadap data-data yang ada. Menurut IBM model data mining dapat dibagi menjadi 2 bagian yaitu: verification model dan discovery model.

3.1 Verification ModelModel ini menggunakan perkiraan (hypothesis) dari pengguna, dan melakukantest terhadap perkiraan yang diambil sebelumnya dengan menggunakan data-data yang ada. Penekanan terhadap model ini adalah terletak pada user yang bertanggung jawab terhadap penyusunan perkiraan (hypothesis) dan permasalahan pada data untuk meniadakan atau menegaskan hasil perkiraan (hypothesis) yang diambil.Sebagai contoh misalnya dalam bidang pemasaran, sebelum sebuah perusahaan mengeluarkan suatu produk baru kepasaran, perusahaan tersebut harusmemiliki informasi tentang kecenderungan pelanggan untuk membeli produk yang akan di keluarkan. Perkiraan (hypothesis) dapat disusun untuk mengidentifikasikan pelanggan yang potensial dan karakteristik dari pelanggan yang ada. Data-data tentang pembelian pelanggah sebelumnya dan data tentang keadaan pelanggan, dapat digunakan untuk melakukan perbandingan antara pembelian dan karakteristik pelanggan untuk menetapkan dan menguji target yang telah diperkirakan sebelumnya. Dari keseluruhan operasi yang ada selanjutnya dapat dilakukan penyaringan dengan cermat sehingga jumlah perkiraan (hypothesys) yang sebelumnya banyak akan menjadi semakin berkurang sesuai dengan keadaan yang sebenarnya. Permasalahan utama dengan model ini adalah tidak ada informasi bare yang dapat dibuat, melainkan hanya pembuktian atau melemahkan perkiraan (hypothesys) dengan data-data yang ada sebelumnya. Datadata yang ada pada model ini hanya digunakan untuk membuktikan mendukung perkiraan (hypothesys) yang telah diambil sebelumnya. Jadi model ini sepenuhnya tergantung pads kemampuan user untuk melakukan analisa terhadap permasalahan yang ingin digali dan diperoleh informasinya.

3.2 Discovery ModelModel ini berbeda dengan verification model, dimana pada model ini system secara langsung menemukan informasi-informasi penting yang tersembunyi dalamsuatu data yang besar. Data-data yang ada kemudian dipilah-pilah untuk menemukan suatu pola, trend yang ada, dan keadaaan umum pada saat itu tanpa adanya campur tangan dan tuntunan dari pengguna. Hasil temuan ini menyatakan fakta-fakta yang ada dalam datadata yang ditemukan dalam waktu yang sesingkat rnungkin. Sebagai contoh, misalkan sebuah bank ingin menemuan kelompok-kelompok pelanggan yang dapat dijadikan target suatu produk yang akan di keluaran. Pada data yang ada selanjutnya diadakan proses pencarian tanpa adanya proses perkiraan (hypothesis) sebelumnya. Sampai akhirnya semua pelanggan dikelompokan berdasarkan karakteristik yang sama.

4. Kebutuhan Dan Tantangan Dalam Data MiningUntuk memperoleh efektifitas dalam data mining, seseorang harus melakukan evaluasi kebutuhan dan memperhitungkan tantangan-tantangan apa saja yang mungkin dihadapinya dalam me ngembangkan suatu teknik data mining. Hal-hal yang harus diperhatikan tersebut antara lain adalah sebagai berikut :

4.1 Penanganan Berbagai Tipe DataKarena ada bermacam data dan basis data yang digunakan dalam berbagai aplikasi, seseorang mungkin saja berpikir bahwa suatu sistem knowledge discovery harus bisa melakukan proses data mining yang efektif terhadap berbagai jenis data. Selanjutnya, banyak aplikasi basis data memuat tipe data yang kompleks seperti data terstruktur, objek data kompleks, data multimedia, data spasial dan data sementara, data transaksi dan lain sebagainya. Oleh karena adanya beragam tipe data, tujuan yang berbeda dari data mining, maka adalah tidak realistis untuk mengharapkan bahwa suatu sistem data mining mampu menangani semua jenis data. Sistem data mining harus dikonstruksikan secara khusus untuk tipe-tipe data khusus seperti dalam basis data relasional, basis data transaksi, basis data spasial, basis data multimedia dan lain sebagainya.

4.2 Efisiensi Dari Algoritma Data MiningUntuk secara efektif melakukan ekstraksi informasi dari sejumlah besar data,algoritma yang digunakan untuk mewujudkannya haruslah efisien untuk basis data yangbesar. Yaitu, waktu eksekusi dari algoritma tersebut haruslah sesuai dan realistis untuk data dengan ukuran besar.

4.3 Kegunaan, Kepastian Dan Keakuratan HasilInformasi yang diperoleh harus secara akurat menggambarkan isi basis data dan berguna untuk aplikasi terkait. Kekurangsempurnaan yang ada haruslah dapatdiekspresikan dengan suatu ukuran yang pasti dalam bentuk aturan-aturan kuantitif dan perkiraan-perkiraan yang masuk akal. Noise dan data-data yang tidak diperlukan harus ditangani dengan rapi dalam sistem data mining. Hal ini juga akan memotivasi suatu studi sistematik untuk mengukur kualitas dari informasi yang dihasilkan, termasuk seberapa menariknya dan tingkat kepercayaannya yang dapat diukur secara statistik, analitis dan menggunakan model simulasi.

4.4 Ekspresi Terhadap Berbagai Jenis HasilBerbagai macam jenis informasi dapat diperoleh dari sejumlah besar data.Seseorang mungkin ingin menguji informasi yang diperoleh dan sudut pandang yang berbeda dan menampilkannya dalam bentuk yang berbeda. Ini menuntut kita untuk mengekspresikan permintaan datamining dan informasi yang diperoleh dalam sebuah bahasa tingkat tinggi atau graphical user interface yang baik, sehingga program dapat digunakan oleh para pemakai biasa yang bukan ahli, dan hasil yang diperoleh dapat dimengerti serta langsung digunakan oleh pemakainya. Oleh karenanya, sistem harus bisa mengadopsi teknik-teknik penyajian informasi yang baik.

4.5 Memperoleh Informasi Dari Sumber-Sumber Data Yang BerbedaDengan adanya LAN (Local Area Network) dan WAN ( Wide Area Network) yang tersebar secara luas dewasa ini, termasuk Internet, maka terhubunglah berbagai sumber data yang terdistribusi secara luas dan membentuk suatu basis data heterogen. Untuk memperoleh informasi dari berbagai sumber dan dalam berbagai format dengan berbagai semantik data menimbulkan tantangan baru dalam data mining. Di lain pihak, datamining bisa membantu mengungkapkan informasi-informasi yang ada dalam suatu basis data heterogen, dimana hal tersebut sulit untuk diwujudkan dengan sebuah system query sederhana. Lebih lanjut, ukuran data yang besar, distribusi yang luas dad data dan kompleksitas dari proses komputasi beberapa metode data mining, semakin memotivasi pengembangan algoritma untuk paralel data mining dan data mining untuk basis data terdistribusi.

4.6 Proteksi Dan Keamanan DataKetika data dapat diperlihatkan dari berbagai sudut pandang dan dalam levelabstrak yang berbeda, hal ini akan mengancam tujuan dari proteksi dan keamanan data, dan pelanggaran terhadap sifat kerahasiaan informasi. Sangatlah penting untuk mempelajari apakah penemuan informasi yang berguna itu akan mengakibatkan pelanggaran kerahasiaan dan ukuran keamanan yang diperiukan untuk menghalangi akses terhadap data-data yang sifatnya sensitif.

5. Tahapan Dalam Data MiningData yang ada, tidak dapat langsung diolah dengan menggunakan sistem data mining. Data-data tersebut harus dipersiapkan terlebih dahulu agar hasil yang diperoleh dapat lebih maksimal, dan waktu komputasinya lebih minimal. Proses persiapan data ini sendiri dapat mencapai 60 % dari keseluruhan proses dalam data mining. Adapun tahapan-tahapan yang harus dilalui dalam proses data mining antara lain:

Gambar 1. Tahapan Data Mining

5.1 Basis Data RelasionalDewasa ini, hampir semua Data bisnis disimpan dalam basis data relasional. Sebuah model basis data relasional dibangun dari serangkaian tabel, setiap tabel disimpan sebagai sebuah file. Sebuah tabel relasional terdiri dari baris dan kolom. Kebanyakan model basis data relasional saat ini dibangun diatas lingkungan OLTP. OLTP (Online Transaction Processing ) adalah tipe akses yang digunakan oleh bisnis yang membutuhkan transaksi konkuren dalam jumlah besar. Bentuk data yang tersimpan dalam basis data relasional inilah yang dapat diolah oleh sistem data mining.

5.2 Ekstraksi DataData-data yang dikumpulkan dalam proses transaksi seringkali ditempatkan pada lokasi yang berbeda-beds. Maka dari itu dibutuhkan kemampuan dari sistem utuk dapat mengumpulkan data dengan cepat. Jika data tersebut disimpan dalam kantor regional, seringkali data tersebut di upload ke sebuah server yang lebih terpusat. Ini bias dilakukan secara harian, mingguan, atau bulanan tergantung jumlah .data, keamanan dan biaya. Data dapat diringkas dulu sebelum dikirimkan ke tempat penyimpanan pusat. Sebagai contoh, sebuah toko perangkat keras mungkin mengirim data yang menunjukan bahwa 10 rol kabel telah terjual pada hari ini oleh karyawan nomer 10 dibanding pengiriman data detail transaksi.

5.3 Transformasi DataTransformasi data melakukan peringkasan data dengan mengasumsikan bahwa data telah tersimpan dalam tempat penyimpanan tunggal. Pada langkah terakhir, data telah di ekstrak dari banyak basis data ke dalam basis data tunggal. Tipe peringkasan yang dikerjakan dalam langkah ini mirip dengan peringkasan yang dikerjakan selama tahap ekstraksi. Beberapa perusahaan memilih untuk menngkas data dalam sebuah tempat penyimpanan tunggal. Fungsi fungsi Agregate yang sering digunakan antara lain: summarizations, averages, minimum, maximum, dan count.

5.4 Pembersihan DataData-data yang telah terkumpul selanjutnya akan mengalami proses pembersihan. Proses pembersihan data dilakukan untuk membuang record yang keliru, menstandarkan attribut-attribut, merasionalisasi struktur data, dan mengendalikan data yang hilang. Data yang tidak konsisten dan banyak kekeliruan membuat hasil data mining tidak akurat. Adalah sangat penting untuk membuat data konsisten dan seiagam. Pembersihan data juga dapat membantu perusahaan untuk mengkonsolidasikan record. ini sangat berguna ketika sebuah perusahaan mempunyai banyak record untuk seorang pelanggan.Setiap record atau file pelanggan mempunyai nomor pelanggan yang sama, tetapi informasi dalam tiap filenya berbeda.

5.5 Bentuk StandarSelanjutnya setelah data mengalami proses pembersihan maka data ditranfer kedalam bentuk standar. Bentuk standar adalah adalah bentuk data yang akan diakses oleh algoritma data mining. Bentuk standar ini biasanya dalam bentuk spreadsheet like. Bentuk spreadsheet bekerja dengan baik karena baris merepresentasikan kasus dan kolom merepresentasikan feature.

5.7 Reduksi Data dan FeatureSetelah data berada dalam bentuk standar spreadsheet perlu dipertimbangkan untuk mereduksi jumlah feature. Ada beberapa alasan untuk mengurangi jumlah feature dalam spreadsheet kita. Sebuah bank mungkin mempunyai ratusan feature ketika hendak memprediksi resiko kredit. Hal ini berarti perusahaan mempunyai data dalam jumlah yang sangat besar. Bekerja dengan data sebanyak ini membuat algoritma prediksi menurun kinerjanya.

5.8 Menjalankan AlgoritmaSetelah semua proses diatas dikerjakan, maka algoritma data mining sudah siap untuk dijalankan.

Gambar 2. Simulasi Tahapan Data Mining

Ada beberapa jenis data dalam data mining yaitu :a) Relation Database : Sebuah sistem database, atau disebut juga database management system (DBMS), mengandung sekumpulan data yang saling berhubungan, dikenal sebagai sebuah database, dan satu set program perangkat lunak untuk mengatur dan mengakses data tersebut.b) Data Warehouse : Sebuah data warehouse merupakan sebuah ruang penyimpaan informasi yang terkumpul dari beraneka macam sumber, disimpan dalam skema yang menyatu, dan biasanya terletak pada sebuah site.

6. Fungsionalitas Dalam Data MiningKebutuhan akan Data mining semakin dirasakan dalam berbagai bidang. Data mining bersifat dependen terhadap aplikasi terkait, ini berarti untuk aplikasi basis data yang berbeda, maka teknik data mining yang digunakannya mungkin juga akan berbeda. Hal ini dikarenakan terdapat kelebihan dan kekurangan dari masing-masing metode pencarian informasi, sehingga kita harus menyesuaikan antara keperluan dan kebutuhan akan informasi dengan penerapan teknik pencarian yang akan digunakan. Untuk memberikan gambaran yang lebih jelas tentang macam-macam informasi yang dapat ditemukan dalam sekumpulan data, berikut akan diberikan sedikit bahasan rinci mengenai hal tersebut.

KEGUNAAN DATA MINING

1. ClassificationSuatu teknik dengan melihat pada kelakuan dan atribut dari kelompok yang telah didefinisikan. Teknik ini dapat memberikan klasifikasi pada data baru dengan memanipulasi data yang ada yang telah diklasifikasi dan dengan menggunakan hasilnya untuk memberikan sejumlah aturan. Aturan-aturan tersebut digunakan pada data-data baru untuk diklasifikasi. Teknik ini menggunkan supervised induction, yang memanfaatkan kumpulan pengujian dari record yang terklasifikasi untuk menentukan kelas-kelas tambahan. Salah satu contoh yang mudah dan popular adalah dengan Decision tree yaitu salah satu metode klasifikasi yang paling populer karena mudah untuk diinterpretasi. Decision tree adalah model prediksi menggunakan struktur pohon atau struktur berhirarki. Decision tree adalah struktur flowchart yang menyerupai tree (pohon), dimana setiap simpul internal menandakan suatu tes pada atribut, setiap cabang merepresentasikan hasil tes, dan simpul daun merepresentasikan kelas atau distribusi kelas. Alur pada decision tree di telusuri dari simpul akar ke simpul daun yang memegang prediksi kelas untuk contoh tersebut. Decision tree mudah untuk dikonversi ke aturan klasifikasi (classification rules).

Contoh Penerapan Classification :a) Pemakaian Kartu Kredit secara IlegalTujuan : mendeteksi adanya penggunaan kartu kredit secara ilegalPendekatan : Data transaksi sebelumnya (lokasi & waktu transaksi, jenisbarang yang dibeli, besar transaksi) Label data-data tersebut dengan Curang atau Aman DM mencari model klasifikasi Curang atau Aman berdasarkan atribut transaksi. Menerapkan model tersebut jika ada transaksi baru untuk mempercepat / tepat tindakan preventif.

b) Deteksi SPAMTujuan : mendeteksi email yang tidak diharapkan secara dinic) Direct MarketingTujuan : mencari pengelompokan profil pelanggan agar target marketing sesuai Sky Survey CatalogingTujuan : mengelompokkan obyek langit hasil pemotretan teleskop ke dalam class-nya

2. ClusteringDigunakan untuk menganalisis pengelompokkan berbeda terhadap data, mirip dengan klasifikasi, namun pengelompokkan belum didefinisikan sebelum dijalankannya tool data mining. Biasanya menggunkan metode neural network atau statistik. Clustering membagi item menjadi kelompok-kelompok berdasarkan yang ditemukan tool data mining. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar cluster. Clustering dapat dilakukan pada data yang memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi. Ilustrasi dari clustering dapat dilihat di Gambar 3 dimana lokasi, dinyatakan dengan bidang dua dimensi, dari pelanggan suatu took dapat dikelompokkan menjadi beberapa cluster dengan pusat cluster ditunjukkan oleh tanda positif (+). Banyak algoritma clustering memerlukan fungsi jarak untuk mengukur kemiripan antar data, diperlukan juga metoda untuk normalisasi bermacam atribut yang dimiliki data.

Gambar 3. Contoh Clusterisasi

Contoh Penerapan Cluster :a) Web-Document Clustering:Tujuan: mencari gugus dokumen-dokumen Web yang mirip berdasarkan kemunculan istilah penting Pendekatan: mengidentifikasi istilah yang sering muncul pada setiap dokumen, mengukur kemiripan berdasarkan frekwensi kemunculan istilah pada dokumen lainnya Hasil: Web search engine memunculkan dokumen-dokumen yang mirip (dalam 1 gugus) berdasarkan istilah yang dicari

Gambar 4. Ilustrasi Web Document Clustering

b) Segmentasi Pasar:Tujuan: mencari gugus segmentasi pasar berdasarkan data transaksi untuk keperluan marketingPendekatan : mempersiapkan data beserta atribut data pelanggan berdasarkan geografi dan data pribadi lainnya mencari gugus pelanggan yang mirip berdasarkan atribut2 tersebut melakukan observasi perilaku pasar berdasarkan gugus-gugus pelanggan yang ditemukanHasil: strategi marketing yang tepat sasaran

3. Rule Associating Digunakan untuk mengenali kelakuan dari kejadian-kejadian khusus atau proses dimana link asosiasi muncul pada setiap kejadian. Contoh dari aturan assosiatif dari analisa pembelian di suatu pasar swalayan adalah bisa diketahui berapa besar kemungkinan seorang pelanggan membeli roti bersamaan dengan susu. Dengan pengetahuan tersebut pemilik pasar swalayan dapat mengatur penempatan barangnya atau merancang kampanye pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu.Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support yaitu prosentasi kombinasi atribut tersebut dalam basisdata dan confidence yaitu kuatnya hubungan antar atribut dalam aturan asosiatif.Motivasi awal pencarian association rule berasal dari keinginan untuk menganalisa data transaksi supermarket, ditinjau dari perilaku customer dalam membeli produk. Association rule ini menjelaskan seberapa sering suatu produk dibeli secara bersamaan.Sebagai contoh, association rule beer => diaper (80%) menunjukkan bahwa empat dari lima customer yang membeli beer juga membeli diaper. Dalam suatu association rule X => Y, X disebut dengan antecedent dan Y disebut dengan consequent.Rule.Association rule meliputi dua tahap yaitu sebagai beriku:a) Mencari kombinasi yang paling sering terjadi dari suatu itemset.b) Mendefinisikan Condition dan Result (untuk conditional association rule).Dalam menentukan suatu association rule, terdapat suatu interestingness measure (ukuran kepercayaan) yang didapatkan dari hasil pengolahan data dengan perhitungan tertentu. Umumnya ada tiga ukuran, yaitu :a) Support : suatu ukuran yang menunjukkan seberapa besar tingkat dominasi suatu item/itemset dari keseluruhan transaksi. Ukuran ini akan menentukan apakah suatu item/itemset layak untuk dicari confidence-nya (misal, dari seluruh transaksi yang ada, seberapa besar tingkat dominasi yang menunjukkan bahwa item A dan B dibeli bersamaan) dapat juga digunakan untuk mencari tingkat dominasi item tunggal.

Support(AB) = Probabilitas (AB)

b) Confidence : suatu ukuran yang menunjukkan hubungan antar 2 item secara conditional (misal, seberapa sering item B dibeli jika orang membeli item A).Confidence(AB) =

c) Improvement : suatu ukuran yang menunjukkan besarnya kemungkinan 2 item dapat dibeli secara bersamaan.Improvement (AB) =

Ketiga ukuran ini nantinya akan berguna dalam menentukan interesting association rules, yaitu untuk dibandingkan dengan threshold (batasan) yang ditentukan. Batasan tersebut umumnya terdiri dari min_support, min_cofidence, dan min_improvement.

Contoh Penerapan Rule associating :a) Marketing & Sales PromotionMisalnya pola yang ditemukan : f=Susu Anak, g=KwacigKwaci sebagai konsekuen : bagaimana caranya menaikkan penjualan kwaciSusu Anak sebagai anteseden : jika tidak lagi menjual susu anak, memprediksi produk lain yang ikut jatuh penjualannyaDua-duanya : membuat paket promo Susu Anak, Kwaci, dll

b) Pengelolaan Rak di SupermarketTujuan: memudahkan pelanggan berbelanja barang-barang yang sering dibeli bersamaMisalnya: ada rak kecil berisi kwaci diletakkan pada bagian susu anak

c) Sistem Rekomendasi PintarTujuan: memberikan rekomendasi kepada pelanggan took buku on-line tentang buku-buku lain yang sering dibeli juga oleh pelanggan lainnya jika membeli buku tertentu

4. Squential PatternSebuah sekuen adalah urutan dari elemen-elemen (transaksi), yang dapat dinotasikan sebagai berikut :s = < e1, e2, e3 >

Setiap elemen (e) terdiri dari kumpulan kejadian-kejadian (item=i).ei = {i1, i2, , ik}

Setiap elemen merupakan atribut yang dihubungkan dengan suatu lokasi atau waktu tertentu (spesifik). Panjang Sekuen, |s|, adalah banyaknya unsur-unsur sekuen yang diberikan. k-sekuens adalah sebuah sekuen yang terdiri dari k kejadian (item.) Sequential Pattern Mining adalah penca rian pola yang terjadi cukup sering sehubungan dengan waktu atau sekuen lainnya. Pencarian pola sekuensial terdiri dari beberapa tahapan proses yaitu :1. Penentuan struktur basis dataLangkah ini dilakukan untuk menentukan ekstraksi data yang dibutuhkan.2. Menentukan nilai ambang batas (threshold)Tahapan ini membentuk pola sekuensial dan menentukan urutan item besar yang terdiri dari dua buah item data.3. Pencarian satu set pola terpanjangYaitu mencari satu set pola terpanjang yang memenuhi nilai ambang batas yang telah ditentukan4. Pembuatan graf AsosiasiTahap ini dilakukan untuk mendapatkan satu set pola yang memenuhi nilaiambang batas.

Contoh Penerapan Squential Pattern :Analisa Keterkaitan (Link Analysis) Untuk Prediksi Cuaca :Penggunaan metode sequential pattern ini adalah untuk menganalisa keterkaitan antar atribut/itemset pada parameter yang digunakan dalam prediksi cuaca untuk menghasilkan suatu aturan(rule) yang dapat membuktikan suatu kondisi apakah hujan atau tidak hujan. Pola kerja dari metode sequential pattern ini adalah menganalisa keterkaitan suatu atribut akan mempengaruhi atribut lainnya dan bagaimana ketergantungan atribut yang satu dengan atribut lainnya. Hasil akhir dari penelitian ini adalah menemukan pola-pola pengetahuan yang tersembunyi di dalam data. Pola tersebut berbentuk aturan (rule) yang dapat membantu menentukan kondisi cuaca apakah hari ini hujan atau tidak.

5. RegresiAnalisis regresi adalah teknik statistik untuk pemodelan dan invastigasi hubungan atau lebih variabel. Yang sering dipakai dan paling sederhana adalah regresi linier sederhana. Dalam analisis rehresi ada satu atau lebih variabel independent/prediktor yang bisa diwakili dengan notasi x dan satu variabel respon yang diwakili dengan notasi y. sesuai dengan namanya, hubungan antara dua variabel yang bersifat linier. Regresi biasanya digunakan untuk memetakan data dengan prediksi atribut bernilai real.Gambar dibawah ini memeri ilustrasi bagaimana hubungan dua variebel ini bersifat linier dan tidak linier.

Gambar 5. Hubungan Dua Variabel yang Bersifat Linier

Gambar 6. Hubungan Dua Variabel yang Bersifat Tidak Linier

Contoh Penerapan Regresi :Aplikasi dari regresisi ini misalnya adalah pada prediksi volume biomasa di hutan dengan didasari pada pengukuran gelombang mikro penginderaan jarak jauh (remotely-sensed), prediksi kebutuhan kustomer terhadap sebuah produk baru sebagai fungsi dari pembiayaan advertensi, dll.

6. Anomali detectionDeteksi anomali adalah sebuah metode untuk mengidentifikasi observasi karakteristik apa saja yang secara signifikan berbeda dengan data-data lainnya. Observasi-observasi ini disebut juga dengan anomalis atau outliners. Tujuan dari metode ini adalah untuk menemukan anomalis sesungguhnya dan menghindari kesalahan melabelkan obyek biasa sebagai anomalis. Dengan kata lain, sebuah detektor anomalis yang baik tentu saja harus memiliki tingkat deteksi yang tinggi dan tingkat kesalahan yang rendah.

Contoh Penerapan Deteksi Anomali :Contohnya adalah pendeteksian penipuan kartu kredit, gangguan jaringan komputer, pola penyakit yang tidak biasa, dan gangguan ekosistem. Gambar dibawah ini adalah contoh dari gambar deteksi anomaly pada lubang ozon.

Gambar 7. Deteksi Anomali pada Lubang ozon

K-MEANS

1. Pengertian Metode K-MeansData Clustering merupakan salah satu metode Data Mining yang bersifat tanpa arahan (unsupervised). Ada dua jenis data clustering yang sering dipergunakan dalam prosespengelompokan data yaitu hierarchical (hirarki) data clustering dan non-hierarchical (non hirarki) data clustering. K-Means merupakan salah satu metode data clustering non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster/kelompok. Metode ini mempartisi data ke dalam cluster/kelompok sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok yang lain. Adapun tujuan dari data clustering ini adalah untuk meminimalisasikan objective function yang diset dalam proses clustering, yang pada umumnya berusaha meminimalisasikan variasi di dalam suatu cluster dan memaksimalisasikan variasi antar cluster.Data clustering menggunakan metode K-Means ini secara umum dilakukan dengan algoritma dasar sebagai berikut:a. Tentukan jumlah clusterb. Alokasikan data ke dalam cluster secara randomc. Hitung centroid/rata-rata dari data yang ada di masing-masing clusterd. Alokasikan masing-masing data ke centroid/rata-rata terdekate. Kembali ke Step 3, apabila masih ada data yang berpindah cluster atau apabila perubahan nilai centroid, ada yang di atas nilai threshold yang ditentukan atau apabila perubahan nilai pada objective function yang digunakan di atas nilai threshold yang ditentukan.

Dalam tulisan ini beberapa hal terkait dengan metode K-Means ini berusaha untuk dijelaskan, termasuk di antaranya beberapa pengembangan yang telah dilakukan terhadap K-Means, beberapa permasalahan yang harus diperhitungkan dalam menggunakan metode K-Means dalam pengelompokan data, ulasan mengenai keberadaan K-Means di antara metode pengklasifikasian dengan arahan (supervised) dan tanpa arahan (unsupervised), ulasan singkat mengenai metode K-Means untuk dataset yang mempunyai bentuk khusus dan mixture modelling, serta algoritma dari metode-metode pengelompokan yang masih digolongkan sebagai pengembangan metode K-Means.

2. Perkembangan Penerapan K-MeansBeberapa alternatif penerapan K-Means dengan beberapa pengembangan teori-teori penghitungan terkait telah diusulkan. Hal ini termasuk pemilihan:a. Distance space untuk menghitung jarak di antara suatu data dan centroid[1,3,7,8,9]b. Metode pengalokasian data kembali ke dalam setiap cluster[1,3,6,7,8,9,16]c. Objective function yang digunakan[1,3,6,7,8,9,16]

2.1 Distance Space Untuk Menghitung Jarak Antara Data dan CentroidBeberapa distance space telah diimplementasikan dalam menghitung jarak (distance) antara data dan centroid termasuk di antaranya L1 (Manhattan/City Block) distance space, L2 (Euclidean) distance space, dan Lp (Minkowski) distance space. Jarak antara dua titik x1 dan x2 pada Manhattan/City Block distance space dihitung dengan menggunakan rumus sebagai berikut:

dimana:p : Dimensi data| . | : Nilai absolut

Sedangkan untuk L2 (Euclidean) distance space, jarak antara dua titik dihitung menggunakan rumus sebagai berikut[3]:

dimana:p : Dimensi data

Lp (Minkowski) distance space yang merupakan generalisasi dari beberapa distance space yang ada seperti L1 (Manhattan/City Block) dan L2 (Euclidean), juga telah diimplementasikan. Tetapi secara umum distance space yang sering digunakan adalah Manhattan dan Euclidean. Euclidean sering digunakan karena penghitungan jarak dalam distance space ini merupakan jarak terpendek yang bisa didapatkan antara dua titik yang diperhitungkan, sedangkan Manhattan sering digunakan karena kemampuannya dalam mendeteksi keadaan khusus seperti keberadaaan outliers dengan lebih baik.

2.2 Metode Pengalokasian Ulang Data ke Dalam Masing-Masing ClusterSecara mendasar, ada dua cara pengalokasian data kembali ke dalam masing-masing cluster pada saat proses iterasi clustering. Kedua cara tersebut adalah pengalokasian dengan cara tegas (hard), dimana data item secara tegas dinyatakan sebagai anggota cluster yang satu dan tidak menjadi anggota cluster lainnya, dan dengan cara fuzzy, dimana masing-masing data item diberikan nilai kemungkinan untuk bisa bergabung ke setiap cluster yang ada. Kedua cara pengalokasian tersebut diakomodasikan pada dua metode Hard K-Means dan Fuzzy K-Means[3,8,9]. Perbedaan di antara kedua metode ini terletak pada asumsi yang dipakai sebagai dasar pengalokasian.

2.2.1 Hard K-Means Pengalokasian kembali data ke dalam masing-masing cluster dalam metode Hard K-Means didasarkan pada perbandingan jarak antara data dengan centroid setiap cluster yang ada. Data dialokasikan ulang secara tegas ke cluster yang mempunyai centroid terdekat dengan data tersebut. Pengalokasian ini dapat dirumuskan sebagai berikut:

dimana:ik a : Keanggotaan data ke-k ke cluster ke-ii v : Nilai centroid cluster ke-i

2.2.2 Fuzzy K-MeansMetode Fuzzy K-Means (atau lebih sering disebut sebagai Fuzzy C-Means) mengalokasikan kembali data ke dalam masing-masing cluster dengan memanfaatkan teori Fuzzy. Teori ini mengeneralisasikan metode pengalokasian yang bersifat tegas (hard) seperti yang digunakan pada metode Hard K-Means. Dalam metode Fuzzy K-Means dipergunakan variable membership function, ik u , yang merujuk pada seberapa besar kemungkinan suatu data bias menjadi anggota ke dalam suatu cluster. Pada Fuzzy K-Means yang diusulkan oleh Bezdek, diperkenalkan juga suatu variabel m yang merupakan weighting exponent dari membership function. Variabel ini dapat mengubah besaran pengaruh dari membership function, ik u , dalam proses clustering menggunakan metode Fuzzy K-Means. m mempunyai wilayah nilai m>1. Sampai sekarang ini tidak ada ketentuan yang jelas berapa besar nilai m yang optimal dalam melakukan proses optimasi suatu permasalahan clustering. Nilai m yang umumnya digunakan adalah 2.

Membership function untuk suatu data ke suatu cluster tertentu dihitung menggunakan rumus sebagai berikut[3,8,9]:

dimana:ik u: Membership function data ke-k ke cluster ke-ii v : Nilai centroid cluster ke-im : Weighting Exponent

Membership function, ik u , mempunyai wilayah nilai 0 ik u 1. Data item yang mempunyai tingkat kemungkinan yang lebih tinggi ke suatu kelompok akan mempunyai nilai membership function ke kelompok tersebut yang mendekati angka 1 dan ke kelompok yang lain mendekati angka 0.

2.3 Objective Function Yang DigunakanObjective function yang digunakan khususnya untuk Hard K-Means dan Fuzzy K-Means ditentukan berdasarkan pada pendekatan yang digunakan dalam poin 2.1. dan poin 2.2. Untuk metode Hard K-Means, objective function yang digunakan adalah sebagai berikut:

dimana:N : Jumlah datac : Jumlah clusterik a : Keanggotaan data ke-k ke cluster ke-ii v : Nilai centroid cluster ke-i

ik a mempunyai nilai 0 atau 1. Apabila suatu data merupakan anggota suatu kelompok maka nilai ik a =1 dan sebaliknya. Untuk metode Fuzzy K-Means, objective function yang digunakan adalah sebagai berikut[3,8,9]:

dimana:N : Jumlah datac : Jumlah clusterm : Weighting exponentik u : Membership function data ke-k ke cluster ke-ii v : Nilai centroid cluster ke-iDi sini ik u bisa mengambil nilai mulai dari 0 sampai 1.3. Algoritma K-Means3.1 Hard K-MeansMetode Hard K-Means melakukan proses clustering dengan mengikuti algoritma sebagai berikut :a) Tentukan jumlah clusterb) Alokasikan data sesuai dengan jumlah cluster yang ditentukanc) Hitung nilai centroid masing-masing clusterd) Alokasikan masing-masing data ke centroid terdekate) Kembali ke Step c. apabila masih terdapat perpindahan data dari satu cluster ke cluster yang lain, atau apabila perubahan pada nilai centroid masih di atas nilai threshold yang ditentukan, atau apabila perubahan pada nilai objective function masih di atas nilai threshold yang ditentukan.

Untuk menghitung centroid cluster ke-i, i v , digunakan rumus sebagai berikut:

dimana:Ni : Jumlah data yang menjadi anggota cluster ke-i

3.2 Fuzzy K-MeansMetode Fuzzy K-Means melakukan proses clustering dengan mengikuti algoritma sebagai berikut[3,8,9]:a. Tentukan jumlah clusterb. Alokasikan data sesuai dengan jumlah cluster yang ditentukanc. Hitung nilai centroid dari masing-masing clusterd. Hitung nilai membership function masing-masing data ke masing-masing clustere. Kembali ke Step c. apabila perubahan nilai membership function masih di atas nilai threshold yang ditentukan, atau apabila perubahan pada nilai centroid masih di atas nilai threshold yang ditentukan, atau apabila perubahan pada nilai objective function masih di atas nilai threshold yang ditentukan.

Untuk menghitung centroid cluster ke-i, i v , digunakan rumus sebagai berikut

dimana:N : Jumlah datam : Weighting exponentuik : Membership function data ke-k ke cluster ke-i

3.3 Mixture ModellingBerbagai algoritma memungkinkan untuk digunakan dalam memecahkan proses optimasi mixture modelling termasuk di antaranya random search, simulated annealing, Markov Chain Monte Carlo (MCMC) maupun algoritma genetika. Untuk makalah ini, dipaparkan metode random search yang memberikan nilai jumlah cluster secara random di awal setiap proses optimasi. Algoritma yang digunakan adalah sebagai berikut:a. Tentukan jumlah clusterb. Alokasikan data secara random ke masing-masing cluster yang telah ditentukan1. Hitung means (sama dengan centroid pada K-Means) dari masing-masing cluster2. Hitung standar deviasi/variance covariance dari masing-masing cluster3. Hitung nilai probabilitas masing-masing data ke masing-masing cluster4. Kembali ke Step b.1, apabila perubahan nilai probabilitas masih di atas nilai threshold yang ditentukan, atau apabila perubahan pada nilai centroid masih di atas nilai threshold yang ditentukan, atau apabila perubahan pada nilai objective function masih di atas nilai threshold yang ditentukan.c. Kembali ke Step a. apabila masih ada jumlah cluster yang ingin dianalisa.

Dengan asumsi bahwa data terdistribusi secara normal, means cluster ke-i, i , dihitung dengan menggunakan rumus sama dengan metode Fuzzy K-Means dengan uik merupakan nilai probabilitas data tersebut termasuk di dalam cluster ke-i. Sedangkan standar deviasi/variance covariance cluster ke-i, i i , dihitung dengan menggunakan rumus sebagai berikut:

dimana:N : Jumlah data i : Means cluster ke-i

DAFTAR PUSTAKA

http://repository.upi.edu/operator/upload/s_d545_0608075_chapter2.pdfhttp://jurnal.informatika.lipi.go.id/index.php/inkom/article/viewFile/75/53http://haniif.wordpress.com/tag/data-mining/http://dspace.widyatama.ac.id/bitstream/handle/10364/796/bab1-3.pdf?sequence=2http://home.unpar.ac.id/~integral/Volume%207/Integral%207%20No%201/idatamining_ok.pdfhttp://journal.uii.ac.id/index.php/Snati/article/viewFile/753/684http://thesis.binus.ac.id/eColls/eThesisdoc/Bab2/TSA-2010-0069%20bab2.pdf

TUGAS 1_pengantar Data Mining

Documents

Transcript of TUGAS 1_pengantar Data Mining