04 - Teknik Atau Fungsionalitas Data Mining

36
TEKNIK/FUNGSIONAL DATA MINING Deskripsi Estimasi Prediksi Klasifikasi Cluster/Segmentasi Asosiasi Dirangkum Oleh: Annisa Arfani Yusuf, S.SI

description

Pembelajaran Teknik Data Mining

Transcript of 04 - Teknik Atau Fungsionalitas Data Mining

Teknik/fungsional data mining

Teknik/fungsional data miningDeskripsiEstimasiPrediksiKlasifikasiCluster/SegmentasiAsosiasiDirangkum Oleh:Annisa Arfani Yusuf, S.SI

DESKRIPSITerkadang peneliti dan analis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data.Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat menemukan keterangan atau fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam pemilihan presiden.Deskripsi dari pola dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecenderungan.

(Larose dalam Kusrini dan Luthfi, 2009)

Deskripsi (Lanj)Ketika kita diberikan sekumpulan data, kita akan sulit untuk menangkap arti dari kumpulan data tersebut. Sehingga diperlukan cara agar data tersebut mudah dibaca untuk mendapatkan gambaran mengenai data tersebut.Terdapat beberapa cara untuk memberikan gambaran mengenai sekumpulan data secara ringkas.

Deskripsi (Lanj)Deskripsi Grafis mendeskripsikan data dalam bentuk gambar.Diagram TitikHistogram

Deskripsi Lokasi memberikan informasi mengenai data pada posisi tempat tertentu.Mean (Rata-rata)MedianModusKuartil, Desil dan Persentil

Deskripsi Keberagaman memberikan nilai keberagaman pada data.Range (Rentang)Varians dan Standar Deviasi

Deskripsi Deskripsi GrafisDiagram TitikPada diagram ini, setiap data digambarkan sebagai sebuah titikHistogramPada diagram ini, setiap data digambarkan dengan grafis batangan.

Deskripsi Deskripsi LokasiMeskipun deskripsi grafis sudah menggambarkan karakteristik data, sifatnya masih terlalu kasar dan kurang praktis untuk dilakukan. Kita memerlukan angka yang cukup mewakili data dan diperoleh secara praktis daripada grafis.

Deskripsi Deskripsi LokasiMean yakni mengambil nilai rata-rata pada suatu kumpulan data. Rumus:

Median yakni mencari nilai tengah pada satu kumpulan data yang diurutkan.Modus yakni nilai yang paling sering muncul pada suatu kumpulan data.

Deskripsi Deskripsi LokasiKuartil adalah data yang membagi kumpulan data terurut menjadi 4 bagian yang sama. Terdapat tiga macam Kuartil, yakni Kuartil Bawah (Q1), Kuartil Tengah (Q2), dan Kuartil Atas (Q3). Rumus Kuartil untuk Data Tunggal Ganjil:

Desil adalah nilai yang membagi data menjadi 10 bagian yang sama banyak dari data terurut. Rumus Desil untuk Data Tunggal :

Persentil merupakan pembagian data dengan 100 bagian. Rumus Persentil Data Tunggal :

Deskripsi Deskripsi KeberagamanRange (rentang) menyatakan besarnya rentang jarak antara data terkecil dengan data terbesar. Rentang yang besar menandakan bahwa data relatif beragam dan sebaliknya.Varians dan Standar Deviasi. Ukuran varians menggunakan prinsip pencarian jarak antara setiap data dengan pusatnya (mean).Rumus Varians : Standar Deviasi = akar dari variansHasil perhitungan varians dan standar deviasi dari Tabel A dan Tabel B.

Deskripsi Deskripsi Keberagaman Varians dan Standar Deviasi

ESTIMASIKonsep atau algoritma pada estimasi hampir sama dengan klasifikasi, kecuali variabel target lebih ke arah numerik daripada ke arah kategori.Estimasi nilai dari variabel target ditentukan berdasarkan nilai dari variabel prediksi (atribut).Estimasi juga memiliki sedikit persamaan dengan prediksi, yakni untuk memperkirakan suatu hal.Sebagai contoh akan dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan umur pasien, jenis kelamin, indeks berat badan, dan level sodium darah.Algoritma estimasi yang biasa digunakan adalah: Linear Regression, Neural Network, Support Vector Machine.Estimation ExampleEstimasi Performasi CPUExample: 209 different computer configurations

Source : Romi Wahono

0032128CHMAX00816CHMINChannelsPerformanceCache (Kb)Main memory (Kb)Cycle time (ns)45040001000480209673280005124802082693232000800029219825660002561251PRPCACHMMAXMMINMYCT

PREDIKSIPrediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang.Dikatakan hampir sama dengan klasifikasi karena menghasilkan perkiraan yang berbentuk kategorial.Dikatakan hampir sama dengan estimasi karena memiliki sama-sama bersifat perkiraan, hanya saja hasil pada prediksi menunjukkan hasil pada masa yang akan datang.Pada prediksi, data yang digunakan merupakan data rentet waktu (data time series).Algoritma yang sering digunakan Algoritma C4.5, Neural Network, dan seluruh algoritma yang dapat digunakan untuk estimasi.

Contoh Kasus PrediksiPrediksi potensi akademik mahasiswa yang akan datang berdasarkan nilai IPK mahasiswa selama beberapa semester.Prediksi harga beras dalam tiga bulan yang akan datang.Prediksi persentase kenaikan kecelakaan lalu lintas tahun depan jika batas bawah kecepatan dinaikan.Prediksi potensi penjualan barang-barang elektronik tahun depan berdasarkan penjualan tiga tahun sebelumnya.Prediksi harga saham dalam beberapa bulan ke depan berdasarkan performansi perusahaan dan data-data ekonomi.Source: http://www.geo.mtu.edu

Time-Series Data

Forecast GraphicKLASIFIKASIKlasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia.Dalam klasifikasi ada dua pekerjaan utama yang dilakukan, yaitu : pembangunan model sebagai prototipe untuk disimpan sebagai memori.penggunaan model tersebut untuk melakukan pengenalan/klasifikasi/prediksi pada suatu objek data lain agar dapat diketahui di kelas mana objek data tersebut dalam model yang sudah disimpannya.Contoh : bagaimana melakukan diagnosis penyakit kulit kanker melanoma, yaitu dengan melakukan pembangunan model berdasarkan data latih (data training) yang ada, kemudian menggunakan model tersebut untuk mengidentifikasi penyakit pasien baru sehingga diketahui apakah pasien tersebut menderita kanker atau tidak.Algoritma yang sering digunakan : Nave Bayes, K-Nearest Neighbor, C4.5 Algorithm, Artificial Neural Network, dll.

Masukan Data Latih (x,y)Pembangunan ModelMasukan Data Uji (x,?)Keluaran Data Uji (x,y)Algoritma PelatihanPeneriapan ModelProses pekerjaan klasifikasiBerdasarkan gambar Proses Pekerjaan Klasifikasi, diketahui terdapat dua langkah proses didalamnya, yakni:

InduksiDeduksiLangkah membangun model klasifikasi dari data latih yang diberikan, disebut juga proses pelatihanLangkah untuk menerapkan model tersebut pada data uji sehingga kelas yang sesungguhnya dari data uji dapat diketahui, disebut juga proses prediksi.

Sebuah sistem klasifikasi diharapkan dapat melakukan klasifikasi seluruh dataset dengan benar, tetapi tidak dapat dimungkiri bahwa kinerja suatu sistem tidak bisa 100% benar, sehingga sistem klasifikasi juga harus diukur kinerjanya!Pengukuran Kinerja KlasifikasiGunakan Matriks Konfusi!

SOLUSIMatriks konfusi merupakan tabel pencatat hasil kerja klasifikasi.Contoh : Matriks konfusi yang melakukan klasifikasi masalah biner (dua kelas)Kuantitas matriks konfusi dapat diringkas menjadi dua nilai, yaitu akurasi dan laju erorJumlah data yang diklasifikasi secara benar dapat digunakan untuk mengetahui akurasi hasil prediksi.Jumlah data yang diklasifikasi secara salah dapat digunakan untuk mengetahui laju eror hasil prediksi.

Contoh Studi Kasus Klasifikasi

Petugas peminjaman uang di sebuah bank memprediksi pemohon mana yang aman dan mana yang beresiko untuk diberi pinjamanPara petani menentukan jagung produktif dan jagung non-produktifMengklasifikasi pasien pengidap penyakit kanker dan yang tidak mengidap penyakit kanker.Periset di bidang medis memprediksi jenis pengobatan apa yang cocok diberikan kepada seorang pasien dengan penyakit tertentu.

CLUSTERRING (PENGELOMPOKAN)Clusterring merupakan pengelompokan record, pengamatan, atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan.Cluster adalah kumpulan record yang memiliki kemiripan satu dengan yang lainnya dan memiliki kemiripan dengan record-record dalam cluster lain.Clusterring kadang juga disebut segmentation atau partitioning.Label kelas telah diketahui. (supervised classification)Label kelas setiap data belum diketahui. (unsupervised classification)Klasifikasi vs ClusterringPengelompokan yang melakukan pemisahan/pemecahan/segmentasi data ke dalam sejumlah kelompok menurut karakteristik tertentu yang diinginkan. Pengelompokan diharapkan dapat diketahui kelompok data kemudian diberi label sesuai keinginan

Itulah Clusterring!

Gambaran ClusterringHasil pengelompokan yang berbeda untuk data yang sama (Prasetyo, 2012)Tujuan ClusterringProses pengelompokan hanyalah sebagai proses awal kemudian dilanjutkan dgn pengerjaan inti seperti summarization, pelabelan kelas pada setiap kelompok, dsb.Tujuan utamanya mencari prototipe kelompok yang paling representatif terhadap data, memberikan abstraksi dari setiap objek data dalam kelompok di mana sebuah data terletak di dalamnya.PemahamanPenggunaanBiologiInformation RetrievalBisnisSummarizationKompresiPencarian tetangga terdekat secara efisienMengelompokan hewan menurut karakter tertentu secara hierarkis (spesies, genus, suku, ordo, kelas, filum, kerajaan)Mengelompokkan kata kunci misalnya movie diberikan hasil halaman yg dibedakan dalam kategori seperti genre, stars, theaters, dsbMemecah pelanggan ke dalam kelompok-kelompok kecil untuk analisis dan strategi pemasaranMembuat prototipe yang dapat mewakili kondisi seluruh data, misalnya mengambil rata-rata dan standar deviasi dari suatu data.Data-data dalam kelompok yg sama dapat dikompresi dan diwakili oleh indeks prototipe dari tiap kelompok. Setiap objek direpresentasikan dgn indeks prototipe yg dikaitkan dgn sebuah kelompok.Komputasi pencarian tetangga terdekat dapat digantikan dengan prototipe terrdekat. Hal ini dapat mengurangi waktu komputasi secara signifikan.Contoh :Contoh :Jenis-jenis ClusterringMenurut strukturMenurut keanggotaan data dalam kelompokMenurut kategori kekompakanPengelompokan HierarkiPengelompokan PartitioningEksklusifTumpang tindihKompletParsialSatu data tunggal bisa dianggap sebuah kelompok, dua atau lebih kelompok kecil dapat bergabung menjadi sebuah kelompok besar, dst hingga membentuk sebuah kelompokMembagi set data ke dalam sejumlah kelompok yang tidak overlap antara satu kelompok dengan kelompok yang lain. Artinya setiap data hanya menjadi anggota satu kelompok. Algoritma : K-Means dan DBSCANSebuah data dipastikan hanya menjadi anggota satu kelompok dan tidak menjadi anggota kelompok yang lain.Algoritma : K-Means dan DBSCANMembolehkan sebuah data menjadi anggota di lebih dari satu kelompok.Algoritma : Fuzzy C-Means, pengelompokan hierarki.Jika semua data bisa bergabung menjadi satu (dalam konteks penyekatan), bisa dikatakan semua data kompak menjadi satu kelompok. Namun jika ada satu atau dua (sedikit) data yang tidak ikut bergabung dalam kelompok mayoritas, data tersebut dikatakan memiliki perilaku menyimpang, yang dikenal sebagai outlier, noise, atau uninterested background.Penerapan ClusterringKedokteranMengelompokan jenis-jenis penyakit berbahaya berdasarkan karakteristik/sifat-sifat penyakit pasienKesehatanMengelompokan jenis-jenis makanan berdasarkan kandungan kalori, vitamin, dan protein.KlimatologiMengetahui pola angin dan kondisi cuaca di udara sehingga bisa diketahui wilayah-wilayah yang rentan terhadap cuaca buruk, dan sebagainya.PemasaranMendapatkan kelompok-kelompok konsumen untuk target pemasaran dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran yang besarBiologiMelakukan pengelompokan terhadap ekspresi dari gen, untuk mendapatkan kemiripan perilaku dari gen dalam jumlah besar

ASOSIASI

Contohnya adalah transaksi di supermarket. Misalnya pelanggan ibu rumah tangga yang membeli minyak, susu, dan telur, jarang menyertai pembelian tersebut dengan buku dan topi.Seseorang yang membeli susu bayi juga membeli sabun bayi.Asosiasi atau yang sering disebut sebagai Association rules (Aturan asosiasi) berkenaan dengan studi mengenai apa bersama apa.Association rules juga sering dinamakan market basket analysis karena berasal dari studi tentang database transaksi pelanggan untuk menentukan kebiasaan suatu produk dibeli bersama dengan produk apa.29

Kegunaan Mengetahui Pola Pembelian PelangganManajemen dapat membuat keputusan kapan waktu yang tepat untuk promosi barangBagaimana strategi untuk menghabiskan barang yang kurang lakuManajemen pembelian barang yang sebaiknya dibeli bersama-samaMeningkatkan strategi dengan cara memberikan bonus satu barang jika melakukan pembelian barang lain.

30IDTItem1Telur, Beras2Minyak, Topi, Beras, Telur3Telur, Minyak, Beras, Buku4Buku, Minyak, Topi5Beras, Telur, Topi, Minyak6Telur, Minyak, Beras7Telur, Minyak, Buku8Beras, BukuIDTBerasBukuMinyakTelurTopi110010210111311110401101510111610110701110811000Data Transaksi Keranjang BelanjaRepresentasi Biner untuk Data Keranjang BelanjaTabel TransaksiSifat penting dalam itemset (kumpulan item di keranjang belanja dalam jumlah kosong atau lebih) adalah support count, yang didefinisikan sebagai jumlah transaksi yang berisi itemset tertentu.Contoh :

Support count untuk {Beras, Minyak} adalah 4, karena ada 4 transaksi yang berisi {Beras, Minyak}Association rule adalah pernyataan implikasi bentuk X Y , di mana X disebut antecedent dan B disebut consequent.Kekuatan assocation rule dapat diukur dengan support dan confidence.

Support digunakan untuk menentukan seberapa banyak aturan dapat diterapkan pada set data !!Confidence digunakan untuk menentukan seberapa sering item di dalam Y muncul dalam transaksi berisi X !!RUMUSContoh:X = {Beras, Telur} , Y = {Minyak}XY = {Beras, Telur, Minyak} ada 4N (total transaksi) = 8

s(XY) = 4/8 = 0.5c(XY) = 4/5 = 0.8Apakah Support dan Confidence ?{roti,mentega} {susu} (support = 40%, confidence = 50%) Artinya : 50% dari transaksi di database yang memuat item roti dan mentega juga memuat item susu. Sedangkan 40% dari seluruh transaksi yang ada di database memuat ketiga item tersebut"Seorang konsumen yang membeli roti dan mentega punya kemungkinan 50% untuk juga membeli susu. Aturan tersebut cukup akurat karena mewakili 40% dari catatan transaksi yang ada."Analisis asosiasi didefinisikan suatu proses untuk menemukan semua aturan asosiasi yang memenuhi syarat minimum untuk support (minimum support/minsup = minsup) dan syarat minimum untuk confidence (minimum confidence/mincof = mincof).Strategi umum yang diadopsi oleh banyak algoritma penggalian aturan asosiasi adalah memecah masalah ke dalam dua pekerjaan utama, yaitu:frequent itemset generation tujuannya adalah mencari semua itemset yang memenuhi ambang batas minsup. Itemset itu disebut itemset frekuen (itemset yang paling sering muncul).rule generation tujuannya adalah mengekstrak aturan dengan confidence tinggi dari itemset frekuen yang ditemukan dalam langkah sebelumnya. Aturan ini kemudian disebut aturan yang kuat (strong rule).SumberAB, Adam. Data Mining I. Bahan Ajar. Universitas Darma Persada http://mynameadam.files.wordpress.com/2012/11/dataminingi_p12-compatibility-mode.pdf Kusrini dan Luthfi. 2009. Algoritma Data Mining. Yogyakarta: ANDIPrasetyo, Eko. 2012. DATA MINING Konsep dan Aplikasi Menggunakan MATLAB. Yogyakarta: ANDISantosa, Budi. 2007. DATA MINING: Teknik Pemanfaatan Data untuk Keperluan Bisnis. Yogyakarta: Graha IlmuWahono, Romi. Bahan Ajar http://lintang.staff.gunadarma.ac.id/Downloads/files/34245/Introduction_DM_RSW_1.pdf To Be Continued