Data Preprocessing dengan...
-
Upload
phungthien -
Category
Documents
-
view
233 -
download
1
Transcript of Data Preprocessing dengan...
Data Preprocessing dengan RapidMiner
Budi Susanto
RapidMiner - Budi Susanto
Kenali Data Anda • Atribut Data
o Memahami tipe atribut
o Membantu membetulkan data saat integrasi data
• Deskripsi Statistik Data o Memudahkan untuk mengisi nilai yang kosong,
o memperhalus noise data,
o mengetahui outlier selama pemrosesan data
• Mengukur Kesamaan dan ketidaksamaan o Dapat berguna juga untuk mendeteksi outlier
o Untuk melakukan klasifikasi
o Pada umumnya untuk mengukur “kedekatan”.
RapidMiner - Budi Susanto
Data • Data yang ada pada umumnya:
o Banyak noise
o Ukuran yang besar
o Dapat merupakan campuran dari berbagai macam sumber
• Memahami data sangat penting untuk tahap
preprosesing.
RapidMiner - Budi Susanto
Atribut Data • Mencerminkan karakteristik objek data.
• Tipe atribut menentukan himpunan nilai yang
diperbolehkan. o Nominal
o Binary (Binomial)
o Ordinal
o Numerik
• Interval-scale
• Ratio-scale
o Diskret atau Continue
RapidMiner - Budi Susanto
Deskripsi Statistik • Mengukur lokasi pusat/tengah dari distribusi data
o Mean
o Median
o Mode
o Midrange
Data Mining: Concepts and Techniques, 3th ed., p. 47 RapidMiner - Budi Susanto
Deskripsi Statistik • Mengukur penyebaran data
o Rentang dan Kuartil
o Variasi dan Standard Deviasi
Data Mining: Concepts and Techniques, 3th ed., p. 48 RapidMiner - Budi Susanto
BoxPlot • Interquartil Range (IQR)
o Q3 – Q1
• Outlier data o 1.5 x IQR
RapidMiner - Budi Susanto
Mengukur Kesamaan • Dalam aplikasi data mining, seperti clustering,
analisis outlier, klasifikasi nearest-neighbor,
membutuhkan cara untuk menilai dua objek data
serupa atau tidak. o Minkwoski distance
• Euclidean dan Manhattan
o Cosine
RapidMiner - Budi Susanto
Mengukur Kesamaan
RapidMiner - Budi Susanto
Data Preprocessing • Teknik-teknik:
o Data Cleaning
o Data integration
o Data Reduction
o Data Transformation
• Mengapa penting? o Untuk memenuhi data quality
• Accuracy
• Completeness
• Consistency
o Disamping terdapat faktor data quality lain:
• Timeliness
• Believability
• interpretability
RapidMiner - Budi Susanto
Data Cleaning • Proses untuk membersihkan data dengan
beberapa teknik o Memperkecil noise
o membetulkan data yang tidak konsisten.
o Mengisi missing value
o Mengidentifikasi atau membuang outlier
RapidMiner - Budi Susanto
Data Cleaning: Missing Values • Mengabaikan record
o Biasanya untuk label klasifikasi yang kosong
• Mengisikan secara manual
• Menggunakan mean/median dari atribut yang
mengandung missing value o Mean dapat dipakai jika distribusi data normal
o Median digunakan jika distribusi data tidak normal (condong)
• Menggunakan nilai global
• Menggunakan nilai termungkin o Menerapkan regresi
RapidMiner - Budi Susanto
Data Cleaning: Noisy Data • Noise data adalah suatu kesalahan acak atau
variasi dalam variabel terukur.
• Teknik-teknik o Binning
• Smoothing by bin means
• Smoothing by bin medians
• Smoothing by bin boundaries
o Regression
o Outlier Analysis
RapidMiner - Budi Susanto
Percobaan Data Cleaning • Dataset
o Labor-Negotiations
RapidMiner - Budi Susanto
Workflow #1
RapidMiner - Budi Susanto
Data Integration • Data dapat bersumber dari beberapa sumber
• Teknik o Analisis korelasi
o Atribut redundan
o duplikasi
RapidMiner - Budi Susanto
Covariance Correlation
RapidMiner - Budi Susanto
Data Transformation • Tujuannya: diharapkan lebih efisien dalam proses
data mining dan mungkin juga agar pola yang
dihasilkan lebih mudah dipahami.
• Strategi: o Smoothing
o Attribute (feature) construction
o Aggregation
o Normalization
o Discretization
RapidMiner - Budi Susanto
Data Transformation: Aggregation
dan Smoothing
RapidMiner - Budi Susanto
Data Transformation:
Normalization • Unit ukuran dapat mempengaruhi analisis data.
• Unit yang lebih kecil akan menghasilkan rentang
nilai yang besar o Atribut akan memiliki “bobot” yang lebih besar dari atribut lain
• Sehingga o Data perlu dinormalisasi atau dibakukan.
• Hasil suatu normalisasi adalah [-1, 1] atau [0.0, 1.0]
• Diperlukan dalam klasifikasi (termasuk neural
network dan nearest network) dan clustering.
RapidMiner - Budi Susanto
Data Transformation: Metode
Normalization • Min-max
• Z-score
• Decimal scaling
RapidMiner - Budi Susanto
normalization
RapidMiner - Budi Susanto
Data Transformation:
Discretization • Melakukan pergantian atribut numerik menjadi
interval label (misalnya: 0-10,11-20, dst.) atau
konseptual label (misalnya: bawah, tengah, atas)
RapidMiner - Budi Susanto
discretization
RapidMiner - Budi Susanto
Data Transformation: Data
Reduction • Teknik
o Dimensionality reduction
• Wavelet transform
• Principal Component Analysis
• Attribute Subset Selection
o Numerosity reduction
• sampling
o Data compression
RapidMiner - Budi Susanto