Data Preprocessing dengan...

25
Data Preprocessing dengan RapidMiner Budi Susanto RapidMiner - Budi Susanto

Transcript of Data Preprocessing dengan...

Page 1: Data Preprocessing dengan RapidMinerlecturer.ukdw.ac.id/budsus/pdf/textwebmining_gasal2012/minggu2.pdf · RapidMiner - Budi Susanto . Data • Data yang ada pada umumnya: o Banyak

Data Preprocessing dengan RapidMiner

Budi Susanto

RapidMiner - Budi Susanto

Page 2: Data Preprocessing dengan RapidMinerlecturer.ukdw.ac.id/budsus/pdf/textwebmining_gasal2012/minggu2.pdf · RapidMiner - Budi Susanto . Data • Data yang ada pada umumnya: o Banyak

Kenali Data Anda • Atribut Data

o Memahami tipe atribut

o Membantu membetulkan data saat integrasi data

• Deskripsi Statistik Data o Memudahkan untuk mengisi nilai yang kosong,

o memperhalus noise data,

o mengetahui outlier selama pemrosesan data

• Mengukur Kesamaan dan ketidaksamaan o Dapat berguna juga untuk mendeteksi outlier

o Untuk melakukan klasifikasi

o Pada umumnya untuk mengukur “kedekatan”.

RapidMiner - Budi Susanto

Page 3: Data Preprocessing dengan RapidMinerlecturer.ukdw.ac.id/budsus/pdf/textwebmining_gasal2012/minggu2.pdf · RapidMiner - Budi Susanto . Data • Data yang ada pada umumnya: o Banyak

Data • Data yang ada pada umumnya:

o Banyak noise

o Ukuran yang besar

o Dapat merupakan campuran dari berbagai macam sumber

• Memahami data sangat penting untuk tahap

preprosesing.

RapidMiner - Budi Susanto

Page 4: Data Preprocessing dengan RapidMinerlecturer.ukdw.ac.id/budsus/pdf/textwebmining_gasal2012/minggu2.pdf · RapidMiner - Budi Susanto . Data • Data yang ada pada umumnya: o Banyak

Atribut Data • Mencerminkan karakteristik objek data.

• Tipe atribut menentukan himpunan nilai yang

diperbolehkan. o Nominal

o Binary (Binomial)

o Ordinal

o Numerik

• Interval-scale

• Ratio-scale

o Diskret atau Continue

RapidMiner - Budi Susanto

Page 5: Data Preprocessing dengan RapidMinerlecturer.ukdw.ac.id/budsus/pdf/textwebmining_gasal2012/minggu2.pdf · RapidMiner - Budi Susanto . Data • Data yang ada pada umumnya: o Banyak

Deskripsi Statistik • Mengukur lokasi pusat/tengah dari distribusi data

o Mean

o Median

o Mode

o Midrange

Data Mining: Concepts and Techniques, 3th ed., p. 47 RapidMiner - Budi Susanto

Page 6: Data Preprocessing dengan RapidMinerlecturer.ukdw.ac.id/budsus/pdf/textwebmining_gasal2012/minggu2.pdf · RapidMiner - Budi Susanto . Data • Data yang ada pada umumnya: o Banyak

Deskripsi Statistik • Mengukur penyebaran data

o Rentang dan Kuartil

o Variasi dan Standard Deviasi

Data Mining: Concepts and Techniques, 3th ed., p. 48 RapidMiner - Budi Susanto

Page 7: Data Preprocessing dengan RapidMinerlecturer.ukdw.ac.id/budsus/pdf/textwebmining_gasal2012/minggu2.pdf · RapidMiner - Budi Susanto . Data • Data yang ada pada umumnya: o Banyak

BoxPlot • Interquartil Range (IQR)

o Q3 – Q1

• Outlier data o 1.5 x IQR

RapidMiner - Budi Susanto

Page 8: Data Preprocessing dengan RapidMinerlecturer.ukdw.ac.id/budsus/pdf/textwebmining_gasal2012/minggu2.pdf · RapidMiner - Budi Susanto . Data • Data yang ada pada umumnya: o Banyak

Mengukur Kesamaan • Dalam aplikasi data mining, seperti clustering,

analisis outlier, klasifikasi nearest-neighbor,

membutuhkan cara untuk menilai dua objek data

serupa atau tidak. o Minkwoski distance

• Euclidean dan Manhattan

o Cosine

RapidMiner - Budi Susanto

Page 9: Data Preprocessing dengan RapidMinerlecturer.ukdw.ac.id/budsus/pdf/textwebmining_gasal2012/minggu2.pdf · RapidMiner - Budi Susanto . Data • Data yang ada pada umumnya: o Banyak

Mengukur Kesamaan

RapidMiner - Budi Susanto

Page 10: Data Preprocessing dengan RapidMinerlecturer.ukdw.ac.id/budsus/pdf/textwebmining_gasal2012/minggu2.pdf · RapidMiner - Budi Susanto . Data • Data yang ada pada umumnya: o Banyak

Data Preprocessing • Teknik-teknik:

o Data Cleaning

o Data integration

o Data Reduction

o Data Transformation

• Mengapa penting? o Untuk memenuhi data quality

• Accuracy

• Completeness

• Consistency

o Disamping terdapat faktor data quality lain:

• Timeliness

• Believability

• interpretability

RapidMiner - Budi Susanto

Page 11: Data Preprocessing dengan RapidMinerlecturer.ukdw.ac.id/budsus/pdf/textwebmining_gasal2012/minggu2.pdf · RapidMiner - Budi Susanto . Data • Data yang ada pada umumnya: o Banyak

Data Cleaning • Proses untuk membersihkan data dengan

beberapa teknik o Memperkecil noise

o membetulkan data yang tidak konsisten.

o Mengisi missing value

o Mengidentifikasi atau membuang outlier

RapidMiner - Budi Susanto

Page 12: Data Preprocessing dengan RapidMinerlecturer.ukdw.ac.id/budsus/pdf/textwebmining_gasal2012/minggu2.pdf · RapidMiner - Budi Susanto . Data • Data yang ada pada umumnya: o Banyak

Data Cleaning: Missing Values • Mengabaikan record

o Biasanya untuk label klasifikasi yang kosong

• Mengisikan secara manual

• Menggunakan mean/median dari atribut yang

mengandung missing value o Mean dapat dipakai jika distribusi data normal

o Median digunakan jika distribusi data tidak normal (condong)

• Menggunakan nilai global

• Menggunakan nilai termungkin o Menerapkan regresi

RapidMiner - Budi Susanto

Page 13: Data Preprocessing dengan RapidMinerlecturer.ukdw.ac.id/budsus/pdf/textwebmining_gasal2012/minggu2.pdf · RapidMiner - Budi Susanto . Data • Data yang ada pada umumnya: o Banyak

Data Cleaning: Noisy Data • Noise data adalah suatu kesalahan acak atau

variasi dalam variabel terukur.

• Teknik-teknik o Binning

• Smoothing by bin means

• Smoothing by bin medians

• Smoothing by bin boundaries

o Regression

o Outlier Analysis

RapidMiner - Budi Susanto

Page 14: Data Preprocessing dengan RapidMinerlecturer.ukdw.ac.id/budsus/pdf/textwebmining_gasal2012/minggu2.pdf · RapidMiner - Budi Susanto . Data • Data yang ada pada umumnya: o Banyak

Percobaan Data Cleaning • Dataset

o Labor-Negotiations

RapidMiner - Budi Susanto

Page 15: Data Preprocessing dengan RapidMinerlecturer.ukdw.ac.id/budsus/pdf/textwebmining_gasal2012/minggu2.pdf · RapidMiner - Budi Susanto . Data • Data yang ada pada umumnya: o Banyak

Workflow #1

RapidMiner - Budi Susanto

Page 16: Data Preprocessing dengan RapidMinerlecturer.ukdw.ac.id/budsus/pdf/textwebmining_gasal2012/minggu2.pdf · RapidMiner - Budi Susanto . Data • Data yang ada pada umumnya: o Banyak

Data Integration • Data dapat bersumber dari beberapa sumber

• Teknik o Analisis korelasi

o Atribut redundan

o duplikasi

RapidMiner - Budi Susanto

Page 17: Data Preprocessing dengan RapidMinerlecturer.ukdw.ac.id/budsus/pdf/textwebmining_gasal2012/minggu2.pdf · RapidMiner - Budi Susanto . Data • Data yang ada pada umumnya: o Banyak

Covariance Correlation

RapidMiner - Budi Susanto

Page 18: Data Preprocessing dengan RapidMinerlecturer.ukdw.ac.id/budsus/pdf/textwebmining_gasal2012/minggu2.pdf · RapidMiner - Budi Susanto . Data • Data yang ada pada umumnya: o Banyak

Data Transformation • Tujuannya: diharapkan lebih efisien dalam proses

data mining dan mungkin juga agar pola yang

dihasilkan lebih mudah dipahami.

• Strategi: o Smoothing

o Attribute (feature) construction

o Aggregation

o Normalization

o Discretization

RapidMiner - Budi Susanto

Page 19: Data Preprocessing dengan RapidMinerlecturer.ukdw.ac.id/budsus/pdf/textwebmining_gasal2012/minggu2.pdf · RapidMiner - Budi Susanto . Data • Data yang ada pada umumnya: o Banyak

Data Transformation: Aggregation

dan Smoothing

RapidMiner - Budi Susanto

Page 20: Data Preprocessing dengan RapidMinerlecturer.ukdw.ac.id/budsus/pdf/textwebmining_gasal2012/minggu2.pdf · RapidMiner - Budi Susanto . Data • Data yang ada pada umumnya: o Banyak

Data Transformation:

Normalization • Unit ukuran dapat mempengaruhi analisis data.

• Unit yang lebih kecil akan menghasilkan rentang

nilai yang besar o Atribut akan memiliki “bobot” yang lebih besar dari atribut lain

• Sehingga o Data perlu dinormalisasi atau dibakukan.

• Hasil suatu normalisasi adalah [-1, 1] atau [0.0, 1.0]

• Diperlukan dalam klasifikasi (termasuk neural

network dan nearest network) dan clustering.

RapidMiner - Budi Susanto

Page 21: Data Preprocessing dengan RapidMinerlecturer.ukdw.ac.id/budsus/pdf/textwebmining_gasal2012/minggu2.pdf · RapidMiner - Budi Susanto . Data • Data yang ada pada umumnya: o Banyak

Data Transformation: Metode

Normalization • Min-max

• Z-score

• Decimal scaling

RapidMiner - Budi Susanto

Page 22: Data Preprocessing dengan RapidMinerlecturer.ukdw.ac.id/budsus/pdf/textwebmining_gasal2012/minggu2.pdf · RapidMiner - Budi Susanto . Data • Data yang ada pada umumnya: o Banyak

normalization

RapidMiner - Budi Susanto

Page 23: Data Preprocessing dengan RapidMinerlecturer.ukdw.ac.id/budsus/pdf/textwebmining_gasal2012/minggu2.pdf · RapidMiner - Budi Susanto . Data • Data yang ada pada umumnya: o Banyak

Data Transformation:

Discretization • Melakukan pergantian atribut numerik menjadi

interval label (misalnya: 0-10,11-20, dst.) atau

konseptual label (misalnya: bawah, tengah, atas)

RapidMiner - Budi Susanto

Page 24: Data Preprocessing dengan RapidMinerlecturer.ukdw.ac.id/budsus/pdf/textwebmining_gasal2012/minggu2.pdf · RapidMiner - Budi Susanto . Data • Data yang ada pada umumnya: o Banyak

discretization

RapidMiner - Budi Susanto

Page 25: Data Preprocessing dengan RapidMinerlecturer.ukdw.ac.id/budsus/pdf/textwebmining_gasal2012/minggu2.pdf · RapidMiner - Budi Susanto . Data • Data yang ada pada umumnya: o Banyak

Data Transformation: Data

Reduction • Teknik

o Dimensionality reduction

• Wavelet transform

• Principal Component Analysis

• Attribute Subset Selection

o Numerosity reduction

• sampling

o Data compression

RapidMiner - Budi Susanto