PERTEMUAN4 - univbsi.idunivbsi.id/pdf/2014/602/602-P04.pdf(data preprocessing) Data dalam Knowledge...

PERTEMUAN 4

KUALITAS DATA

Permasalahan kualitas data ditinjau dari aspek pengukurandata dan pengumpulan data:

Kesalahan Pengukuran (Measurement Error)

Mengacu pada permasalahan hasil dari proses pengukuran. Problem yang terjadiadalah nilai yang dicatat berbeda dari nilai sebenarnya untuk beberapa tingkat. Pada atribut kontinyu, beda numerik dari hasil pengukuran dengan nilaisebenarnya disebut dengan “error”.

Yang termasuk dalam jenis kesalahan pengukuran adalah:

Noise: Merupakan komponen random dari suatu error pengukuran. Noise berkaitan dengan dengan modifikasi dari nilai asli. Contoh: Distorsi ataupenyimpangan dari suara orang saat berbicara ditelepon buruk dan “snow” pada layar televisi

Bias: Adalah suatu variasi pengukuran dari kuantitas yang sedang diukurdengan pengurangan antara mean dan nilai kuantitas yang diketahui

Permasalahan kualitas data ditinjau dari aspek pengukurandata dan pengumpulan data (Lanjutan)

Precision: Adalah kedekatan dari pengukuran berulang (dari kuantitas yang sama) satu dengan yang lainnya. Diukur dengan standard deviasi

Accuracy: Adalah kedekatan pengukuran terhadap nilai sebenarnya dari kuantitas yang sedang diukur

Perbedaan bias dan precision dapat dicontohkan pada soal berikut:

Kita mempunyai berat standar lab suatu benda adalah 1 gram, dan kita ingin menghitung precision dan bias dari skala benda dari hasil pengukuran yang baru. Kita melakukan pengukuran sebanyak 5 kali dan memperoleh {1.015, 0.990, 1.013, 1.001, 0.986}

Jawab:

Mean = (1.015 + 0.990 + 1.013 + 1.001 + 0.986)/5 = 1.001

Bias = 1.001 – 1 = 0.001

Precision =

(1.015 − 1.001)�+(0.990 − 1.001)�+(1.013 − 1.001)�+(1.001 − 1.001)�+(0.986 − 1.001)�4

= 0.000171

Permasalahan kualitas data ditinjau dari aspek pengukurandata dan pengumpulan data (Lanjutan) :

Permasalahan kualitas data ditinjau dari aspek pengukurandata dan pengumpulan data (Lanjutan):

Kesalahan Pengumpulan (Collection Error)

Mengacu pada kesalahan-kesalahan (error) seperti hilangnya objek data ataunilai atribut, atau lingkup objek data yang tidak tepat.

Yang termasuk dalam jenis kesalahan pengumpulan adalah:

Outliers: Adalah objek data dengan sifat yang berbeda sekali dari kebanyakanobjek data dalam data-set

Missing Value: Merupakan nilai dari suatu atribut yang tidak ditemukan.

Alasan terjadinya missing value adalah:

– Informasi tidak diperoleh (misal, orang-orang menolak untuk memberikan informasi umur dan berat badan)

– Atribut yang mungkin tidak bisa diterapkan ke semua kasus (misal, pendapatan tahunan tidak bisa diterapkan pada anak-anak)

– Duplicate data: data-set mungkin terdiri dari objek data yang ganda (duplikat), atau hamper selalu terjadi duplikasi antara satu dengan yang lainnya. Persoalan utama ketika menggabungkan data dari sumber-sumber yang bervariasi (heterogen).

Contoh: orang yang sama dengan alamat email yang lebih dari satu. Pembersihan data (data cleaning) merupakan proses yang berkaitan dengan permasalahan data yang duplikat.


Penanganan missing value adalah dengan:

• Mengurangi objek data

• Memperkirakan missing values

• Mengabaikan missing values pada saat analisis

• Mengganti dengan semua nilai yang mungkin (tergantung probabilitasnya)


Pengolahan awal data(data preprocessing)

Data dalam Knowledge Discovery in Database (KDD) mengalami beberapa prosespengolahan. Sebelum diterapkan algoritma data mining terhadap sebuah data-set,perlu dilakukan pengolahan awal yang bertujuan untuk mendapatkan data-set yangdapat diolah dengan cepat dan menghasilkan kesimpulan yang tepat. Beberapaproses pengolahan awal adalah:

Proses pengumpulan (aggregation)

Penarikan contoh (sampling)

Pengurangan dimensi (dimensionality reduction)

Pemilihan fitur (feature subset selection)

Pembuatan fitur (feature creation)

Pendiskritan dan pembineran (discretization and binarization)

Transformasi atribut (attribute transformation)

Pengumpulan (aggregation)

Proses pengumpulan (aggregation) adalah proses mengkombinasikandua atau lebih atribut-atribut atau objek-objek kedalam satu atributtunggal atau objek. Misalkan sebuah data-set yang berisi data transaksiyang mencatat penjualan harian dari produk-produk dibanyak lokasitoko Indomaret, seperti terlihat pada table berikut:

No_transaksi Nama Barang Lokasi toko Tanggal Harga

..... ...... ...... ...... .....

1001122 Supermie ayam Semolowaru 1 12-3-2016 2000

1001122 Gula 1 kg Semolowaru 1 12-3-2016 14000

1001123 Buku tulis antik Ketintang 1 12-3-2016 8000

..... ...... ...... ...... .....

Pengumpulan (aggregation)

Proses pengumpulan (aggregation) dilakukan untuk mendapatkan sebuah transaksi aggregasi terhadap data pada tabel tsb, misal untuk mendapatkan informasi penjualan harian untuk satu lokasi toko saja atau untuk melihat transaksi harian satu buah produk saja. Pada proses agregasi, atribut kuantitatif seperti harga dapat digabungkan atau dikombinasikan dengan operasi sum ataupun rata-rata.

Tujuan dari proses agregasi:

• Pengurangan data (data reduction), yaitu mengurangi jumlah atribut atau objek

• Perubahan skala, misalkan kota yang dikumpulkan atau digabungkan kedalam daerah, propinsi, Negara, dsb

• Lebih menstabilkan data. Data-data yang digabungkan cenderung lebih sedikit variasinya.

Penarikan contoh (sampling)

Penarikan contoh (sampling) merupakan teknik utama yang digunakan untuk seleksi data. Proses ini sering digunakan untuk persiapan penyelidikan dan analisis data akhir.

Penarikan contoh digunakan dalam data mining karena pengolahan himpunan data yang diinginkan secara keseluruhan sangat mahal atau menghabiskan waktu.

Prinsip utama untuk penarikan contoh yang efektif adalah:

• Menggunakan suatu contoh yang akan dapat bekerja hampir sebaik penggunaan data-set keseluruhan, jika contoh tersebut representatif (bersifat mewakili)

• Suatu contoh dikatakan representatif jika paling tidak mempunyai sifat yang sama (dengan yang diperhatikan) sebagai himpunan data asli

Penarikan contoh (sampling) Lanjutan

Ada beberapa tipe penarikan contoh, yaitu:

• Penarikan contoh acak sederhana. Kemungkinan ada suatu pemilihan item tertentu yang sama

• Penarikan contoh tanpa penggantian. Setiap item yang dipilih dikeluarkan dari populasinya

• Penarikan contoh dengan penggantian. Objek-objek tidak dikeluarkan dari populasi saat objek tersebut dipilih untuk sample. Dalam penarikan contoh dengan penggantian, objek yang sama dapat terambil lebih dari satu kali

• Penarikan contoh bertingkat (stratified sampling). Membagi data dalam beberapa bagian (partisi), kemudian menarik contoh dari tiap partisi

Penarikan contoh (sampling) Lanjutan

Ukuran dari sample sangat menentukan keakuratan dari pengambilan kesimpulan jika diterapkan sebuah algoritma data mining. Semakin besar ukuran sample maka hasilnya akan semakin akurat. Namun demikian, perlu dipertimbangkan juga waktu komputasi. Untuk itu perlu ditentukan ukuran yang tepat dan tidak terlalu besar.

Pengurangan dimensi(Dimensionality reduction)

Salah satu permasalahan yang harus diatasi dalam penerapan algoritma datamining adalah masalah dimensionalitas. Jika dimensi meningkat, data akanmeningkat secara halus dalam daerah yang ditempati. Definisi dari kepadatandan jarak antar titik, yang merupakan kondisi kritis untuk clustering dan outlierdetection, akan menjadi kurang berarti.

Manfaat dari pengurangan dimensi:

• Mencegah terjadinya efek dari dimensionalitas

• Mengurangi jumlah waktu dan memori yang dibutuhkan oleh algoritma datamining

• Membuat data lebih mudah divisualisasikan

• Membantu untuk mengurangi fitur-fitur yang tidak relevan atau mengurangigangguan/derau

Pengurangan dimensi(Dimensionality reduction)

Teknik-teknik yang biasa digunakan untuk mereduksi jumlah dimensiadalah:

• Principle component analysis (PCA): bertujuan untuk mendapatkansebuah proyeksi yang menangkap sejumlah variasi data yang paling besar

• Singular value decomposition

• Supervised dan non-linear techniques

Pemilihan fitur (Feature subset selection)

Salah satu cara untuk mengurangi dimensi adalah dengan memilih fitur yang tepat atau hanya menggunakan atribut-atribut yang diperlukan. Secara koseptual, pemilihan sub-set fitur merupakan suatu proses pencarian terhadap semua kemungkinan sub-set fitur.

Dalam memilih fitur perlu diperhatikan:

1. Fitur-fitur yang redundant, yaitu duplikasi sebagian besar atau semua data informasi yang terkandung dalam satu atau lebih atribut lain. Contoh, harga pembelian dari sebuah produk dan jumlah pajak penjualan yang dibayar

2. Fitur-fitur yang tidak relevan yaitu fitur-fitur yang tidak mengandung informasi berguna untuk tugas data mining secara langsung. Contoh, NIM mahasiswa tidak relevan untuk memprediksi IPK mahasiswa


Teknik yang digunakan untuk memilih sub-set fitur adalah:

• Brute-force approach: Mencoba semua kemungkinan fitur sub-set sebagai masukan algoritma data mining

• Embedded approach: feature selection terjadi secara alami sebagai bagian dari algoritma data mining

• Filter approach: fitur-fitur dipilih sebelum algoritma data mining dijalankan

• Wrapper approach: Menggunakan algoritma data mining sebagai sebuah kotak hitam untuk mendapatkan sub-set atribut-atribut yang paling baik


Proses pemilihan fitur terdiri dari empat bagian, yaitu:

1. Sebuah pengukuran untuk mengevaluasi suatu sub-set fitur

2. Sebuah strategi pencarian yang mengontrol pembangkitan sub-set fitur yang baru

3. Sebuah kriteria penghentian

4. Sebuah prosedur validasi

Pembuatan fitur (Feature creation)

Merupakan proses membuat atribut baru yang dapat menangkap informasi penting dalam sebuah himpunan data y (ombininang lebih efisien daripada atribut-atribut yang ada. Ada tiga metodologi umum yang bisa digunakan untuk membuat fitur baru, yaitu:

• Ekstraksi fitur: domain spesifik

• Pemetaan data ke ruang menggunakan transformasi fourier atau transformasi wavelate

• Konstruksi fitur dengan menggabungkan fitur-fitur (combining fitur)

Pendiskritan dan Pembineran (Discretization and binarization)

Beberapa algoritma data mining, khususnya algoritma klasifikasi, membutuhkan data dalam bentuk atribut katagorikal. Sedangkan algoritma asosiasi memerlukan data dalam bentuk atribut biner.

Transformasi atribut kontinyu kedalam bentuk atribut katagorikal disebut dengan discretization.

Transformasi atribut kontinyu maupun diskrit kedalam bentuk atribut biner disebut binarization.

Salah satu teknik binarization adalah:

• Jika ada m nilai katagorikal, maka beri untuk setiap nilai tersebutdengan sebuah nilai integer yang unik pada interval [0,m-1]. Jikaatributnya ordinal maka urutan harus diperhatikan dalam proses pemberian nilai

• Konversikan tiap nilai integer tersebut kedalam bilangan biner

Contoh hasil pembineran:

Nilai Integer X1 X2 X3

Awful 0 0 0 0

Poor 1 0 0 1

OK 2 0 1 0

Good 3 0 1 1

Great 4 1 0 0

Binarization (Lanjutan)

Transformasi dari atribut kontinyu ke atribut katagorikal meliputi dua langkah,yaitu:

• Menentukan berapa banyak katagori. Setelah nilai dari atribut kontinyudiurutkan, kemudian dibagi dalam n interval dengan menentukan n-1 splitpoint.

• Menentukan bagaimana memetakan nilai-nilai dari atribut kontinyu kekatagori-katagori ini. Semua nilai dalam satu interval dipetakan ke nilaikatagori yang sama.

Discretization untuk tujuan klasifikasi dibedakan menjadi dua, yaitu:

Unsupervised discretization, yaitu metode discretization tanpa menggunakaninformasi kelas. Pendekatan yang digunakan adalah:Pendekatan equal with: membagi range atribut kedalam sejumlah interval yang

ditentukan user yang masing-masing mempunyai lebar yang samaPendekatan equal frequency (equal depth): menempatkan objek-objek dengan jumlah

yang sama dalam tiap interval


Contoh: Ubah atribut taxable income pada tabel dibawah menjadiatribut katagorikal dengan katagori: rendah, sedang, dan tinggi

Tax Income

125

100

70

120

95

60

220

85

75

90

Tax Income baru

S

R

R

S

R

R

R

R

R

R

1. Pendekatan equal width

Range data [60 220]

Rendah: range[60-113]

Sedang: range[114-167]

Tinggi: range[168-220]


Contoh: Ubah atribut taxable income pada tabel dibawah menjadiatribut katagorikal dengan katagori: rendah, sedang, dan tinggi

Tax Income

125

100

70

120

95

60

220

85

75

90

Tax Income baru

T

T

R

T

S

R

T

S

R

S

2. Pendekatan equal frequency

Sort data: 60,70,75....220

Rendah: 60,70,75

Sedang: 85,90,95

Tinggi: 100,120,125,220


Supervised discretization

Salah satu pendekatan dalam supervised discretization adalahentropy based approach, yang langkahnya sebagai berikut:

Menentukan entropy: Misalkan diketahui ada k: jumlah klas, mijumlah nilai dalam interval ke-i dari sebuah partisi, dan mij: jumlahnilai dariklas j dalam interval i. Maka entropy ei dari interval ke-i adalah:

�� = � ��

��

Dimana pij = mij/mi adalah probabilitas kelas j dalam interval i


Entropy total, e dari partisi merupakan rata-rata entropy interval terboboti:

� = � ��

��Dimana m adalah jumlah nilai, wi=mi/m, dan n: jumlah interval

Entropy dari satu interval merupakan ukuran kemurnian dari suatu interval. Jikainterval berisi hanya nilai-nilai dari satu klas maka entropy=0. Jika klas dari nilaidalam satu interval menjadi sama maka entropy maksimum. Langkah paling mudahadalah dengan membagi atribut kontinyu dalam dua interval yang memberikannilai entropy minimal. Teknik ini perlu mempertimbangkan tiap nilai sebagai splitpoint, karena diasumsikan bahwa interval berisi himpunan nilai yang terurut.Proses splitting diulang untuk interval lain yang secara khusus memilih intervaldengan entropy paling besar sampai jumlah interval yang ditentukan tercapai.


Transformasi Atribut(attribute transformation)

Adalah suatu fungsi yang memetakan keseluruhan himpunan nilai dariatribut yang diberikan ke suatu himpunan nilai-nilai pengganti yang barusedemikian hingga nilai yang lama dapat dikenali dengan satu dari nilai-nilaibaru tersebut.

Contoh: fungsi-fungsi sederhana: xk,log(x),ex, �Salah satu fungsidari transformasi atribut adalah untuk standarisasi dannormalisasi. Tujuan dari standarisasi dan normalisasi adalah untuk membuatkeseluruhan nilai mempunyai suatu sifat khusus. Salah satu contohtransformasi standarisasi adalah:

• Hitung nilai tengah dengan median

• Hitung absolute standard deviation

• Lakukan transformasi dengan persamaan � = ∑ �� − "#��

1. Pengukuran dilakukan dengan menggunakan standar deviasi, adalah jeniskesalahan pengukuran

A. noise

B. bias

C. presisi

D. akurasi

E. prediksi

2. Penanganan missing value dapat dilakukan dengan cara sebagai berikut, kecuali:

A. menambah objek data

B. mengurangi objek data

C. memperkirakan missing value

D. mengabaikan missing value pada saat analisis

E. mengganti dengan semua nilai yang mungkin

Latihan Soal Pertemuan 4

2. Penanganan missing value dapat dilakukan dengan cara sebagai berikut, kecuali:

A. menambah objek data

B. mengurangi objek data

C. memperkirakan missing value

D. mengabaikan missing value pada saat analisis

E. mengganti dengan semua nilai yang mungkin

3. Proses mengkombinasikan dua atau lebih atribut-atribut atau objek-objek kedalam satuatribut tunggal adalah

A. sampling

B. dimensionality reduction

C. feature subset selection

D. agregation

E. discretization and binerization

Latihan Soal Pertemuan 4 Lanjutan

3. Proses mengkombinasikan dua atau lebih atribut-atribut atau objek-objek kedalam satu atribut tunggaladalah

A. sampling

B. dimensionality reduction

C. feature subset selection

D. agregation

E. discretization and binerization

4. Membagi kelompok umur kedalam range [11-20],[21-30],[31-40] adalah contoh discretization denganpendekatan

A. equal frequency

B. equal width

C. unsupervised

D. supervised

E. binarization


4. Membagi kelompok umur kedalam range [11-20],[21-30],[31-40] adalah contohdiscretization dengan pendekatan

A. equal frequency

B. equal width

C. unsupervised

D. supervised

E. binarization

5. Objek data dengan sifat yang berbeda sekali dari kebanyakan objek data dalam data-set disebut

A. noise

B. missing value

C. outliers

D. precision

E. duplicate data


5. Objek data dengan sifat yang berbeda sekali dari kebanyakan objek data dalam data-set disebut

A. noise

B. missing value

C. outliers

D. precision

E. duplicate data

1. Pengukuran dilakukan dengan menggunakan standar deviasi, adalah jenis kesalahanpengukuran

A. noise

B. bias

C. presisi

D. akurasi

E. prediksi


PERTEMUAN4 - univbsi.idunivbsi.id/pdf/2014/602/602-P04.pdf(data preprocessing) Data dalam Knowledge...

Documents

Transcript of PERTEMUAN4 - univbsi.idunivbsi.id/pdf/2014/602/602-P04.pdf(data preprocessing) Data dalam Knowledge...