23514061_IF5171

4
Nama : Aini Hanifa NIM : 23514061 Tugas IF5171 Datawarehouse & Data Mining DISKUSI TENTANG PRA PROSES 1. Mengapa perlu pra-proses data? Karena pada dasarnya data in the real wold is dirty (tidak sempurna), maka diperlukan data cleaning, yaitu proses untuk membersihkan data dengan beberapa teknik yaitu : a. Data kotor, imcomplete, inconsistent o Pada dasarnya data in the real wold is dirty (tidak sempurna), maka diperlukan pra proses data. Terdapat beberapa noise yang berisi data outlier atau error. o Tidak komplet : dapat berisi data yang hilang/kosong(missing value), kekurangan atribut yang sesuai, atau hanya berisi data aggregate. o Tidak konsisten : berisi nilai yang berbeda dalam suatu atribut atau tuple data. Contoh: Umur= “17” tetapi tanggal lahir= “01/01/1945” Nilai_kuliah= “A”, “B”, “C”, “D”, “E” namun ada 1 mahasiswa pada kolom nilai_kuliah dengan value “80” Terdapat duplikat atau redundancy record (data) b. Pengaruh pada kualitas data mining dan data warehouse Harus dilakukan pra-proses data untuk menghasilkan data quality yang memiliki accuracy, completeness, dan consistency yang tinggi. Dalam artian keputusan yang baik harus berdasarkan data yang berkualitas pula. Data yang tidak berkualitas akan menghasilkan kualitas mining yang tidak baik pula. 2. Descriptive data summarization

description

tugas dwh

Transcript of 23514061_IF5171

Diskusi minggu 1

Nama: Aini Hanifa

NIM: 23514061

Tugas IF5171 Datawarehouse & Data Mining

DISKUSI TENTANG PRA PROSES 1. Mengapa perlu pra-proses data?Karena pada dasarnya data in the real wold is dirty (tidak sempurna), maka diperlukan data cleaning, yaitu proses untuk membersihkan data dengan beberapa teknik yaitu :

a. Data kotor, imcomplete, inconsistent Pada dasarnya data in the real wold is dirty (tidak sempurna), maka diperlukan pra proses data. Terdapat beberapa noise yang berisi data outlier atau error. Tidak komplet : dapat berisi data yang hilang/kosong(missing value), kekurangan atribut yang sesuai, atau hanya berisi data aggregate.

Tidak konsisten : berisi nilai yang berbeda dalam suatu atribut atau tuple data. Contoh:

Umur= 17 tetapi tanggal lahir= 01/01/1945

Nilai_kuliah= A, B, C, D, E namun ada 1 mahasiswa pada kolom nilai_kuliah dengan value 80

Terdapat duplikat atau redundancy record (data)b. Pengaruh pada kualitas data mining dan data warehouseHarus dilakukan pra-proses data untuk menghasilkan data quality yang memiliki accuracy, completeness, dan consistency yang tinggi. Dalam artian keputusan yang baik harus berdasarkan data yang berkualitas pula. Data yang tidak berkualitas akan menghasilkan kualitas mining yang tidak baik pula.

2. Descriptive data summarizationDescriptive data summarization dapat dilihat dari nilai statistika dasar, antara lain nilai minimum, nilai maksimum, rata-rata, dan standar deviasi. Dengan memahami nilai-nilai tersebut, kita dapat memahami gambaran umum atau karakteristik data, seperti berapa banyak variasi datanya, sebaran datanya, dll.

Mean: dipakai jika distribusi data normal. Median: Dipakai jika dristribusi data tidak normal.

Central Tendency = mean standar deviasi, dengan mengetahui nilai ini kita bisa mendapat gambaran data berkumpul di sekitar mana

Penyebaran dapat dilihat dari nilai variansi.

Setelah mengetahui data dari statistika deskriptif, angka tersebut bisa dipetakan menjadi visualisasi dalam bentuk boxplot, scatter plot dan lebih lanjut dengan bentuk-bentuk fungsi padat peluang yang umumnya digambarkan dalam grafik distribusi normal.

3. Data cleaning utk apa? a. Fill missing dataMissing value dapat terjadi karena:

Informasi tidak terkumpul dengan lengkap. Misal orang menolak menyebutkan usia atau berat badan

Atribut mungkin tidak bias ditetapkan untuk semua kasus. Misal penghasilan tidak dapat diaplikasikan untuk bayi dan anak kecil.

Menangani missing value, dapat dilakukan dengan:

Mengabaikan record

Mengisikan secara manual

Menggunakan mean/median dari atribut yang mengandung missing value

Menggunakan nilai global

Menggunakan nilai termungkin

Dengan menangani missing value maka dapat membantu proses mining seperti klasifikasi, klastering, atau asosiasi.b. Smooth out noiseNoise merupakan kesalahan acak atau varians dalam variable yang terukur yang dapat disebabkan oleh: Kesalahan dalam pemasukan data

Kesalahan dalam pengambilan sample

Memang ada data-data ekstrim yang tidak dapat dihindarkan keberadaannya

Metode untuk menghilangkan noise: Binning

Membagi range ke dalam N interval, masing-masing memuat jumlah sample yang hampir sama

Local smoothing

Regresi

Smooth data dengan mencari fungsi yang sesuai seperti regresi linear atau multiple regresi linear

Clustering

Mendeteksi outlier dengan mengelompokkan instan yang memiliki nilai hamper sama

Dengan menangani missing value maupun mengani noise maka dapat membantu proses mining seperti klasifikasi, klastering, atau asosiasi.4. Data integration:a. Combines multiple data sources to form a coherent data store.Menghilangkan isu seperti redundansi data, melakukan pendeteksian dan penangan beberapa konflik pada value data, dan menjaga konsistensi struktur data.b. Conflict of semantic?Kehati-hatian terhadap proses integrasi dapat mencegah terjadinya konflik semantic, redundansi data dan inkonsistensi data, serta dapat membantu meningkatkan akurasi dan kecepatan proses mining.

5. Data transformation:a. Convert data to the application form for data miningData dirubah ke dalam bentuk yang sesuai untuk proses mining. Terdiri dari: Smoothing : Proses menghilangkan noise data yang terdiri dari binning, regression, dan clustering

Agregasi : Summarize, menggunakaan dimensi yang lebih general (cube construction ). Generalisasi : misal menggunakan dimensi propinsi daripada kabupaten atau grouping (hirarki konsep).

Normalisasi: mengelompokkan data sesuai skala tertentu.

6. Data reduction, data discretizationReduction: Mengurangi representasi dari kumpulan data menjadi jauh lebih kecil volumenya, namun tetap mempertahankan integritas data asli. Strategi yang digunakan: Data cube aggregation

Dimension reduction

Data compression

Discretization: membagi nilai data menjadi beberapa range data, dilakukan dengan cara binning atau hirarki konsep, misal mengelompokkan harga produk menjadi, mahal, biasa, murah.