PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN...

24
PERTEMUAN 2 GUDANG DATA, KLASIFIKASI, REGRESI, DAN KLASTERISASI

Transcript of PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN...

Page 1: PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN ... dengan memperbolehkan analisa query sebagai jawaban ... bagaimana yang paling

PERTEMUAN 2

GUDANG DATA, KLASIFIKASI, REGRESI,

DAN KLASTERISASI

Page 2: PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN ... dengan memperbolehkan analisa query sebagai jawaban ... bagaimana yang paling

Data Warehouse

• Gudang data (data warehouse) merupakan suatu system manajemen basis data relational (RDBMS) yang didesain khusus untuk memenuhi kebutuhan akan sistem pengolahan transaksi.

• Data warehouse secara bebas dapat didefinisikan sebagai tempat penyimpanan data terpusat yang dapat di-query untuk manfaat bisnis.

• Data warehouse baik untuk mengintegrasikan keseluruhan data sebuah perusahaan, tanpa memperhatikan lokasi, format atau kebutuhan komunikasi yang memungkinkan untuk memasukkan informasi tambahan atau ahli

• Data warehouse menyediakan data yang siap ditransformasi dan disimpulkan sedemikian hingga membuatnya sesuai untuk aplikasi DSS dan SIM yang lebih efisien

Page 3: PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN ... dengan memperbolehkan analisa query sebagai jawaban ... bagaimana yang paling

•Gudang data biasanya berisi data sejarah, terkumpuldari sumber yang berbeda-beda, seperti sistem prosestransaksi online (online data transaction processing),system warisan, file-file teks dan spreadsheet. Padadata tersebut kemudian dilakukan prosespembersihan untuk akurasi dan konsistensi danmengelolanya untuk memudahkan dan efisiensi query.

Data Warehouse Lanjutan

Page 4: PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN ... dengan memperbolehkan analisa query sebagai jawaban ... bagaimana yang paling

Karakteristik data warehouse (1)

• Subject-oriented: data diorganisasi menurut subyek dari aplikasi, misalnya sebuah perusahaan asuransi menggunakan data warehouse yang mengorganisasi data mereka sebagai pelanggan, premi dan klaim daripada dengan produk-produk berbeda (otomotif, jiwa, dsb). Data diatur oleh subyek yang hanya mengandung informasi yang diperlukan untuk pengolahan pendukung keputusan.

Page 5: PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN ... dengan memperbolehkan analisa query sebagai jawaban ... bagaimana yang paling

Karakteristik data warehouse (2)

• Integrated: ketika data menempati aplikasi-aplikasi yang terpisah dalam lingkungan operasional, pengkodean data seringkali tidak konsisten. Sebagi contoh, dalam satu aplikasi, jender mungkin dikodekan sebagai “m” dan “f”, ada juga dengan 0 dan 1. Saat data dipindahkan dari lingkungan operasionalnya kedalam data warehouse, mereka akan mengasumsikan suatu konvensi pengkodean dengan kosisten. Misalnya data jender ditransformasi menjadi “m” dan “f”.

Page 6: PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN ... dengan memperbolehkan analisa query sebagai jawaban ... bagaimana yang paling

Karakteristik data warehouse (3)

• Time-variant: Data warehouse terdiri dari suatu tempat untuk menyimpan data yang berusia 5 sampai 10 tahun atau lebih lama, untuk digunakan sebagai komparasi, trend dan peramalan. Data ini tidak diupdate.

• Non-volatile: data yang tidak diupdate sesudah mereka memasukkan data warehouse, tetapi hanya dimuat dan diakses.

Page 7: PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN ... dengan memperbolehkan analisa query sebagai jawaban ... bagaimana yang paling

Data warehouse dan sistem OLTP (1)

Sebuah basis data yang dibangun untuk pengolahan transaksi online, OLTP, secara umum dipandang tidak cocok untuk data warehouse dikarenakan mereka didesain dengan suatu kumpulan kebutuhan yang berbeda, yaitu memaksimalkan kapasitas transaksi dan secara khusus mempunyai ratusan table dalam urutan yang tidak membatasi user, dsb.

Data warehouse dipandang dalam proses query sebagai lawan dari proses transaksi.

Page 8: PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN ... dengan memperbolehkan analisa query sebagai jawaban ... bagaimana yang paling

Data warehouse dan sistem OLTP (2)

Sistem OLTP tidak dapat menjadi tempat penyimpanan dari data fakta dan histori untuk analisa bisnis. Sistem ini tidak dapat menjawab secara cepat query dan pengambilan kembali secara cepat hampir tidak mungkin. Data yang tidak konsisten dan berubah, duplikasi masukan yang ada, masukan yang hilang, dan tidak adanya data histori yang diperlukan untuk menganalisa trend.

Pada dasarnya OLTP menawarkan sejumlah besar data mentah yang tidak mudah dipahami.

Data warehouse menawarkan kemampuan untuk mengambil kembali dan menganalisa informasi secara cepat dan mudah.

Page 9: PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN ... dengan memperbolehkan analisa query sebagai jawaban ... bagaimana yang paling

Data warehouse dan sistem OLTP (3)

Data warehouse melayani tujuan yang berbeda dari sistem OLTP dengan memperbolehkan analisa query sebagai jawaban terhadap “simple aggregation” seperti “bagaimana catatan keuangan dari pelanggan ini?”

Query data warehouse khusus meliputi seperti “produk yang bagaimana yang paling laku di Amerika Tengah dan bagaimana korelasi terhadap data demografis?”

Page 10: PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN ... dengan memperbolehkan analisa query sebagai jawaban ... bagaimana yang paling

Data warehouse dan sistem OLTP (4)

Persamaan dan perbedaan OLTP dan data warehouse

OLTP Data Warehouse

Purpose Run day-to-day operations Information retrieval and analysis

Structure RDBMS RDBMS

Data model Normalised Multi-dimensional

Access SQL SQL plus data analysis extensions

Type of data Data that runs the business Data that analysis the business

Condition of data Changing, incomplete Historical, descriptive

Page 11: PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN ... dengan memperbolehkan analisa query sebagai jawaban ... bagaimana yang paling

Teknik Data Mining

Beberapa teknik dan sifat data mining adalah:

1. Classification [Predicitive]

2. Regression [Predictive]

3. Clustering [Descriptive]

4. AssociationRule Discovery [Descriptive]

5. SequentialPattern Discovery [Descriptive]

6. Deviation Detection [Predictive]

Page 12: PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN ... dengan memperbolehkan analisa query sebagai jawaban ... bagaimana yang paling

1. Klasifikasi (classification)

Klasifikasi adalah menentukan sebuah record data baru ke salah satudari beberapa kategori (atau klas) yang telah didefinisikan sebelumnya. Disebut juga dengan “supervised learning”.

Beberapa aplikasi dari klasifikasi:

1. Penjualan langsung (direct marketing)

Tujuan: mengurangi cost surat menyurat dengan menentukan(targeting) satu set konsumen yang mempunyai kesamaan dalammembeli produk telepon seluler baru.

Page 13: PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN ... dengan memperbolehkan analisa query sebagai jawaban ... bagaimana yang paling

1. Klasifikasi (classification) Lanjutan

Pendekatan:

• Gunakan data penjualan untuk suatu produk telepon seluler

• Kita mengetahui pelanggan yang memutuskan untuk membeli dan yang memutuskan untuk tidak membeli. Keputusan {buy, don’t buy} membentuk class attribute

• Himpun bermacam demografi, gaya hidup, dan company-interaction sehubungan dengan informasi mengenai pelanggan tertentu, misalkan tipe bisnis, dimana mereka tinggal, berapa banyak mereka membayar, dll

• Gunakan informasi tersebut sebagai atribut input untuk mempelajari suatu model klasifikasi

Page 14: PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN ... dengan memperbolehkan analisa query sebagai jawaban ... bagaimana yang paling

1. Klasifikasi (classification) Lanjutan

2. Fraud Detection

Tujuan: Memprediksi kasus-kasus transaksi curang dengan menggunakan kartu kredit.

Pendekatan:• Gunakan transaksi kartu kredit dan informasi pemegang kartu kredit sebagai

attribute. Misalnya: kapan seorang pelanggan membeli, apa yang dibeli, apa selalu membayar tepat waktu, dsb.

• Beri label transaksi-transaksi sebelumnya sebagai transaksi “fraud” atau “fair” dan bentuk ini menjadi class attribute

• Pelajari satu model untuk class transaksi tersebut• Gunakan model ini untuk mendeteksi kecurangan dengan mengobservasi transaksi

kartu kredit tiap account

Page 15: PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN ... dengan memperbolehkan analisa query sebagai jawaban ... bagaimana yang paling

1. Klasifikasi (classification) Lanjutan

3. Customer Attrition/Churn

Tujuan: Memprediksi pelanggan mana yang akan berpindah ke competitor kita

Pendekatan:

• Gunakan record transaksi dengan pelanggan yang lalu maupun yang sekarang untuk mendapatkan atribut, seperti: seberapa sering pelanggan menghubungi, dimana dia menghubungi, pada hari apa dia paling sering menghubungi, status keuangannya, status perkawinannya, dsb.

• Beri label pelanggan sebagai “setia” atau “tidak setia”

• Temukan suatu model untuk “loyalty”

Page 16: PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN ... dengan memperbolehkan analisa query sebagai jawaban ... bagaimana yang paling

2. Regresi (regression)

Memprediksi nilai dari suatu variabel kontinyu yang diberikan berdasarkan nilai dari variabel yang lain, dengan mengasumsikan sebuah model ketergantungan linier atau nonlinier.

Teknik ini banyak dipelajari dalam statistika, bidang jaringan syaraf tiruan (neural network).

Contoh aplikasinya:

• Memprediksi jumlah penjualan produk baru berdasarkan pada belanja promosi/iklan

• Memprediksi kecepatan angin sebagai suatu fungsi suhu, kelembaban, tekanan udara, dsb.

• Time series prediction dari indeks stock market

Page 17: PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN ... dengan memperbolehkan analisa query sebagai jawaban ... bagaimana yang paling

3. Klasterisasi (clustering)

Mempartisi data-set menjadi beberapa sub-set atau kelompok sedemikian rupa sehingga elemen-elemen dari suatu kelompok tertentu memiliki set properti yang di share bersama, dengan tingkat similaritas yang tinggi dalam satu kelompok dan tingkat similaritas antar kelompok yang rendah. Disebut juga dengan “unsupervised learning”

Jika diberikan sejumlah titik data yang masing-masing mempunyai sejumlah atribut, dan dengan menggunakan satu ukuran similaritas, dapat ditemukan klaster-klaster sedemikian hingga:

• Titik-titik data dalam satu klaster mempunyai similaritas yang lebih besar

• Titik-titik data dalam klaster yang berbeda mempunyai similaritas yang kecil

Page 18: PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN ... dengan memperbolehkan analisa query sebagai jawaban ... bagaimana yang paling

3. Klasterisasi (clustering) Lanjutan

Ukuran similaritas yang digunakan:

Euclidean distance jika atributnya kontinyu

Permasalahan lain – ukuran tertentu

Aplikasi dari klasterisasi diantaranya:

1. Market Segmentation

Tujuan: Membagi pasar kedalam sub-set pelanggan yang berbeda, dimana suatu sub-set mungkin dapat dipilih sebagai target pasar yang dicapai dengan satu kombinasi pemasaran yang berbeda.

Page 19: PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN ... dengan memperbolehkan analisa query sebagai jawaban ... bagaimana yang paling

3. Klasterisasi (clustering) LanjutanPendekatan:

• Kumpulkan atribut dari pelanggan yang berbeda berdasarkan pada informasi tempat tinggal dan gaya hidup

• Tentukan klaster dari pelanggan-pelanggan yang sama

• Hitung kualitas klaster dengan mengobservasi pola daya beli pelanggan pada klaster yang sama versus dari klaster yang berbeda

2. Document clustering:

Tujuan: Untuk mendapatkan kelompok dokumen yang mempunyai kesamaan berdasarkan pernyataan atau kata-kata penting yang muncul dalam dokumen tersebut

Pendekatan:

Page 20: PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN ... dengan memperbolehkan analisa query sebagai jawaban ... bagaimana yang paling

3. Klasterisasi (clustering) LanjutanPendekatan:

Untuk mengenali kata-kata yang sering muncul dalam tiap dokumen. Dari suatu pengukuran similaritas yang didasarkan pada frekuensi term yang berbeda. Gunakan pengukuran ini untuk membentuk klaster-klaster.

Pencapaian:

Information retrieval dapat dimanfaatkan untuk menghubungkan suatu dokumen baru atau mencari term ke dokumen-dokumen yang diklaster

Page 21: PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN ... dengan memperbolehkan analisa query sebagai jawaban ... bagaimana yang paling

Latihan Soal Pertemuan 2

1. Membagi pasar kedalam sub-set pelanggan yang berbeda dimana suatu sub-set mungkin

dapat dipilih sebagai target pasar yang dicapai dengan satu kombinasi pemasaran yang

berbeda, maka teknik data mining yang gunakan adalah

A. klasterisasi

B. asosiasi

C. klasifikasi

D. regresi

E. prediksi

2. Untuk memprediksi kasus-kasus transaksi curang dengan menggunakan kartu kredit

(fraud detection) digunakan teknik data mining

A. klasterisasi

B. asosiasi

C. klasifikasi

D. regresi

E. prediks

Page 22: PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN ... dengan memperbolehkan analisa query sebagai jawaban ... bagaimana yang paling

3. Teknik data mining yang digunakan untuk prediksi adalah:

A. klasifikasi dan regresi

B. klastering dan association rule discovery

C. klasifikasi dan klustering

D. regresi dan sequential pattern discovery

E. regresi dan klastering

4. Untuk mengetahui kelompok pengguna kartu kredit yang bermasalah, maka atribut-

atribut akan diperlukan dalam proses knowledge discovery in databases, kecuali

A. nama bank pemberi kartu kredit

B. tanggal pelunasan kredit

C. produk yang dibeli

D. tanggal pembelian

E. nama pemegang kartu

Latihan Soal Pertemuan 2 Lanjutan

Page 23: PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN ... dengan memperbolehkan analisa query sebagai jawaban ... bagaimana yang paling

4. Untuk mengetahui kelompok pengguna kartu kredit yang bermasalah, maka atribut-atribut

akan diperlukan dalam proses knowledge discovery in databases, kecuali

A. nama bank pemberi kartu kredit

B. tanggal pelunasan kredit

C. produk yang dibeli

D. tanggal pembelian

E. nama pemegang kartu

5. Data diatur oleh subyek yang hanya mengandung informasi yang diperlukan untuk pengolahan

pendukung keputusan, adalah karakteristik data warehouse dari sisi

A. subject oriented

B. intergrated

C. time variant

D. non volatile

E. volatile

Latihan Soal Pertemuan 2 Lanjutan

Page 24: PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN ... dengan memperbolehkan analisa query sebagai jawaban ... bagaimana yang paling

5. Data diatur oleh subyek yang hanya mengandung informasi yang diperlukan untuk

pengolahan pendukung keputusan, adalah karakteristik data warehouse dari sisi

A. subject oriented

B. intergrated

C. time variant

D. non volatile

E. volatile

1. Jika ingin mengetahui pola belanja konsumen ditoko, dengan tujuan menentukan

penempatan barang ditoko, maka digunakan teknik data mining

A. klasterisasi

B. asosiasi

C. klasifikasi

D. regresi

E. prediksi

Latihan Soal Pertemuan 2 Lanjutan