PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN...

PERTEMUAN 2

GUDANG DATA, KLASIFIKASI, REGRESI,

DAN KLASTERISASI

Data Warehouse

• Gudang data (data warehouse) merupakan suatu system manajemen basis data relational (RDBMS) yang didesain khusus untuk memenuhi kebutuhan akan sistem pengolahan transaksi.

• Data warehouse secara bebas dapat didefinisikan sebagai tempat penyimpanan data terpusat yang dapat di-query untuk manfaat bisnis.

• Data warehouse baik untuk mengintegrasikan keseluruhan data sebuah perusahaan, tanpa memperhatikan lokasi, format atau kebutuhan komunikasi yang memungkinkan untuk memasukkan informasi tambahan atau ahli

• Data warehouse menyediakan data yang siap ditransformasi dan disimpulkan sedemikian hingga membuatnya sesuai untuk aplikasi DSS dan SIM yang lebih efisien

•Gudang data biasanya berisi data sejarah, terkumpuldari sumber yang berbeda-beda, seperti sistem prosestransaksi online (online data transaction processing),system warisan, file-file teks dan spreadsheet. Padadata tersebut kemudian dilakukan prosespembersihan untuk akurasi dan konsistensi danmengelolanya untuk memudahkan dan efisiensi query.

Data Warehouse Lanjutan

Karakteristik data warehouse (1)

• Subject-oriented: data diorganisasi menurut subyek dari aplikasi, misalnya sebuah perusahaan asuransi menggunakan data warehouse yang mengorganisasi data mereka sebagai pelanggan, premi dan klaim daripada dengan produk-produk berbeda (otomotif, jiwa, dsb). Data diatur oleh subyek yang hanya mengandung informasi yang diperlukan untuk pengolahan pendukung keputusan.


• Integrated: ketika data menempati aplikasi-aplikasi yang terpisah dalam lingkungan operasional, pengkodean data seringkali tidak konsisten. Sebagi contoh, dalam satu aplikasi, jender mungkin dikodekan sebagai “m” dan “f”, ada juga dengan 0 dan 1. Saat data dipindahkan dari lingkungan operasionalnya kedalam data warehouse, mereka akan mengasumsikan suatu konvensi pengkodean dengan kosisten. Misalnya data jender ditransformasi menjadi “m” dan “f”.


• Time-variant: Data warehouse terdiri dari suatu tempat untuk menyimpan data yang berusia 5 sampai 10 tahun atau lebih lama, untuk digunakan sebagai komparasi, trend dan peramalan. Data ini tidak diupdate.

• Non-volatile: data yang tidak diupdate sesudah mereka memasukkan data warehouse, tetapi hanya dimuat dan diakses.

Data warehouse dan sistem OLTP (1)

Sebuah basis data yang dibangun untuk pengolahan transaksi online, OLTP, secara umum dipandang tidak cocok untuk data warehouse dikarenakan mereka didesain dengan suatu kumpulan kebutuhan yang berbeda, yaitu memaksimalkan kapasitas transaksi dan secara khusus mempunyai ratusan table dalam urutan yang tidak membatasi user, dsb.

Data warehouse dipandang dalam proses query sebagai lawan dari proses transaksi.


Sistem OLTP tidak dapat menjadi tempat penyimpanan dari data fakta dan histori untuk analisa bisnis. Sistem ini tidak dapat menjawab secara cepat query dan pengambilan kembali secara cepat hampir tidak mungkin. Data yang tidak konsisten dan berubah, duplikasi masukan yang ada, masukan yang hilang, dan tidak adanya data histori yang diperlukan untuk menganalisa trend.

Pada dasarnya OLTP menawarkan sejumlah besar data mentah yang tidak mudah dipahami.

Data warehouse menawarkan kemampuan untuk mengambil kembali dan menganalisa informasi secara cepat dan mudah.


Data warehouse melayani tujuan yang berbeda dari sistem OLTP dengan memperbolehkan analisa query sebagai jawaban terhadap “simple aggregation” seperti “bagaimana catatan keuangan dari pelanggan ini?”

Query data warehouse khusus meliputi seperti “produk yang bagaimana yang paling laku di Amerika Tengah dan bagaimana korelasi terhadap data demografis?”


Persamaan dan perbedaan OLTP dan data warehouse

OLTP Data Warehouse

Purpose Run day-to-day operations Information retrieval and analysis

Structure RDBMS RDBMS

Data model Normalised Multi-dimensional

Access SQL SQL plus data analysis extensions

Type of data Data that runs the business Data that analysis the business

Condition of data Changing, incomplete Historical, descriptive

Teknik Data Mining

Beberapa teknik dan sifat data mining adalah:

1. Classification [Predicitive]

2. Regression [Predictive]

3. Clustering [Descriptive]

4. AssociationRule Discovery [Descriptive]

5. SequentialPattern Discovery [Descriptive]

6. Deviation Detection [Predictive]

1. Klasifikasi (classification)

Klasifikasi adalah menentukan sebuah record data baru ke salah satudari beberapa kategori (atau klas) yang telah didefinisikan sebelumnya. Disebut juga dengan “supervised learning”.

Beberapa aplikasi dari klasifikasi:

1. Penjualan langsung (direct marketing)

Tujuan: mengurangi cost surat menyurat dengan menentukan(targeting) satu set konsumen yang mempunyai kesamaan dalammembeli produk telepon seluler baru.

1. Klasifikasi (classification) Lanjutan

Pendekatan:

• Gunakan data penjualan untuk suatu produk telepon seluler

• Kita mengetahui pelanggan yang memutuskan untuk membeli dan yang memutuskan untuk tidak membeli. Keputusan {buy, don’t buy} membentuk class attribute

• Himpun bermacam demografi, gaya hidup, dan company-interaction sehubungan dengan informasi mengenai pelanggan tertentu, misalkan tipe bisnis, dimana mereka tinggal, berapa banyak mereka membayar, dll

• Gunakan informasi tersebut sebagai atribut input untuk mempelajari suatu model klasifikasi


2. Fraud Detection

Tujuan: Memprediksi kasus-kasus transaksi curang dengan menggunakan kartu kredit.

Pendekatan:• Gunakan transaksi kartu kredit dan informasi pemegang kartu kredit sebagai

attribute. Misalnya: kapan seorang pelanggan membeli, apa yang dibeli, apa selalu membayar tepat waktu, dsb.

• Beri label transaksi-transaksi sebelumnya sebagai transaksi “fraud” atau “fair” dan bentuk ini menjadi class attribute

• Pelajari satu model untuk class transaksi tersebut• Gunakan model ini untuk mendeteksi kecurangan dengan mengobservasi transaksi

kartu kredit tiap account


3. Customer Attrition/Churn

Tujuan: Memprediksi pelanggan mana yang akan berpindah ke competitor kita

Pendekatan:

• Gunakan record transaksi dengan pelanggan yang lalu maupun yang sekarang untuk mendapatkan atribut, seperti: seberapa sering pelanggan menghubungi, dimana dia menghubungi, pada hari apa dia paling sering menghubungi, status keuangannya, status perkawinannya, dsb.

• Beri label pelanggan sebagai “setia” atau “tidak setia”

• Temukan suatu model untuk “loyalty”

2. Regresi (regression)

Memprediksi nilai dari suatu variabel kontinyu yang diberikan berdasarkan nilai dari variabel yang lain, dengan mengasumsikan sebuah model ketergantungan linier atau nonlinier.

Teknik ini banyak dipelajari dalam statistika, bidang jaringan syaraf tiruan (neural network).

Contoh aplikasinya:

• Memprediksi jumlah penjualan produk baru berdasarkan pada belanja promosi/iklan

• Memprediksi kecepatan angin sebagai suatu fungsi suhu, kelembaban, tekanan udara, dsb.

• Time series prediction dari indeks stock market

3. Klasterisasi (clustering)

Mempartisi data-set menjadi beberapa sub-set atau kelompok sedemikian rupa sehingga elemen-elemen dari suatu kelompok tertentu memiliki set properti yang di share bersama, dengan tingkat similaritas yang tinggi dalam satu kelompok dan tingkat similaritas antar kelompok yang rendah. Disebut juga dengan “unsupervised learning”

Jika diberikan sejumlah titik data yang masing-masing mempunyai sejumlah atribut, dan dengan menggunakan satu ukuran similaritas, dapat ditemukan klaster-klaster sedemikian hingga:

• Titik-titik data dalam satu klaster mempunyai similaritas yang lebih besar

• Titik-titik data dalam klaster yang berbeda mempunyai similaritas yang kecil

3. Klasterisasi (clustering) Lanjutan

Ukuran similaritas yang digunakan:

Euclidean distance jika atributnya kontinyu

Permasalahan lain – ukuran tertentu

Aplikasi dari klasterisasi diantaranya:

1. Market Segmentation

Tujuan: Membagi pasar kedalam sub-set pelanggan yang berbeda, dimana suatu sub-set mungkin dapat dipilih sebagai target pasar yang dicapai dengan satu kombinasi pemasaran yang berbeda.

3. Klasterisasi (clustering) LanjutanPendekatan:

• Kumpulkan atribut dari pelanggan yang berbeda berdasarkan pada informasi tempat tinggal dan gaya hidup

• Tentukan klaster dari pelanggan-pelanggan yang sama

• Hitung kualitas klaster dengan mengobservasi pola daya beli pelanggan pada klaster yang sama versus dari klaster yang berbeda

2. Document clustering:

Tujuan: Untuk mendapatkan kelompok dokumen yang mempunyai kesamaan berdasarkan pernyataan atau kata-kata penting yang muncul dalam dokumen tersebut

Pendekatan:

3. Klasterisasi (clustering) LanjutanPendekatan:

Untuk mengenali kata-kata yang sering muncul dalam tiap dokumen. Dari suatu pengukuran similaritas yang didasarkan pada frekuensi term yang berbeda. Gunakan pengukuran ini untuk membentuk klaster-klaster.

Pencapaian:

Information retrieval dapat dimanfaatkan untuk menghubungkan suatu dokumen baru atau mencari term ke dokumen-dokumen yang diklaster

Latihan Soal Pertemuan 2

1. Membagi pasar kedalam sub-set pelanggan yang berbeda dimana suatu sub-set mungkin

dapat dipilih sebagai target pasar yang dicapai dengan satu kombinasi pemasaran yang

berbeda, maka teknik data mining yang gunakan adalah

A. klasterisasi

B. asosiasi

C. klasifikasi

D. regresi

E. prediksi

2. Untuk memprediksi kasus-kasus transaksi curang dengan menggunakan kartu kredit

(fraud detection) digunakan teknik data mining

A. klasterisasi

B. asosiasi

C. klasifikasi

D. regresi

E. prediks

3. Teknik data mining yang digunakan untuk prediksi adalah:

A. klasifikasi dan regresi

B. klastering dan association rule discovery

C. klasifikasi dan klustering

D. regresi dan sequential pattern discovery

E. regresi dan klastering

4. Untuk mengetahui kelompok pengguna kartu kredit yang bermasalah, maka atribut-

atribut akan diperlukan dalam proses knowledge discovery in databases, kecuali

A. nama bank pemberi kartu kredit

B. tanggal pelunasan kredit

C. produk yang dibeli

D. tanggal pembelian

E. nama pemegang kartu

Latihan Soal Pertemuan 2 Lanjutan

4. Untuk mengetahui kelompok pengguna kartu kredit yang bermasalah, maka atribut-atribut

akan diperlukan dalam proses knowledge discovery in databases, kecuali

A. nama bank pemberi kartu kredit

B. tanggal pelunasan kredit

C. produk yang dibeli

D. tanggal pembelian

E. nama pemegang kartu

5. Data diatur oleh subyek yang hanya mengandung informasi yang diperlukan untuk pengolahan

pendukung keputusan, adalah karakteristik data warehouse dari sisi

A. subject oriented

B. intergrated

C. time variant

D. non volatile

E. volatile


5. Data diatur oleh subyek yang hanya mengandung informasi yang diperlukan untuk

pengolahan pendukung keputusan, adalah karakteristik data warehouse dari sisi

A. subject oriented

B. intergrated

C. time variant

D. non volatile

E. volatile

1. Jika ingin mengetahui pola belanja konsumen ditoko, dengan tujuan menentukan

penempatan barang ditoko, maka digunakan teknik data mining

A. klasterisasi

B. asosiasi

C. klasifikasi

D. regresi

E. prediksi


PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN...

Documents

Transcript of PERTEMUAN 2 - univbsi.idunivbsi.id/pdf/2014/602/602-P02.pdfGUDANG DATA, KLASIFIKASI, REGRESI, DAN...