MAKALAH SISTEM BASIS DATA 2.doc

17
MAKALAH SISTEM BASIS DATA 2 PENGENALAN DATA MINING & DATA WAREHOUSE Nama Kelompok : - Yuniati (17112 ___) - Wildi Maulida Septina (17112711) Kelas : 3KA26 Kelompok : 10 Dosen : Metty Mustika

Transcript of MAKALAH SISTEM BASIS DATA 2.doc

MAKALAH SISTEM BASIS DATA 2PENGENALAN DATA MINING & DATA WAREHOUSE

Nama Kelompok: - Yuniati (17112 ___) Wildi Maulida Septina (17112711)

Kelas

: 3KA26

Kelompok

: 10

Dosen

: Metty Mustika

UNIVERSITAS GUNADARMA

2015

BAB IDATA MINING

A. Pengertian

Penggalian data(bahasa Inggris:data mining) adalah serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basisdata. Informasi yang dihasilkan diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basisdata.Data Mining Menurut Para Ahli :

Data mining adalah suatu konsep yang digunakan untuk menemukan pengetahuan yang tersembunyi di dalam database. Data mining merupakan proses semi otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan potensial dan berguna yang tersimpan di dalam database besar. (Turban et al, 2005 ). Menurut Gartner Group data mining adalah suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola seperti teknik statistik dan matematika (Larose, 2006).Data mining adalah bagian dari proses KDD ( Knowledge Discovery in Databases) yang terdiri dari beberapa tahapan seperti pemilihan data, pra pengolahan, transformasi, data mining, dan evaluasi hasil (Maimon dan Last, 2000). KDD secara umum juga dikenal sebagai pangkalan data.Penggalian data adalah salah satu bagian dari proses pencarian pola. Berikut ini urutan proses pencarian pola :

1. Pembersihan Data : yaitu menghapus data pengganggu (noise) dan mengisi data yang hilang.

2. Integrasi Data : yaitu menggabungkan berbagai sumber data.

3. Pemilihan Data : yaitu memilih data yang relevan.

4. Transformasi Data : yaitu mentransformasi data ke dalam format untuk diproses dalam penggalian data.

5. Penggalian Data : yaitu menerapkan metode cerdas untuk ekstraksi pola.

6. Evaluasi pola : yaitu mengenali pola-pola yang menarik saja.

7. Penyajian pola : yaitu memvisualisasi pola ke pengguna.B. Latar Belakang Kehadiran data mining dilatar belakangi oleh berlimpahnya data (overload data) yang dialami oleh berbagai institusi, perusahaan atau organisasi. Berlimpahnya data ini merupakan akumulasi data transaksi yang terekam bertahun-tahun.. Datadata tersebut merupakan data transaksi yang umumnya diproses menggunakan aplikasi komputer yang biasa disebut dengan OLTP (On Line Transaction Processing). Data mining juga dilatarbelakangi oleh atau adanya ledakan informasi (explotion information) dari berbagai media terutama internet.C. Manfaat Data Mining

Pemanfaatan data mining dapat dilihat dari dua sudut pandang, yaitu :

1. Sudut Pandang Komersial

pemanfaatan data mining dapat digunakan dalam menangani meledaknya volume data. Bagaimana mana menyimpannya, mengestraknya serta memanfaaatkannya. Berbagai teknik komputasi dapat digunakan menghasilkan informasi yang dibutuhkan. Informasi yang dihasilkan menjadi asset untuk meningkatkan daya saing suatu institusi. Data mining tidak hanya digunakan untuk menangani persoalan menumpuknya data/informasi dan bagaimana menggunakannya tanpa kehilangan informasi yang penting (warehousing). 2. Data mining juga diperlukan untuk menyelesaikan permasalahan atau menjawab kebutuhan bisnis itu sendiri, misalnya: Bagaimana mengetahui hilangnya pelanggan karena pesaing Bagaimana mengetahui item produk atau konsumen yang memiliki kesamaan karakteristik Bagaimana mengidentifikasi produk-produk yang terjual bersamaan dengan produk lain. Bagaimana memprediski tingkat penjualan Bagaimana menilai tingkat resiko dalam menentukan jumlah produksi suatu item. Bagaimana memprediksi prilaku bisnis di masa yang akan datang.3. Sudut Pandang Keilmuan

Data mining dapat digunakan untuk mengcapture, menganlisis serta menyimpan data yang bersifat real-time dan sangat besar, misalnya: Remote sensor yang ditempatkan pada suatu satelit Telescope yang digunakan untuk memindai langit Simulasi saintifik yang membangkitkan data dalam ukuran terabytes.

Gambar 1: Contoh pemanfaatan data mining di bidang keilmuan (Tan dkk, 2004)

Data mining merupakan salah satu metode alternatif yang dapat digunakan untuk mengolah data mentah, ketika metode konvensional tidak fisibel untuk dilakukan karena besarnya volume data yang diolah. Hal ini dapat terjadi karena datamining memiliki kemampuan mereduksi data baik melalui teknik katalogisasi, klasifikasi maupun segementasi.D. Proses Pada Data Mining

Proses Data mining sesunggunghnya merupakan salah satu rangkaian dari proses pencarian pengetahuan pada database (Knowledge Discovery in Database/KDD). KDD berhubungan dengan teknik integrasi dan penemuan ilmiah, interprestasi dan visualisasi dari pola-pola sejumlah kumpulan data. Serangkaian proses tersebut yang memiliki tahap sebagai berikut (Tan, 2004):

1. Pembersihan data dan integrasi data (cleaning and integration), Proses ini digunakan untuk membuang data yang tidak konsisten dan bersifat noise dari data yang terdapat di berbagai basisdata yang mungkin berbeda format maupun platform yang kemudian diintegrasikan dalam satu database data warehouse.

2. Seleksi dan transformasi data (selection and transformation), Data yang terdapat dalam database data warehouse kemudian direduksi dengan berbagai teknik. Proses reduksi diperlukan untuk mendapatkan hasil yang lebih akurat dan mengurangi waktu komputasi terutama utuk masalah dengan skala besar (large scale problem).

Beberapa cara seleksi, antra lain:

Sampling, adalah seleksi subset representatif dari populasi data yang besar. Denoising, adalah proses menghilangkan noise dari data yang akan ditransformasikan

Feature extraction, adalah proses membuka spesifikasi data yang signifikan dalam konteks tertentu.

Beberapa cara transformsi, antara lain (Santosa, 2007):

Centering, mengurangi setiap data dengan rata-rata dari setiap atribut yang ada.

Normalisation, membagi setiap data yang dicentering dengan standar deviasi dari atribut bersangkutan.

Scaling, mengubah data sehingga berada dalam skala tertentu.

Gambar 2 : Tahap-tahap Knowledge Discovery in Database3. Penambangan data (data mining) Data-data yang telah diseleksi dan ditransformasi

ditambang dengan berbagai teknik. Proses data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan fungsi-fungsi tertentu. Fungsi atau algoritma dalam data mining sangat bervariasi. 4. Evaluasi pola dan presentasi pengetahuan Tahap ini merupakan bagian dari proses pencarian pengetahuan yang mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya. Langkah terakhir KDD adalah mempresentasikan pengetahuan dalam bentuk yang mudah dipahami oleh pengguna.E. Fungsi-fungsi Data MiningFungsi-fungsi yang umum diterapkan dalam data mining (Haskett, 2000) : Assosiation, adalah proses untuk menemukan aturan assosiatif antara suatu kombinasi item dalam suatu waktu Secuence, hampir sama dengan association bedanya seccuence diterapkan lebih dari satu periode. Clastering, adalah proses pengelompokan sejumlah data/obyek ke dalam kelompok-kelompok data (klaster) sehingga setiap klaster akan berisi data yang saling mirip.

Classification, adalah proses penemuan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui.

Regretion, adalah proses pemetaam data dalam suatu nilai prediksi.

Forecasting, adalah proses pengestimasian nilai prediksi berdasarkan pola-pola di dalam sekumpulan data

Solution, adalah proses penemuan akar masalah dan problem solving dari persoalan bisnis yang dihadapi atau paling tidak sebagai informasi pendukung dalam pengambilan keputusan.F. Teknik-teknik Data MiningPada dasarnya penggalian data dibedakan menjadi dua fungsionalitas, yaitu deskripsi dan prediksi. Berikut ini beberapa fungsionalitas penggalian data yang sering digunakan:

Karakterisasi dan Diskriminasi: yaitu menggeneralisasi, merangkum, dan mengkontraskan karakteristik data.

Penggalian pola berulang: yaitu pencarian pola asosiasi (association rule) atau pola intra-transaksi, atau pola pembelian yang terjadi dalam satu kali transaksi.

Klasifikasi: yaitu membangun suatu model yang bisa mengklasifikasikan suatu objek berdasar atribut-atributnya. Kelas target sudah tersedia dalam data sebelumnya, sehingga fokusnya adalah bagaimana mempelajari data yang ada agar klasifikator bisa mengklasifikasikan sendiri.

Prediksi: yaitu memprediksi nilai yang tidak diketahui atau nilai yang hilang, menggunakan model dari klasifikasi.

Penggugusan/Cluster analysis: yaitu mengelompokkan sekumpulan objek data berdasarkan kemiripannya. Kelas target tidak tersedia dalam data sebelumnya, sehingga fokusnya adalah memaksimalkan kemiripan intrakelas dan meminimalkan kemiripan antarkelas.

Analisis outlier: yaitu proses pengenalan data yang tidak sesuai dengan perilaku umum dari data lainnya. Contoh: mengenali noise dan pengecualian dalam data.

Analisis trend dan evolusi: meliputi analisis regresi, penggalian pola sekuensial, analisis periodisitas, dan analisis berbasis kemiripan.

BAB II

DATA WAREHOUSEA. Pengertian Pengertian Data Warehouse dapat bermacam-macam namun mempunyai inti yang sama, seperti pendapat beberapa ahli berikut ini :

Menurut W.H. Inmon dan Richard D.H.,data warehouseadalah koleksi data yang mempunyai sifat berorientasi subjek,terintegrasi,time-variant, dan bersifat tetap dari koleksi data dalam mendukung proses pengambilan keputusan management.

Menurut Vidette Poe,data warehousemerupakan database yang bersifat analisis danread onlyyang digunakan sebagai fondasi dari sistem penunjang keputusan.

Menurut Paul Lane,data warehousemerupakan database relasional yang didesain lebih kepadaquerydan analisa dari pada proses transaksi, biasanya mengandunghistorydata dari proses transaksi dan bisa juga data dari sumber lainnya. Data warehousememisahkan beban kerja analisis dari beban kerja transaksi dan memungkinkan organisasi menggabung/konsolidasi data dari berbagai macam sumber.Dari definisi-definisi yang dijelaskan tadi, dapat disimpulkandata warehouseadalah database yang saling bereaksi yang dapat digunakan untukquerydan analisisis, bersifat orientasi subjek, terintegrasi, time-variant,tidak berubah yang digunakan untuk membantu para pengambil keputusan.B. Sejarah Data Warehouse

Sejak awal 1990-an, data gudang yang berada di garis depan aplikasi teknologi informasi sebagai cara bagi organisasi untuk secara efektif menggunakan informasi digital untuk perencanaan bisnis dan pengambilan keputusan. Oleh karena itu, pemahaman tentang sistem arsitektur data warehouse adalah atau akan menjadi penting dalam peran dan tanggung jawab dalam pengelolaan informasi.

1960General MillsdanDartmouth College, dalam proyek penelitian bersama, mengembangkandimensisyarat danfakta.[2] 1970ACNielsendan IRI menyediakan data mart dimensi untuk penjualan eceran.

1983Teradatamemperkenalkan sistem manajemen database yang khusus dirancang untuk mendukung keputusan.

1988 Barry Devlin dan Paul Murphy mempublikasikan artikelarsitektur An untuk dan sistem informasi bisnisdiIBM Systems Journalmana mereka memperkenalkan istilah data bisnis gudang.

1990 memperkenalkan Sistem Bata Merah Red Brick Warehouse, sebuah sistem manajemen database khusus untuk data warehouse.

1991 memperkenalkan Prism Prism Solusi Gudang Manager, perangkat lunak untuk mengembangkan gudang data.

1991Bill Inmonmenerbitkan bukuMembangun Data Warehouse.

1995 Data Warehousing Institute, sebuah organisasi nirlaba yang mempromosikan data warehouse, didirikan.

1996Ralph Kimballmenerbitkan bukuThe Data Warehouse Toolkit.

2000Daniel LinstedtmelepaskanVault Data,memungkinkan real time diaudit Data Warehouse.C. Manfaat & Tujuan Data WarehouseData Warehouse biasanya digunakan untuk: 1. Memahami trend bisnis dan membuat perkiraan keputusan yang lebih baik.

2. Menganalisa informasi mengenai penjualan harian dan membuat keputusan yang cepat dalam mempengaruhi performance perusahaan.Sedangkan tujuan dari data warehouse, yaitu untuk :

Meningkatkan kualitas dan akurasi informasi bisnis dan mengirimkan informasi kepemakai dalam bentuk yang dimengerti dan dapat diakses dengan mudah.Data warehouse memungkinkan penggunaan untuk memeriksa dan menganalisis data-data historis dalam beberapa bentuk, tetapi data warehouse tidak dapat membuat keputusan. Proses yang terjadi pada database operasional tidak mempengaruhi data warehouse karena keduanya memiliki database yang terpisah.

Dalam data warehouse terdapat beberapa proses diantaranya: mengambil data yang dibutuhkan, mengumpulkan, mempersiapkan (trans-forming, membersihkan, mengintegrasikan, decoding), menyimpan (loading), dan menyediakan data untuk pemakai atau aplikasi yang bersifat query/ reporting (read-only). Hanya satu data terpercaya ini yang digunakan oleh semua yang membutuhkan (single version of truth).

D. Konsep dan Arsitektur Data Warehouse

Data warehouse

kumpulan data yang berorientasi subjek, terintegrasi,time-variant,dannon volatileuntuk mendukung proses pengambilan keputusan. Data warehouse mengorganisasi-kan subjek utama perusahaan (pe-langgan, produk, dan penjualan), bukan area aplikasi utama (faktur pelanggan, pengawasan stock, dan penjualan produk). Hal ini meng-gambarkan kebutuhan untuk me-nyimpan data pendukung keputus-ab daripada aplikasi yang berorien-tasi data.

Integratedpengambilan secara bersamaan sumber data yang berasal dari sis-tem aplikasi berbagai perusaan be-sar yang berbeda. Sumber data sering tidak konsisten, misal berbe-da format. Sumber data yang terin-tegrasi harus dapat dibuat konsis-ten untuk menggambarkan view gabungan data ke pemakai.

Time variantdata warehouse hanya akurat dan valid pada saat tertentu atau beberapa interval waktu tertentu.

Non volatile data tidak diperbaharui secarareal timetetapi diperbaharui dari sistem operasional secara regular. Data baru selalu ditambahkan sebagai lampiran pada basis data, bukan menggantikan data lama.E. Karakteristik Data WarehouseMenurut Feri Sulianta dan Dominikus dalam buku Data Mining Meramalkan Bisnis Perusahaan (2010, hal. 32), data warehouse adalah kumpulan data dari berbagai sumber yang ditempatkan menjadi satu dalam tempat penyimpanan berukuran besar lalu diproses menjadi bentuk penyimpanan multi-dimensional dan didesain untuk querying dan reporting. Ada 2 Karakteristik Data Warehouse :

a. Berorientasi SubjekData Warehouse didesain untuk menganalisa data berdasarkan subject-subject tertentu dalam organisasi.

Gambar 1: Berorientasi Subjekb. Terintegrasi

Data Warehouse dapat menyimpan data-data yang berasal dari sumber-sumber yang terpisah ke dalam suatu format yang konsisten dan saling terintegrasi satu dengan lainnya.

Gambar 2: Terintegrasi Dimensional ModellingMenurut Connoly and begg (2011, h. 1182), Dimension Modelling adalah sebuah teknik desain logis yang bertujuan untuk menghadirkan data dalam sebuah bentuk yang standart dan inuitif yang memungkinkan pengaksesan basis data dengan performa yang tinggi. Beberapa konsep pemodelan data Warehouse pada dimensionality modeling yang dikenal pada umumnya :a. Star Schema Skema bintang adalah sebuah logikal struktur yang mempunyai sebuah tabel fakta berisi data terbaru di tengah, yang dikelilingi tabel dimensi yang berisi data referensi

Gambar 3: Star Schemab. Snowflake Schema Snowflake schema is method of normalizing the dimension tables in a star schema when you completely normalize all the dimension tables, the resultant structure resembles a snowflake with the fact table in the middle.

Gambar 4: Snowflake Schemac. Fact Constellation Schema

Fact constellation schema adalah skema yang berisikan lebih dari satu tabel fakta yang saling berbagi tabel dimensi.

Gambar 5: Fact Constellation SchemaData Mining & Data Warehouse 3