Data dimensioanal kelompok akbar aswad

32
TUGAS KELOMPOK DATA MINING DAN DATA WAREHOUSE “DATA DIMENSIONAL” Oleh : - Akbar Aswad (1031098) - Pingky Hermanto (1131092) - Yulianto (1031102) - Lintang A. R. (1031080) - Ogi Riwandi (1031115) JURUSAN SISTEM INFORMASI FAKULTAS ILMU KOMPUTER 1

description

 

Transcript of Data dimensioanal kelompok akbar aswad

Page 1: Data dimensioanal kelompok akbar aswad

TUGAS KELOMPOK

DATA MINING DAN DATA WAREHOUSE

“DATA DIMENSIONAL”

Oleh :

- Akbar Aswad (1031098)

- Pingky Hermanto (1131092)

- Yulianto (1031102)

- Lintang A. R. (1031080)

- Ogi Riwandi (1031115)

JURUSAN SISTEM INFORMASI

FAKULTAS ILMU KOMPUTER

UNIVERSITAS INTERNASIONAL BATAM

2012

1

Page 2: Data dimensioanal kelompok akbar aswad

Daftar Isi..................................................................................1Definisi Data Warehouse ...........................................................1I.1. Pengertian Data, Informasi dan Database.........................................1I.2. Pengertian Data Warehouse........................................................2I.3. Store-store data yang berhubungan dengan data warehouse.....................2I.4. Istilah-istilah yang berhubungan dengan data warehouse........................3I.5. Karakteristik Data Warehouse......................................................4Data Operasional.........................................................................4Data Warehouse..........................................................................4Data Dimensional........................................................................51. Pengertian.........................................................................52. Konsep Modeling Data Dimensional........................................7

2.1. Tabel Fakta (the fact table)......................................................82.2. Dimensi Data Model.................................................................93. Membangun Sebuah Model Data Dimensional.........................113.1. Memilih Sebuah Proses Bisnis....................................................123.2. Merangkum Dari Proses Bisnis...................................................123.3. Menentukan Ringkasan Dari Tabel Fakta.......................................133.4. Indentifikasi Dimensi dan Hirarki................................................143.4. Memilih dan Menetukan Tabel Fakta............................................153.5. Resisting Normalisasi..............................................................163.6. Memilih Atribut Tabel Dimensi...........................................174. Menangani Masalah umum Data Dimensional.........................184.1. Meminalisir Jumlah Atribut......................................................184.2. Penanganan Dimensi Yang Berubah.............................................194.3. Menggunakan Skema Snowflake.................................................20Daftar Pustaka..........................................................................................21

2

Page 3: Data dimensioanal kelompok akbar aswad

Definisi Data Warehouse

I.1. Pengertian Data, Informasi dan Database

Sebelum membahas tentang data warehouse, hal yang harus dipahami terlebih dahulu

yaitu pengertian tentang data,informasi dan database yaitu :

1. Steven Alter, data merupakan fakta,gambar atau suara yang mungkin atau tidak

berhubungan atau berguna bagi tugas tertentu.

2. McLeod, data terdiri dari fakta-fakta dan angka yang secara relatif tidak berarti bagi

pemakai. Sedangkan informasi adalah data yang sudah diproses atau data yang memiliki arti.

Jadi dapat diartikan bahwa data merupakan suatu bentuk keterangan-keterangan yang

belum diolah atau dimanipulasi sehingga belum begitu berarti bagi sebagian pemakai.

Sedangkan informasi merupakan data yang sudah di olah sehingga memiliki arti.

Menurut James A. O’Brien Database adalah suatu koleksi terintegrasi dimana secara

logika berhubungan dengan record dari file.

Jadi Database adalah tempat penyimpanan data yang saling berhubungan secara logika,

sehingga bisa digunakan untuk mendapatkan suatu informasi yang diperlukan oleh suatu

organisasi atau perusahaan.

Sedangkan data yang diperoleh suatu organisasi atau perusahaan umumnya didapat dari

kegiatan operasional sehari-hari atau hasil dari transaksi. Sehingga dari perkembangan model

database, dapat disebut juga dengan data warehouse.

I.2. Pengertian Data Warehouse

Pengertian Data Warehouse dapat bermacam-macam namun mempunyai inti yang sama,

seperti pendapat beberapa ahli berikut ini :

3

Page 4: Data dimensioanal kelompok akbar aswad

1. W.H. Inmon dan Richard D.H., data warehouse adalah koleksi data yang mempunyai

sifat berorientasi subjek,terintegrasi,time-variant, dan bersifat tetap dari koleksi data dalam

mendukung proses pengambilan keputusan management.

2. Vidette Poe, data warehouse merupakan database yang bersifat analisis dan read only

yang digunakan sebagai fondasi dari sistem penunjang keputusan.

Jadi, data warehouse merupakan metode dalam perancangan database, yang menunjang

DSS(Decission Support System) dan EIS (Executive Information System). Secara fisik data

warehouse adalah database, tapi perancangan data warehouse dan database sangat berbeda.

Dalam perancangan database tradisional menggunakan normalisasi, sedangkan pada data

warehouse normalisasi bukanlah cara yang terbaik.

Dari definisi-definisi yang dijelaskan tadi, dapat disimpulkan data warehouse adalah

database yang saling bereaksi yang dapat digunakan untuk query dan analisisis, bersifat

orientasi subjek, terintegrasi, time-variant,tidak berubah yang digunakan untuk membantu para

pengambil keputusan.

I.3. Store-store data yang berhubungan dengan data warehouse

Data warehouse

Sebuah database yang dioptimalkan untuk pengambilan data. Data tidak disimpan pada tingkat transaksi, beberapa tingkat data diringkas. Tidak seperti database OLTP tradisional, yang mengotomatisasi sehari-hari operasi, data warehouse menyediakan lingkungan pendukung keputusan di mana Anda dapat mengevaluasi kinerja seluruh perusahaan dari waktu ke waktu. Biasanya, Anda menggunakan model data relasional untuk membangun data warehouse.

Data mart

Sebuah subset dari data warehouse yang disimpan dalam database yang lebih kecil dan yang berorientasi pada tujuan tertentu atau subjek data daripada untuk enterprise-wide perencanaan strategis. Sebuah data mart dapat berisi data operasional, data diringkas, data spasial, atau metadata. Biasanya, Anda menggunakan model data dimensi untuk membangun data mart.

Operational data store

4

Page 5: Data dimensioanal kelompok akbar aswad

Sebuah sistem subjek berorientasi yang dioptimalkan untuk mencari satu atau dua catatan pada suatu waktu untuk pengambilan keputusan. Sebuah toko data operasional adalah bentuk hibrida data warehouse yang berisi tepat waktu, saat ini, informasi yang terintegrasi. Data biasanya adalah granularity tingkat lebih tinggi dari transaksi. Anda dapat menggunakan menyimpan data operasional untuk administrasi pengambilan keputusan, sehari-hari membuat. Data ini dapat berfungsi sebagai sumber umum dari data untuk gudang data.

Repository

Sebuah repositori menggabungkan sumber data ke dalam satu database dinormalisasi. Catatan dalam repositori sering diperbarui. Data operasional, bukan sejarah. Anda mungkin menggunakan repositori untuk spesifik pendukung keputusan query, tergantung pada persyaratan sistem tertentu. Sebuah repositori sesuai dengan kebutuhan perusahaan yang memerlukan, terpadu enterprise-wide sumber data untuk pengolahan operasional.

I.4. Istilah-istilah yang berhubungan dengan data warehouse

Istilah-istilah yang berkaitan dengan data warehouse :

1. On-Line Analytical Processing(OLAP)

Merupakan suatu pemrosesan database yang menggunakan tabel fakta dan dimensi

untuk dapat menampilkan berbagai macam bentuk laporan, analisis, query dari data

yang berukuran besar.

2. On-Line Transaction Processing(OLTP)

Merupakan suatu pemrosesan yang menyimpan data mengenai kegiatan operasional

transaksi sehari-hari.

3. Dimension Table

Tabel yang berisikan kategori dengan ringkasan data detail yang dapat dilaporkan.

Seperti laporan laba pada tabel fakta dapat dilaporkan sebagai dimensi waktu(yang

berupa perbulan, perkwartal dan pertahun).

4. Fact Table

Merupakan tabel yang umumnya mengandung angka dan data history dimana key

(kunci) yang dihasilkan sangat unik, karena key tersebut terdiri dari foreign key(kunci

asing) yang merupakan primary key (kunci utama) dari beberapa dimension table yang

berhubungan.

5. DSS

5

Page 6: Data dimensioanal kelompok akbar aswad

Merupkan sistem yang menyediakan informasi kepada pengguna yang menjelaskan

bagaimana sistem ini dapat menganalisa situasi dan mendukung suatu keputusan yang

baik.

I.5. Karakteristik Data Warehouse

Karakteristik data warehouse menurut Inmon, yaitu :

1. Subject Oriented (Berorientasi subject)

Data warehouse berorientasi subject artinya data warehouse didesain untuk

menganalisa data berdasarkan subject-subject tertentu dalam organisasi,bukan pada

proses atau fungsi aplikasi tertentu.

Data Operasional Data Warehouse

Dirancang berorientasi hanya pada

aplikasi dan fungsi tertentu

Dirancang berdasar pada subjek-subjek

tertentu(utama)

Focusnya pada desain database dan proses Focusnya pada pemodelan data dan desain

data

Berisi rincian atau detail data Berisi data-data history yang akan dipakai

dalam proses analisis

Relasi antar table berdasar aturan

terkini(selalu mengikuti rule(aturan)

terbaru)

Banyak aturan bisnis dapat tersaji antara

tabel-tabel

2. Integrated (Terintegrasi)

Data Warehouse dapat menyimpan data-data yang berasal dari sumber-sumber yang

terpisah kedalam suatu format yang konsisten dan saling terintegrasi satu dengan

lainnya. Dengan demikian data tidak bisa dipecah-pecah karena data yang ada

merupakan suatu kesatuan yang menunjang keseluruhan konsep data warehouse itu

sendiri.

3. Time-variant (Rentang Waktu)

Seluruh data pada data warehouse dapat dikatakan akurat atau valid pada rentang waktu

tertentu.

4. Non-Volatile

6

Page 7: Data dimensioanal kelompok akbar aswad

Karakteristik keempat dari data warehouse adalah non-volatile,maksudnya data pada

data warehouse tidak di-update secara real time tetapi di refresh dari sistem operasional

secara reguler.

Data Dimensional

1. Pengertian

Data dimensional merupakan rancangan logikal yang bertujuan

untukmenampilkan data dalam bentuk standar dan intuitif yang memperbolehkan akses

dengan performa yang tinggi. Model dimensional menggunakan konsep model

hubungan antar entity (ER) dengan beberapa batasan yang penting. Setiap model

dimensi terdiri dari sebuah tabel dengan sebuah komposit primary key, disebut dengan

table fakta, dan satu set table yang lebih kecil disebut table dimensi. Setiap table

dimensi memiliki sebuah simple primary key yang merespon tepat pada satu komponen

primary key pada tabel fakta. Dengan kata lain primary key pada table fakta terdiri dari

dua atau lebih foreign key. Struktur karakteristik ini disebut dengan skema bintang atau

join bintang.

Database relasional tradisional diorganisir diantara daftar catatan. Setiap record

berisi informasi terkait yang diatur dalam atribut (field). Tabel pelanggan dari database

demonstrasi stores_demo, yang mencakup kolom untuk nama, perusahaan, alamat,

telepon, dan sebagainya, adalah contoh yang khas. Sementara tabel ini memiliki

beberapa bidang informasi, setiap baris dalam tabel berkaitan dengan hanya satu

pelanggan. Jika Anda ingin membuat sebuah matriks dua dimensi dengan nama

pelanggan dan bidang lain (misalnya, nomor telepon), Anda akan menyadari bahwa

hanya ada korespondensi satu-ke-satu. Tabel 8 menunjukkan meja dengan bidang yang

hanya memiliki korespondensi satu-ke-satu.

Table 8. A Table with a One-To-One Correspondences Between Fields

Customer Phone number --->

Ludwig Pauli 408-789-8075 ---------------- ----------------

Carole Sadler ---------------- 415-822-1289 ----------------

7

Page 8: Data dimensioanal kelompok akbar aswad

Table 8. A Table with a One-To-One Correspondences Between Fields

Customer Phone number --->

Philip Currie ---------------- ---------------- 414-328-4543

Anda bisa menempatkan setiap kombinasi dari bidang dari tabel pelanggan sebelumnya dalam matriks ini, tetapi Anda selalu akan berakhir dengan korespondensi satu-ke-satu, yang menunjukkan bahwa tabel ini tidak multidimensi dan tidak akan cocok untuk database dimensi.

Namun, pertimbangkan meja relasional yang berisi lebih dari korespondensi satu-ke-satu antara bidang meja. Misalkan Anda membuat tabel yang berisi data penjualan untuk produk yang dijual di setiap wilayah negara. Untuk mempermudah, misalkan perusahaan memiliki tiga produk yang dijual di tiga wilayah. Tabel 9 shows bagaimana Anda dapat menyimpan data ini dalam tabel relasional.

Table 9. A Simple Relational Table

Product Region Unit Sales

Football East 2300

Football West 4000

Football Central 5600

Tennis racket East 5500

Tennis racket West 8000

Tennis racket Central 2300

Baseball East 10000

Baseball West 22000

Baseball Central 34000

Tabel dalam Tabel 9 cocok untuk representasi multidimensi karena memiliki lebih dari satu produk per wilayah dan lebih dari satu wilayah per

8

Page 9: Data dimensioanal kelompok akbar aswad

produk. Tabel 10 menunjukkan matriks dua dimensi yang lebih baik merupakan hubungan banyak-ke-banyak data produk dan wilayah.

Table 10. A Simple Two-Dimensional Example

Product Region Central East West

Football 5600 2300 4000

Tennis Racket 2300 5500 8000

Baseball 34000 10000 22000

Meskipun data ini dapat dipaksa ke dalam tabel tiga bidang relasional dari Tabel 9, data cocok lebih alami ke dalam matriks dua dimensi dari Tabel 10.

Keunggulan kinerja dari tabel dimensi di atas meja relasional tradisional dapat menjadi besar. Pendekatan dimensi menyederhanakan akses ke data yang ingin Anda meringkas atau membandingkan. Misalnya, jika Anda menggunakan tabel dimensi untuk query jumlah produk yang dijual di Barat, database server menemukan kolom Barat dan menghitung total untuk semua nilai baris dalam kolom tersebut. Untuk melakukan query yang sama di meja relasional, database server harus mencari dan mengambil setiap baris di mana kolom Daerah sama barat dan kemudian agregat data. Dalam pertanyaan semacam ini, tabel dimensi dapat total semua nilai kolom thewest di sebagian kecil dari waktu yang dibutuhkan tabel relasional untuk menemukan semua catatan Barat.

2. Konsep Modeling Data Dimensional

Untuk membangun sebuah database dimensi, Anda mulai dengan model data dimensi. Model Data dimensi menyediakan metode untuk membuat database sederhana dan mudah dipahami. Anda dapat membayangkan database dimensi sebagai kubus database tiga atau empat dimensi di mana pengguna dapat mengakses sepotong database bersama salah satu dimensi. Untuk membuat database dimensi, Anda membutuhkan model yang memungkinkan Anda memvisualisasikan data.

Misalkan bisnis Anda menjual produk di pasar yang berbeda dan mengevaluasi kinerja dari waktu ke waktu. Sangat mudah untuk memahami proses bisnis sebagai kubus data, yang berisi dimensi waktu, produk, dan pasar. Gambar 35 menunjukkan model dimensi. Persimpangan berbagai sepanjang baris kubus akan berisi langkah-langkah bisnis. Langkah-langkah sesuai dengan kombinasi tertentu dari data produk, pasar, dan waktu.

Figure 35. A Dimensional Model of a Business That Has Time, Product, and Market Dimensions

9

Page 10: Data dimensioanal kelompok akbar aswad

Nama lain untuk model dimensi adalah skema bintang-bergabung. Para desainer database menggunakan nama ini karena diagram untuk model ini tampak seperti bintang dengan satu meja sentral di mana satu set meja lainnya akan ditampilkan. Tabel utama adalah tabel hanya dalam skema dengan beberapa join menghubungkannya ke semua tabel lainnya. Ini meja tengah disebut tabel fakta dan tabel lain yang disebut tabel dimensi. Tabel dimensi semua hanya memiliki join tunggal yang menempel mereka ke tabel fakta, terlepas dari query.Gambat 36 menunjukkan model dimensi sederhana dari sebuah bisnis yang menjual produk di pasar yang berbeda dan mengevaluasi kinerja bisnis dari waktu ke waktu.

Gambar 36. A Typical Dimensional Model

2.1. Tabel Fakta (the fact table)

Tabel fakta menyimpan ukuran bisnis dan menunjuk ke nilai kunci pada tingkat terendah dari masing-masing tabel dimensi. Langkah-langkah adalah data kuantitatif

10

Page 11: Data dimensioanal kelompok akbar aswad

atau faktual tentang subjek. Langkah-langkah umumnya numerik dan sesuai dengan seberapa jauh atau seberapa banyak aspek dari pertanyaan. Contoh tindakan adalah harga, penjualan produk, persediaan produk, pendapatan, dan sebagainya. Sebuah ukuran dapat didasarkan pada sebuah kolom dalam sebuah tabel atau dapat dihitung. Tabel 11 menunjukkan tabel fakta yang tindakannya merupakan jumlah dari unit yang terjual, pendapatan, dan keuntungan untuk penjualan produk tersebut ke akun bahwa pada hari itu.

Table 11. A Fact Table with Sample Records

Product Code

Account Code Day Code Units Sold Revenue Profit

1 5 32104 1 82.12 27.12

3 17 33111 2 171.12 66.00

1 13 32567 1 82.12 27.12

Sebelum Anda merancang tabel fakta, Anda harus menentukan rincian

(granularity) dari tabel fakta. Granularity sesuai dengan bagaimana Anda

mendefinisikan catatan rendah tingkat individu dalam tabel fakta. Granularity mungkin

transaksi individual, snapshot harian, atau snapshot bulanan. Tabel fakta dalam Tabel

11 berisi satu baris untuk setiap produk yang dijual untuk setiap account setiap hari.

Dengan demikian, granularity dari tabel fakta yang diungkapkan oleh asproduct akun

demi hari.

2.2. Dimensi Data Model

Sebuah dimensi merupakan satu set objek atau peristiwa di dunia nyata. Setiap dimensi yang Anda mengidentifikasi untuk model data akan diimplementasikan sebagai tabel dimensi. Dimensi adalah kualifikasi yang membuat ukuran tabel fakta bermakna, karena mereka menjawab apa, kapan, dan di mana aspek pertanyaan. Sebagai contoh, perhatikan pertanyaan-pertanyaan berikut ini bisnis, dimana dimensi yang dicetak miring:• Apakah penyebab menghasilkan pendapatan tertinggi tahun lalu?• Apa keuntungan kita oleh vendor?• Berapa banyak unit yang terjual untuk setiap produk?

Pada set sebelumnya pertanyaan, pendapatan, laba, dan unit yang dijual adalah ukuran (tidak dimensi), karena masing-masing merupakan data kuantitatif atau faktual.

Dimension Elements

Sebuah dimensi dapat menentukan elemen dimensi ganda untuk berbagai tingkat penjumlahan. Sebagai contoh, semua elemen yang berhubungan dengan struktur

11

Page 12: Data dimensioanal kelompok akbar aswad

organisasi penjualan mungkin terdiri dari satu dimensi. Gambar 37 menunjukkan elemen dimensi bahwa dimensi rekening mendefinisikan.

Gambar 37. Dimension Elements in the Accounts Dimension

Dimensi terdiri dari hierarki elemen terkait. Karena aspek hirarkis dimensi, pengguna dapat membangun query yang mengakses data pada tingkat yang lebih tinggi (sampai roll) atau tingkat yang lebih rendah (drill down) dari tingkat sebelumnya detail. Gambar 37 menunjukkan hubungan hirarki dari elemen dimensi: rekening gulung hingga wilayah, dan wilayah menggulung ke daerah. Pengguna dapat query pada tingkat yang berbeda dari dimensi, tergantung pada data yang mereka ingin mengambil. Misalnya, pengguna mungkin melakukan query terhadap semua wilayah dan kemudian menelusuri ke tingkat wilayah atau account untuk informasi rinci.

Dimensi elemen biasanya disimpan dalam database sebagai kode numerik atau string karakter pendek untuk memfasilitasi bergabung ke meja lainnya. Setiap elemen dimensi dapat menentukan atribut dimensi ganda, dengan cara yang sama dimensi dapat menentukan elemen dimensi ganda.

Dimension Attributes

Sebuah atribut dimensi adalah kolom dalam tabel dimensi. Setiap atribut menggambarkan tingkat ringkasan dalam hirarki dimensi. Unsur-unsur dimensi menentukan hubungan hirarkis dalam tabel dimensi, atribut menggambarkan unsur-unsur dimensi dalam hal yang akrab bagi pengguna. Gambar 38 menunjukkan unsur-unsur dimensi dan atribut yang sesuai dari dimensi akun.Figure 38. Attributes That Correspond to the Dimension Elements

12

Page 13: Data dimensioanal kelompok akbar aswad

Karena atribut dimensi menggambarkan item dalam dimensi, mereka yang paling berguna ketika mereka teks.Tip:Kadang-kadang selama proses desain, tidak jelas apakah bidang data numerik dari sumber data produksi adalah fakta terukur atau atribut. Umumnya, jika bidang data numerik adalah pengukuran yang mengubah setiap kali kita sampel itu, itu adalah fakta. Jika itu adalah deskripsi discretely terhormat sesuatu yang lebih atau kurang konstan, itu adalah atribut dimensi.

Dimension Tables

Sebuah tabel dimensi adalah tabel yang menyimpan deskripsi tekstual dari dimensi bisnis. Sebuah tabel dimensi berisi elemen dan atribut, jika sesuai, untuk setiap tingkat dalam hirarki. Tingkat terendah detail yang diperlukan untuk analisis data menentukan tingkat terendah dalam hirarki. Lebih tinggi dari ini data base tingkat toko berlebihan Levels. Tabel ini denormalized mengurangi jumlah gabungan yang diperlukan untuk query dan membuat lebih mudah bagi pengguna untuk query pada tingkat yang lebih tinggi dan kemudian menelusuri ke tingkat yang lebih rendah dari detail. Pengeboran Istilah turun berarti menambahkan header baris dari tabel dimensi query.Table Anda 12 menunjukkan contoh tabel dimensi yang didasarkan pada dimensi akun.

Table 12. An Example of a Dimension Table

Acct Code Account Name Territory Salesman RegionRegion Size

Region Manager

1 Jane's Mfg. 101 B. Adams Midwest Over 50 T. Sent

2 TBD Sales 101 B. Adams Midwest Over 50 T. Sent

3 Molly's Wares 101 B. Adams Midwest Over 50 T. Sent

4 The Golf Co. 201 T. Scott Midwest Over 50 T. Sent

3. Membangun Sebuah Model Data Dimensional

Untuk membangun sebuah model data dimensi, Anda memerlukan metodologi yang menguraikan keputusan yang Anda butuhkan untuk membuat untuk melengkapi desain database. Metodologi ini menggunakan pendekatan top-down karena pertama mengidentifikasi proses utama dalam organisasi Anda di mana data dikumpulkan. Sebuah tugas penting dari desainer database untuk memulai dengan sumber data yang ada organisasi Anda menggunakan. Setelah proses diidentifikasi, satu atau lebih tabel

13

Page 14: Data dimensioanal kelompok akbar aswad

fakta yang dibangun dari setiap proses bisnis. Langkah-langkah berikut ini menjelaskan metodologi yang Anda gunakan untuk membangun model data.

Untuk membangun sebuah database dimensi

a) Pilih proses bisnis yang ingin Anda gunakan untuk menganalisis subyek yang akan dimodelkan.

b) Tentukan granularity dari tabel fakta.c) Mengidentifikasi dimensi dan hirarki untuk setiap tabel fakta.d) Mengidentifikasi langkah-langkah untuk tabel fakta.e) Tentukan atribut untuk setiap tabel dimensi.f)Dapatkan pengguna untuk memverifikasi model data.

Meskipun database dimensi dapat didasarkan pada proses bisnis dan dapat berisi beberapa tabel fakta banyak, model data yang bagian ini menjelaskan didasarkan pada proses bisnis tunggal dan memiliki satu tabel fakta.

3.1. Memilih Sebuah Proses Bisnis

Sebuah proses bisnis adalah operasi penting dalam organisasi Anda bahwa beberapa sistem warisan mendukung. Anda mengumpulkan data dari sistem ini untuk digunakan dalam database dimensi Anda. Proses bisnis mengidentifikasi apa yang pengguna akhir lakukan dengan data mereka, di mana data berasal dari, dan bagaimana mengubah data tersebut untuk membuatnya bermakna. Informasi dapat diperoleh dari berbagai sumber, termasuk keuangan, analisis penjualan, analisis pasar, profil pelanggan. Daftar berikut ini menunjukkan proses bisnis yang berbeda mungkin Anda gunakan untuk menentukan data apa untuk memasukkan dalam database dimensi Anda:• Penjualan• Pengiriman• Inventarisasi• Pesanan• Faktur

3.2. Merangkum Dari Proses Bisnis

Misalkan organisasi Anda ingin menganalisis tren pelanggan membeli dengan lini produk dan wilayah sehingga Anda dapat mengembangkan strategi pemasaran yang lebih efektif. Dalam skenario ini, area subyek untuk model data Anda adalah penjualan. Setelah banyak wawancara dan analisis mendalam dari proses bisnis penjualan Anda, misalkan organisasi Anda mengumpulkan informasi berikut:• Pelanggan-basis informasi telah berubah.Sebelumnya, penjualan kabupaten dibagi kota. Sekarang basis pelanggan sesuai dengan dua daerah: Wilayah 1 untuk California dan Wilayah 2 untuk semua negara-negara lain.• Laporan berikut yang paling penting untuk pemasaran:

o Bulanan pendapatan, biaya, laba bersih per lini produk vendor yang Pendapatan o dan unit dijual oleh produk, menurut wilayah, berdasarkan bulano Pendapatan Bulanan pelanggano Triwulan pendapatan per penjual

14

Page 15: Data dimensioanal kelompok akbar aswad

• Analisis Kebanyakan penjualan didasarkan pada hasil bulanan, tetapi Anda dapat memilih untuk menganalisis penjualan minggu atau periode akuntansi (di kemudian hari).• Sebuah sistem entry data ada dalam database relasional.Untuk mengembangkan model data bekerja, Anda dapat mengasumsikan bahwa database relasional informasi penjualan memiliki sifat sebagai berikut:

o Database stores_demo menyediakan banyak data pendapatan bahwa departemen pemasaran menggunakan.o kode produk yang digunakan analis disimpan dalam tabel katalog sebagai nomor katalog.o Kode lini produk disimpan dalam tabel saham sebagai nomor saham. Nama produk disimpan sebagai deskripsi.o hirarki produk yang agak rumit. Setiap lini produk memiliki banyak produk, dan produsen masing-masing memiliki banyak produk.

• Semua data biaya untuk setiap produk disimpan dalam flat file bernama costs.lst pada sistem pembelian yang berbeda.• Data Pelanggan disimpan dalam database stores_demo.

3.3. Menentukan Ringkasan Dari Tabel Fakta

Setelah Anda mengumpulkan semua informasi yang relevan tentang daerah subjek, langkah berikutnya dalam proses desain adalah untuk menentukan granularity dari tabel fakta. Untuk melakukan ini, Anda harus memutuskan apa catatan tingkat rendah individu dalam tabel fakta harus berisi. Komponen yang membentuk granularity dari tabel fakta berhubungan langsung dengan dimensi dari model data. Jadi, ketika Anda menentukan granularity dari tabel fakta, Anda mengidentifikasi dimensi dari model data. Bagaimana Granularity Mempengaruhi Ukuran Database Granularity dari tabel fakta juga menentukan berapa banyak ruang penyimpanan database membutuhkan. Sebagai contoh, mempertimbangkan kemungkinan granularities berikut untuk tabel fakta: Produk demi hari menurut wilayah Produk berdasarkan bulan menurut wilayah

Ukuran database yang memiliki granularity produk demi hari menurut wilayah akan jauh lebih besar daripada database dengan granularity produk per bulan menurut wilayah karena database berisi catatan untuk setiap transaksi dibuat setiap hari sebagai lawan penjumlahan bulanan transaksi. Anda harus hati-hati menentukan granularity dari tabel fakta Anda karena terlalu halus granularity bisa mengakibatkan database astronomis besar. Sebaliknya, terlalu kasar granularity bisa berarti data tidak cukup rinci bagi pengguna untuk melakukan query bermakna terhadap database.Menggunakan Proses Bisnis Menentukan Granularity tersebut

Sebuah tinjauan seksama informasi yang dikumpulkan dari proses bisnis harus menyediakan apa yang Anda butuhkan untuk menentukan granularity dari tabel fakta. Untuk meringkas, organisasi Anda ingin menganalisis pelanggan membeli tren dengan lini produk dan wilayah sehingga Anda dapat mengembangkan strategi pemasaran yang lebih efektif.Pelanggan dengan Produk

Granularity dari tabel fakta selalu merupakan tingkat terendah untuk setiap dimensi yang sesuai. Ketika Anda meninjau informasi dari proses bisnis, granularity untuk dimensi pelanggan dan produk dari tabel fakta yang jelas. Pelanggan dan produk tidak dapat cukup dikurangi lebih jauh: mereka sudah mengungkapkan tingkat terendah

15

Page 16: Data dimensioanal kelompok akbar aswad

dari catatan individu untuk tabel fakta. (Dalam beberapa kasus, produk mungkin kemudian dikurangi ke tingkat komponen produk karena produk bisa terdiri dari beberapa komponen.)Pelanggan dengan Produk dari district

Karena pelanggan yang membeli tren organisasi Anda ingin menganalisis memasukkan komponen geografis, Anda masih perlu memutuskan tingkat terendah untuk informasi daerah. Proses bisnis menunjukkan bahwa di masa lalu, penjualan kabupaten dibagi kota, tapi sekarang organisasi Anda membedakan antara dua wilayah untuk basis pelanggan: Wilayah 1 untuk California dan Wilayah 2 untuk semua negara-negara lain. Meskipun demikian, pada tingkat terendah, organisasi Anda masih termasuk data penjualan kabupaten, sehingga kabupaten merupakan tingkat terendah untuk informasi geografis dan menyediakan komponen ketiga untuk lebih menentukan granularity dari tabel fakta.Pelanggan dengan Produk dari district perhari

Pelanggan-beli tren selalu terjadi dari waktu ke waktu, sehingga granularity dari tabel fakta harus menyertakan komponen waktu. Misalkan organisasi Anda memutuskan untuk membuat laporan minggu, periode akuntansi, bulan, kuartal tahun, atau. Pada tingkat terendah, Anda mungkin ingin memilih granularity dasar hari. Granularity ini memungkinkan bisnis Anda untuk membandingkan penjualan pada hari Selasa dengan penjualan pada hari Jumat, bandingkan penjualan untuk hari pertama setiap bulan, dan sebagainya. Granularity dari tabel fakta sekarang lengkap.

3.4. Indentifikasi Dimensi dan Hirarki

Setelah Anda menentukan granularity (ringkasan) dari tabel fakta, mudah untuk mengidentifikasi dimensi utama untuk model data karena setiap komponen yang mendefinisikan granularity sesuai dengan dimensi. Gambar 39 menunjukkan hubungan antara granularity dari tabel fakta dan dimensi dari model data.

Figure 39. The Granularity of the Fact Table Corresponds to the Dimensions of the Data Model

Dengan dimensi (pelanggan, produk, geografi, waktu) untuk model data di tempat, diagram skema mulai terbentuk.Sekarang Anda dapat memetakan elemen dimensi dan hirarki untuk setiap dimensi. Gambar 40 menunjukkan hubungan antara dimensi, dimensi elemen, dan hirarki yang melekat.

Figure 40. The Relationships Between Dimensions, Dimension Elements, and the Inherent Hierarchies

16

Page 17: Data dimensioanal kelompok akbar aswad

Dalam kebanyakan kasus, elemen dimensi perlu mengekspresikan granularity terendah yang bisa setiap dimensi, bukan karena permintaan perlu mengakses individu tingkat rendah catatan, tetapi karena permintaan perlu memotong melalui database dengan cara yang tepat. Dengan kata lain, meskipun pertanyaan bahwa lingkungan data warehouse pose biasanya luas, pertanyaan-pertanyaan ini masih tergantung pada tingkat terendah detail produk.

3.4. Memilih dan Menetukan Tabel Fakta

Langkah-langkah untuk model data tidak hanya mencakup data itu sendiri, tetapi juga nilai-nilai baru yang Anda menghitung dari data yang ada. Ketika Anda memeriksa langkah-langkah, Anda mungkin menemukan bahwa Anda perlu membuat penyesuaian baik dalam granularity dari tabel fakta atau jumlah dimensi.

Keputusan penting lainnya yang harus Anda lakukan ketika Anda merancang model data adalah apakah untuk menyimpan hasil perhitungan pada tabel fakta atau untuk mendapatkan nilai-nilai ini pada saat runtime.

Pertanyaan untuk menjawab adalah, "Apa langkah-langkah yang digunakan untuk menganalisis bisnis?" Ingatlah bahwa tindakan adalah data kuantitatif atau faktual yang memberitahu berapa banyak atau berapa banyak. Informasi yang Anda kumpulkan dari analisis bisnis penjualan hasil proses dalam daftar berikut langkah-langkah:• Pendapatan• Biaya• Unit dijual• Laba bersih

Gunakan langkah-langkah untuk menyelesaikan tabel fakta pada Gambar 41.Figure 41. The Sales Fact Table References Each Dimension Table

17

Page 18: Data dimensioanal kelompok akbar aswad

Menggunakan Kunci Bergabung dengan Tabel Fakta dengan Tabel Dimensi. Asumsikan, untuk saat ini, bahwa skema dari Gambar 41 menunjukkan baik desain logis dan fisik dari database. Database berisi lima tabel berikut:

• Penjualan tabel fakta• Produk dimensi meja• Waktu dimensi meja• Pelanggan dimensi meja• Geografi dimensi meja

Setiap tabel dimensi termasuk kunci primer (produk, time_code, pelanggan, district_code), dan kolom yang sesuai dalam tabel fakta adalah kunci asing. Tabel fakta juga memiliki kunci (komposit) primer yang merupakan kombinasi dari empat kunci asing. Sebagai aturan, masing-masing kunci asing dari tabel fakta harus memiliki rekan dalam tabel dimensi. Selanjutnya, setiap tabel dalam database dimensi yang memiliki kunci komposit harus menjadi tabel fakta, yang berarti bahwa setiap tabel dalam database dimensi yang mengungkapkan hubungan banyak-ke-banyak adalah tabel fakta.

18

Page 19: Data dimensioanal kelompok akbar aswad

3.5. Resisting Normalisasi

Jika keempat kunci asing dari tabel fakta secara ketat diberikan bilangan bulat

berturut-turut, Anda bisa memesan sesedikit 16 byte untuk semua empat kunci (4 byte

setiap waktu, produk, pelanggan, dan geografi) dari tabel fakta. Jika keempat langkah

di tabel fakta masing-masing 4-byte integer kolom, Anda akan perlu untuk memesan

hanya lain 16 byte. Dengan demikian, setiap record dari tabel fakta akan menjadi hanya

32 byte. Bahkan tabel fakta miliar-baris akan membutuhkan hanya sekitar 32 gigabyte

ruang data primer.

3.6. Memilih Atribut Tabel Dimensi

Setelah Anda menyelesaikan tabel fakta, Anda dapat memutuskan atribut dimensi untuk setiap tabel dimensi. Untuk menggambarkan bagaimana memilih atribut, mempertimbangkan dimensi waktu. Model data untuk proses bisnis penjualan mendefinisikan granularity hari yang sesuai dengan dimensi waktu, sehingga setiap record dalam tabel dimensi waktu merupakan hari. Perlu diingat bahwa setiap bidang tabel didefinisikan oleh hari tertentu catatan mewakili.

Analisis proses bisnis penjualan juga menunjukkan bahwa departemen pemasaran kebutuhan bulanan, laporan triwulanan, dan tahunan, sehingga dimensi waktu mencakup unsur-unsur: hari, bulan, triwulan, dan tahun. Setiap elemen diberikan atribut yang menggambarkan elemen dan atribut kode (untuk menghindari nilai-nilai kolom yang mengandung karakter string panjang). Tabel 13 menunjukkan atribut untuk tabel dimensi waktu dan nilai-nilai sampel untuk setiap bidang meja.

Table 13. Attributes for the Time Dimension

time code order date month code monthquarter code

quarter

year

35276 07/31/1999 7 july 3 third q 1999

35277 08/01/1999 8 aug 3 third q 1999

35278 08/02/1999 8 aug 3 third q 1999

Tabel 13 menunjukkan bahwa nama atribut Anda harus menetapkan istilah bisnis akrab yang membuatnya mudah bagi pengguna akhir untuk membentuk query pada database. Gambar 42 menunjukkan model data yang lengkap untuk proses bisnis penjualan dengan semua atribut yang didefinisikan untuk setiap tabel dimensi.

Figure 42. The Completed Dimensional Data Model for the Sales Business Process

19

Page 20: Data dimensioanal kelompok akbar aswad

4. Menangani Masalah umum Data Dimensional

Model dimensi yang bagian sebelumnya menjelaskan hanya menggambarkan

konsep yang paling dasar dan teknik pemodelan data dimensi. Model data yang Anda

membangun untuk mengatasi kebutuhan bisnis perusahaan Anda biasanya

melibatkan masalah tambahan dan kesulitan yang harus diselesaikan untuk mencapai

kinerja query terbaik dari database Anda. Bagian ini menjelaskan berbagai metode

yang dapat Anda gunakan untuk menyelesaikan beberapa masalah yang paling umum

yang muncul ketika Anda membangun sebuah model data dimensi.

4.1. Meminalisir Jumlah Atribut

Dimensi tabel yang berisi informasi pelanggan atau produk dengan mudah mungkin memiliki 50 sampai 100 atribut dan jutaan baris. Namun, dimensi tabel dengan atribut terlalu banyak dapat menyebabkan baris berlebihan luas dan kinerja yang buruk. Untuk alasan ini, Anda mungkin ingin memisahkan kelompok tertentu dari atribut dari tabel dimensi dan menempatkan mereka dalam tabel terpisah yang disebut tabel minidimension. Sebuah meja minidimension terdiri dari sekelompok kecil atribut yang dipisahkan dari tabel dimensi yang lebih besar. Anda mungkin memilih untuk membuat tabel minidimension untuk atribut yang memiliki salah satu dari karakteristik berikut:• Bidang jarang digunakan sebagai kendala dalam query.• Bidang sering dibandingkan bersama-sama.

Gambar 43 menunjukkan tabel minidimension untuk informasi demografis yang dipisahkan dari customertable.

20

Page 21: Data dimensioanal kelompok akbar aswad

Gambar 43. A Minidimension Table for Demographics Information

4.2. Penanganan Dimensi Yang Berubah

Dalam tabel demografi, Anda dapat menyimpan demografi kunci sebagai kunci asing di kedua tabel fakta dan tabel pelanggan, yang memungkinkan Anda untuk bergabung tabel demografi langsung ke tabel fakta. Anda juga dapat menggunakan tombol demografi langsung dengan tabel pelanggan untuk menelusuri atribut demografis.Gambar 44. A Dimension That Changes

Anda dapat menggunakan tiga cara untuk menangani perubahan yang terjadi pada dimensi:• Mengubah nilai yang disimpan dalam kolom dimensi. Pada Gambar 44, rekor Bill Adams dalam tabel dimensi pelanggan diperbarui untuk menunjukkan alamat baru Arlington Heights. Semua sejarah penjualan sebelumnya ini pelanggan kini dikaitkan dengan distrik Arlington Heights bukannya Des Plaines.• Membuat data dimensi kedua dengan nilai baru dan kunci umum.

21

Page 22: Data dimensioanal kelompok akbar aswad

Pendekatan ini efektif partisi sejarah. Tabel dimensi pelanggan sekarang akan berisi dua catatan untuk Bill Adams. Rekor lama dengan kunci 101 tetap, dan catatan dalam tabel fakta masih terkait dengannya. Sebuah rekor baru juga ditambahkan ke tabel dimensi pelanggan untuk Bill Adams, dengan kunci baru yang mungkin terdiri dari kunci tua ditambah beberapa digit versi (101,01, misalnya). Semua catatan berikutnya yang ditambahkan ke tabel fakta untuk Bill Adams yang terkait dengan kunci baru.• Tambahkan sebuah bidang baru dalam tabel dimensi pelanggan untuk atribut yang terkena dampak dan mengubah nama atribut lama.Pendekatan ini jarang digunakan kecuali jika Anda perlu untuk melacak sejarah tua dalam hal nilai baru dan sebaliknya. Tabel dimensi pelanggan mendapatkan atribut baru bernama alamat sekarang, dan atribut lama berganti nama alamat asli. Catatan yang berisi informasi mengenai Bill Adams termasuk nilai-nilai untuk kedua alamat asli dan saat ini.

4.3. Menggunakan Skema Snowflake

Skema snowflake adalah variasi pada skema bintang, di mana tabel dimensi yang sangat besar dinormalisasi menjadi beberapa tabel. Dimensi dengan hirarki dapat diuraikan menjadi struktur salju ketika Anda ingin menghindari bergabung ke tabel dimensi besar ketika Anda menggunakan agregat dari tabel fakta. Misalnya, jika Anda memiliki informasi merek yang Anda ingin memisahkan dari tabel dimensi produk, Anda dapat membuat salju merek yang terdiri dari satu baris untuk setiap merek dan yang berisi baris secara signifikan lebih sedikit daripada tabel dimensi produk. Gambar 45 menunjukkan struktur kepingan salju untuk merek dan elemen lini produk dan tabel agregat brand_agg.

gambar 45. An Example of a Snowflake Schema

22

Page 23: Data dimensioanal kelompok akbar aswad

Jika dalam membuat agregat, brand_agg, yang terdiri dari kode merek dan pendapatan total per merek, Anda dapat menggunakan skema kepingan salju untuk menghindari bergabung dengan jauh lebih besar sales table, Pada pernyataan berikut brand danbrand_agg tables Tampilkan:

SELECT brand.brand_name, brand_agg.total_revenueFROM brand, brand_agg WHERE brand.brand_code = brand_agg.brand_code AND brand.brand_name = 'Anza'

Daftar Pustaka

http://en.wikipedia.org/wiki/Decision_support_system

http://publib.boulder.ibm.com/infocenter/idshelp/v10/index.jsp?topic=/com.ibm.ddi.doc/ddi221.htm

Conolly,Thomas dan Begg Carolyn(2002). Database systems – A Practical Approach to

Design, Implementation and Management, edisi-3. Addison Wesley Longman.Inc., USA

Fatansyah(2002). Buku Teks Ilmu Komputer – Basis Data, cetakan-4. Informatika

Inmon, W.H.(2002). Building the Data Warehouse,edisi-3. Wiley Computer Publishing.

23

Page 24: Data dimensioanal kelompok akbar aswad

Kimball,R.,Merz, R (1998). The Data Warehouse Lifecycle Toolkit. Expert Methods for

Designing, Developing and Deploying Data Warehouses. Wiley Computer Publishing,

Canada.

Mcleod,Raymond(1996). Sistem Informasi Manajemen, Jilid-1. Terjemahan Teguh,H. PT.

Prenhallindo, Jakarta.

Nolan,Sean And Huguelet, Tom(2000).Microsoft SQL Server 7.0 Data Warehousing Training

Kit. Microsoft Prees, USA

Poe, Vidette(1998). Building Data Warehouse for Decision Support, edisi-2. Prentice Hall.

24