Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database...

51
7 Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database Management System) 2.1.1 Pengertian Data Menurut Prescott (2005, p5), data adalah sebuah fakta mengenai objek yang dapat disimpan dalam media komputer. Data memiliki banyak bentuk, salah satu contoh data adalah nama, alamat, dan nomor telepon dari pelanggan. Dalam perkembangan selanjutnya, data akan diolah menjadi bentuk yang lebih kompleks yang disebut dengan informasi. Informasi adalah data yang sudah diproses dengan cara tertentu untuk meningkatkan pengetahuan dari orang yang menggunakannya (Prescott, 2005, p5). Informasi dapat digunakan untuk membantu dalam meningkatkan pengetahuan yang dimiliki oleh perusahaan. Oleh karena itu penting bagi perusahaan untuk selalu memperbaharui informasi yang dimilikinya. 2.1.2 Pengertian Database dan DBMS Istilah Database atau "basis data" berawal dari ilmu computer. Catatan yang mirip dengan basis data sebenarnya sudah ada sebelum revolusi industri yaitu dalam bentuk buku besar, kuitansi dan kumpulan data yang berhubungan dengan bisnis. Istilah basis data mengacu pada

Transcript of Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database...

Page 1: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

 

Bab 2

Landasan Teori

2.1 Data, Database, dan DBMS (Database Management System)

2.1.1 Pengertian Data

Menurut Prescott (2005, p5), data adalah sebuah fakta mengenai

objek yang dapat disimpan dalam media komputer. Data memiliki banyak

bentuk, salah satu contoh data adalah nama, alamat, dan nomor telepon

dari pelanggan.

Dalam perkembangan selanjutnya, data akan diolah menjadi

bentuk yang lebih kompleks yang disebut dengan informasi. Informasi

adalah data yang sudah diproses dengan cara tertentu untuk

meningkatkan pengetahuan dari orang yang menggunakannya (Prescott,

2005, p5).

Informasi dapat digunakan untuk membantu dalam meningkatkan

pengetahuan yang dimiliki oleh perusahaan. Oleh karena itu penting bagi

perusahaan untuk selalu memperbaharui informasi yang dimilikinya.

2.1.2 Pengertian Database dan DBMS

Istilah Database atau "basis data" berawal dari ilmu computer.

Catatan yang mirip dengan basis data sebenarnya sudah ada sebelum

revolusi industri yaitu dalam bentuk buku besar, kuitansi dan kumpulan

data yang berhubungan dengan bisnis. Istilah basis data mengacu pada

Page 2: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

 

koleksi dari data-data yang saling berhubungan, dan perangkat lunaknya

seharusnya mengacu sebagai sistem manajemen basis data (database

management system/DBMS). Menurut Connoly dan Begg (2002, p16),

DBMS adalah sebuah piranti lunak, yang memungkinkan pengguna

untuk mendefinisikan, membuat, mengelola dan mengontrol akses

terhadap sebuah database.

Jika konteksnya sudah jelas, banyak administrator dan

programmer menggunakan istilah basis data untuk kedua arti tersebut.

Berikut ini pengertian database menurut para ahli :

- Connolly (2002,p14-p15), database adalah kumpulan data yang

berelasi secara logikal dan sebuah deskripsi dari data tersebut

yang di desain untuk memenuhi kebutuhan organisasi. Database

adalah sebuah tempat penyimpanan besar dari data yang dapat

digunakan secara terus menerus oleh banyak departemen dan user.

- Syahrial (2006, p45), Database adalah sekumpulan obyek seperti

tabel, view, indeks, trigger, prosedur, dan obyek-obyek lain yang

disimpan dalam database file dengan nama perluasan MDF dan

LDF.

- O’Brien (2005,p141), database adalah kumpulan elemen data

terintegrasi yang berhubungan secara logikal.

- Turban et al (2005,p446), database adalah kumpulan dari file-file

yang menyimpan data yang saling berelasi dan berasosiasi satu

dengan yang lainnya. Dimana letak data tersebut disimpan dapat

Page 3: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

 

mempengaruhi kecepatan user untuk mengakses, query response

times, data entry, security, dan biaya.

Berdasarkan definisi diatas, dapat disimpulkan bahwa database

adalah tempat penyimpanan dari data. Dan database sendiri adalah

kumpulan dari elemen, relasi atau file-file yang saling terintegrasi untuk

digunakan bersama dan dapat digunakan untuk memperoleh informasi

yang dibutuhkan oleh perusahaan.

2.1.3 Komponen DMBS

Sebagai sebuah sistem, DBMS juga memiliki komponen yang

saling berinteraksi satu sama lain. Menurut Connoly dan Begg (2002,

pp18-20), ada beberapa komponen utama yang harus dimiliki oleh sebuah

DBMS yaitu :

1. Perangkat Keras (Hardware)

2. Piranti Lunak (Software)

3. Data

4. Prosedur

5. Orang (pengguna)

2.1.4 Kelebihan DBMS

Menurut Connoly dan Begg (2002, pp26-29), ada beberapa

kelebihan yang dimiliki oleh DBMS dibandingkan dengan sistem

Page 4: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

10 

 

pengelolaan data tradisional (menggunakan file). Beberapa kelebihan itu

antara lain :

1. Berkurangnya redundansi.

Redudansi data merupakan kerangkapan data yang terjadi

dalam basis data, bukan pada tabel. Dengan penggunaan DBMS,

terjadi pengurangan redundansi data, sehingga terjadi

penghematan dalam penggunaan piranti penyimpanan.

2. Konsistensi data

Dengan menghilangkan redundansi, resiko data yang tidak

konsisten dapat dikurangi. Dengan penggunaan DBMS, suatu

data item hanya disimpan sekali dalam database, sehingga proses

update terhadap data item tersebut juga hanya dilakukan sekali

dan nilai baru hasil proses update tersebut juga akan langsung

tersedia bagi semua pengguna.

3. Lebih banyak informasi

Dengan terintegrasinya data operasional, organisasi akan

mampu untuk memperoleh lebih banyak informasi dari sejumlah

data yang sama.

4. Penyebaran data

Database dimiliki oleh seluruh bagian organisasi dan

dapat diakses oleh pengguna-pengguna yang diberikan otorisasi

untuk mengakses data tersebut. Dengan demikian, setiap

Page 5: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

11 

 

pengguna akan memiliki bagian yang lebih banyak dari data yang

ada.

5. Meningkatnya integritas data

Dengan adanya integrasi yang dilakukan oleh DBMS,

database administrator dapat memaksa agar dilakukan validasi

terhadap batasan-batasan integritas data yang dihasilkan oleh

suatu proses pada sistem.

6. Peningkatan keamanan

Dengan adanya integrasi data dalam database, database

administrator dapat memaksa dilaksanakannya batasan-batasan

keamanan tertentu terhadap penggunaan database oleh pengguna-

pengguna tertentu pula.

7. Standarisasi

Sama seperti pada keamanan, adanya integrasi data juga

memungkinkan dilakukannya standarisasi data antara setiap

bagian dari organisasi.

8. Penghematan biaya

Dengan mengkombinasikan seluruh data operasional

organisasi ke dalam satu database dan membuat sekumpulan

aplikasi yang dapat mengolah satu sumber data ini, organisasi

dapat melakukan penghematan biaya.

Page 6: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

12 

 

9. Meminimalisasi konflik antara pengguna

Setiap pengguna dalam suatu organisasi memiliki

kebutuhan yang mungkin dapat mengakibatkan konflik dengan

pengguna lain. Karena database berada di bawah kontrol

database administrator, database administrator dapat membuat

keputusan tentang bagaimana rancangan dan penggunaan

operasional dari database, yang memungkinkan digunakannya

sumber daya sebaik mungkin bagi keseluruhan perusahaan.

10. Meningkatkan aksesibilitas data dan mengurangi waktu respon

Dengan adanya DBMS, data-data yang dimiliki oleh suatu

departemen dapat diakses secara langsung oleh pengguna pada

departemen lainnya. Hal ini akan mengakibatkan sistem memiliki

fungsionalitas-fungsionalitas tambahan yang dapat berguna bagi

perkembangan organisasi.

11. Peningkatan produktivitas

Banyak DBMS yang menyediakan tool-tool yang dapat

memudahkan proses pengembangan aplikasi database. Tool-tool

ini dapat meningkatkan produktivitas programmer dan

mengurangi waktu pengembangan aplikasi.

12. Peningkatan konkurensi

Dengan adanya DBMS, adalah mungkin bagi database

untuk diakses lebih dari satu pengguna pada waktu yang

bersamaan, tanpa saling menganggu.

Page 7: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

13 

 

13. Peningkatan pelayanan backup dan recovery

Kebanyakan DBMS modern telah menyertakan fasilitas

untuk meminimalisasi proses yang hilang apabila terjadi

kesalahan pada sistem, sehingga mempermudah dalam proses

recovery dan backup terhadap database.

2.1.5 Kekurangan DBMS

Selain kelebihan yang dimilikinya, DBMS juga memiliki

beberapa kekurangan. Menurut Connoly dan Begg (2002, pp29-30),

kekurangan dari DBMS antara lain :

1. Kompleksitas

Perancang dan pengembang database, database dan data

administrator dan pengguna harus mengerti fungsi-fungsi yang

terdapat dalam suatu DBMS (yang biasanya cukup kompleks)

untuk dapat menggunakan DBMS tersebut dengan baik.

Ketidakmampuan untuk mengerti sistem tersebut dengan baik

dapat mengakibatkan dilakukannya perancangan yang buruk,

yang dapat mengakibatkan konsekuensi yang serius terhadap

perusahaan.

2. Ukuran

Kompleksitas dan banyaknya fungsionalitas dari sebuah

DBMS membuat DBMS menjadi sebuah piranti lunak yang

berukuran besar, yang membutuhkan ruang penyimpanan yang

Page 8: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

14 

 

cukup besar dan membutuhkan memori yang besar untuk dapat

bekerja.

3. Biaya

Dengan digunakannya DBMS, dibutuhkan biaya ekstra

untuk membeli DBMS itu sendiri dan melakukan perawatan

terhadap DBMS tersebut.

4. Biaya tambahan untuk kebutuhan perangkat keras

Kebutuhan ruang penyimpanan dari DBMS dan database

mungkin akan mengakibatkan dibutuhkannya perangkat keras

tambahan. Selain itu, untuk mencapai kinerja yang baik, mungkin

organisasi harus membeli sebuah komputer yang lebih besar, atau

bahkan sebuah komputer yang khusus didedikasikan untuk

menjalankan DBMS tersebut.

5. Biaya konversi

Pada beberapa kasus biaya pembelian DBMS dan

perangkat keras tambahan dapat menjadi jauh lebih kecil

dibandingkan biaya untuk mengkonversi aplikasi yang sudah ada

agar dapat berjalan pada DBMS dan perangkat keras baru. Biaya

konversi ini juga termasuk biaya untuk melatih pegawai agar

dapat menggunakan sistem baru dan biaya untuk memperkerjakan

spesialis untuk membantu dalam proses konversi dan

implementasi sistem baru.

Page 9: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

15 

 

6. Kinerja

Karena DBMS dibuat sebagai solusi umum untuk lebih

dari satu masalah, ada beberapa aplikasi yang berjalan lebih

lambat dari biasanya.

7. Dampak kesalahan yang lebih besar

Karena seluruh kegiatan operasi perusahaan tergantung

pada keberadaan DBMS, adanya kesalahan pada komponen dari

DBMS dapat mengakibatkan terhentinya operasi perusahaan.

2.2 Data Warehouse

2.2.1 Pengertian Data Warehouse

Definisi dari data warehouse telah berevolusi sejak pertama kali

diperkenalkan pada awal tahun 1980. Menurut Connolly dan Begg

(2002,p1047), data warehouse adalah suatu kumpulan data yang bersifat

subject oriented, integrated, time-variant, dan non-volatile dalam

mendukung proses pengambilan keputusan. Data warehouse bertujuan

agar perusahaan dapat menggunakan arsip datanya untuk mendapatkan

keunggulan bisnis.

Sedangkan menurut Inmon (2002,p31), data warehouse adalah

koleksi data yang berorientasi subjek, terintegrasi, tidak mengalami

perubahan, dan berdasarkan variasi waktu untuk mendukung keputusan

manajemen. Namun secara singkat data warehouse dapat diartikan

Page 10: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

16 

 

sebagai tempat penyimpanan dari data yang didapat dari sistem

perusahaan dan dapat diakses oleh user.

Data warehouse adalah database yang dirancang khusus untuk

mengerjakan proses query, membuat laporan dan analisa. Data yang

disimpan adalah data business history dari sebuah organisasi atau

perusahaan, dimana data tersebut tidak tersimpan secara rinci atau detil.

Sehingga data dapat bertahan lebih lama berbeda dengan data OLTP

(Online Transactional Processing) yang tersimpan sampai prosesnya

berlangsung secara lengkap.

Sumber data pada data warehouse berasal dari berbagai macam

format, software, platform dan jaringan yang beda. Data tersebut adalah

hasil dari proses transaksi perusahan atau organisasi sehari-hari. Karena

berasal dari sumber yang berbeda-beda tadi, maka data pada data

warehouse harus tersimpan dalam sebuah format yang baku.

2.2.2 Karakteristik Data Warehouse

Data warehouse juga merupakan salah satu sistem pendukung

keputusan, yaitu dengan menyimpan data dari berbagai sumber,

mengorganisasikannya dan dianalisa oleh para pengambil kebijakan.

Akan tetapi data warehouse tidak dapat memberikan keputusan secara

langsung. Namun ia dapat memberikan informasi yang dapat membuat

user menjadi lebih paham dalam membuat kebijakan strategis. Adapun

Page 11: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

17 

 

karakteristik data warehouse menurut Imnon (2002,p31) adalah sebagai

berikut:

1. Subject oriented

Data warehouse dirancang melakukan analisis data

berdasarkan subjek-subjek tertentu yang ada dalam organisasi,

tidak berorientasi kepada proses atau aplikasi fungsional tertentu.

2. Integrated

Karakteristik kedua dan terpenting dari data warehouse

adalah integrasi. Data diambil dari banyak sumber terpisah ke

dalam data warehouse. Data yang diambil itu akan diubah,

diformat, disusun kembali, diringkas, dan seterusnya. Data yang

masuk kedalam data warehouse dengan berbagai cara dan

mempunyai ketidak-konsistenan pada tingkat aplikasi tidak akan

dimasukkan. Contoh konsistensi data antara lain adalah

penamaan, struktur kunci, ukuran atribut, dan karakteristik data

secara spesifik. Hasilnya adalah data dalam data warehouse yang

memiliki satu bentuk.

3. Non-volatile

Non-volatile dapat diartikan bahwa data tersebut tidak

mengalami perubahan. Data dilingkungan oprasional dapat

dilakukan perubahan (update), dihapus (delete), dan dimasukkan

data baru (insert) tetapi data dalam data warehouse hanya

Page 12: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

18 

 

melakukan loading dan accessing. Dengan ini maka data yang

lama tetap tersimpan dalam data warehouse.

4. Time-variant

Karakteristik ini mengimplikasikan bahwa tiap data dalam

data warehouse itu selalu akurat dalam periode tertentu. Dalam

satu sisi, sebuah record dalam database memiliki waktu yang

telah ditetapkan secara langsung. Disisi lain, sebuah record

mempunyai waktu transaksi.

Dalam setiap lingkungan baik oprasional maupun data

warehouse lingkungan tersebut memiliki time horizon. Time

horizon adalah sebuah parameter waktu yang dipertunjukkan

dalam lingkungan tersebut.

Batas waktu pada data warehouse lebih lama daripada

system operasional, karena perbedaan batas waktu tersebut, maka

data warehouse mempunyai lebih banyak history daripada

lingkungan lainnya.

2.2.3 Tujuan Data Warehouse

Tujuan pembuatan data warehouse sendiri sebenarnya beragam.

Namun secara umum data warehouse digunakan untuk menyediakan data

yang lebih mudah diakses oleh pada top level management sehingga

dapat memberikan sudut pandang tersendiri. Berdasarkan pandangan

diatas maka kami merumuskan tujuan data warehouse sebagai berikut:

Page 13: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

19 

 

1. Data warehouse menyediakan suatu pandangan (view) umum,

sehingga data warehouse akan memiliki keleluasaan untuk

mengakomodasi bagaimana data akan ditafsirkan atau dianalisis

selanjutnya.

2. Data warehouse merupakan tempat penyimpanan seluruh data

historis. Data warehouse akan bertumbuh menjadi sangat besar

sehingga harus dirancang untuk mengakomodasi pertumbuhan

data.

3. Data warehouse dirancang untuk menyediakan data bagi berbagai

teknologi analisis dalam komunitas bisnis.

Secara umum ada beberapa hal yang harus diperhatikan dalam

membuat sebuah rancangan datawarehouse. Beberapa pertanyaan umum

seperti tipe apa yang akan dimodelkan? Lalu apa dasar data dan level

atom data yang akan disajikan? Dimensi apa yang dipakai untuk masing-

masing record tabel fakta? Pertanyaan-pertanyaan tersebut nantinya akan

membantu dalam menyusun sebuah arsitektur data warehouse. Arsitektur

data warehouse menyediakan perangkat dengan mengidentifikasi dan

memahami data akan pindah melalui sistem dan digunakan dalam

perusahaan. Arsitektur data warehouse mempunyai komponen utama

yaitu database yang hanya dapat dibaca.

Page 14: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

20 

 

Gambar 2.1 Arsitektur Data Warehouse

Sumber : Connoly,2005, p1053

Berikut ini beberapa karakteristik arsitektur data warehouse :

1. Data diambil dari sistem asal atau sistem informasi yang ada,

database dan file.

2. Data dari sistem akan diintegrasikan dan ditransformasikan

sebelum disimpan kedalam data warehouse.

3. Datawahouse adalah jenis database read only yang diciptakan

untuk mengambil keputusan

4. User mengakses data warehouse via front – end atau aplikasi.

Page 15: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

21 

 

2.2.4 Komponen Data Warehouse

Untuk menjalankan fungsinya, data warehouse memerlukan data

operasional yang selanjutnya akan melalui beberapa tahapan agar data

tersebut layak dipakai. Berdasarkan gambar 2.1, komponen utama dalam

data warehouse menurut Connoly 2005, p1052, yaitu :

1. Operasional Data

Data Operasional adalah data yang digunakan untuk

mendukung proses bisnis sehari – hari nya. Data operasional

masih berupa data mentah yang kotor. Disebut kotor karena

didalamnya masih ada data yang duplikat, atau tidak sesuai

dengan nilai data yang ditentukan.

2. Operational Data Store

Operational Data Store adalah tempat penyimpanan data

operational yang bersifat current dan terintegrasi yang digunakan

untuk analisis. Dengan kata lain, operational data store

mendukung proses transaksi operational maupun proses analisis.

Dengan adanya operational data store, maka pembangunan data

warehouse menjadi lebih mudah karena operational data store

dapat menyediakan data yang telah diekstrak dari sumber dan

telah dibersihkan sehingga proses pengintegrasian dan

restrukturisasi data warehouse menjadi lebih sederhana.

Page 16: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

22 

 

3. Load Manager

Load manager, disebut juga dengan komponen front –

end, melakukan semua operasi yang berhubungan dengan

ekstraksi dan load data kedalam data warehouse. Data dapat

diekstrak langsung dari sumber data atau lebih biasa dari

operational data store.

Operasi yang dilakukan oleh load manager dapat meliputi

transformasi sederhana dari data untuk mempersiapkan data untuk

dimasukan ke dalam data warehouse. Ukuran dan kompleksitas

dari komponen ini akan bervariasi diantara data warehouse dan

dapat dibangun dengan menggunakan kombinasi dari tool

loading data dari vendor dan program yang custom built

4. Warehouse manager

Warehouse manager melakukan semua operasi yang

berhubungan dengan manajemen dari data didalam data

warehouse komponen ini dibangun menggunakan alat manajemen

data vendor dan program custom built.

Operasi yang dilakukan oleh warehouse manager meliputi :

‐ Analisis data untuk memastikan konsistensi data

‐ Transformasi dan menggabungkan sumber data dari

tempat penyimpanan sementara ke dalam table data

warehose

‐ Pembuatan index dan view berdasarkan table dasar

Page 17: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

23 

 

‐ Melakukan denormalisasi (jika diperlukan)

‐ Melakukan agregasi (jika diperlukan)

‐ Melakukan back up data

Dalam beberapa kasus, warehouse manager juga menghasilkan

profile query untuk menentukan index dan agregasi manakah yang

sesuai. Sebuah profile query dapat dihasilkan untuk tiap user,

sekelompok user, atau data warehouse dan didasarkan pada

informasi yang menggambarkan karakteristik dari query seperti

frekuensi, target table, ukuran set hasil.

5. Query Manager

Query manager, disebut juga dengan komponen back end

melakukan semua operasi yang berhubungan dengan manajement

dari query user. Komponen ini biasanya dibangun menggunakan

tool akses data end user vendor, tool pengawasan data warehouse,

fasilitas database dan program custom built.

Kompleksitas dari query manager ditentukan oleh fasilitas

yang disediakan oleh tool akses end user dan database. Operasi

yang dilakukan oleh komponen ini meliputi mengarahkan query

ke tabel yang sesuai dan menjadwalkan pengeksekusian query.

Dalam beberapa kasus, query manager juga menghasilkan profile

query untuk mengizinkan warehouse manager menentukan index

dan agregasi mana yang tepat.

Page 18: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

24 

 

6. Metadata

Area dari data warehouse ini menyimpan definisi dari semua data

yang digunakan oleh semua proses dalam data warehouse.

Metadata digunakan untuk berbagai tujuan yang meliputi :

• Ekstraksi dan load process – metadata digunakan untuk

memetakan sumber kedalam view biasa dari data didalam

warehouse.

• Proses manajemen warehouse – metadata digunakan

untuk mengotomatisasi produksi dari tabel ringkasan.

• Sebagai bagian dari management query – metadata

digunakan untuk mengarahkan lansung sebuah query ke

sumber data yang paling tepat. Sehingga proses dalam

processing query menjadi lebih cepat

Sruktur dari metadata berbeda diantara setiap proses,

karena tujuannya berbeda. Hal ini berarti copy dari metadata yang

bergambarkan item data yang sama disimpan dalam data

warehouse. Sebagai tambahan, kebanyakan tool vendor untuk

management copy dan akses untuk data end user menggunakan

metadata versi mereka sendiri.

Secara spesifik, tool manajemen menggunakan metadata

untuk mengerti aturan pemetaan untuk menerapkan dengan tujuan

untuk mengkonversi sumber data ke dalam bentuk yang umum.

Tool akses end user menggunakan metadata untuk mengerti

Page 19: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

25 

 

bagaimana membangun sebuah query. Manajemen dari metadata

merupakan tugas yang sangat kompleks yang tidak boleh

diremehkan.

7. End User Access Tool

Tujuan utama dari data warehouse adalah menyediakan

informasi kepada user bisnis untuk membuat keputusan strategis.

User ini berinteraksi dengan data warehouse menggunakan tool

akses end user. Data warehouse mendukung secara efektif

analisis adhoc dan analisis rutin. Performa yang tinggi dapat

dicapai dengan merencanakan terlebih dulu kebutuhan untuk join,

summation, dan laporan periodic oleh end user. Ada lima

kelompok utama dari tool ini:

o Reporting and query tools

Reporting tools meliputi tool produksi laporan dan

penulis laporan. Tool produksi laporan digunakan untuk

menghasilkan laporan operasional regular atau mendukung

tugas batch berkapasitas tinggi, seperti pesanan pelanggan

atau faktur dan cek pegawai. Penulis laporan, merupakan

tool desktop yang murah yang didesign untuk end user

tool query untuk data warehouse relational di desain

untuk menerima SQL atau menghasilkan pernyataan SQL

untuk meng-query data yang disimpan di dalam data

warehouse. Tool ini melindungi user dari kompleksitas

Page 20: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

26 

 

dari SQL dan struktur database dengan mengikutsertakan

sebuah layer meta diantara user dan database. Layer meta

adalah perangkat lunak yang menyediakan view subject

oriented dari database dan mendukung pembuatan ‘point

and click’ dari SQL. Sebuah contoh dari tool query adalah

query by example (QBE). Tool query dikenal dengan user

dari aplikasi bisnis seperti analisis demographic dan daftar

mailing pelanggan.

o Application development tools

Kebutuhan dari end user seperti kapabilitas built in

dari reporting tool dan tool query tidak sesuai baik karena

analisis yang dibutuhkan tidak dapat dilakukan atau karena

interaksi user membutuhkan expertise tingkat tinggi pada

user. Dalam situasi ini, akses user mungkin membutuhkan

pengembangan aplikasi in-house yang menggunakan tool

akses data grafikal yang didesain untuk lingkungan client

server. Beberapa dari tool pengembangan aplikasi ini

berintergrasi dengan tool OLAP, dan dapat mengakses

semua system database, termasuk Oracle, Sybase, dan

Informix.

o Executive Information System (EIS) Tools

EIS, sering disebut dengan ‘sistem informasi

semua orang’, awalnya di desain untuk mendukung

Page 21: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

27 

 

pembuatan keputusan strategis. Namun, fokus dari sistem

ini diperluas untuk mendukung semua tingkat dari

manajemen. Tool EIS awalnya berhubungan dengan

mainframe yang memungkinkan user untuk membangun

aplikasi pembuat keputusan grafikal untuk menyediakan

sebuah overview dari data organisasi dan mengakses

sumber data eksternal.

o Online Analytical Processing (OLAP) Tools

Tool OLAP didasarkan pada konsep database

multidimensi dan memungkinkan user untuk menganalisis

data menggunakan view multidimensi yang kompleks.

Aplikasi bisnis untuk tool ini meliputi mempertinggi

efektifitas dari kampanye pemasaran, peramalan penjualan

produk dan perencanaan kapasistas. Tool ini

mengasumsikan data diorganisir dalam model

multidimensi yang didukung oleh MDDB

(Multidimentional Database) atau oleh relational database

yang dirancang memungkinkan query multidimensi

o Data mining tools

Data mining adalah sebuah proses menemukan

korelasi, pola, dan tren baru dengan menggali sejumlah

besar data menggunakan teknik statistik, matematis,

intellegensia buatan. Data mining memiliki potensial

Page 22: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

28 

 

untuk memperluas kapabilitas dari tool OLAP karena

tujuan utama dari data mining adalah untuk membangun

model predictive dari pada model retroprective.

2.2.5 Skema Data Warehouse

Komponen database dari sebuah data warehouse dideskripsikan

dengan sebuah teknik yang disebut dimensionality modeling.

Dimensionality modeling merupakan suatu teknik desain logikal yang

bertujuan untuk menampilkan data dalam bentuk standar dan intuitive,

yang memungkinkan akses dengan kecepatan yang tinggi (Connolly dan

Begg, 2005, p1079). Dimentionality modeling untuk desain data

warehouse adalah sebagai berikut :

1. Star Schema

Menurut Connolly dan Begg (2005, p1079), star schema

adalah struktur logikal yang mempunyai sebuah tabel fakta berisi

data faktual yang ditempatkan ditengah, dikelilingi oleh tabel

dimensi berisi data acuan (yang dapat didenormalisasi). Star

schema mengeksploitasi karakteristik dari data faktual dimana

fakta dibuat dari peristiwa yang muncul di masa lalu dan mustahil

untuk diubah, dengan mengabaikan bagaimana mereka dianalisis.

Kebanyakan fakta yang digunakan dalam tabel fakta

adalah angka dan additive karena aplikasi data warehouse tidak

pernah diakses sebagai sebuah record tunggal, tetapi mereka

Page 23: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

29 

 

diakses ratusan, ribuan bahkan jutaan record pada suatu waktu

dan hal yang paling berguna untuk dilakukan dengan record yang

begitu banyak tersebut adalah mengagregasikan mereka. Tabel

dimensi, berisi deskripsi informasi berupa teks yang dapat

digunakan untuk mempercepat kinerja query dengan

denormalisasi informasi kedalam sebuah tabel dimensi.

Denormalisasi tepat ketika terdapat sejumlah entity yang

berhubungan dengan tabel dimensi yang sering diakses,

menghindari overheat dari penggabungan tabel tambahan untuk

mengakses attribute. Denormalisasi tidak tepat dimana data

tambahan tidak sering diakses, karena overheat tabel dimensi

yang diperluas tidak mungkin offset oleh berbagai perolehan

dalam query.

Gambar 2.2 Contoh Star Schema

Sumber : Connolly, 2005, p1080

Page 24: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

30 

 

Keuntungan dari star schema yaitu :

Mudah dipahami pengguna

Star schema menggambarkan dengan jelas

bagaimana pengguna berfikir dan memerlukan data untuk

query dan analisis. Star schema menggambarkan

hubungan antar tabel sama seperti cara pengguna melihat

hubungan tersebut secara normal

Mengoptimalkan navigasi

Star schema mengoptimalisasikan navigasi

melewati database sehingga lebih mudah dilihat.

Meskipun hasil query terlihat kompleks, tetapi navigasi itu

memudahkan pengguna.

Paling cocok untuk pemsrosesan query

Star schema paling cocok untuk pemrosesan query

karena schema ini berpusat pada query. Tanpa bergantung

pada banyak dimensi dan kompleksitas query, setiap query

akan dengan mudah dijalankan pertama dengan memilih

baris dari tabel dimensi dan kemudian menemukan baris

yang sama di tabel fakta.

Page 25: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

31 

 

2. Snowflake schema

Snowflake schema merupakan variasi dari star schema,

namun tabel dimensi pada schema ini tidak mengandung

denormalisasi yang memungkinkan sebuah dimensi untuk

mempunyai dimensi lagi.

Gambar 2.3 Contoh Snowflake schema

Sumber : Connolly, 2005, p1081

Suatu schema disebut snowflake schema jika satu atau

lebih tabel dimensi tidak berhubungan langsung dengan fact table,

melainkan pada tabel dimensi.

Page 26: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

32 

 

2.2.6 Arsitektur Data Warehouse

1. Arsitektur two-tier

Arsitektur ini memiliki kekurangan yaitu pada skalabilitas

dan fleksibilitas yang dapat diperbaiki dengan menggunakan

arsitektur multi-tier.

Gambar 2.4 Arsitektur Data Warehouse Two-Tier (Berson, Smith,

dan Thearling, 2000, p32)

2. Arsitektur multi-tier

Arsitektur ini memperbaiki kelemahan skalabilitas dan

fleksibilitas pada arsitektur two-tier. Server aplikasi melakukan

penyaringan data, pengumpulan, dan akses data, mendukung

metadata, dan memberikan view multidimensi.

Page 27: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

33 

 

Gambar 2.5 Arsitektur Data Warehouse Multi-Tier (Berson,

Smith dan Thearling, 2000, p33)

2.2.7 Keuntungan Penggunaan Data Warehouse

Menurut Connoly dan Begg (2002, p1048), kesuksesan penerapan

sebuah data warehouse dapat membawa keuntungan besar bagi

perusahaan meliputi :

1. Potensi ROI (Return On Investment) yang tinggi

Organisasi harus mengeluarkan sumber daya dan biaya

dengan jumlah yang sangat besar untuk memastikan penerapan

data warehouse yang sukses. Studi yang dilakukan IDC

(International Data Corporation) pada tahun 1996 menghasilkan

bahwa data warehouse mencapai rata-rata ROI dalam 3 tahun

sebesar 401%, dengan lebih dari 90% perusahaan yang disurvei

mencapai lebih dari 40% ROI, separuh perusahaan mencapai lebih

Page 28: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

34 

 

dari 160% ROI dan seperempat perusahaan dengan lebih dari

600% ROI.

2. Keuntungan bersaing (competitive advantage)

ROI yang besar untuk perusahaan yang telah sukses

mengimplementasikan data warehouse merupakan bukti

keuntungan bersaing yang sangat besar. Keuntungan bersaing

tersebut didapatkan dengan memberikan pembuat keputusan akses

ke data sehingga dapat menemukan informasi yang sebelumnya

tidak tersedia, tidak diketahui, dan tidak ditemukan seperti

pelanggan, tren, dan permintaan.

3. Meningkatkan produktivitas dari pembuat keputusan perusahaan

Data warehouse meningkatkan produktivitas pembuat

keputusan pada perusahaan dengan membuat database

terintegrasi yang konsisten, berorientasi subyek, dan historis.

Data warehouse mengintegrasikan data dari berbagai sistem yang

berbeda-beda ke suatu bentuk yang memberikan sebuah

pandangan yang konsisten tentang organisasi. Dengan mengubah

data menjadi informasi yang berguna, data warehouse dapat

membuat manajer bisnis untuk melakukan analisis secara lebih

benar, akurat, dan konsisten.

Page 29: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

35 

 

2.2.8 Data mart

Data yang terdapat dalam data warehouse dapat dibagi perbagian

sesuai dengan kebutuhan dalam informasi. Inilah yang dsebut dengan

data mart. Data mart memiliki karakteristik yang sama dengan data

warehouse, perbedaannya hanya terdapat pada jumlah data yang dimiliki.

Dalam data mart, data yang ada hanya berasal dari satu bagian atau satu

departemen saja, sedangkan pada data warehouse, data yang ada berasal

dari seluruh bagian dalam perusahaan tersebut. Menurut Vercellis, Carlo

(2009, p49) data mart adalah sebuah sistem yang menarik semua data

yang diperlukan oleh sebuah departemen dalam perusahaan. Data di

dalam data mart biasanya disesuaikan untuk melakukan fungsi tertentu,

misalnya digunakan untuk product profitability analysis, KPI analysis,

customer demographic analysis, dan sebagainya.

Gambar 2.6 Arsitektur Umum Data Warehouse dan Data Mart

Sumber : Connolly, 2005, p1068

Page 30: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

36 

 

Ada beberapa karakteristik yang membedakan antara data mart

dengan data warehouse, yaitu (Connolly and Begg, 2005, p1067):

• Data mart lebih berfokus kepada ketentuan maupun permintaan

dari pengguna yang berkaitan dengan sebuah departemen ataupun

fungsi-fungsi bisnis organisasi.

• Secara normal data mart tidak mencakup data operasional yang

mendalam tidak seperti halnya dengan data warehouse.

• Karena data mart memiliki jumlah data yang lebih sedikit

dibandingkan dengan data warehouse, data mart lebih mudah

dimengerti dan diaplikasikan.

Ada beberapa alasan untuk membangun sebuah data mart

(Connolly dan Begg, 2005, p1069), diantaranya :

• Member akses kepada user akan data yang diperlukan untuk

melakukan analisis.

• Menyediakan data dalam bentuk yang disesuaikan dengan

berbagai sudut pandang atas data oleh sekelompok pemakai dalam

sebuah departemen atau fungsi bisnis.

• Mengurangi waktu respon dari end-user, sehubungan dengan

berkurangnya volume data yang diakses.

• Menyediakan struktur data yang sesuai dengan kebutuhan tools

milik end-user, seperti OLAP maupun data mining. Tools tersebut

mungkin membutuhkan struktur basis data internal sendiri. Pada

Page 31: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

37 

 

praktiknya, tools tersebut biasanya membentuk desain data mart

sendiri untuk mendukung fungsionalitas tertentu secara spesifik

• Data mart umumnya menggunakan data lebih sedikit sehingga

berbagai proses seperti cleaning, loading, transformasi dan

integrasi menjadi jauh lebih mudah. Oleh karena itu pembuatan

serta implementasi data mart menjadi lebih sederhana bila

dibandingkan dengan data warehouse.

• Biaya implementasi data mart yang dibutuhkan umumnya jauh

lebih kecil daripada biaya implementasi sebuah data warehouse.

• Para pengguna data mart yang ditetapkan sebagai sasaran untuk

memperoleh dukungan terhadap sebuah proyek data mart

daripada sebuah proyek data warehouse perusahaan.

2.3 Data Mining

2.3.1 Pengertian Data mining

Menurut Han, Jiawei(2006,p5) data mining merupakan pemilihan

atau “menambang” pengetahuan dari jumlah data yang banyak.

Sedangkan menurut Berry (2004, p7), data mining adalah kegiatan

mengeksplorasi dan menganalisis data dalam jumlah yang besar untuk

menemukan pattern dan rule yang berarti. Data mining digunakan untuk

mencari informasi bisnis yang berharga dari basis data yang sangat besar,

yang dipakai untuk memprediksi tren dan sifat-sifat bisnis serta

menemukan pola-pola yang tidak diketahui sebelumnya.

Page 32: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

38 

 

Menurut Prescott, Hoffer dan McFadden (2005, p482), data

mining adalah penemuan pengetahuan dengan menggunakan teknik-

teknik yang tergabung dari statistik, tradisional, artificial intelligence dan

grafik komputer. Berdasarkan beberapa pengertian diatas, dapat ditarik

kesimpulan bahwa data mining adalah suatu proses analisis untuk

menggali informasi yang berharga yang tersembunyi dengan

menggunakan statistik dan artificial intelligence di dalam suatu koleksi

data (database) dengan ukuran sangat besar sehingga ditemukan suatu

pola dari data yang sebelumnya tidak diketahui dan pola tersebut

direpresentasikan dengan grafik komputer agar mudah dimengerti.

2.3.2 Fungsi Data Mining

Menurut JiaweiHan (2006,p21) Fungsi data mining digunakan

untuk menentukan jenis pola yang terdapat dalam database. Secara

umum fungsi data mining dapat dikelompokan menjadi dua kategori

yaitu deskriptif dan prediktif. Deskriptif berfungsi untuk merincikan sifat

umum dari data yang terdapat dalam database. Prediktif berfungsi untuk

menyediakan referensi yang dapat digunakan untuk merancang rangkaian

prediksi.

Dalam beberapa kasus, mungkin beberapa pengguna tidak tahu

bahwa pola – pola menarik yang terdapat dalam data mereka, dan karena

hal itu mereka ingin mencari beberapa jenis pola data secara paralel.

Karenanya data mining sistem memiliki peranan penting dalam

Page 33: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

39 

 

menghasilkan jenis – jenis pola yang berbeda untuk mengakomodasi

keinginan pengguna akan pola yang beragam. Selanjutnya, sistem data

mining harus dapat menemukan bermacam – macam pola dari berbagai

macam sumber. Sistem data mining juga harus membantu pengguna

untuk menemukan petunjuk yang tepat dan spesifik. Karena beberapa

pola dalam data mining tidak menyimpan seluruh datanya dalam

database, ukuran kepastian atau kepercayaan biasanya terkait dengan

setiap pola yang ditemukan. Menurut Berson, Smith dan Thearling (2000,

pp37-38) pada dasarnya aplikasi data mining digunakan untuk melakukan

empat macam fungsi, yaitu :

1. Fungsi Klasifikasi (Classification)

Data mining dapat digunakan untuk mengelompokkan

data-data yang jumlahnya besar menjadi data-data yang lebih

kecil.

2. Fungsi Segmentasi (Segmentation)

Disini data mining juga digunakan untuk melakukan

segmentasi (pembagian) terhadap data berdasarkan karakteristik

tertentu.

3. Fungsi Asosiasi (Association)

Pada fungsi asosiasi ini, data mining digunakan untuk

mencari hubungan antara karakteristik tertentu.

Page 34: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

40 

 

4. Fungsi Pengurutan (Sequencing)

Pada fungsi ini, data mining digunakan untuk

mengidentifikasikan perubahan pola yang terjadi dalam jangka

waktu tertentu.

2.3.3 Proses Dalam Data Mining

Data mining adalah sebuah langkah dalam proses mencari pola – pola

yang terdapat dalam setiap informasi. Langkah – langkah tersebut akan di

jelaskan pada gambar 2.7 (Han, 2006, p6).

Gambar 2.7 Proses Menghasilkan Pengetahuan Melalui Data Mining

Sumber : Han, Jiawei (2006, p6)

Page 35: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

41 

 

Gambar 2.7 menggambarkan proses data mining dalam

menghasilkan pengetahuan dan terdiri dari beberapa urutan :

1. Data Cleaning, untuk menghapus data yang tidak dipakai dan

data yang tidak konsisten

2. Data Integration, dimana berbagai sumber data dapat

digabungkan

3. Data Selection, data yang bersangkutan pada tugas analisis

diseleksi dan diambil kembali dari database

4. Data Transformation, dimana data diubah atau diperkuat menjadi

bentuk yang seharusnya untuk diolah dengan menganalisis

ringkasan atau jumlah total agregasi

5. Data mining, sebuah proses penting dimana metode intelijen

diterapkan dengan tujuan untuk mengolah pola – pola data.

6. Pattern evaluation, untuk mengidentifikasi pola – pola menarik

yang menjelaskan mengenai ukuran dasar pengetahuan yang ada.

7. Knowledge presentation, dimana visualisasi dan teknik

representasi pengetahuan digunakan untuk menyajikan

pengetahuan yang telah diolah untuk pengguna.

Page 36: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

42 

 

2.3.4 Arsitektur Data Mining

Gambar 2.8 Arsitektur Tipikal Data Mining

Menurut Han, Jiawei (2006,p8) Arsitektur tikipal data mining

memiliki beberapa komponen, diantaranya adalah :

‐ Knowledge base : Bidang pengetahuan yang digunakan untuk

memandu pencarian atau mengevaluasi pola – pola yang buruk.

‐ Data mining engine : Hal ini penting untuk sistem data mining

dan idealnya terdiri dari sekumpulan fungsionalitas modul seperti

analisi karaktersisasi, asosiasi dan korelasi, klasifikasi, prediksi,

analisis cluster, analisis outlier dan analisis evolusi.

‐ Pattern evaluation module : Biasanya komponen ini

menggunakan langkah – langkah ketertarikan dan berinteraksi

Page 37: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

43 

 

dengan modul data mining agar fokus terhadap pola – pola yang

jelas.

‐ Data mining : Modul ini menghubungkan antara pengguna dan

sistem data mining, yang memungkinkan pengguna untuk

berinteraksi pada sistem dengan cara menentukan query,

menyediakan informasi agar proses pencarian menjadi lebih

fokus, dan melakukan explorasi informasi berdasarkan hasil dari

data mining.

2.3.5 Penerapan Data Mining

Sebagai ilmu yang relatif baru, belum banyak perusahaan yang

menerapkan data mining. Menurut Sucahyo Yudho Giri (2003, pp1-3)

ada beberapa bidang dimana proses data mining dapat diterapkan antara

lain :

1. Analisa Pasar dan Manajemen

Dengan menggunakan data mining, ada beberapa

permasalahan yang dapat diselesaikan, diantaranya :

a. Menembak target pasar

Data mining dapat melakukan pengelompokkan

dari model-model pembeli dan mengklasifikasikannya

berdasarkan karakteristik yang diinginkan, seperti

kebiasaan membeli dan tingkat penghasilan yang sama.

b. Melihat pola beli pemakai dari waktu ke waktu

Page 38: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

44 

 

c. Cross-market analysis

Data mining dapat dimanfaatkan untuk melihat

hubungan antara penjualan satu produk dengan produk

lainnya. Sebagai contoh, dengan data mining dapat

diketahui pola penjualan indomie sedemikian rupa

sehingga dapat diketahui barang apa saja yang juga dibeli

oleh pembeli indomie.

d. Profil pelanggan

Data mining dapat membantu menganalisa profil

pelanggan/pembeli/nasabah sehingga dapat diketahui

kelompok pelanggan tertentu suka membeli produk apa

saja.

e. Identifikasi kebutuhan pelanggan

Dengan data mining, dapat diidentifikasikan

produk-produk apa saja yang terbaik untuk tiap kelompok

pelanggan, sehingga dapat disimpulkan faktor-faktor apa

saja yang kira-kira dapat menarik pelanggan baru untuk

bergabung/membeli.

f. Menilai loyalitas pelanggan

VISA International Spanyol menggunakan data

mining untuk melihat kesuksesan program-program

pelanggan loyalty mereka.

Page 39: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

45 

 

g. Informasi Summary

Data mining dapat dimanfaatkan untuk membuat

laporan summary (kesimpulan) yang bersifat multi-

dimensi dan dilengkapi dengan informasi statistik lainnya

2. Analisa Perusahaan dan Manajemen Resiko

a. Perencanaan Keuangan dan Evaluasi Aset.

Data Mining dapat membantu pengguna untuk

melakukan analisis dan prediksi cash flow (aliran dana

atau aliran uang) serta melakukan contingent claim

analysis untuk mengevaluasi aset.

b. Perencanaan Sumber Daya (Resource Planning)

Resource planning dapat dilakukan dengan

memanfaatkan informasi ringkas (summary) serta pola

pembelanjaan dan pemasukan dari masing-masing

resource yang didapatkan dari proses data mining.

c. Persaingan (Competition)

Data Mining dapat membantu perusahaan-

perusahaan itu untuk memonitor pesaing-pesaingnya dan

melihat market direction perusahaan lawan tersebut.

Selain itu, dengan data mining, perusahaan juga

dapat menyusun strategi penetapan harga di pasar yang

sangat kompetitif.

Page 40: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

46 

 

d. Keuangan

Dalam bidang keuangan, data mining dapat

digunakan untuk mendeteksi transaksi-transaksi keuangan

yang mencurigakan (seperti money laundry). Hal ini akan

sulit dilakukan jika menggunakan analisis standar.

e. Asuransi

Data Mining dapat digunakan untuk

mengidentifikasi layanan kesehatan yang sebenarnya tidak

perlu tetapi tetap dilakukan oleh peserta asuransi. Selain

itu, data mining juga dapat digunakan untuk

mengklasifikasikan pengguna-pengguna asuransi dengan

tingkat resiko tertentu.

2.3.6 Ukuran Kesuksesan Data Mining

Ukuran kesuksesan penerapan data mining cukup beragam.

Menurut Berson, Smith, dan Thearling (2000, p222), ada tiga ukuran

yang merupakan aturan emas untuk pengembangan data mining yaitu:

1. Ketelitian (accuracy)

Sistem data mining harus menghasilkan sebuah model

yang seteliti mungkin, tetapi perlu diketahui bahwa penambahan

ketelitian yang dirasa kecil antara teknik-teknik yang berbeda

mungkin memberikan efek yang besar atau mungkin efek yang

Page 41: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

47 

 

buruk, yang disebabkan karena contoh acak yang berubah-ubah

dalam lingkungan pasar yang berubah-ubah.

2. Kejelasan (explanation)

Sistem data mining harus mampu menjelaskan bagaimana

model bekerja bagi end user dengan cara yang jelas sehingga

membangun intuisi, dan memungkinkan intuisi-intuisi dan

pemahaman umum untuk diuji dan ditegaskan secara mudah.

Sistem tersebut sebaiknya juga memungkinkan adanya suatu

kejelasan tentang keuntungan atau ROI (Return On Investment)

yang dapat diperoleh dengan diimplementasikannya sistem data

mining.

3. Integrasi (integration)

Sistem data mining harus terintegrasi dengan proses bisnis

yang ada, dan aliran data dan informasi pada perusahaan. Sistem

ini membutuhkan penggandaan data dan pemrosesan data secara

keseluruhan sehingga membuat banyak proses dimana kesalahan

dapat muncul. Dengan integrasi yang kuat, beberapa kesalahan

yang mungkin terjadi dapat diperkecil.

Jika ketiga ukuran tersebut terpenuhi maka sistem data mining

yang dibangun akan menghasilkan model yang sangat menguntungkan

yang cenderung tetap stabil selama jangka waktu yang lama.

Page 42: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

48 

 

2. 4 Teknik Data Mining

Ada banyak teknik dalam data mining. Teknik analisa tersebut umumnya

terbagi menjadi teknik generasi lama dan teknik generasi baru. Adapun beberapa

teknik yang dapat digunakan untuk melakukan data mining, diantaranya :

2.4.1 Teknik Decision Tree

Menurut Berson, Smith, dan Thearling (2000, pp156-162), seperti

namanya, algoritma decision tree adalah model perkiraan yang dapat

dilihat sebagai sebuah pohon. Secara spesifik, setiap cabang (branch)

dari pohon ini adalah pertanyaan klasifikasi, dan daun (leaf) dari pohon

ini adalah bagian dari kumpulan data dengan klasifikasi tertentu. Sebagai

contoh, untuk membagi-bagi pelanggan yang melakukan churning

(memperbaharui kontrak telepon mereka) dalam industri telepon seluler,

dapat dibuat decision tree seperti yang terlihat pada gambar 2.10.

Gambar 2.9 Contoh decision tree (Berson, Smith, dan Thearling,

2000, p157)

Page 43: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

49 

 

Karena decision tree termasuk teknik generasi baru, belum

banyak orang menggunakannya. Namun secara garis besar ada beberapa

cara dalam menggunakan decision tree, yaitu :

1. Untuk eksplorasi.

Algoritma decision tree dapat digunakan untuk

mengeksplorasi data dan masalah-masalah dalam bisnis. Hal ini

sering dilakukan dengan melihat perkiraan-perkiraan yang

dihasilkan dan nilai-nilai yang terdapat dalam setiap percabangan

pohon.

2. Untuk melakukan pemrosesan awal terhadap data.

Disini algoritma decision tree digunakan untuk melakukan

pemrosesan awal terhadap data (tahap cleaning and extracting

data) yang akan diprediksi dengan algoritma lain (misalnya :

neural network).

3. Untuk melakukan prediksi.

Decision tree juga telah digunakan untuk melakukan

prediksi terhadap kemungkinan-kemungkinan keadaan atau

kondisi di masa yang akan datang.

Untuk membuat model data mining dengan menggunakan

decision tree, kita perlu membuat pohon pertanyaan. Pohon pertanyaan

ini nantinya akan digunakan untuk membagi-bagi data menjadi kelompok

yang lebih spesifik atau lebih kecil. Hal ini akan terus dilakukan sampai

Page 44: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

50 

 

bagian paling terkecil atau sampai data tersebut sudah tidak dapat dipecah

menurut karakteristiknya lagi.

Untuk menentukan pertanyaan seperti apa yang akan digunakan

untuk memecah pohon, perlu diketahui terlebih dahulu mengenai konsep

pertanyaan yang baik dan yang buruk. Pertanyaan yang baik dan pantas

digunakan untuk memecah pohon menjadi bagian-bagian yang lebih kecil

adalah pertanyaan-pertanyaan yang mampu membagi record-record di

dalam pohon menjadi bagian-bagian yang seimbang besarnya, sehingga

membuat record menjadi lebih terorganisir ke dalam cabang-cabang di

dalam pohon. Menurut Berry dan Linoff (1997, pp282-284) kelebihan

dari teknik decision tree adalah sebagai berikut :

1. Decision tree mampu menghasilkan aturan-aturan yang dapat

dimengerti.

Maksudnya disini adalah bahwa aturan-aturan yang

dihasilkan dari algoritma decision tree ini dapat diterjemahkan ke

dalam bahasa Inggris atau bahasa SQL yang dapat dimengerti.

Bahkan walaupun apabila decision tree yang dihasilkan sangat

kompleks dan besar, secara umum sangatlah mudah untuk

mengikuti salah satu jalur di dalam pohon yang dihasilkan.

2. Decision tree mampu melakukan klasifikasi tanpa membutuhkan

banyak komputasi.

Walaupun decision tree dapat mengambil berbagai macam

bentuk, pada kenyataannya, algoritma yang digunakan untuk

Page 45: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

51 

 

menghasilkan decision tree umumnya menghasilkan pohon

dengan faktor pencabangan yang kecil dan proses pengujian yang

mudah pada setiap node-nya. Pengujian-pengujian yang umum

meliputi perbandingan numerik, keanggotaan himpunan, dan

perintah-perintah konjungsi sederhana. Pada saat

diimplementasikan ke dalam komputer, pengujian-pengujian ini

diterjemahkan menjadi suatu operasi boolean dan integer yang

cepat dan murah. Hal ini sangat penting karena pada lingkungan

komersial, model-model prediktif seperti ini biasanya digunakan

untuk mengklasifikasikan sejumlah besar record (jutaan bahkan

miliaran record).

3. Kemampuan untuk menangani data dalam bentuk kontinyu atau

kategoris

Metode decision tree dapat menangani variabel kontinyu

atau kategoris dengan baik. Variabel kategoris, yang menjadi

masalah pada teknik neural network dan teknik statistik, dapat

dipisahkan dengan baik pada teknik ini (masing-masing kategori

menjadi 1 cabang pohon). Variabel kontinyu dapat dipisahkan

dengan sama mudahnya, yaitu dengan memilih salah satu angka

diantara jangkauan angkanya.

Page 46: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

52 

 

4. Kemampuan untuk dengan jelas melihat field yang paling baik

Algoritma pembuatan decision tree mengambil field

dengan kemampuan memisahkan data yang paling baik dan

meletakkannya di node akar dari pohon tersebut.

Selain kelebihannya, ternyata decision tree juga memiliki

beberapa kekurangan. Menurut Berry dan Linoff (1997, pp284-285)

kekurangan dari teknik decision tree ini adalah sebagai berikut :

1. Kemungkinan kesalahan semakin besar seiring dengan banyaknya

kelas

Beberapa algoritma decision tree hanya dapat menangani

kelas-kelas dengan nilai biner (ya/tidak, terima/tolak). Beberapa

algoritma lainnya dapat membagi record-record menjadi

beberapa kelas, tetapi pada algoritma ini, kemungkinan kesalahan

membesar saat jumlah contoh pada setiap kelas menjadi semakin

kecil. Hal ini dapat terjadi dengan cepat pada pohon yang

memiliki banyak tingkatan atau banyak cabang di setiap node-

nya.

2. Sulit dan mahal untuk dilatih

Proses pembuatan decision tree sangat mahal. Pada setiap

node, setiap kandidat field yang akan dipecah harus diurutkan

terlebih dahulu sebelum pecahan terbaiknya dapat ditemukan.

Pada beberapa algoritma, digunakan kombinasi dari field-field

Page 47: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

53 

 

tersebut, dan berat kombinasi optimal dari pohon harus dicari

terlebih dahulu. Algoritma penyederhanaan (prunning) juga dapat

menjadi sangat mahal, karena banyak kandidat sub-pohon yang

harus dibentuk dan dibandingkan.

3. Adanya masalah dengan daerah-daerah yang tidak berbentuk segi

empat

Kebanyakan algoritma decision tree hanya memeriksa satu

field pada satu waktu. Hal ini mengakibatkan terciptanya kotak-

kotak klasifikasi yang berbentuk segi empat, yang mungkin tidak

secara baik merepresentasikan distribusi record yang

sesungguhnya dalam ruang keputusan.

2.4.2 Teknik Nearest Neighbor

Gambar 2.10 Ilustrasi Teknik Memory Based Reasoning atau Nearest

Neighbor (Berson, Smith, dan Thearling, 2000, p138)

Page 48: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

54 

 

Menurut Berson, Smith dan Thearling (2000, p136), algoritma

nearest neighbor adalah objek-objek yang “dekat” satu sama lain, juga

akan memiliki nilai prediksi yang hampir sama. Dengan demikian, jika

nilai prediksi dari salah satu objek diketahui, maka dapat diketahui nilai

prediksi dari nearest neighbor-nya.

Pada gambar 2.10, apabila nilai prediksi dari titik A, pada

algoritma ini, dilakukan dengan melihat titik-titik lainnya yang

berdekatan dengan titik A. Hal yang sama berlaku untuk titik B dan C).

Menurut Berry dan Linoff (1997, pp184-185), ada beberapa kelebihan

yang dapat diperoleh dari penggunaan algoritma nearest neighbor ini,

yaitu:

1. Hasil mudah dimengerti.

2. Dapat diterapkan pada tipe data yang berubah-ubah, bahkan dapat

diterapkan juga pada data non relasional.

3. Dapat bekerja secara efisien pada jumlah field yang banyak.

4. Dapat mengelola training set dengan jumlah effort yang minimal.

Selain kelebihannya, ada juga kekurangan dari nearest neighbor.

Menurut Berry dan Linoff (1997, pp185-186) kekurangan dari nearest

neighbor yaitu :

1. Mahal dari segi komputasional saat melakukan klasifikasi dan

prediksi.

2. Membutuhkan jumlah penyimpanan yang besar untuk training

set.

Page 49: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

55 

 

3. Hasil dapat tergantung pada pemilihan fungsi jarak, fungsi

kombinasi, dan jumlah neighbor.

2.4.3 Teknik Clustering

Algoritma cluster, tidak seperti decision tree, tidak membagi data

ke dalam garis-garis, tetapi menempatkan data dalam cluster-cluster,

seperti yang terlihat pada gambar 2.11 di halaman berikut ini :

Gambar 2.11 Salah Satu Contoh Bentuk Visualisasi Teknik

Clustering (Seidman, 2001, p13)

Teknik clustering ini umumnya berguna untuk representasi secara

visual, karena data dikelompokkan berdasarkan kriteria-kriteria umum.

Banyak piranti lunak yang menampilkan kelompok-kelompok ini sebagai

sebuah lubang peluru pada sebuah target. Dari representasi target

tersebut, dapat dilihat adanya kecenderungan lebih tingginya jumlah

lubang pada bagian-bagian atau kelompok-kelompok tertentu dari target

Page 50: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

56 

 

tersebut. Menurut Berson, Smith, dan Thearling (2000, p148),

kelemahan utama dari teknik ini adalah :

1. Hasil yang diperoleh sulit dimengerti

Tidak seperti pada teknik decision tree, pada teknik ini

tidak ada node-node yang dapat ditelusuri, dan tidak ada aturan

yang bisa diikuti. Pada kenyataannya, tidak ada prediksi nyata

yang dihasilkan (oleh karena itu, teknik ini lebih condong

dilakukan untuk kebutuhan eksplorasi terhadap data dan

visualisasi terhadap data yang dihasilkan teknik lain). Akibatnya

hasil yang diperoleh dari penggunaan teknik ini akan sulit

dimengerti.

2. Karakteristik data sangat sulit dibandingkan

Karena teknik ini mengandalkan data-data numerik untuk

menentukan titik-titik yang akan dibuat pada sumbu koordinat,

membandingkan angka-angka yang digunakan untuk mengukur

data-data yang berbeda dapat menjadi sangat sulit.

2.4.4 Teknik Neural Network

Neural network (jaringan syaraf) yang sebenarnya merupakan

sistem biologis yang mencari pola, membuat prediksi dan dapat belajar.

Sedangkan jaringan syarat tiruan merupakan program komputer yang

dapat mencari pola, dan membangun model prediksi dari database

historis yang besar dengan cara menerapkan algoritma yang dapat

Page 51: Bab 2 Landasan Teori 2.1 Data, Database, dan DBMS (Database …thesis.binus.ac.id/doc/Bab2/2011-1-00637-si 2.pdf · Istilah Database atau "basis data" berawal dari ilmu computer.

57 

 

membuat komputer belajar. Kekurangan neural network yaitu sulit

digunakan dan dikembangkan. Tetapi neural network memiliki kelebihan

yang berarti yaitu memiliki akurasi yang tinggi, yang dapat diterapkan

pada berbagai jenis permasalahan (Berson, Smith dan Thearling, 2000,

p173).

2.4.5 Teknik Association Rules

Association rules merupakan salah satu bentuk utama dari data

mining dan merupakan bentuk paling umum mengenai proses penemuan

pengetahuan dalam sistem unsupervised learning. Teknik ini juga

merupakan bentuk data mining yang paling mendekati apa yang

dipikirkan orang mengenai data mining, yaitu menambang emas dari

sebuah data yang besar. Yang menjadi emas adalah sebuah aturan yang

menarik, dan dapat memberikan suatu gambaran tentang data yang

mungkin tidak diketahui dan dapat dengan mudah dikemukakan. Teknik

association rules melibatkan pemrosesan data secara besar-besaran,

dimana semua pola yang memungkinkan secara sistematis akan diambil

dari data, kemudian dilakukan pengukuran terhadap pola tersebut untuk

mengetahui kemungkinan pola tersebut muncul kembali.