ABSTRAK - sinta.unud.ac.id · Hasil penelitian ilmiah dapat disajikan dalam berbagai bentuk,...

13
i ABSTRAK Teknologi data warehouse memiliki banyak manfaat dalam berbagai bidang untuk pengumpulan data dalam jumlah besar dan mendapatkan hasil berupa pelaporan dari data yang telah dikumpulkan. Salah satu kelemahan data warehouse adalah, data warehouse sulit untuk menerima data input jika jenis data yang digunakan adalah data tidak terstruktur. Pada penelitian ini membuat sebuah model yang digunakan agar data warehouse dapat menerima data input berupa teks dengan format PDF, tujuanya adalah untuk mendapatkan model yang optimal baik dari sisi hasil ataupun dari sisi performa untuk data warehouse dapat bekerja dengan baik dalam lingkungan data tidak terstruktur. Hasil yang didapatkan dari penelitian ini adalah model ROLAP data warehouse untuk data tidak terstruktur secara optimal dapat bekerja pada kelas klasfikasi dengan jumlah 3 dengan hasil akuras klasifikasi mencapai 90 %, untuk waktu performa klasifikasi rata – rata adalah 25,55 detik dan waktu ETL rata – rata 33,93 detik. Kata Kunci—ROLAP; Data Warehouse; Klasifikasi; Data Tidak Terstruktur;

Transcript of ABSTRAK - sinta.unud.ac.id · Hasil penelitian ilmiah dapat disajikan dalam berbagai bentuk,...

i

ABSTRAK

Teknologi data warehouse memiliki banyak manfaat dalam berbagai bidang

untuk pengumpulan data dalam jumlah besar dan mendapatkan hasil berupa

pelaporan dari data yang telah dikumpulkan. Salah satu kelemahan data warehouse

adalah, data warehouse sulit untuk menerima data input jika jenis data yang

digunakan adalah data tidak terstruktur. Pada penelitian ini membuat sebuah model

yang digunakan agar data warehouse dapat menerima data input berupa teks dengan

format PDF, tujuanya adalah untuk mendapatkan model yang optimal baik dari sisi

hasil ataupun dari sisi performa untuk data warehouse dapat bekerja dengan baik

dalam lingkungan data tidak terstruktur. Hasil yang didapatkan dari penelitian ini

adalah model ROLAP data warehouse untuk data tidak terstruktur secara optimal

dapat bekerja pada kelas klasfikasi dengan jumlah 3 dengan hasil akuras klasifikasi

mencapai 90 %, untuk waktu performa klasifikasi rata – rata adalah 25,55 detik dan

waktu ETL rata – rata 33,93 detik.

Kata Kunci—ROLAP; Data Warehouse; Klasifikasi; Data Tidak Terstruktur;

ABSTRACT

Data Warehouse technology has many benefits in the various fields in order to

collect the large amounts of data and get the results in the form of reports from data

that has been collected. One of the disadvantages of data warehouse is data

warehouse is difficult to receive data input if the type of data used is unstructured

data. In this study, it makes a model used in order to data warehouse can receive

data input in the form of text with PDF format, which aims to get an optimal model

from the results and performance in order to make data warehouse running well in

the unstructured data. The results show that data warehouse ROLAP model for the

unstructured data optimally can work in the classification class by the number 3

with the classification of the accurate result reach 90%, for the classification of the

time performance is about 25.55 seconds and the time ETL is about 33.93 seconds.

Keywords—ROLAP; Data Warehouse; Classification; the Unstructured Data

DAFTAR ISI

DAFTAR ISI .......................................................................................................... iii

DAFTAR TABEL ................................................................................................... vi

DAFTAR GAMBAR ............................................................................................ vii

BAB I PENDAHULUAN ....................................................................................... 9

1.1 Latar Belakang ............................................................................................ 9

1.2 Rumusan Masalah ...................................................................................... 11

1.3 Tujuan Penelitian........................................................................................ 11

1.4 Manfaat Penelitian ..................................................................................... 11

1.5 Ruang Lingkup dan Batasan Masalah ....................................................... 12

1.6 Keaslian Penelitian .................................................................................... 12

1.6.1 Fish Bone Penelitian ....................................................................... 12

BAB II TINJAUAN PUSTAKA ............................ Error! Bookmark not defined.

2.1 State Of The Art ......................................... Error! Bookmark not defined.

2.2 Datawarehouse ........................................... Error! Bookmark not defined.

2.2.1 Single DDS Architecture .................. Error! Bookmark not defined.

2.3 OLAP ......................................................... Error! Bookmark not defined.

2.3.1 ROLAP ............................................. Error! Bookmark not defined.

2.4 Text Mining ................................................ Error! Bookmark not defined.

2.5 Naïve Bayes Classifier ............................... Error! Bookmark not defined.

2.6 Vector Space Model ................................... Error! Bookmark not defined.

2.7 MySQL ....................................................... Error! Bookmark not defined.

2.8 PHP (Hypertext Processor) ........................ Error! Bookmark not defined.

2.9 Teknik Pengujian ........................................ Error! Bookmark not defined.

2.9.1 Pengujian Akurasi ............................. Error! Bookmark not defined.

2.9.2 Pengujian Sistem ............................... Error! Bookmark not defined.

2.10 Performa Sistem ........................................ Error! Bookmark not defined.

2.10.1 Performa Akurasi Sistem ................. Error! Bookmark not defined.

2.10.2 Performa Precision dan Recall SistemError! Bookmark not

defined.

2.10.3 Performa Waktu Klasifikasi ............ Error! Bookmark not defined.

2.10.3 Performa Waktu ETL ...................... Error! Bookmark not defined.

BAB III METODOLOGIPENELITIAN ................ Error! Bookmark not defined.

3.1 Data ............................................................. Error! Bookmark not defined.

3.1.1 Sumber Data ..................................... Error! Bookmark not defined.

3.1.2 Jenis data ........................................... Error! Bookmark not defined.

3.2 Populasi dan Sample .................................... Error! Bookmark not defined.

3.2.1 Populasi ............................................. Error! Bookmark not defined.

3.2.2 Sample ............................................... Error! Bookmark not defined.

3.3 Tempat dan Alat Penelitian .......................... Error! Bookmark not defined.

3.3.1 Tempat penelitian .............................. Error! Bookmark not defined.

3.3.2 Alat penelitian ................................... Error! Bookmark not defined.

3.4 Langkah Penelitian ...................................... Error! Bookmark not defined.

3.5 Gambaran Umum Sistem............................. Error! Bookmark not defined.

3.6 Algoritma Program ...................................... Error! Bookmark not defined.

3.6.1 Naïve Bayes Classifier ...................... Error! Bookmark not defined.

3.6.2 Nazief Andriyani ............................... Error! Bookmark not defined.

3.6.3 Vector Space Model ........................... Error! Bookmark not defined.

3.7 Teknik Pengujian ......................................... Error! Bookmark not defined.

3.7.1 Pengujian Akurasi ............................. Error! Bookmark not defined.

3.7.2 Pengujian Sistem ............................... Error! Bookmark not defined.

BAB IV HASIL DAN PEMBAHASAN................ Error! Bookmark not defined.

4.1 Input pada Model ROLAP Data warehouseError! Bookmark not

defined.

4.2 Model ROLAP Data warehouse ................ Error! Bookmark not defined.

4.3 Implementasi Model ROLAP Data WarehouseError! Bookmark not

defined.

4.3.1 Implementasi Aplikasi OLTP ............ Error! Bookmark not defined.

4.3.2 Implementasi Algoritma Naïve BayesError! Bookmark not defined.

4.3.2.1 Preprosessing Data Dokumen .... Error! Bookmark not defined.

4.3.2.2 Menghitung Probabilitas Setiap KataError! Bookmark not

defined.

4.3.2.3 Membandingkan setiap kelas dokumenError! Bookmark not

defined.

4.3.2.4 Hasil Klasifikasi ........................ Error! Bookmark not defined.

4.3.3 Implementasi Data Warehouse .......... Error! Bookmark not defined.

4.3.4 Implementasi Aplikasi OLAP ........... Error! Bookmark not defined.

4.3.4.1 Implementasi Algortima Vector Space ModelError! Bookmark

not defined.

4.4 Pengujian Hasil .......................................... Error! Bookmark not defined.

4.4.1 Pengujian Algoritma naïve bayes ..... Error! Bookmark not defined.

4.4.2 Pengujian Algoritma Vector Space ModelError! Bookmark not

defined.

4.5 Pengujian Sistem ........................................ Error! Bookmark not defined.

4.5.1 Pengujian Waktu Sistem .................... Error! Bookmark not defined.

4.5.2 Pengujian White Box ......................... Error! Bookmark not defined.

BAB V KESIMPULANDANSARAN ................... Error! Bookmark not defined.

5.1 Kesimpulan ................................................ Error! Bookmark not defined.

5.2 Saran ........................................................... Error! Bookmark not defined.

DAFTAR PUSTAKA ............................................. Error! Bookmark not defined.

DAFTAR TABEL

Tabel 2.1 Mapping Jurnal terkait usulan penelitianError! Bookmark not defined.

Tabel 2.2 Contoh flowgraph algoritma .................. Error! Bookmark not defined.

Tabel 2.3 Contoh hasil pengujian white box ......... Error! Bookmark not defined.

Tabel 4.1 Hasil Pengujian Precision dan Recall .... Error! Bookmark not defined.

Tabel 4.3 Hasil Pengujian Proses Login ................ Error! Bookmark not defined.

Tabel 4.4 Flowgraph Proses Klasifikasi DokumenError! Bookmark not defined.

Tabel 4.5 Hasil Pengujian Proses Klasifikasi DokumenError! Bookmark not

defined.

Tabel 4.6 Flowgraph proses pencarian jurnal ....... Error! Bookmark not defined.

Tabel 4.7 Hasil Pengujian Proses Pencarian JurnalError! Bookmark not defined.

DAFTAR GAMBAR

Gambar 2.1 Arsitektur Single DDS ...................... Error! Bookmark not defined.

Gambar 2.2 Arsitektur ROLAP ............................. Error! Bookmark not defined.

Gambar 2.3 : Contoh pengujian White Box .......... Error! Bookmark not defined.

Gambar 3.1 Blok Diagram Penelitian................... Error! Bookmark not defined.

Gambar 3.2 Flowchart Preprosessing Dokumen .. Error! Bookmark not defined.

Gambar 3.4 Flowchart Algoritma Naïve Bayes.... Error! Bookmark not defined.

Gambar 3.5 Flowchart Algoritma Vector Space ModelError! Bookmark not

defined.

Gambar 4.2 model ROLAP Data Warehouse ....... Error! Bookmark not defined.

Gambar 4.3 Antarmuka Login OLTP .................... Error! Bookmark not defined.

Gambar 4.3 Antarmuka View Data Institusi ......... Error! Bookmark not defined.

Gambar 4.5 Antarmuka Input Data Institusi ......... Error! Bookmark not defined.

Gambar 4.6 Antarmuka Edit Data Institusi .......... Error! Bookmark not defined.

Gambar 4.7 Antarmuka View Data Topik PenelitianError! Bookmark not

defined.

Gambar 4.8 Antarmuka ETL ................................ Error! Bookmark not defined.

Gambar 4.9 Antarmuka input dataset jurnal ......... Error! Bookmark not defined.

Gambar 4.10 Antarmuka Klasifikasi Jurnal ......... Error! Bookmark not defined.

Gambar 4.11 Antar Muka Unggah File Input ....... Error! Bookmark not defined.

Gambar 4.12 Contoh Hasil Perbandingan probabilitas Kelas Dokumen ..... Error!

Bookmark not defined.

Gambar 4.13 Antar Muka Hasil Klasifikasi DokumenError! Bookmark not

defined.

Gambar 4.14 Arsitektur Single DDS..................... Error! Bookmark not defined.

Gambar 4.15 Rancangan Star Schema ................. Error! Bookmark not defined.

Gambar 4.16 Antarmuka Beranda OLAP ............. Error! Bookmark not defined.

Gambar 4.17 Antarmuka Grafik Topik Penelitian Berdasarkan Tahun ........ Error!

Bookmark not defined.

Gambar 4.18 Antarmuka Tabel Pivot Topik Penelitian Berdasarkan Tahun Error!

Bookmark not defined.

Gambar 4.19 Antarmuka Pencarian Jurnal ........... Error! Bookmark not defined.

Gambar 4.20 Antarmuka Lihat File Jurnal (1) ..... Error! Bookmark not defined.

Gambar 4.21 Antarmuka Lihat File Jurnal (2) ..... Error! Bookmark not defined.

Gambar 4.22 Grafik Akurasi dan Error Sistem Berdasarkan Jumlah Kelas Error!

Bookmark not defined.

Gambar 4.23 Antarmuka Pencarian Dokumen ..... Error! Bookmark not defined.

Gambar 4.24 Grafik Pengujian Waktu Klasifikasi Sistem Berdasarkan Kelas

................................................................................ Error! Bookmark not defined.

Gambar 4.26 Edge dan Node pada proses login ... Error! Bookmark not defined.

Gambar 4.27 Edge dan Node pada proses klasifikasi dokumenError! Bookmark

not defined.

Gambar 4.28 Edge dan Node pada proses pencarian jurnalError! Bookmark not

defined.

BAB I

PENDAHULUAN

1.1 Latar Belakang

Data merupakan bahan yang dapat dijadikan suatu informasi, dalam implementasinya pada

dunia teknologi informasi, data Data terstruktur adalah data yang dimasukkan dalam database

relasional sistem. Contohnya adalah tabel database, objek, tag, laporan, indeks dll Menjadi

terstruktur dan sangat terorganisir dapat dikelola oleh SQL dan beberapa variasinya dikembangkan

oleh IBM, ADO.net, ODBC dan banyak RDBMS lainya. Dalam perkembangan teknologi yang

pesat selain data terstruktur, data tidak terstruktur juga dapat menjadi informasi yang sangat

penting. Data tidak terstruktur adalah data yang pada setiap elemenya tidak memiliki struktur baku,

data tidat terstruktur bisa dibuat menggunakan mesin ataupun dari hasil karya manusia. Data tidak

terstruktur secara general dibagi menjadi dua yaitu non textual dan textual. Untuk jenis non textual

dapat berupa video, gambar, dan suara. Sedangkan untuk jenis textual dapat berupa email,

perangkat lunak pengolah kata seperti pdf dan word. (Kanimozhi & Venkatesan, 2015)

Salah satu contoh dari data tidak terstrukur adalah dokumen hasil penelitian ilmiah,

penelitian ilmiah merupakan sebuah proses penyelidikan secara sistematis yang bertujuan untuk

menyelesaikan suatu permasalahan. Hasil penelitian ilmiah dapat disajikan dalam berbagai bentuk,

seperti makalah, laporan penelitian, buku-buku ilmiah, atau karya ilmiah lainnya yang

dipublikasikan. Para peneliti dan akademisi yang bernaung dalam perguruan tinggi melakukan

penelitian sebagai salah satu bentuk pengamalan tri dharma perguruan tinggi . Publikasi ilmiah

pada tingkat nasional dan internasional menjadi suatu tolak ukur kualitas dan keunggulan

penelitian itu dalam memberikan sumbangan ilmu pengetahuan bagi masyarakat. (Hasibuan,

2007). Jika data hasil penelitian ilmiah tersebut diolah, hasil yang didapatkan akan dapat

bermanfaat bagi kalangan akademisi atau peneliti untuk melihat perkembangan dari suatu topik

penelitian ilmiah pada setiap periodenya.

Metode yang dapat digunakan untuk pengolahan data dalam jumlah besar (Big Data)

adalah datawarehouse. datawarehouse dapat mengambil, membersihkan, menyesuaikan, dan

mengirimkan sumber data ke dalam penyimpanan data dimensional dan kemudian mendukung

serta mengimplementasikan query dan analisis untuk menghasilkan informasi yang cepat dan

didukung dengan data multidimensional (Rainardi, Building a Data Warehouse: With Examples in

SQL Server, 2008). Dalam impelentasinya datawarehouse biasanya dibangun menggunakan

sumber data dari database dengan data terstruktur, salah satu tantangan kedepan yang ditawarkan

adalah bagaimana merancang datawarehouse yang memiliki sumber data tidak terstruktur (Pathak,

Singh, & Oberoi, 2013).

Dari permasalahan tersebut, diperlukan suatu model untuk merubah data tidak terstuktur

menjadi data terstruktur dalam database. Text mining merupakan salah satu teknik untuk

melakukan klasifikasi dokumen, yang dapat dijadikan acuan untuk merubah data tidak terstruktur

menjadi data terstruktur. Dari beberapa penelitan yang sudah dilakukan metode yang digunakan

adalah NBC (naïve bayes classifier) dengan tingkat akurasi klasifikasi dokumen berita sebesar

91% dan dokumen akademik mencapai 82 % (Hamzah, 2012),terdapat juga penelitian yang

membandingkan metode ontology dengan NBC dengan hasil akurasi ontology sebesar 94,02 %

dan NBC sebesar 95,98% (Basnur & Sensuse, 2010) . Dari hasil penelitian sebelumnya mengenai

klasifikasi dokumen pada penelitian ini klasifikasi dokumen untuk menjadi sumber data dari

datawarehouse akan menggunakan naïve bayes classifier karena memiliki tingkat akurasi yang

tinggi.

Pada penelitian ini dokumen penelitian ilmiah akan diproses menggunakan metode text

mining. Text mining akan melakukan klasifikasi terhadap dokumen penelitian ilmiah sebagai

sumber data untuk datawarehouse, proses klasifikasi akan menghasilkan suatu topik dari dokumen

yang diinputkan. Setelah proses klasifikasi dilakukan akan dilanjutkan dengan proses

pembentukan data terstruktur menggunakan prosedur ETL (Ekstract,Transform,Load) dari

datawarehouse.

Model analisis data yang digunakan pada datawrehouse dalam penelitan ini adalah model

ROLAP (Relational OLAP), ROLAP digunakan karena jumlah data dalam ROLAP tidak

dialokasikan terlebih dahulu, sehingga tidak terdapat batasan data yang akan dianilisis, berbeda

dengan pemodelan OLAP yang lain seperti MOLAP. MOLAP memerlukan alokasi data, sehingga

data yang di analisis menjadi terbatas walaupun kecepatan analisisnya menjadi meningkat.

Dari hasil datawarehouse yang sudah terbentuk, hasil yang dapat dimanfaatkan oleh

pengguna berupa sistem yang mampu menampilkan trend perkembangan penelitian khususnya

pada bidang IT di Indonesia berdasarkan topik penelitian, baik dari sisi institusi, periode waktu

(bulan,semester,tahun) yang akan ditampilkan dalam bentuk grafik dan pivot tabel. Selain

menghasilkan tampilan analisis data, data yang sudah terbentuk dalam datawarehouse juga dapat

dimanfaatkan untuk sistem temu kembali (retrival information), dimana system tersebut akan

bekerja dengan memberikan informasi sesuai dengan query dari pengguna, sehingga pengguna

dapat melihat perkembangan suatu topik penelitian berdasarkan query yang diinputkan.

Metode yang akan digunakan untuk proses retrival information pada penelitian ini adalah

metode VSM (Vector Space Model), metode ini dipilih karena memiliki cara kerja yang effisien

dan cocok digunakan untuk dokumen matching (Amin F. , 2011)dari penelitian sebelumnya yang

sudah dilakukan VSM dapat menampilkan hasil dari query pengguna dengan rata – rata catatan

waktu 1,5 detik dengan nilai akurasi atau presisi 0,54 (Amin F. , 2012)

Pada penelitian ini penulis akan mengimplementasikan datawarehouse pada lingkungan

data yang tidak terstruktur dengan mengambil objek berupa dokumen yaitu dokumen penelitian

ilmiah. Metode yang digunakan adalah text mining dengan algoritma naïve bayes sebagai

klasifikasi dokumen untuk mengetahui topik dari sebuah penelitian dan data – data yang terkait

lainya seperti bulan,tahun,penulis dan institusi yang menerbitkan. Hasil akhir yang diharapkan

adalah terbentuknya informasi dalam bentuk grafik dan table pivot mengenai trend atau

perkembangan suatu topik penelitian dengan menggunakan ROLAP pada datawarehouse. Selain

itu hasil akhir pada penelitian ini juga dapat menerima query dari pengguna system mengenai

topic apa yang akan dicari dan menghasilkan perkembangan yang sesuai dengan query inputan

pengguna.

1.2 Rumusan Masalah

Berdasarkan latar belakang diatas, permasalahan yang diangkat dalam penelitian ini adalah

bagaimana membangun model ROLAP data warehouse untuk data tidak terstruktur.

1.3 Tujuan Penelitian

Tujuan yang diharapkan dari hasil penelitian ini adalah untuk mengetahui kinerja arsitektur

data warehouse pada lingkungan data tidak terstruktur, yaitu akurasi, error, waktu klasifikasi,

waktu ETL dan nilai precision recall.

1.4 Manfaat Penelitian

Adapun manfaat yang diharapkan dari penelitian ini adalah

1. Manfaat akademis

Hasil pemanfaatan text mining untuk pengolahan data dari data tidak terstruktur

menjadi data terstruktur pada penelitian ini diharapkan mampu memberikan solusi

untuk pengembangan model data warehouse yang bekerja pada lingkungan data tidak

terstruktur.

2. Manfaat Praktis

Hasil dari pemodelan ROLAP datawarehouse pada penelitian ini diharapkan mampu

memberikan informasi mengenai perkembangan suatu topik penelitian berdasarkan

tiap – tiap sub topik dan juga berdasarkan query input pengguna.

1.5 Ruang Lingkup dan Batasan Masalah

Adapun batasan masalah yang dibahas dalam penelitian ini adalah :

1. Dokumen yang digunakan sebagai sumber data adalah dokumen jurnal penelitian

ilmiah dalam bahasa Indonesia.

2. Kelas yang digunakan untuk klasifikasi dokumen adalah 10 kelas klasifikasi yang

diambil dari sub topik Seminar Nasional Ilmu Komputer (SEMINASIK) Universitas

Gajah Mada 2014.

1.6 Keaslian Penelitian

Peneltian yang terkait dengan datawarehouse menggunakan data tidak terstruktur sudah

pernah dilakukan sebelmunya, tetapi pada penelitian sebelumnya data yang digunakan adalah data

dalam bentuk XML, dalam pengajuan usulan penelitian ini data yang digunakan berupa file

dokumen yang memerlukan beberapa tahapan sebelum siap digunakan untuk analisis data dengan

model ROLAP. Ada beberapa jurnal terkait yang menjadi acuan usulan ini di angkat, yang

dijelaskan lebih detail pada bab 2 dalam sub bab state of the art.

1.6.1 Fish Bone Penelitian

Gambar 1.1 Fishbone Usulan Penelitian

Gambar 1.1 merupakan diagram fishbone (tulang ikan) dari usulan penelitian ini, bagian utama

yang diambil dari penelitian ini adalah ROLAP, naïve bayes classifier, Stemming nazief andriyani

dan Vector Space Model.