ABSTRAK - sinta.unud.ac.id · Hasil penelitian ilmiah dapat disajikan dalam berbagai bentuk,...
-
Upload
hoangxuyen -
Category
Documents
-
view
223 -
download
0
Transcript of ABSTRAK - sinta.unud.ac.id · Hasil penelitian ilmiah dapat disajikan dalam berbagai bentuk,...
i
ABSTRAK
Teknologi data warehouse memiliki banyak manfaat dalam berbagai bidang
untuk pengumpulan data dalam jumlah besar dan mendapatkan hasil berupa
pelaporan dari data yang telah dikumpulkan. Salah satu kelemahan data warehouse
adalah, data warehouse sulit untuk menerima data input jika jenis data yang
digunakan adalah data tidak terstruktur. Pada penelitian ini membuat sebuah model
yang digunakan agar data warehouse dapat menerima data input berupa teks dengan
format PDF, tujuanya adalah untuk mendapatkan model yang optimal baik dari sisi
hasil ataupun dari sisi performa untuk data warehouse dapat bekerja dengan baik
dalam lingkungan data tidak terstruktur. Hasil yang didapatkan dari penelitian ini
adalah model ROLAP data warehouse untuk data tidak terstruktur secara optimal
dapat bekerja pada kelas klasfikasi dengan jumlah 3 dengan hasil akuras klasifikasi
mencapai 90 %, untuk waktu performa klasifikasi rata – rata adalah 25,55 detik dan
waktu ETL rata – rata 33,93 detik.
Kata Kunci—ROLAP; Data Warehouse; Klasifikasi; Data Tidak Terstruktur;
ABSTRACT
Data Warehouse technology has many benefits in the various fields in order to
collect the large amounts of data and get the results in the form of reports from data
that has been collected. One of the disadvantages of data warehouse is data
warehouse is difficult to receive data input if the type of data used is unstructured
data. In this study, it makes a model used in order to data warehouse can receive
data input in the form of text with PDF format, which aims to get an optimal model
from the results and performance in order to make data warehouse running well in
the unstructured data. The results show that data warehouse ROLAP model for the
unstructured data optimally can work in the classification class by the number 3
with the classification of the accurate result reach 90%, for the classification of the
time performance is about 25.55 seconds and the time ETL is about 33.93 seconds.
Keywords—ROLAP; Data Warehouse; Classification; the Unstructured Data
DAFTAR ISI
DAFTAR ISI .......................................................................................................... iii
DAFTAR TABEL ................................................................................................... vi
DAFTAR GAMBAR ............................................................................................ vii
BAB I PENDAHULUAN ....................................................................................... 9
1.1 Latar Belakang ............................................................................................ 9
1.2 Rumusan Masalah ...................................................................................... 11
1.3 Tujuan Penelitian........................................................................................ 11
1.4 Manfaat Penelitian ..................................................................................... 11
1.5 Ruang Lingkup dan Batasan Masalah ....................................................... 12
1.6 Keaslian Penelitian .................................................................................... 12
1.6.1 Fish Bone Penelitian ....................................................................... 12
BAB II TINJAUAN PUSTAKA ............................ Error! Bookmark not defined.
2.1 State Of The Art ......................................... Error! Bookmark not defined.
2.2 Datawarehouse ........................................... Error! Bookmark not defined.
2.2.1 Single DDS Architecture .................. Error! Bookmark not defined.
2.3 OLAP ......................................................... Error! Bookmark not defined.
2.3.1 ROLAP ............................................. Error! Bookmark not defined.
2.4 Text Mining ................................................ Error! Bookmark not defined.
2.5 Naïve Bayes Classifier ............................... Error! Bookmark not defined.
2.6 Vector Space Model ................................... Error! Bookmark not defined.
2.7 MySQL ....................................................... Error! Bookmark not defined.
2.8 PHP (Hypertext Processor) ........................ Error! Bookmark not defined.
2.9 Teknik Pengujian ........................................ Error! Bookmark not defined.
2.9.1 Pengujian Akurasi ............................. Error! Bookmark not defined.
2.9.2 Pengujian Sistem ............................... Error! Bookmark not defined.
2.10 Performa Sistem ........................................ Error! Bookmark not defined.
2.10.1 Performa Akurasi Sistem ................. Error! Bookmark not defined.
2.10.2 Performa Precision dan Recall SistemError! Bookmark not
defined.
2.10.3 Performa Waktu Klasifikasi ............ Error! Bookmark not defined.
2.10.3 Performa Waktu ETL ...................... Error! Bookmark not defined.
BAB III METODOLOGIPENELITIAN ................ Error! Bookmark not defined.
3.1 Data ............................................................. Error! Bookmark not defined.
3.1.1 Sumber Data ..................................... Error! Bookmark not defined.
3.1.2 Jenis data ........................................... Error! Bookmark not defined.
3.2 Populasi dan Sample .................................... Error! Bookmark not defined.
3.2.1 Populasi ............................................. Error! Bookmark not defined.
3.2.2 Sample ............................................... Error! Bookmark not defined.
3.3 Tempat dan Alat Penelitian .......................... Error! Bookmark not defined.
3.3.1 Tempat penelitian .............................. Error! Bookmark not defined.
3.3.2 Alat penelitian ................................... Error! Bookmark not defined.
3.4 Langkah Penelitian ...................................... Error! Bookmark not defined.
3.5 Gambaran Umum Sistem............................. Error! Bookmark not defined.
3.6 Algoritma Program ...................................... Error! Bookmark not defined.
3.6.1 Naïve Bayes Classifier ...................... Error! Bookmark not defined.
3.6.2 Nazief Andriyani ............................... Error! Bookmark not defined.
3.6.3 Vector Space Model ........................... Error! Bookmark not defined.
3.7 Teknik Pengujian ......................................... Error! Bookmark not defined.
3.7.1 Pengujian Akurasi ............................. Error! Bookmark not defined.
3.7.2 Pengujian Sistem ............................... Error! Bookmark not defined.
BAB IV HASIL DAN PEMBAHASAN................ Error! Bookmark not defined.
4.1 Input pada Model ROLAP Data warehouseError! Bookmark not
defined.
4.2 Model ROLAP Data warehouse ................ Error! Bookmark not defined.
4.3 Implementasi Model ROLAP Data WarehouseError! Bookmark not
defined.
4.3.1 Implementasi Aplikasi OLTP ............ Error! Bookmark not defined.
4.3.2 Implementasi Algoritma Naïve BayesError! Bookmark not defined.
4.3.2.1 Preprosessing Data Dokumen .... Error! Bookmark not defined.
4.3.2.2 Menghitung Probabilitas Setiap KataError! Bookmark not
defined.
4.3.2.3 Membandingkan setiap kelas dokumenError! Bookmark not
defined.
4.3.2.4 Hasil Klasifikasi ........................ Error! Bookmark not defined.
4.3.3 Implementasi Data Warehouse .......... Error! Bookmark not defined.
4.3.4 Implementasi Aplikasi OLAP ........... Error! Bookmark not defined.
4.3.4.1 Implementasi Algortima Vector Space ModelError! Bookmark
not defined.
4.4 Pengujian Hasil .......................................... Error! Bookmark not defined.
4.4.1 Pengujian Algoritma naïve bayes ..... Error! Bookmark not defined.
4.4.2 Pengujian Algoritma Vector Space ModelError! Bookmark not
defined.
4.5 Pengujian Sistem ........................................ Error! Bookmark not defined.
4.5.1 Pengujian Waktu Sistem .................... Error! Bookmark not defined.
4.5.2 Pengujian White Box ......................... Error! Bookmark not defined.
BAB V KESIMPULANDANSARAN ................... Error! Bookmark not defined.
5.1 Kesimpulan ................................................ Error! Bookmark not defined.
5.2 Saran ........................................................... Error! Bookmark not defined.
DAFTAR PUSTAKA ............................................. Error! Bookmark not defined.
DAFTAR TABEL
Tabel 2.1 Mapping Jurnal terkait usulan penelitianError! Bookmark not defined.
Tabel 2.2 Contoh flowgraph algoritma .................. Error! Bookmark not defined.
Tabel 2.3 Contoh hasil pengujian white box ......... Error! Bookmark not defined.
Tabel 4.1 Hasil Pengujian Precision dan Recall .... Error! Bookmark not defined.
Tabel 4.3 Hasil Pengujian Proses Login ................ Error! Bookmark not defined.
Tabel 4.4 Flowgraph Proses Klasifikasi DokumenError! Bookmark not defined.
Tabel 4.5 Hasil Pengujian Proses Klasifikasi DokumenError! Bookmark not
defined.
Tabel 4.6 Flowgraph proses pencarian jurnal ....... Error! Bookmark not defined.
Tabel 4.7 Hasil Pengujian Proses Pencarian JurnalError! Bookmark not defined.
DAFTAR GAMBAR
Gambar 2.1 Arsitektur Single DDS ...................... Error! Bookmark not defined.
Gambar 2.2 Arsitektur ROLAP ............................. Error! Bookmark not defined.
Gambar 2.3 : Contoh pengujian White Box .......... Error! Bookmark not defined.
Gambar 3.1 Blok Diagram Penelitian................... Error! Bookmark not defined.
Gambar 3.2 Flowchart Preprosessing Dokumen .. Error! Bookmark not defined.
Gambar 3.4 Flowchart Algoritma Naïve Bayes.... Error! Bookmark not defined.
Gambar 3.5 Flowchart Algoritma Vector Space ModelError! Bookmark not
defined.
Gambar 4.2 model ROLAP Data Warehouse ....... Error! Bookmark not defined.
Gambar 4.3 Antarmuka Login OLTP .................... Error! Bookmark not defined.
Gambar 4.3 Antarmuka View Data Institusi ......... Error! Bookmark not defined.
Gambar 4.5 Antarmuka Input Data Institusi ......... Error! Bookmark not defined.
Gambar 4.6 Antarmuka Edit Data Institusi .......... Error! Bookmark not defined.
Gambar 4.7 Antarmuka View Data Topik PenelitianError! Bookmark not
defined.
Gambar 4.8 Antarmuka ETL ................................ Error! Bookmark not defined.
Gambar 4.9 Antarmuka input dataset jurnal ......... Error! Bookmark not defined.
Gambar 4.10 Antarmuka Klasifikasi Jurnal ......... Error! Bookmark not defined.
Gambar 4.11 Antar Muka Unggah File Input ....... Error! Bookmark not defined.
Gambar 4.12 Contoh Hasil Perbandingan probabilitas Kelas Dokumen ..... Error!
Bookmark not defined.
Gambar 4.13 Antar Muka Hasil Klasifikasi DokumenError! Bookmark not
defined.
Gambar 4.14 Arsitektur Single DDS..................... Error! Bookmark not defined.
Gambar 4.15 Rancangan Star Schema ................. Error! Bookmark not defined.
Gambar 4.16 Antarmuka Beranda OLAP ............. Error! Bookmark not defined.
Gambar 4.17 Antarmuka Grafik Topik Penelitian Berdasarkan Tahun ........ Error!
Bookmark not defined.
Gambar 4.18 Antarmuka Tabel Pivot Topik Penelitian Berdasarkan Tahun Error!
Bookmark not defined.
Gambar 4.19 Antarmuka Pencarian Jurnal ........... Error! Bookmark not defined.
Gambar 4.20 Antarmuka Lihat File Jurnal (1) ..... Error! Bookmark not defined.
Gambar 4.21 Antarmuka Lihat File Jurnal (2) ..... Error! Bookmark not defined.
Gambar 4.22 Grafik Akurasi dan Error Sistem Berdasarkan Jumlah Kelas Error!
Bookmark not defined.
Gambar 4.23 Antarmuka Pencarian Dokumen ..... Error! Bookmark not defined.
Gambar 4.24 Grafik Pengujian Waktu Klasifikasi Sistem Berdasarkan Kelas
................................................................................ Error! Bookmark not defined.
Gambar 4.26 Edge dan Node pada proses login ... Error! Bookmark not defined.
Gambar 4.27 Edge dan Node pada proses klasifikasi dokumenError! Bookmark
not defined.
Gambar 4.28 Edge dan Node pada proses pencarian jurnalError! Bookmark not
defined.
BAB I
PENDAHULUAN
1.1 Latar Belakang
Data merupakan bahan yang dapat dijadikan suatu informasi, dalam implementasinya pada
dunia teknologi informasi, data Data terstruktur adalah data yang dimasukkan dalam database
relasional sistem. Contohnya adalah tabel database, objek, tag, laporan, indeks dll Menjadi
terstruktur dan sangat terorganisir dapat dikelola oleh SQL dan beberapa variasinya dikembangkan
oleh IBM, ADO.net, ODBC dan banyak RDBMS lainya. Dalam perkembangan teknologi yang
pesat selain data terstruktur, data tidak terstruktur juga dapat menjadi informasi yang sangat
penting. Data tidak terstruktur adalah data yang pada setiap elemenya tidak memiliki struktur baku,
data tidat terstruktur bisa dibuat menggunakan mesin ataupun dari hasil karya manusia. Data tidak
terstruktur secara general dibagi menjadi dua yaitu non textual dan textual. Untuk jenis non textual
dapat berupa video, gambar, dan suara. Sedangkan untuk jenis textual dapat berupa email,
perangkat lunak pengolah kata seperti pdf dan word. (Kanimozhi & Venkatesan, 2015)
Salah satu contoh dari data tidak terstrukur adalah dokumen hasil penelitian ilmiah,
penelitian ilmiah merupakan sebuah proses penyelidikan secara sistematis yang bertujuan untuk
menyelesaikan suatu permasalahan. Hasil penelitian ilmiah dapat disajikan dalam berbagai bentuk,
seperti makalah, laporan penelitian, buku-buku ilmiah, atau karya ilmiah lainnya yang
dipublikasikan. Para peneliti dan akademisi yang bernaung dalam perguruan tinggi melakukan
penelitian sebagai salah satu bentuk pengamalan tri dharma perguruan tinggi . Publikasi ilmiah
pada tingkat nasional dan internasional menjadi suatu tolak ukur kualitas dan keunggulan
penelitian itu dalam memberikan sumbangan ilmu pengetahuan bagi masyarakat. (Hasibuan,
2007). Jika data hasil penelitian ilmiah tersebut diolah, hasil yang didapatkan akan dapat
bermanfaat bagi kalangan akademisi atau peneliti untuk melihat perkembangan dari suatu topik
penelitian ilmiah pada setiap periodenya.
Metode yang dapat digunakan untuk pengolahan data dalam jumlah besar (Big Data)
adalah datawarehouse. datawarehouse dapat mengambil, membersihkan, menyesuaikan, dan
mengirimkan sumber data ke dalam penyimpanan data dimensional dan kemudian mendukung
serta mengimplementasikan query dan analisis untuk menghasilkan informasi yang cepat dan
didukung dengan data multidimensional (Rainardi, Building a Data Warehouse: With Examples in
SQL Server, 2008). Dalam impelentasinya datawarehouse biasanya dibangun menggunakan
sumber data dari database dengan data terstruktur, salah satu tantangan kedepan yang ditawarkan
adalah bagaimana merancang datawarehouse yang memiliki sumber data tidak terstruktur (Pathak,
Singh, & Oberoi, 2013).
Dari permasalahan tersebut, diperlukan suatu model untuk merubah data tidak terstuktur
menjadi data terstruktur dalam database. Text mining merupakan salah satu teknik untuk
melakukan klasifikasi dokumen, yang dapat dijadikan acuan untuk merubah data tidak terstruktur
menjadi data terstruktur. Dari beberapa penelitan yang sudah dilakukan metode yang digunakan
adalah NBC (naïve bayes classifier) dengan tingkat akurasi klasifikasi dokumen berita sebesar
91% dan dokumen akademik mencapai 82 % (Hamzah, 2012),terdapat juga penelitian yang
membandingkan metode ontology dengan NBC dengan hasil akurasi ontology sebesar 94,02 %
dan NBC sebesar 95,98% (Basnur & Sensuse, 2010) . Dari hasil penelitian sebelumnya mengenai
klasifikasi dokumen pada penelitian ini klasifikasi dokumen untuk menjadi sumber data dari
datawarehouse akan menggunakan naïve bayes classifier karena memiliki tingkat akurasi yang
tinggi.
Pada penelitian ini dokumen penelitian ilmiah akan diproses menggunakan metode text
mining. Text mining akan melakukan klasifikasi terhadap dokumen penelitian ilmiah sebagai
sumber data untuk datawarehouse, proses klasifikasi akan menghasilkan suatu topik dari dokumen
yang diinputkan. Setelah proses klasifikasi dilakukan akan dilanjutkan dengan proses
pembentukan data terstruktur menggunakan prosedur ETL (Ekstract,Transform,Load) dari
datawarehouse.
Model analisis data yang digunakan pada datawrehouse dalam penelitan ini adalah model
ROLAP (Relational OLAP), ROLAP digunakan karena jumlah data dalam ROLAP tidak
dialokasikan terlebih dahulu, sehingga tidak terdapat batasan data yang akan dianilisis, berbeda
dengan pemodelan OLAP yang lain seperti MOLAP. MOLAP memerlukan alokasi data, sehingga
data yang di analisis menjadi terbatas walaupun kecepatan analisisnya menjadi meningkat.
Dari hasil datawarehouse yang sudah terbentuk, hasil yang dapat dimanfaatkan oleh
pengguna berupa sistem yang mampu menampilkan trend perkembangan penelitian khususnya
pada bidang IT di Indonesia berdasarkan topik penelitian, baik dari sisi institusi, periode waktu
(bulan,semester,tahun) yang akan ditampilkan dalam bentuk grafik dan pivot tabel. Selain
menghasilkan tampilan analisis data, data yang sudah terbentuk dalam datawarehouse juga dapat
dimanfaatkan untuk sistem temu kembali (retrival information), dimana system tersebut akan
bekerja dengan memberikan informasi sesuai dengan query dari pengguna, sehingga pengguna
dapat melihat perkembangan suatu topik penelitian berdasarkan query yang diinputkan.
Metode yang akan digunakan untuk proses retrival information pada penelitian ini adalah
metode VSM (Vector Space Model), metode ini dipilih karena memiliki cara kerja yang effisien
dan cocok digunakan untuk dokumen matching (Amin F. , 2011)dari penelitian sebelumnya yang
sudah dilakukan VSM dapat menampilkan hasil dari query pengguna dengan rata – rata catatan
waktu 1,5 detik dengan nilai akurasi atau presisi 0,54 (Amin F. , 2012)
Pada penelitian ini penulis akan mengimplementasikan datawarehouse pada lingkungan
data yang tidak terstruktur dengan mengambil objek berupa dokumen yaitu dokumen penelitian
ilmiah. Metode yang digunakan adalah text mining dengan algoritma naïve bayes sebagai
klasifikasi dokumen untuk mengetahui topik dari sebuah penelitian dan data – data yang terkait
lainya seperti bulan,tahun,penulis dan institusi yang menerbitkan. Hasil akhir yang diharapkan
adalah terbentuknya informasi dalam bentuk grafik dan table pivot mengenai trend atau
perkembangan suatu topik penelitian dengan menggunakan ROLAP pada datawarehouse. Selain
itu hasil akhir pada penelitian ini juga dapat menerima query dari pengguna system mengenai
topic apa yang akan dicari dan menghasilkan perkembangan yang sesuai dengan query inputan
pengguna.
1.2 Rumusan Masalah
Berdasarkan latar belakang diatas, permasalahan yang diangkat dalam penelitian ini adalah
bagaimana membangun model ROLAP data warehouse untuk data tidak terstruktur.
1.3 Tujuan Penelitian
Tujuan yang diharapkan dari hasil penelitian ini adalah untuk mengetahui kinerja arsitektur
data warehouse pada lingkungan data tidak terstruktur, yaitu akurasi, error, waktu klasifikasi,
waktu ETL dan nilai precision recall.
1.4 Manfaat Penelitian
Adapun manfaat yang diharapkan dari penelitian ini adalah
1. Manfaat akademis
Hasil pemanfaatan text mining untuk pengolahan data dari data tidak terstruktur
menjadi data terstruktur pada penelitian ini diharapkan mampu memberikan solusi
untuk pengembangan model data warehouse yang bekerja pada lingkungan data tidak
terstruktur.
2. Manfaat Praktis
Hasil dari pemodelan ROLAP datawarehouse pada penelitian ini diharapkan mampu
memberikan informasi mengenai perkembangan suatu topik penelitian berdasarkan
tiap – tiap sub topik dan juga berdasarkan query input pengguna.
1.5 Ruang Lingkup dan Batasan Masalah
Adapun batasan masalah yang dibahas dalam penelitian ini adalah :
1. Dokumen yang digunakan sebagai sumber data adalah dokumen jurnal penelitian
ilmiah dalam bahasa Indonesia.
2. Kelas yang digunakan untuk klasifikasi dokumen adalah 10 kelas klasifikasi yang
diambil dari sub topik Seminar Nasional Ilmu Komputer (SEMINASIK) Universitas
Gajah Mada 2014.
1.6 Keaslian Penelitian
Peneltian yang terkait dengan datawarehouse menggunakan data tidak terstruktur sudah
pernah dilakukan sebelmunya, tetapi pada penelitian sebelumnya data yang digunakan adalah data
dalam bentuk XML, dalam pengajuan usulan penelitian ini data yang digunakan berupa file
dokumen yang memerlukan beberapa tahapan sebelum siap digunakan untuk analisis data dengan
model ROLAP. Ada beberapa jurnal terkait yang menjadi acuan usulan ini di angkat, yang
dijelaskan lebih detail pada bab 2 dalam sub bab state of the art.
1.6.1 Fish Bone Penelitian