METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat...

52
perpustakaan.uns.ac.id digilib.uns.ac.id commit to user METODE SIMILARITY - MASHUP UNTUK FRAMEWORK MODUL RELEVANT CONTENT PADA CONTENT MANAGEMENT SYSTEM (CMS) SKRIPSI Diajukan untuk memenuhi sebagian persyaratan mendapatkan gelar Strata Satu Jurusan Informatika Disusun Oleh : RIKY BAGUS MUHAJIR M0508117 JURUSAN INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET SURAKARTA Oktober, 2012

Transcript of METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat...

Page 1: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

METODE SIMILARITY - MASHUP UNTUK FRAMEWORK

MODUL RELEVANT CONTENT

PADA CONTENT MANAGEMENT SYSTEM (CMS)

SKRIPSI

Diajukan untuk memenuhi sebagian persyaratan mendapatkan gelar Strata Satu

Jurusan Informatika

Disusun Oleh :

RIKY BAGUS MUHAJIR

M0508117

JURUSAN INFORMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SEBELAS MARET

SURAKARTA

Oktober, 2012

Page 2: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

i

METODE SIMILARITY - MASHUP UNTUK FRAMEWORK

MODUL RELEVANT CONTENT

PADA CONTENT MANAGEMENT SYSTEM (CMS)

SKRIPSI

Diajukan untuk memenuhi sebagian persyaratan mendapatkan gelar Strata Satu

Jurusan Informatika

Disusun Oleh :

RIKY BAGUS MUHAJIR

M0508117

JURUSAN INFORMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SEBELAS MARET

SURAKARTA

Oktober, 2012

HALAMAN JUDUL

Page 3: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

iv

MOTTO

Sesungguhnya sesudah kesulitan itu pasti ada kemudahan. Maka apabila

kamu telah selesai (dari suatu urusan), kerjakanlah dengan sungguh-sungguh

urusan yang lain. Dan hanya kepada Tuhanmulah hendaknya kamu berharap.

(Q.S. 94 : 6-8)

Hai orang-orang yang beriman, Jadikanlah sabar dan shalatmu sebagai

penolongmu, sesungguhnya Allah beserta orang-orang yang sabar” (Q.S. 1 : 153)

Page 4: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

v

PERSEMBAHAN

Dipersembahkan untuk:

1. Ayah dan Ibu tercinta

2. Jurusan Informatika UNS

Page 5: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

vi

Metode Similarity - Mashup Untuk Modul Relevant Content Pada

Content Management System (CMS)

RIKY BAGUS MUHAJIR

Jurusan Informatika. Fakultas MIPA. Universitas Sebelas Maret

ABSTRAK

Manajemen konten yang baik atau yang lebih dikenal dengan smart content

management system dapat dilakukan dengan berbagai cara, salah satunya dengan

menyajikan berbagai informasi yang berkaitan dengan konten utama (relevant

content). Berbagai Informasi tersebut dapat berupa artikel, gambar, banner, dan

juga video.

Kandidat relevant content dapat berasal dari dalam maupun luar sistem (mashup),

yang dimaksud dari dalam sistem disini adalah bahwa kandidat relevant content

diperoleh dari database sistem sendiri sedangkan yang dimaksud dari luar sistem

adalah bahwa kandidat relevant content diperoleh dari berbagai website di

internet. Relevant Content didapatkan dengan menghitung kemiripan metadata

antara kandidat relevant content dengan konten utama.

Dari hasil serangkaian uji coba didapatkan bahwa metode similarity – mashup

untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik.

Selain itu juga dapat dilihat bahwa sering kali berbagai kandidat relevant content

yang berasal dari luar sistem (mashup) memiliki nilai similarity yang lebih tinggi

dibandingkan kandidat yang berasal dari dalam sistem.

Kata Kunci : CMS, cosine, mashups, metadata, relevant content, similarity

Page 6: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

vii

Metode Similarity - Mashup Untuk Modul Relevant Content Pada

Content Management System (CMS)

RIKY BAGUS MUHAJIR

Department of Informatic. Mathematic and Science Faculty. Sebelas Maret

University

ABSTRACT

A good content management or better known as smart content management

system can be done in various ways, one of them by presenting a variety of

information related to the main content (relevant content). A variety of

information can be articles, pictures, banners, and video.

Candidates relevant content are got from internal and external system (mashup),

from internal system means that the candidate relevant content are got from the

database system and then from the external system means that the candidate

relevant content are got from various websites on the internet. Relevant Content is

obtained by calculating the similarity between candidates relevant content

metadata with main content metadata.

The results from the series of testing are found that the method of similarity -

mashups for relevant content module has been well integrated into the CMS. It

can also be seen that the candidates relevant content from the external system

(mashup) often has a higher similarity value than candidates from the internal

system.

Keywords: CMS, cosine, mashups, metadata, relevant content, similarity

Page 7: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

viii

KATA PENGANTAR

Puji syukur penulis panjatkan kehadirat Allah Subhanahu Wa Ta’ala yang

senantiasa memberikan nikmat dan karunia-Nya sehingga penulis dapat

menyelesaikan skripsi dengan judul Metode Similarty - Mashup Untuk Modul

Relevant Content Pada Content Management System (CMS), yang menjadi salah

satu syarat wajib untuk memperoleh gelar Sarjana Informatika di Universitas

Sebelas Maret (UNS) Surakarta.

Penulis menyadari akan keterbatasan yang dimiliki, begitu banyak

bimbingan, bantuan, serta motivasi yang diberikan dalam proses penyusunan

skripsi ini. Oleh karena itu, ucapan terima kasih penulis sampaikan kepada :

1. Ibu Umi Salamah, M.Kom, ketua Jurusan Informatika FMIPA UNS.

2. Ibu Dewi Wisnu Wardani, S. Kom, M.S., dosen pembimbing I yang penuh

kesabaran membimbing, mengarahkan, dan memberi motivasi kepada

penulis selama proses penyusunan skripsi ini.

3. Bapak Meiyanto Eko Sulistyo, S.T, M, Eng., selaku dosen pembimbing II

yang penuh kesabaran membimbing, mengarahkan, dan memberi motivasi

kepada penulis selama proses penyusunan skripsi ini.

4. Bapak dan Ibu dosen serta karyawan di Jurusan Informatika FMIPA UNS

yang telah mengajar penulis selama masa studi dan membantu dalam proses

penyusunan skripsi ini.

5. Seluruh keluarga terutama Ayah dan Ibu, untuk setiap kasih sayang dan

pengorbanan yang tak mungkin terbalas.

6. Seluruh teman terutama mahasiswa angkatan 2008 Jurusan Informatika

FMIPA UNS dan Rima Dhian Permata Hendry yang setia menemani

perjalanan dengan dukungan dan semangatnya.

Penulis berharap semoga skripsi ini dapat bermanfaat bagi semua pihak yang

berkepentingan.

Surakarta, Oktober 2012

Penulis

Page 8: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

ix

DAFTAR ISI

HALAMAN JUDUL ................................................................................................ i

HALAMAN PERSETUJUAN ................................................................................ ii

HALAMAN PENGESAHAN ................................................................................ iii

HALAMAN MOTTO ............................................................................................ iv

HALAMAN PERSEMBAHAN ............................................................................. v

ABSTRAK ............................................................................................................. vi

ABSTRACT ............................................................................................................ vii

KATA PENGANTAR ......................................................................................... viii

DAFTAR ISI .......................................................................................................... ix

DAFTAR TABEL ................................................................................................. xii

DAFTAR GAMBAR ........................................................................................... xiii

DAFTAR LAMPIRAN ........................................................................................ xiv

BAB I PENDAHULUAN ....................................................................................... 1

1.1 Latar Belakang ......................................................................................... 1

1.2 Rumusan Masalah .................................................................................... 2

1.3 Batasan Masalah ....................................................................................... 3

1.4 Tujuan Penelitian ...................................................................................... 3

1.5 Manfaat Penelitian .................................................................................... 3

1.6 Sistematika Penulisan ............................................................................... 3

BAB II TINJAUAN PUSTAKA ............................................................................. 5

Page 9: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

x

2.1 Dasar Teori ............................................................................................... 5

2.1.1 Sistem Manajemen Konten ................................................................... 5

2.1.2 Text Mining ........................................................................................... 6

2.1.2.1 Text Preprocessing .................................................................... 6

2.1.2.2 Text Transformation .................................................................. 6

2.1.2.3 Pattern Discovery ...................................................................... 7

2.1.3 Stemming ............................................................................................... 7

2.1.4 Term Frequency (tf) - Inverse Dokumen Frequency (idf)..................... 9

2.1.5 Vector Space Model ............................................................................ 11

2.1.6 Matching Document ............................................................................ 12

2.1.7 Teknologi Mashup .............................................................................. 13

2.1.8 Google API ......................................................................................... 14

2.2 Penelitian Terkait ................................................................................... 15

2.3 Rencana Penelitian ................................................................................. 19

BAB III METODOLOGI PENELITIAN.............................................................. 20

3.1 Studi Literatur ......................................................................................... 20

3.2 Perancangan Framework ........................................................................ 20

3.3 Pengumpulan Data ................................................................................. 21

3.4 Experimental .......................................................................................... 21

3.5 Experimental Result ............................................................................... 21

BAB IV PEMBAHASAN ..................................................................................... 22

4.1 Perancangan Framework ........................................................................ 22

4.1.1 Text Preprocessing ............................................................................. 24

4.1.2 Text Transformation ........................................................................... 25

4.1.3 Pattern Discovery /Analysis................................................................ 25

4.2 Pengumpulan Data ................................................................................. 26

4.2.1 Data Internal ....................................................................................... 26

Page 10: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

xi

4.2.2 Data External ...................................................................................... 26

4.2.2.1 Konten artikel .......................................................................... 28

4.2.2.2 Konten gambar ......................................................................... 30

4.2.2.3 Konten video ............................................................................ 31

4.3 Experimental .......................................................................................... 34

4.3.1 Lingkungan Implementasi .................................................................. 34

4.3.1.1 Lingkungan Prangkat Keras..................................................... 34

4.3.1.2 Lingkungan Perangkat Lunak .................................................. 34

4.3.2 Pengujian ............................................................................................ 34

4.4 Experimental Result ............................................................................... 35

BAB V PENUTUP ................................................................................................ 38

5.1 Kesimpulan ............................................................................................. 38

5.2 Saran ....................................................................................................... 39

DAFTAR PUSTAKA ........................................................................................... 40

LAMPIRAN A ...................................................................................................... 42

LAMPIRAN B ...................................................................................................... 62

LAMPIRAN C ...................................................................................................... 71

LAMPIRAN D ...................................................................................................... 87

Page 11: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

xii

DAFTAR TABEL

Tabel 4. 1 Metadata Kandidat Relevant Content Untuk Proses Similarity ................ 25

Tabel 4. 2 Argument Batasan Pencarian Pada Google Search API............................ 27

Tabel 4. 3 Metadata Kandidat Relevant Content Artikel ........................................... 29

Tabel 4. 4 Metadata Kandidat Relevant Content Gambar ......................................... 31

Tabel 4. 5 Metadata Kandidat Relevant Content Video ............................................. 33

Tabel 4. 6 Website Acuan Konten Mashup ................................................................ 33

Tabel 4. 7 Jumlah Relevant Content Yang Ditampilkan ............................................ 35

Tabel 4. 8 Nilai Rata-Rata Hasil Relevant Content Internal Dan External ............... 36

Tabel 4. 9 Selisih Antara Nilai Rata-Rata Relevant Content Internal Dan External . 36

Page 12: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

xiii

DAFTAR GAMBAR

Gambar 2. 1 Ilustrasi Algoritma Pembobotan tf-idf ..................................................... 9

Gambar 2. 2 Contoh model ruang vektor dengan dua dokumen D1 dan D2, serta

query Q (Mandala, 2006) .................................................................................... 11

Gambar 2. 3 Matrik Representasi VSM ..................................................................... 12

Gambar 3. 1 Diagram Metodologi Penelitian ............................................................ 20

Gambar 4. 1 Framework Modul Relevant Content .................................................... 23

Gambar 4. 2 Proses Similarity - Mashup ................................................................... 23

Page 13: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

xiv

xiv

DAFTAR LAMPIRAN

LAMPIRAN A ...................................................................................................... 42

LAMPIRAN B ...................................................................................................... 62

LAMPIRAN C ...................................................................................................... 71

LAMPIRAN D ...................................................................................................... 87

Page 14: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

1

BAB I

PENDAHULUAN

1.1 Latar Belakang

Website memberi sumbangan besar dalam pemberian berbagai informasi.

Banyak informasi yang ada disuatu website akan tetapi cara penyampaian

informasi tersebut sering kali kurang efektif. Informasi yang kurang efektif ini

dapat dilihat dari banyaknya konten pada suatu halaman web seperti iklan,

gambar, link, dan berbagai konten lainnya yang sering kali tidak ada hubungannya

dengan isi dari konten utama (Mulendra dan Liu, 2009). Konten-konten seperti ini

justru membuat penguna merasa terganggu dan kesulitan dalam memperoleh

informasi. Oleh karena itu diperlukan manajemen konten yang baik untuk

mengelola berbagai konten tersebut.

Manajemen konten yang baik diharapkan dapat menjadikan suatu website

menjadi lebih inovatif dan kaya akan informasi sehingga dapat memudahkan

pengunjung situs dalam memperoleh informasi. Manajemen konten yang baik

atau yang lebih dikenal dengan smart content management system dapat dilakukan

dengan berbagai cara, salah satunya dengan menyajikan berbagai informasi yang

berkaitan dengan konten utama (relevant content). Pada (Broder et al., 2007)

manajemen konten dilakukan dengan menampilkan berbagai iklan yang berkaitan

dengan konten utama pada website.

Disamping mengunakan relevant content, manajemen konten yang baik

juga bisa dilakukan dengan mengunakan mashup. Mashup merupakan cara baru

dalam dunia aplikasi web yang menggabungkan data dan informasi dari berbagai

sumber kemudian menampilkannya dalam sajian informasi yang baru (Thor,

2007). Isi dari website yang menerapkan konsepsi mashup biasanya berasal dari

penyedia layanan pihak ke tiga dengan antarmuka yang disebut sebagai API

(application programming interface) (Zang dan Rosson, 2008). Saat ini sudah

terdapat beberapa CMS yang menggunakan mashup akan tetapi mashup tersebut

hanya berupa kolom pencarian atau mashup hanya menampikan informasi dari

Page 15: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

2

suatu website lain tanpa memperhatikan isi dari informasi tersebut. Seperti hanya

pengunaan RSS Feed. RSS Feed hanya memungkinkan kita untuk memperoleh

informasi terbaru dari suatu website tanpa dapat mengontrol isi dari informasi

tersebut. Pada (Rohmatulloh et al., 2009) telah dilakukan penerapan teknologi

mashup, yakni dengan cara melalukan pencarian melalui kolom pencarian untuk

mendapatkan artikel yang terkait dengan keyword yang dimasukkan.

Penelitian pada tugas akhir ini mencoba mengembangkan aplikasi

pariwisata Indonesia berbasis online dengan menerapkan metode similarity-

mashup untuk memperoleh berbagai informasi yang relevant degan konten utama.

Berbagai ulasan, gambar, dan video diharapkan dapat mampu menberikan

informasi yang lebih informatif sehingga membuat wisatawan tertarik untuk

mengunjungi objek wisata di Indonesia.

Dalam tugas akhir ini akan dikaji metode similarity-mashup untuk modul

relevant content pada CMS yang mana modul tersebut mampu menyajikan

konten-konten yang berkaitan denggan konten utama. Relevant content ini akan

diletakkan disamping konten utama. Relevant content diperoleh setelah

melakukan proses penyamaan (similarity) antara konten utama dengan berbagai

kandidat relevant content baik yang berasal dari dalam maupun luar sistem. Untuk

proses similarity digunakan metode Cosine Similarity. Kandidat relevant content

dari luar sistem diperoleh dari berbagai website di internet. Adapun berbagai

konten dari luar sistem diantaranya; artikel dan gambar dari Google, Video dari

Youtube, informasi dari Wikipedia, dan juga berbagai konten dari website yang

lain.

1.2 Rumusan Masalah

Berdasarkan ulasan yang telah dijabarkan pada latar belakang dapat

dirumuskan permasalahan yakni bagaimana memanfaatkan metode similarity –

mashup untuk memperoleh berbagai konten yang relevant dengan konten utama

pada suatu website.

Page 16: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

3

1.3 Batasan Masalah

1. Untuk website yang memakai bahasa Indonesia

2. Artikel pada website tidak terbatas oleh waktu

3. Content management system yang digunakan adalah Lokomedia

4. Relevant content berupa artikel, gambar, dan video bukan berupa file (doc,

pdf)

5. Domain yang digunakan adalah tentang pariwisata

1.4 Tujuan Penelitian

Tujuan dari tugas akhir ini adalah memanfaatkan metode similarity –

mashup untuk mendapatkan berbagai konten yang relevant dengan konten utama

pada suatu website.

1.5 Manfaat Penelitian

Manfaat dari penelitian pada tugas akhir ini adalah untuk memperkaya

kajian pembuatan modul relevant content dengan pemanfaatkan metode similarity

- mashup, yang mana modul ini secara otomatis mampu menyajikan berbagai

konten yang relevant dengan konten utama pada suatu website.

1.6 Sistematika Penulisan

Penelitian ini akan disusun menurut sistematika penulisan sebagai berikut :

BAB I PENDAHULUAN

Pendahuluan berisi mengenai latar belakang, rumusan masalah,

pembatasan masalah, tujuan, manfaat, dan sistematika penulisan. Keseluruhan

dari bagian ini memberikan gambaran umum dari penelitian yang dilakukan.

Page 17: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

4

BAB II TINJAUAN PUSTAKA

Tinjauan pustaka memuat penjelasan secara rinci mengenai teori-teori

yang digunakan sebagai dasar dalam penelitian ini. Bagian ini juga memuat

mengenai penelitian terdahulu dan rencana penelitian yang akan dilakukan oleh

penulis.

BAB III METODE PENELITIAN

Pada bab ini membahas metode yang digunakan dalam penelitian ini.

Metode dalam penelitian ini terdiri atas lima tahapan, yaitu studi literatur,

perancangan framework, pengumpulan data, experimental, dan experimental

result.

BAB IV PEMBAHASAN

Bagian ini berisi pembahasan dari hasil yang diperoleh dari penelitian ini,

meliputi penjelasan mengenai perancangan framework, pengumpulan data,

experimental, dan experimental result

BAB V PENUTUP

Penutup berisi kesimpulan penelitian dan saran sebagai bahan pertimbangan

untuk penelitian selanjutnya

Page 18: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

5

BAB II

TINJAUAN PUSTAKA

2.1 Dasar Teori

2.1.1 Sistem Manajemen Konten

Sistem manajemen konten yang biasa dikenal dengan Content

Management System, disingkat CMS, adalah sistem perangkat lunak yang

memungkinkan seseorang untuk mengatur proses berjalannya suatu situs Web

(Simarmata, 2010). Sistem manajemen konten (Nakano, 2001) memungkinkan

administrator mengelola informasi seperti membuat, melakukan perubahan,

merilis, menyimpan, menghapus, dan lain-lain.

Sebelum ada CMS, seseorang pengembang web harus mengerti ilmu yang

diperlukan untuk membuat dan mengelola suatu Web. Beberapa ilmu tersebut

diantaranya PHP, HTML, CSS, dan lain-lain. Namun dengan adanya CMS seperti

sekarang ini tidak perlu mesti belajar berbagai ilmu tersebut secara mendalam

lagi. Dengan kata lain CMS dapat mempermudah dalam mengelola suatu web.

Disamping memudahkan bagi pengembang web, suatu CMS juga harus

menyajikan suatu web yang inovatif dan kaya akan informasi sehingga dapat

memudahkan pengunjung situs dalam memperoleh informasi. Website yang

inovatif dan kaya akan informasi ini dapat diperoleh dengan manajemen konten

yang baik atau biasa dikenal dengan smart content manajemen system.

Manajemen konten yang baik dilakukan dengan menampilkan berbagai

iklan yang berkaitan dengan konten utama pada website (Broder et al., 2007).

Pada (Rohmatulloh et al., 2009) manajemen koten yang baik dilakukan dengan

menerapankan teknologi mashup, yakni dengan cara melalukan pencarian melalui

kolom pencarian untuk mendapatkan artikel yang terkait dengan keyword yang

dimasukkan. Sedangkan pada (Himawan, 2010) juga digunakan teknologi

mashup, yakni dengan menampilkan rute terpendek menuju tempat wisata dengan

memanfaatkan Google Map Api dan algoritma Dijkstra.

Page 19: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

6

2.1.2 Text Mining

Sebelum melakukan proses similarity antar dokumen perlu dilakukan

proses pengolahan terlebih dahulu. Text mining digunakan untuk menggali

informasi pada dokumen tidak terstruktur (Dorre et al., 1999). Sebelum

melakukan text mining, terlebih dahulu diperlukan proses pengubahan bentuk

menjadi data yang terstruktur sesuai kebutuhan. Biasanya akan dilakukan

perubahan menjadi nilai-nilai numerik. Setelah data menjadi data terstruktur dan

berupa nilai numerik maka data dapat dijadikan sebagai sumber data yang dapat

diolah lebih lanjut. Dalam text mining ini dibagi dalam 3 proses utama, yaitu Text

Preprocessing, Text Transformation dan Pattern Discovery.

2.1.2.1 Text Preprocessing

Dalam text mining, tahapan awal yang dilakukan adalah text

preprocessing. Tahap ini bertujuan untuk mempersiapkan teks menjadi data yang

akan diproses pada tahap selanjutnya. Terdapat beberapa hal yang dilakukan

dalam tahap ini, baik itu berupa tindakan yang bersifat kompleks seperti part-of-

speech (pos), tagging, parse tree, maupun tindakan sederhana seperti tokenization.

Tokenization merupakan proses pengolahan token yang terdapat dalam rangkaian

teks (Grossman, 2001). Dalam pembuatan indexs istilah dokumen dipecah

menjadi unit-unit lebih kecil misalnya berupa kata, frasa, atau kalimat. Unit

pemrosessan tersebut disebut token. Tahapan ini juga menghilangkan karakter-

karakter tertentu seperti tanda baca, html tag dan mengubah semua token

kebentuk huruf kecil (case folding).

2.1.2.2 Text Transformation

Pada tahap ini dilakukan proses penyaringan (filtration) dengan

menghilangkan stop-word. Stop-word merupakan kata yang sering muncul dalam

dokumen tetapi tidak memiliki makna yang berarti. Filtering berfungsi untuk

mengurangi daftar kata indexs dan mempercepat indexing (Grossman, 2001).

Penghapusan stop-word dari dalam suatu koleksi dokumen pada satu waktu

membutuhkan banyak waktu. Solusinya adalah dengan menyusun suatu pustaka

Page 20: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

7

stop-word atau stop-list dari term yang akan dihapus. Beberapa contoh stop-word

diantaranya; yang, dari, di, hingga, dan dengan. Konversi term ke bentuk akar

(stemming) juga merupakan tindakan yang dapat dilakukan dalam tahap ini.

Stemming merupakan proses penghilangan prefix dan suffix dari kata untuk

mendapatkan kata dasar (Grossman, 2001). Efektifitas algoritma stemming dapat

diukur berdasarkan beberapa parameter, seperti proses, keakuratan, dan kesalahan.

2.1.2.3 Pattern Discovery

Tahap ini merupakan tahap terpenting dari seluruh proses text mining.

Pada penelitian ini, operasi yang dilakukan adalah pengukuran kemiripan teks

(similarity). Teknik yang digunakan pada tahap ini adalah dengan melakukan

pembobotan (weighting) terhadap term dari hasil tahap text transformation. Setiap

term diberikan bobot sesuai dengan skema pembobotan yang dipilih, baik itu

pembobotan lokal, global atau kombinasi keduanya. Banyak aplikasi menerapkan

pembobotan kombinasi berupa perkalian bobot lokal term frequency dan global

inverse document frequency, ditulis . Di sini peneliti akan menggunakan

. Dalam kemiripan antar dokumen didefinisikan berdasarkan representasi

bag-of-words dan dikonversi ke suatu model ruang vektor (vector space model).

Setelah merepresentasi term ke dalam bentuk vektor akan dilakukan proses

pencarian kemiripan dengan menghitung nilai cosinus antar vektor yang dalam

penelitian ini menggunakan metode Cosine Similarity yang akan di jelaskan pada

pembahasan berikutnya.

2.1.3 Stemming

Algoritma stemming untuk beberapa bahasa telah dikembangkan, seperti

Algoritma Porter untuk teks berbahasa inggris, Algoritma Porter untuk teks

berbahasa Indonesia, dan juga Algoritma Nazief & Adriani untuk teks berbahasa

Indonesia. Dalam (Agusta, 2009) ditunjukkna bahwa algoritma Nazief & Adriani

memiliki keakuratan yang lebih tinggi. Algoritma ini didahului dengan

pembacaan tiap kata dari dokumen sampel. Sehingga input dari algoritma ini

berupa kata.

Page 21: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

8

Algoritma yang dibuat oleh Bobby Nazief dan Mirna Adriani ini memiliki

tahap-tahap sebagai berikut:

1. Cari kata yang akan distem dalam kamus. Jika ditemukan maka

diasumsikan bahwa kata tesebut adalah root word. Maka algoritma

berhenti.

2. Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”) dibuang.

Jika berupa particles (“-lah”, “-kah”, “-tah” atau “-pun”) maka langkah

ini diulangi lagi untuk menghapus Possesive Pronouns (“-ku”, “-mu”,

atau “-nya”), jika ada.

3. Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”). Jika kata

ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke

langkah 3a

a. Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah

“-k”, maka “-k” juga ikut dihapus. Jika kata tersebut ditemukan

dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka

lakukan langkah 3b.

b. Akhiran yang dihapus (“-i”, “-an” atau “-kan”) dikembalikan,

lanjut ke langkah 4.

4. Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus

maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b.

a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan. Jika

ditemukan maka algoritma berhenti, jika tidak pergi ke langkah 4b.

b. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika

root word belum juga ditemukan lakukan langkah 5, jika sudah

maka algoritma berhenti. Catatan: jika awalan kedua sama dengan

awalan pertama algoritma berhenti.

5. Melakukan Recoding.

6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata

awal diasumsikan sebagai root word. Proses selesai.

Page 22: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

9

2.1.4 Term Frequency (tf) - Inverse Dokumen Frequency (idf)

Term Frequency (tf) merupakan frekuensi kemunculan suatu kata (term)

dalam dokumen. Oleh sebab itu, tf memiliki nilai yang bervariasi dari satu

dokumen ke dokumen yang lain bergantung pada tingkat kepentingan sebuah term

dalam sebuah dokumen yang diberikan. Semakin sering suatu term muncul dalam

sebuah dokumen, maka term tersebut akan memiliki nilai tf yang lebih besar

daripada term yang jarang muncul dan hal ini berarti semakin penting term-term

tersebut.

Pengunaan faktor tf saja dalam menentukan pembobotan suatu term belum

mencukupi. Untuk itu digunakan juga faktor Inverse Document Frequency (idf)

yang merupakan sebuah statistik “global” yang mengkarakteristikkan sebuah term

dalam keseluruhan koleksi dokumen. Idf merupakan sebuah perhitungan dari

bagaimana term yang didistribusikan secara luas pada koleksi dokumen yang

bersangkutan. Semakin sedikit dokumen yang mengandung term yang dimaksud,

maka nilai idf semakin besar. Jika setiap dokumen dalam koleksi mengandung

term yang bersangkutan, maka nilai idf dari term tersebut adalah nol. Hal ini

menunjukkan bahwa sebuah term yang muncul pada setiap dokumen dalam

koleksi tidak berguna untuk membedakan dokumen berdasarkan topik tertentu.

Ilustrasi algoritma tf-idf (Harlian, 2006) ditunjukkan pada gambar 4.2.

…..

…..

…..

…..

…..

aku

.aku

.….

aku

.….

aku

…..

.….

…..

.….

…..

…..

…..

…..

…..

aku

.aku

aku

aku

.….

D1 D2 D3 D4 D5

tf = 0 tf = 3 tf = 0 tf = 1 tf = 4

df = 3

idf = log (N/df) = 0.2218

N = 5

Gambar 2. 1 Ilustrasi Algoritma Pembobotan tf-idf

Page 23: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

10

Keterangan :

= dokumen

= banyaknya term yang dicari pada sebuah dokumen

= total dokumen

= banyaknya dokumen yang mengandung term yang dicari

Dalam penelitian ini, algoritma pembobotan Term Frequency (tf) – Inverse

Document Frequency (idf) diterapkan pada tahap similarity document. Nilai tf-idf

diperoleh dengan menggunakan persamaan (Lee, 1997) :

(1)

Dimana :

= bobot term ke-j terhadap dokumen ke-i

= jumlah kemunculan term j dalam dokumen i

= jumlah seluruh dokumen

= jumlah dokumen yang mengandung term j

Berdasarkan pada persamaan (1), berapapun besarnya nilai , apabila N =

maka akan didapatkan hasil 0 (nol) untuk perhitungan idf. Untuk itu dapat

ditambahkan nilai 1 pada sisi idf, sehingga perhitungan bobotnya menjadi :

(2)

Penghitungan bobot dari term tertentu dalam sebuah dokumen dengan

menggunakan menunjukkan bahwa deskripsi terbaik dari dokumen

adalah term yang banyak muncul dalam dokumen tersebut dan sangat sedikit

muncul pada dokumen yang lain.

Page 24: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

11

2.1.5 Vector Space Model

Model Ruang Vektor ( Vector Space Model ) merupakan suatu metode

yang cukup banyak digunakan dalam sistem Information Retrieval. Dengan

menggunakan Model Ruang Vektor, dokumen–dokumen yang ada akan

direpresentasikan kedalam n dimensi vektor.

Banyaknya dimensi dari ruang vektor akan ditentukan oleh jumlah kata

signifikan yang terdapat dalam dokumen. Misalkan terdapat sejumlah n kata

yang berbeda sebagai kamus kata (vocabulaty) atau indeks kata (terms index).

Kata-kata ini akan membentuk ruang vektor yang memiliki dimensi sebesar n.

Setiap kata i dalam dokumen atau query diberikan bobot sebesar wi. Baik

dokumen maupun query direpresentasikan sebagai vektor berdimensi n.

Sebagai contoh terdapat 3 buah kata (t1, t2, dan t3), 2 buah dokumen (D1 dan

D2) serta sebuah query Q. Masing-masing bernilai:

D1 = 2t1+3t2+5t3

D2 = 3t1+7t2+0t3

Q = 0t1+0t2+2t3

Gambar 2. 2 Contoh model ruang vektor dengan dua dokumen D1 dan D2, serta

query Q (Mandala, 2006)

Koleksi dari n buah dokumen dapat direpresentasikan dalam Model

Ruang Vektor dengan sebuah matrik term-document (Mandala, 2006) yang

ditunjukkan pada gambar 2.3.

Page 25: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

12

Document space

t1 t2 t3 t.. tn

D1 w11 w12 w13 .. w1n

D2 w21 w22 w23 .. w2n

D.. .. .. .. .. ..

Dm wm1 wm2 wm3 .. wmn

Gambar 2. 3 Matrik Representasi VSM

2.1.6 Matching Document

Matching document merupakan tahap dimana akan dilakukan

penghitungan kemiripan (similarity) antara dokumen acuan dengan kandidat

dokumen. Dalam penelitian ini dokumen berupa metadata yang mana akan

dihitung kemiripannya dengan metode Cosine Similarity.

Dimana Cosine Similarity dirumuskan dengan (Lee, 1997):

D = Dokumen acuan

= Dokumen ke-i

= Bobot term j pada dokumen acuan

= Bobot term j pada dokumen i

Similarity atau 1 jika D = Di, sebaliknya similarity

= 0 ketika D dan Di tidak memiliki kesamaan sama sekali.

Term vector space

Page 26: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

13

2.1.7 Teknologi Mashup

Mashup merupakan cara baru dalam dunia aplikasi web yang

menggabungkan data dan informasi dari berbagai sumber kemudian

menampilkannya dalam sajian informasi yang baru (Thor, 2007). Atau dengan

kata lain, teknologi mashup menjadikan keseluruhan data di internet sebagai

basisdata universal yang dengan mudah data tersebut dapat diambil sesuai dengan

apa yang diinginkan. Arsitektur dari apliaksi web mashup terdiri dari 3 bagian

utama yaitu content provider, mashup hosting site, dan client web browser

(Marrill, 2006).

1. Content Povider

Sumber data dari mashup. Data biasanya didapatkan dengan

menggunakan API atau protokol web lain seperti REST atau RSS.

2. Mashup hosting site

Web yang menyediakan layanan baru dari bermacam sumber data yang

tidak dipunyai oleh web tersebut.

3. Client Web Browser

Konsumen yang menggunakan layanan mashup biasanya berbentuk

web browser yang menampilkan web mashup.

Menurut (Ankolekar et al., 2007) ada empat alasan mengapa digunakan

teknologi mashup, yakni reusing data from the web, dynamic data resources,

personalization of website, dan giving back to the word. Adapun penjelasan dari

empat alasan tersebut adalah sebagai berikut:

1. Reusing data from the web

Informasi yang ditampilkan diambil dari internet. Dengan kata lain

tidak memerlukan database sendiri untuk kasus ini karea ahanya

menggunakan kembali data yang sudah ada di internet.

2. Dynamic data sources

Page 27: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

14

Informasi yang ditampilkan berasal dari berbagai sumber yang ada di

internet. Dengan kondisi seperti ini membuat informasi menjadi

dinamis.

3. Personalisation of website

Dengan website yang didukung oleh teknologi relevant content dan

mashup seolah-olah membuat website milik pribadi si pengunjung. Hal

ini dikarenakan dapat ditampilkannya berbagai informasi yang terkait

dengan informasi yang ingin dicari pengunjung.

4. Giving back to the word

Disamping pengembang web dapat memperoleh berbagai informasi

dari berbagai sumber di internet dengan menggunakan teknologi

mashup, hal lain yang dapat dilihat adalah manfaat bagi website yang

dijadikan sebagai sumber informasi. Dengan menjadikan suatu website

sebagai sumber informasi dapat menambah rating daripada website itu

sendiri. Oleh karena rating web menjadi naik dan bagus, maka

semakin mudah pula pencarian akan situs tersebut menggunakan mesin

pencari seperti Google maupun Yahoo.

Selain kelebihan kelebihan yang ditawarkan, mashup sendiri mempunyai

beberapa kekurangan sebagai timbal balik dari keuntungan yang didapatkan.

Kekurangan tersebut antara lain adalah ketergantungan aplikasi terhadap sumber

data mashup dan koneksi internet.

2.1.8 Google API

Google menyediakan berbagai API (Application Programming Interface)

yang sangat berguna bagi pengembang web maupun aplikasi desktop untuk

memanfaatkan berbagai fitur yang disediakan oleh Google.

API secara sederhana bisa diartikan sebagai kode program yang

merupakan antarmuka atau penghubung antara aplikasi atau web yang kita buat

dengan fungsi-fungsi yang dikerjakan. Ada beberapa Google APIs diantaranya:

Google Maps API, Google Search API, Google Feeds API, Google Language

Page 28: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

15

API, Google Data API, Google Earth API, Google Visualizaion API, Google

Picker API, dan Google Youtube API.

2.2 Penelitian Terkait

2.2.1 Web Document Text and Images Extraction using DOM Analysis and

Natural Language Processing (Mulendra dan Liu, 2009)

Pada penelitian ini dilakukan teknik HTML DOM analysis dan Natural

Language Proccesing (NPL) untuk secara otomatis melakukan ekstraksi artikel

utama dan gambar yang berhubungan dengan artikel tersebut dari suatu halaman

web.

Aplikasi yang akan dibuat mempunyai masukan (input) berupa halaman

web (HTML Document). Aplikasi mempunyai kemampuan untuk memisahkan

konten-konten yang menggangu atau konten-konten yang tidak ada hubungannya

dengan artikel utama. Dengan cara ini akan dihasilkan output berupa artikel dan

gambar yang efektif sehingga lebih mudah dibaca dan dimengerti oleh penguna.

Sistem bekerja dengan mengunakan DOM tree untuk melakukan ekstraksi

berbagai konten yang ada pada halaman web. DOM object digunakan untuk

melakukan ekstraksi artikel text pada body html dalam bentuk blok konten.

Kemudian blok konten tersebut dibagi lagi menjadi sub blok konten. Setiap sub

blok konten selanjutnya dianalisis lagi sehingga terbentuk DOM tree. Setiap node

pada DOM tree merupakan elemen tag-HTML. Adapun elemen tag-HTML yang

digunakan untuk ekstraksi text adalah ; div, p, br, li, ul, ol, td, tr, table, h1-6, dan

hr. Sedangkan untuk ektraksi gambar dari halaman web juga dengan mudah dapat

dilakukan dengan DOM, yakni dengan mengunakan elemen <img> pada tag

html.

Setelah menjalankan penelitian ini didapatkan hasil bahwa ekstraksi

halaman HTML mengunakan DOM menghasilkan akuransi lebih dari 90%.

Sedangkan untuk ke akurasian ekstraksi gambar sekitar 85%.

Page 29: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

16

2.2.2 Mining Contents in Web Page Using Cosine Similarity (Nyein, 2011)

Dalam sebuah halaman web memuat banyak informasi yang bukan

merupakan bagian dari konten utama. Informasi tersebut seperti barner ads,

navigation bars, copy right and privacy notices, dan juga iklan yang tidak sesuai

dengan konten utama. Pada penelitian ini akan dilakukan ekstrasi untuk

mendapatkan konten utama dari suatu halaman web.

Ekstraksi konten dilakukan dengan mengunakan HTML Pharse untuk

merepresentasikan halaman web dalam bentuk DOM Tree. Proses selanjutnya

adalah menemukan informasi yang berhubungan dari halaman web. Untuk itu

dibuatlah Content Structure Tree (CST) yang berbasis pada DOM Tree.

Selanjutnya dilakukan proses similarity dengan mengunakan metode cosine

similarity. Dengan menggunakan proses similarity pada CST kita dapat dengan

mudah mengetahui blok informasi yang ingin kita tahu.

Pada penelitian ini menghasilkan hasil yang lebih karena biasanya

penelitian sejenis hanya berbasis pada DOM tree sedangakan pada penelitian ini

berbasis pada CST yang dibentuk melalui DOM tree dan juga dapat melakukan

ekstraksi dokumen yang saling berhubungan dari suatu halaman web.

2.2.3 An Approach in Web Content Mining for Clustering Web Pages

(Etemadi dan Moghaddam, 2010)

Saat ini website dan internet memberi sumbangan besar dalam pemberian

berbagai informasi. Ada banyak sekali data di internet, oleh sebab itu dibutuhkan

suatu alat untuk memperoleh data-data tersebut dan mengubahnya menjadi

informasi yang berguna. Pengelompokan halaman web menjadi salah satu cara

yang dapat digunakan.

Pana jurnal ini digunakan pendekatan baru untuk melakukan

pengelompokan halaman web berdasarkan isi (content), yakni dengan

menggunakan expressions dan key term yang ada pada halaman web sebagai

acuan. Dari key term tersebut selanjutnya dibentuk ke dalam vector, kemudian

melakukan perbandingan antara nilai similarity mengunakan gabungan antara

algoritma Jaccard – Cosine Similarity dengan algoritma Cosine Similarity.

Page 30: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

17

Dari hasil pengujian didapatkan bahwa dengan mengunakan algoritma

Jaccard – Cosine similarity didapatkan hasil index yang lebih tinggi, yakni

dengan rata-rata perbedaan index sebesar 0.4019

2.2.4 Penerapan Teknologi Marshup Pada Aplikasi Pariwisata Berbasis

Web Nusantara View : Modul Transportasi Dengan Pendekatan

Algoritma Dijkstra (Himawan, 2010)

Dengan kemajuan teknologi informasi saat ini dimungkinkan untuk

memberikan informasi lebih kepada para wisatawan, salah satunya dengan

menggunakan teknologi mashup. Pada jurnal ini akan diambil informasi

transportasi dari berbagai situs guna menunjukkan rute ke objek wisata yang

ingin dikunjungi wisatawan. Dengan adanya informasi transportasi ini, maka

calon wisatawan tidak perlu membuka website lain untuk mendapatkan informasi

mengenai sarana transportasi yang akan mereka gunakan. Adapun sumber yang

akan diguanakan untuk membuat aplikasi mashup adalah Google Map Api dengan

menambahkan algoritma Dijkstra.

Dari penelitian ini telah berhasil dibuat suatu aplikasi mashup dengan

memanfaatkan Google Map Api dan dengan penambahan algoritma dijkstra pada

Google Map Api sehingga dapat membuat sistem nenunjukkan jalur terpendek

untuk menuju tempat pariwisata yang ingin dikunjungi wisatawan.

2.2.5 Penerapan Teknologi Mashup Pada Aplikasi Pariwisata Berbasis

WEB NusantaraView: Modul Blog & Berita dan Facebook

(Rohmatulloh et al., 2009)

Informasi atau ulasan mengenai objek pariwisata beserta berita-berita

tentang pariwisata sangat dibutuhkan oleh calon wisatawan. Disisi lain, sebagian

besar situs pariwisata Indonesia masih menyediakan informasi atau ulasan dan

berita pariwisata yang bersifat statis dan tidak aktual. Untuk itu dibuatlah suatu

aplikasi berbasis web yang disebut NusantaraView.

NusantaraView dikembangakan dengan mengunakan CMS Joomla serta

dilengkapi dengan teknologi Mashup. Dengan mengunakan teknologi mashup

Page 31: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

18

dibuatlah fitur pencarian informasi mengenai ulasan (review) beserta berita-berita

terkait objek pariwisata yang ada di Indonesia. Ulasan dan berita tersebut diambil

dari Wikipedia, blog Wordpress, situs berita online, dan Facebook. Mashup pada

Blog dan Berita didapatkan dengan menggunakan Yahoo! Pipes. Sedangkan

mashup pada Wikipedia dan Facebook didapatkan melalui API masing-masing.

Pada penelitian ini menghasilkan sebuah komponen Joomla! yang

menyediakan informasi mengenai ulasan dan berita tentang objek pariwisata

Indonesia. Dengan tambahan penerapan teknologi Mashup, komponen tersebut

tidak membutuhkan basisdata dikarenakan data diambil langsung dari internet.

2.2.6 An information-theoretic definition of similarity (Lin, 1998)

Similarity merupakan konsep penting yang sering kali digunakan. Ada

beberapa macam pendekatan dalam similarity yang dapat diterapkan dalam

berbagai bidang. Pada jurnal ini akan dijelaskan definisi dari similarity dan

berbagai pendekatan dalam similarity itu sendiri.

Intuisi yang perlu dipahami terkait similarity:

a. Intuisi 1: A dan B dianggap similarity apabila ada kesamaan antar

keduanya. Semakin banyak kesamaan maka semakin similar

b. Intuisi 2: A dan B dianggap tidak similarity apabila ada perbedaan

antar keduanya. Semakin banyak perbedaan maka semakin tidak

similar

c. Intuisi 3: Maximum similarity antara A dan B diperoleh apabila A

dan B identik. Tidak peduli berapa banyak kesamaan diantara

mereka.

2.2.7 A Semantic Approach to Contextual Advertising (Broder et al., 2007)

Pada penelitian ini akan dilakukan pendekatan untuk menghasilkan suatu

sistem yang mampu menampilkan iklan yang sesuai dengan isi artikel utama pada

suatu halaman web.

Page 32: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

19

Sistem bekerja dengan melakukan ekstraksi konten pada halaman web,

konten tersebut seperti tittle, body, dan bid phrase. Selanjutnya sistem melakukan

matching (mencocokkan) kesamaan antara hasil ekstraksi konten halaman web

dengan konten yang ada pada iklan. Klasifikasi halaman web dan iklan akan

digunakan tiga metode. Metode pertama dan kedua dilakukan dengan melakukan

training pada halaman dengan menjalankan query taksonomi pada web pencarian

dan memberikan label pada 10 hasil pencarian setelah dilakukan filtering.

Sedangkan pada sisi iklan juga dilakukan pelatihan dengan mengunakan SVM

hirarki dan klasifikasi log-regresi. Metode ketiga sama denga metode pertama

bedanya hanya pada proses penyaringan. Dimana yang disaring adalah halaman

dengan konten rendah dan halaman yang tidak cocok dengan iklan. Pada

penelitian ini berhasil didapatkan iklan yang berkaitan dengan konten pada

halaman web.

2.3 Rencana Penelitian

Penelitian ini akan mengkaji metode similarity – mashup untuk modul

relevant content pada CMS. Metode similarity – mashup diharapkan dapat

memberikan berbagai konten yang berkaitan (relevant) dengan konten utama.

Berbagai konten tersebut meliputi artikel, gambar, video, dan banner. Kandidat

relevant content berasal dari internal dan external sistem (mashup). Relevant

Content didapatkan dengan menghitung kemiripan metadata antara kandidat

relevant content dengan konten utama.

Page 33: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

20

BAB III

METODOLOGI PENELITIAN

Dalam penelitian ini terdapat beberapa tahap dalam pengerjaan untuk

digunakan sebagai awal dalam menyelesaikan penelitian. Acuan ini menjelaskan

apa yang harus dilakukan dalam penelitian hingga pembuatan laporan akhir.

Tahap-tahap dalam penelitian adalah sebagai berikut:

Gambar 3. 1 Diagram Metodologi Penelitian

3.1 Studi Literatur

Pada tahap ini akan dilakukan studi literatur berkaitan dengan masalah

sistem informasi retrieval, text mining, dan metode pencocokan (similarity)

melalui berbagai macam media, antara lain melalui internet, jurnal-jurnal dan

berbagai buku. Informasi yang telah diperoleh dalam tahap studi literatur

selanjutnya digunakan sebagai dasar dalam menjalankan penelitian ini.

3.2 Perancangan Framework

Pada tahap ini akan dilakukan perancangan framework metode similarity –

mashup untuk modul relevant content pada CMS. Cara kerja modul relevant

content ini adalah dengan menampilkan berbagai konten yang mempunyai

keterkaitan dengan konten utama. Konten-konten tersebuat berasal dari hasil

proses text mining antara metadata dari konten utama dengan metadata dari

berbagai kandidat relevant content baik itu yang berasal dari internal maupun

external sistem.

Studi Literatur

Perancangan

Framework

Pengumpulan Data

Experimental Experimental

Result

Page 34: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

21

3.3 Pengumpulan Data

Pada tahap ini akan dilakukan pengumpulan data yang nantinya akan

dijadikan sebagai kandidat relevant konten. Data kandidat relevant content berasal

dari dua sumber yaitu internal dan external sistem. Data internal sistem yang

berupa artikel, gambar, banner, dan video didapatkan dari berbagai website di

internet dan selanjutnya di simpan ke dalam database. Sedangkan data dari

external sistem merupakan data yang secara langsung diambil dari berbagai

website di internet ketika modul relevant content berjalan (mashup). Data dari

external sistem berupa artikel, gambar, dan video.

3.4 Experimental

Pada tahap ini akan dilakukan experiment terhadap modul relevant

content. Experiment akan dilakukan dengan melakukan input data berupa artikel

selanjutnya melihat apakah modul relevant content bisa menampilkan konten-

konten yang relevant dengan artikel yang diinputkan tersebut. Apabila modul

relevant content dapat menapilkan konten-konten yang relevant dengan konten

utama berarti modul telah berjalan dengan baik.

3.5 Experimental Result

Pada tahap ini akan dilakukan analisa pada hasil experiment dengan

melihat kesuksesan berjalannya modul relevant content dan hasil dari relevant

content yang dihasilkan. Adapun beberapa kriteria yang akan dianalisa

diantaranya :

1. Pertama akan dilihat apakah modul relevant content dapat terintegrasi

pada CMS dengan baik.

2. Melihat apakah konten-konten yang dihasilkan memiliki keterkaitan

dengan konten utama pada website.

3. Dan yang terakir melihat seberapa besar tingkat kemiripan konten-

konten yang dihasilkan dari score yang dihasilkan setelah proses

similarity.

Page 35: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

22

BAB IV

PEMBAHASAN

3.1 Perancangan Framework

Framework Modul Relevant Content digambarkan pada gambar 4.1 dan

gambar 4.2. Garis besar framework digambarkan pada gambar 4.1 sedangkan

gambar 4.2 menggambarkan proses similarity – mashup secara lebih detail. Dari

gambar 4.1 dapat dilihat bahwa framework terdiri atas 4 bagian, yakni Similarity –

Mashup, Database Internal, Internet, dan Web Page. Seperti yang telah dijelaskan

sebelumnya bahwa framework bekerja dengan memanfaatkan dua data resource,

yakni dari internal dan external sistem. Data dari internal digambarkan pada

bagian Database Internal. Sedangkan data dari external digambarkan pada bagian

Internet.

Data dari external (konten mashup) tersebut diperoleh dari berbagai

website yang ada di internet. Pada tugas akhir ini akan digunakan salah satu dari

Google API yakni Google Search API dalam memperoleh konten mashup.

Berbagai konten yang diperoleh dengan mengunakan Google Search API berupa

artikel, gambar, dan video. Berbagai konten tersebut diperoleh dengan mengirim

query request berupa metadata (judul) dari konten utama. Metadata dari konten

utama ini selanjutnya digunakan untuk melakukan pencarian pada Google Search

Engine.

Data dari kedua data resources tersebut bersama dengan konten utama

selanjutnya diproses dengan mengunakan metode similarity – mashup untuk

mendapatkan beberapa kandidat relevant content dengan nilai similarity tertinggi.

Proses ini digambarkan pada bagian Similarity – Mashup. Setelah didapatkan

beberapa kandidat relevant content dengan nilai similarity tertinggi selanjutnya

kandidat relevant konten tersebut ditampilkan pada halaman web tepat disamping

konten utama. Proses menampilkan kandidat relevant content ini digambarkan

pada bagian Web Page.

Page 36: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

23

Internet

Similarity - Mashup

Database

Internal

Web Page

Gambar 4. 1 Framework Modul Relevant Content

Teks Dokumen

Bahasa

Indonesia

Input Data

Case Folding Tokenization

Filtering Stemming

Pembobotan tf-idf

VSM (Vector Space

Model)

Matching Document

(Cosine Similarity)

Hasil Similarity

Document

Text Preprocessing

Pattern Discovery /

Analysis

Hasil

Similarity - Mashup

Text Transformation

InternetDatabase

Internal

Gambar 4. 2 Proses Similarity - Mashup

Page 37: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

24

Gambar 4.2 mengambakan proses similariy – mashup secara lebih detail.

Seperti yang telah dijelaskan sebelumnya bahwa framework memanfaatkan dua

jenis data resources, yakni data dari internal dan external sistem. Kedua jenis data

resources ini akan dihitung kemiripannya dengan konten utama melalui proses

yang terdiri dari beberapa tahapan, yaitu tahap preprocessing, tahap

transformation, dan tahap pattern discovery/analysis. Akan tetapi perhitungan

nilai similarity ini tidak berlangsung secara bersamaan, untuk perhitungan nilai

similarity antara konten utama dengan artikel internal dilakukan pada saat admin

website melakukan perubahan pada data artikel. Sedangkan untuk perhitungan

nilai similarity antara konten utama dengan gambar internal, video internal,

banner internal, artikel external, gambar external, dan juga video external

dilakukan pada saat halaman website dibuka. Perbedaan waktu perhitungan ini

dilakukan agar perhitungan nilai similarity bisa lebih cepat.

Berikut keterangan lebih detail dari masing-masing tahapan dalam proses

similarity - mashup:

3.1.1 Text Preprocessing

Seperti yang telah dijelaskan sebelumnya bahwa pada tahap preprosessing

dilakukan proses case folding dan tokenization. Sebelum dilakukan proses ini

terlebih dulu dilakukan proses penyaringan dengan menghilangkan berbagai tanda

baca, berbagai karakter khusus dan berbagai tag html. Berbagai tanda baca dan

karakter khusus tersebut seperti "?", "@", "#", "$", "%", "^", "*", "-", "_", "+",

"=", dan lain-lain.

Setelah melewati dua proses tersebut barulah dilakukan proses

pengubahan kata kedalam bentuk huruf kecil (case folding). Setelah melewati

proses case folding selanjutnya dilakukan proses tokenization. Proses ini

dilakukan dengan memisah dokumen menjadi kata dengan mengunakan spasi

sebagai pemisah.

Page 38: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

25

3.1.2 Text Transformation

Seperti yang telah dijelaskan sebelumnya bahwa pada tahap text

transformation ini dilakukan proses filtering dan stemming. Proses filtering

dilakukan untuk menghilangkan stop-word yang mana daftar stop-word diperoleh

dari (Tala, 2003). Sedangkan untuk proses stemming yang bertujuan untuk

mendapatkan kata dasar dilakukan dengan mengunakan algoritma stemming

Nazief & Andriani. Pada tugas akhir ini kata dasar yang akan digunakan sebagai

acuan pada proses stemming diambil dari website bahtera

(http://www.bahtera.org). Bahtera merupakan kamus bahasa Indonesia yang

menjadi rujukan sesuai Kamus Besar Bahasa Indonesia (KBBI). Dimana kata

dasar tersebut terdiri dari 28.526 kata.

3.1.3 Pattern Discovery /Analysis

Pada tahap ini dilakukan representasi nilai numerik yaitu dengan

melakukan pembentukan model ruang vektor dan pembobotan pada setiap kata

dari setiap dokumen. Setelah selesai perhitungan bobot selanjutnya dilakukan

proses perhitungan similarity dengan menggunakan metode Cosine Similarity

seperti yang telah dijelaskan sebelumnya.

Perhitungan kemiripan antara konten utama dengan semua kandidat

relevant content didasarkan pada kesamaan metadata konten. Dengan kata lain,

pada penelitian ini metadata diibaratkan sebagai dokumen ketika proses

perhitungan similarity. Tiap jenis konten memiliki metadata tersendiri dalam

perhitungan similarity. Hal ini bertujuan untuk mendapatkan nilai similarity yang

tinggi. Adapun metadata dari setiap jenis konten yang dipakai dalam menghitung

kesamaan ditunjukkan pada tabel 4.1.

Tabel 4. 1 Metadata Kandidat Relevant Content Untuk Proses Similarity

No Artikel

utama

Internal resources External resources

Artikel Gambar Video Banner Artikel Gambar Video

1

judul, isi

artikel, tag

judul, isi

artikel, tag - - - - - -

2 Judul - Judul Judul Judul Judul Snippet Judul

Page 39: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

26

Hasil dari perhitungan nilai similarity antara konten utama dengan

kandidat relevant content akan disimpan dalam cache khusus. Masing-masing

jenis relevant content memiliki batas waktu penyimpanan cache yang berbeda-

beda, untuk relevant content yang berasal dari internal sistem akan disimpan

selama 24 jam sedangkan untuk relevant content yang berasal dari external sistem

akan disimpan selama 6 jam. Ketika batas waktu penyimpanan cache habis maka

akan dilakukan perhitugan kembali nilai similarity antara konten utama dengan

kandidat relevant content. Penyimpanan cache hasil relevant content ini dilakukan

karena perhitungan similarity antara konten utama dengan kandidat relevant

content dalam rentang waktu yang kecil sering kali menghasilkan relevant content

yang sama sehingga dengan adanya penyimpanan cache diharapkan user dapat

langsung melihat hasil relevant content tanpa perlu menunggu perhitungan nilai

similarity. Selain itu dengan adanya pembatasan waktu dalam penyimpanan cache

ini diharapkan dapat menjaga relevant content agar tetap dinamis.

Batas waktu penyimpanan cache tidak berlaku untuk artikel internal. Hal

ini karena nilai similarity antara konten utama dengan artikel internal hanya akan

berubah ketika admin website melakukan perubahan pada data artikel.

3.2 Pengumpulan Data

Data yang digunakan dalam penelitian ini berasal dari dua jenis data yakni

dari internal dan external sistem.

3.2.1 Data Internal

Data dari internal sistem berupa 30 artikel, 100 gambar, 10 banner, dan 50

video yang diambil dari beberapa website di internet dan selanjutnya disimpan

kedalam database sistem.

3.2.2 Data External

Data dari external sistem merupakan data yang secara langsung diambil

dari berbagai website di internet ketika modul relevant content berjalan

(mashup). Pada tugas akhir ini akan digunakan salah satu dari Google API yakni

Google Search API dalam memperoleh konten mashup. Berbagai konten tersebut

diperoleh dengan mengirim query request berupa metadata (judul) dari konten

Page 40: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

27

utama. Metadata dari konten utama ini digunakan untuk melakukan pencarian

pada Google Search Engine. Selanjutnya akan diperoleh berbagai jenis konten

seperti artikel, gambar, dan video.

Data yang dihasilkan Google Search API berupa data JSON. Data JSON

hasil dari Google Search API mempunyai format khusus. Adapun format data

JSON tersebut adalah sebagai berikut :

{

"responseData" : {

"results" : [],

"cursor" : {}

},

"responseDetails" : null | string-on-error,

"responseStatus" : 200 | error-code

}

Dalam mendapatkan konten berupa artikel, gambar , dan video digunakan

tiga tipe Google Search API. Untuk mendapatkan konten berupa artikel digunakan

Google web search, untuk konten berupa gambar digunakan Google Image Search

, dan untuk mendapatkan konten berupa video digunakan Google Video Search.

Pada saat melakukan suatu pencarian pastilah ada batasan tertentu, begitu

juga pada pencarian dengan memanfaaatkan Google Web Search, Google Image

Search, maupun Google Video Search. Pada tiga tipe Google Search API tersebut

ada banyak argument dalam menentukan batasan pencarian. Namun pada tugas

akhir ini hanya akan digunakan beberapa argument saja. Beberapa argument

tersebut ditunjukkan pada tabel 4.2.

Tabel 4. 2 Argument Batasan Pencarian Pada Google Search API

No Argument Contoh Keterangan

1 key? key = ' ' Merupakan API key yang bisa diperoleh di

http://code.google.com/apis/ajaxsearch/signup.ht

ml

2 Q q=Paris%20Hilton Argument ini digunakan untuk mengirim query

pencarian (query request). q=Paris%20Hilton

merupakan argument untuk mengirim query

"Paris Hilton".

3 V v=1.0 Argument ini digunakan untuk menentukan versi

dari API pencarian. Saat ini hanya tersedia versi

1.0

Page 41: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

28

Tabel 4.2 Lanjutan

No Argument Contoh Keterangan

4 rsz? rsz=4 Argument ini digunakan untuk menentukan

berapa jumlah hasil yang diterima. Nilainya dapat

berupa bilangan 1 sampai 8. Atau dengan

mengunakan kata "smal" untuk mendapatkan 4

hasil dan kata "large" untuk mendapatkan 8 hasil.

5 hl? hl=fr Argument ini menentukan host bahasa yang

digunakan untuk mengirim query request. Pada

penelitian ini digunakan host bahasa indonesia

(hl=id)

6 as_sitesearch as_sitesearch=travel.

kompas.com

Argument ini digunakan untuk menentutan alamat

website yang digunakan sebagai acuan dalam

melakukan pencarian

7 filter? filter=1 Argument ini digunakan untuk mematikan dan

mengaktifkan penyaringan duplikasi konten.

Filter=1 untuk mengaktifkan penyaringan

duplikasi konten sedangkan filter=0 untuk

mematikan penyaringan duplikasi konten

3.2.2.1 Konten artikel

Konten artikel diperoleh dengan memanfaatkan Google Web Search.

Setiap pencarian di internet pastilah menpunyai acuan pencarian. Pada Google

Web Search alamat acuan yang digunakan dalam melakukkan pencarian adalah :

https://ajax.googleapis.com/ajax/services/search/web

Sebagai contoh akan dikirimkan query request = “Paris Hilton” pada

Google Web Search dengan url sebagai berikut :

https://ajax.googleapis.com/ajax/services/search/web?v=1.0&q=Paris

%20Hilton

Maka query tersebut akan memberikan hasil sebagai berikut :

{"responseData": {

"results": [

{

"GsearchResultClass": "GwebSearch",

"unescapedUrl": "http://en.wikipedia.org/wiki/Paris_Hilton",

"url": "http://en.wikipedia.org/wiki/Paris_Hilton",

"visibleUrl": "en.wikipedia.org",

"cacheUrl": "http://www.google.com/search?q\u003dcache:TwrPfhd22hYJ:en.wikipedia.org",

"title": "\u003cb\u003eParis Hilton\u003c/b\u003e - Wikipedia, the free encyclopedia",

"titleNoFormatting": "Paris Hilton - Wikipedia, the free encyclopedia",

"content": "\[1\] In 2006, she released her debut album..."

},

Page 42: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

29

{

"GsearchResultClass": "GwebSearch",

"unescapedUrl": "http://www.imdb.com/name/nm0385296/",

"url": "http://www.imdb.com/name/nm0385296/",

"visibleUrl": "www.imdb.com",

"cacheUrl": "http://www.google.com/search?q\u003dcache:1i34KkqnsooJ:www.imdb.com",

"title": "\u003cb\u003eParis Hilton\u003c/b\u003e",

"titleNoFormatting": "Paris Hilton",

"content": "Self: Zoolander. Socialite \u003cb\u003eParis Hilton\u003c/b\u003e..."

},

...

],

"cursor": {

"pages": [

{ "start": "0", "label": 1 },

{ "start": "4", "label": 2 },

{ "start": "8", "label": 3 },

{ "start": "12","label": 4 }

],

"estimatedResultCount": "59600000",

"currentPageIndex": 0,

"moreResultsUrl": "http://www.google.com/search?oe\u003dutf8\u0026ie\u003dutf8..."

}

}

, "responseDetails": null, "responseStatus": 200}

Dari hasil Google Web Search tersebut dapat dilihat ada banyak properties

dari tiap konten seperti url,visibleUrl,cacheUrl, dan lain-lain. Namun pada tugas

akhir ini hanya akan digunakan beberapa properties saja. Nilai dari properties

yang digunakan akan disimpan ke dalam database sistem yang selanjutnya akan

diolah sesuai dengan metode/algoritma yang telah ditentukan sebelumnya guna

mendapatkan kandidat relevant content terbaik. Properties ini akan digunakan

sebagai metadata konten. Berikut beberapa properties yang digunakan :

Tabel 4. 3 Metadata Kandidat Relevant Content Artikel

No Property Keterangan

1 url Property ini menyimpan alamat link dari konten artikel

2 Title Property ini menyimpan judul dari konten artikel

3 Content Property ini menyimpan snippet dari konten. Snippet

merupakan uraian singkat tentang isi konten artikel

Page 43: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

30

3.2.2.2 Konten gambar

Konten gambar diperoleh dengan memanfaatkan Google Image Search.

Seperti hanya pada Google Web Search, Google Image Search juga memiliki

alamat acuan yang digunakan dalam melakukkan pencarian. Adapun alamat acuan

tersebut adalah :

https://ajax.googleapis.com/ajax/services/search/images

Sebagai contoh akan dikirimkan query request = “Fuzzy Monkey” pada

Google Image Search API dengan url sebagai berikut :

https://ajax.googleapis.com/ajax/services/search/images?v=1.0&q=fuzzy%20monkey

Maka query request tersebut akan memberikan hasil sebagai berikut :

{"responseData": {

"results": [

{

"GsearchResultClass": "GimageSearch",

"width": "450",

"height": "450",

"imageId": "Yt3TRC1vxzhazM",

"tbWidth": "127",

"tbHeight": "127",

"unescapedUrl": "http://www.touchnote.com/files/assets/STAN009.jpg",

"url": "http://www.touchnote.com/files/assets/STAN009.jpg",

"visibleUrl": "www.touchnote.com",

"title": "Touchnote - Personalised \u003cb\u003eFuzzy Monkey\u003c/b\u003e greeting cards

design by Dan \u003cb\u003e...\u003c/b\u003e",

"titleNoFormatting": "Touchnote - Personalised Fuzzy Monkey greeting cards design by Dan

...",

"originalContextUrl": "http://www.touchnote.com/photo/card-design/Fuzzy+Monkey",

"content": "Card Design \u003cb\u003eFuzzy Monkey\u003c/b\u003e",

"contentNoFormatting": "Card Design Fuzzy Monkey",

"tbUrl":

"http://images.google.com/images?q\u003dtbn:Yt3TRC1vxzhazM:www.touchnote.com/files/

assets/STAN009.jpg"

},

{

"GsearchResultClass": "GimageSearch",

"width": "640",

"height": "480",

"imageId": "c6093fGTdNvKOM",

"tbWidth": "137",

"tbHeight": "103",

"unescapedUrl":

"http://stuff.fuzzymonkeyphotography.com/front_page/NEW_NEW_logo3_480px.jpg",

"url": "http://stuff.fuzzymonkeyphotography.com/front_page/NEW_NEW_logo3_480px.jpg",

"visibleUrl": "www.fuzzymonkeyphotography.com",

Page 44: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

31

"title": "\u003cb\u003eFuzzy Monkey\u003c/b\u003e Photography",

"titleNoFormatting": "Fuzzy Monkey Photography",

"originalContextUrl": "http://www.fuzzymonkeyphotography.com/",

"content": "Welcome to \u003cb\u003eFuzzy Monkey\u003c/b\u003e",

"contentNoFormatting": "Welcome to Fuzzy Monkey",

"tbUrl": "http://images.google.com/images?q\u003dtbn:c6093fGTdNvKOM:stuff.

fuzzymonkeyphotography.com/front_page/NEW_NEW_logo3_480px.jpg"

}

],

"cursor": {

"pages": [

{"start": "0","label": 1},

{"start": "4","label": 2},

{"start": "8","label": 3},

{"start": "12","label": 4}

],

"estimatedResultCount": "578000",

"currentPageIndex": 0,

"moreResultsUrl":

"http://www.google.com/images?oe\u003dutf8\u0026ie\u003dutf8\u0026source\u003duds\

u0026start\u003d0\u0026hl\u003den\u0026q\u003dfuzzy+monkey"

}

}

, "responseDetails": null, "responseStatus": 200}

Dari hasil Google Image Search tersebut juga didapati berbagai properties.

Namun hanya beberapa saja yang akan digunakan sebagai metadata pada kandidat

relevant content yang berupa gambar. Beberapa properties tersebut diantaranya :

Tabel 4. 4 Metadata Kandidat Relevant Content Gambar

No Property Keterangan

1 url Property ini menyimpan alamat link dari konten gambar

2 Title Property ini menyimpan judul dari konten gambar

3 Content Property ini menyimpan snippet dari konten. Snippet

merupakan uraian singkat tentang isi konten gambar

4 tbUrl Property tbUrl menyimpan alamat link dari thumbnail gambar

3.2.2.3 Konten video

Konten video diperoleh dengan memanfaatkan Google Video Search API.

Alamat acuan yang digunakan dalam melakukan pencarian pada Google Video

Search adalah :

https://ajax.googleapis.com/ajax/services/search/video

Page 45: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

32

Sebagai contoh akan dikirimkan query request = “Fuzzy Monkey” pada

Google Video Search dengan url sebagai berikut :

https://ajax.googleapis.com/ajax/services/search/video?v=1.0&q=drywall%20repair

Maka query request tersebut akan memberikan hasil sebagai berikut :

{"responseData": {

"results": [

{

"GsearchResultClass": "GvideoSearch",

"title": "Easy Drywall Repair a typical home improvement",

"titleNoFormatting": "Easy Drywall Repair a typical home improvement",

"published": "Mon, 05 Feb 2007 20:10:38 PST",

"content": "An easy way to repair holes in drywall. With this method of repair no nails/screws

wood required!do it youself and save dollars!",

"publisher": "www.youtube.com",

"tbUrl": "http://2.gvt0.com/vi/-zop6ND1h4o/default.jpg",

"tbWidth": "320",

"tbHeight": "240",

"videoType": "YouTube",

"url": "http://www.google.com/url?q\u003dhttp://www.youtube.com/watch%3Fv%3D-

zop6ND1h4o\u0026source\u003dvideo\u0026vgc\u003drss\u0026usg\u003dAFQjCN

GzJTbL6mJ5nn-B_q41Of9EFSKe2Q",

"playUrl": "http://www.youtube.com/v/-

zop6ND1h4o\u0026fs\u003d1\u0026source\u003duds\u0026autoplay\u003d1",

"rating": "4.6581631",

"duration": "230"

},

{

"GsearchResultClass": "GvideoSearch",

"title": "How To Patch a Small Hole in Drywall",

"titleNoFormatting": "How To Patch a Small Hole in Drywall",

"published": "Fri, 23 Oct 2009 05:01:27 PDT",

"content": "Learn how to patch a small hole in drywall so you don\u0026#39;t have to pay

someone to do it.",

"publisher": "www.youtube.com",

"tbUrl": "http://3.gvt0.com/vi/dqsIzriVgn8/default.jpg",

"tbWidth": "320",

"tbHeight": "240",

"videoType": "YouTube",

"url": "http://www.google.com/url?q\u003dhttp://www.youtube.com/watch%3Fv%3DdqsIzriVgn

8\u0026source\u003dvideo\u0026vgc\u003drss\u0026usg\u003dAFQjCNE3sdTecOdP29y

SuEJL_tqTOlT8eg",

"playUrl": "http://www.youtube.com/v/dqsIzriVgn8\u0026fs\u003d1\u0026source\u003duds

\u0026autoplay\u003d1",

"rating": "4.65",

"duration": "110"

}

],

"cursor": {

"pages": [

{"start": "0", "label": 1},

Page 46: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

33

{"start": "4","label": 2},

{"start": "8","label": 3},

{"start": "12","label": 4}

],

"estimatedResultCount": "218",

"currentPageIndex": 0,

"moreResultsUrl": "http://video.google.com/videosearch?source\u003duds\u0026type\u003

dsearch\u0026q\u003dhow+to+patch+drywall+%28site%3Avideo.google.com+OR+site%3

Ayoutube.com+%29\u0026hl\u003den\u0026start\u003d0"

}

}

, "responseDetails": null, "responseStatus": 200}

Properties hasil dari Google Video Search yang akan digunakan sebagai

metadata pada kandidat relevant content yang berupa video sama dengan

properties yang digunakan pada hasil dari Google Image Search, yakni :

Tabel 4. 5 Metadata Kandidat Relevant Content Video

No Property Keterangan

1 url Property ini menyimpan alamat link dari konten video

2 Title Property ini menyimpan judul dari konten video

3 content Property ini menyimpan snippet dari konten. Snippet

merupakan uraian singkat tentang isi konten video

4 tbUrl Property tbUrl menyimpan alamat link dari thumbnail video.

Thumbnail video merepresentasikan isi dari video.

Website yang akan digunakan dalam memperoleh kandidat relevant

content dari external sistem dapat berasal dari website mana saja namun dalam

penelitian ini hanya akan digunakan beberapa website saja. Adapun beberapa

website yang digunakan dalam memperoleh data dari external sistem yang berupa

artikel dan gambar ditunjukkan pada tabel 4.6. Sedangkan website untuk

memperoleh data external sistem yang berupa video digunakan situs Youtube.

Tabel 4. 6 Website Acuan Konten Mashup

No Nama Website Url

1 Detik travel http://travel.detik.com

2 Indonesia Travel http://wisatamelayu.com/id

3 Wisata melayu http://indonesia.travel

4 Wikipedia http://id.wikipedia.com

5 Solo pos http://solopos.com

6 Google http://google.co.id

Page 47: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

34

3.3 Experimental

3.3.1 Lingkungan Implementasi

Lingkungan implementasi meliputi lingkungan perangkat keras dan

perangkat lunak

3.3.1.1 Lingkungan Prangkat Keras

Dalam mengkaji metode similarity – mashup untuk modul relevant

content ini digunakan laptop dengan spesifikasi:

1. Prosesor Intel® Core(TM) 2 Duo CPU T5800 @2.00 GHz 2.00GHz

2. VGA Intel® 45 Express Chipset Family

3. Memory 3 GB

4. Harddisk 320 GB

5. Monitor 14”

3.3.1.2 Lingkungan Perangkat Lunak

Perangkat lunak yang digunakan dalam mengkaji metode similarity –

mashup untuk modul relevant content ini adalah:

1. Sistem Operasi Windows 7 Ultimate 32-bit (6.1, Build 7600)

2. WAMPSERVER 2.2

3. PHP Version 5.3.8

4. Apache 2.2.21

5. MySQL 5.5.16

6. Microsoft Office Visio 2007

7. Google Chrome 20.0.1132.57m

3.3.2 Pengujian

Pengujian pada penelitian ini dilakukan dengan cara melakukan input data

berupa artikel sebanyak 20 kali dan melihat hasil relevant content yang dihasilkan

oleh setiap artikel yang diinputkan, baik itu hasil relevant content yang bersumber

dari internal maupun external sistem. Data artikel uji coba selanjutnya akan

diolah bersama dengan data kandidat relevant conent menggunakan metode yang

Page 48: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

35

telah dijelaskan sebelumnya guna mendapatkan konten-konten yang paling

relevant dengan konten utama.

Relevent content yang dihasilkan akan ditampilkan melalui halaman

website. Relevant content diurutkan terlebih dahulu berdasarkan nilai similarity

sebelum ditampilkan melalui website. Konten dengan nilai nol tidak akan

ditampilkan. Jumlah relevant content yang akan ditampilkan pada halaman web

ditunjukkan pada tabel 4.7.

Tabel 4. 7 Jumlah Relevant Content Yang Ditampilkan

No Konten Sumber Jumlah tampil

1 Artikel Internal 3

2 Gambar Internal 6

3 Video Internal 3

4 Banner Internal 2

5 Artikel External 6

6 Gambar External 6

7 Video External 6

3.4 Experimental Result

Dari hasil uji coba dapat dilihat bahwa modul relevant content telah dapat

terintegrasi pada CMS Lokomedia. Modul Relevant Content dapat memberikan

serta menampilkan konten-konten yang terkait dengan konten utama, baik itu

konten yang berasal dari dalam maupun luar sistem.

Dari hasil uji coba juga dapat dilihat bahwa konten-konten yang berasal

dari luar sistem memberikan nilai similarity yang lebih tinggi dibandingkan

dengan konten-konten yang berasal dari dalam sistem. Hal ini dapat dilihat dari

nilai rata-rata hasil relevant content internal dan external seperti yang ditunjukkan

pada tabel 4.8. Nilai rata-rata dari semua jenis relevant content baik internal

maupun external dihitung dari jumlah nilai similarity setiap konten dibagi dengan

banyaknya konten. Namun khusus untuk relevant content artikel dan gambar

external, nilai rata-rata dihitung dengan menghitung nilai rata-rata relevant

content dari setiap website acuan terlebih dahulu kemudian baru menghitung rata-

rata totalnya. Sebagai contoh misal ada 6 website acuan maka nilai rata-rata

Page 49: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

36

dihitung dengan menjumlahkan nilai rata-rata dari setiap website acuan tersebut

kemudian dibagi 6.

Tabel 4. 8 Nilai Rata-Rata Hasil Relevant Content Internal Dan External

Percobaan Nilai rata-rata Internal Nilai rata-rata External

Artikel Gambar Video Banner Artikel Gambar Video

1 0.0602 0.0697 0.0969 0.1297 0.2281 0.4916 0.5748

2 0.0568 0.0668 0.0750 0 0.3080 0.4132 0.5218

3 0.0350 0.0477 0.0344 0 0.1668 0.4694 0.2550

4 0.0412 0.0498 0.0384 0 0.1859 0.4557 0.3157

5 0.0639 0.0607 0.0381 0 0.1529 0.5225 0.4096

6 0.0551 0.0599 0.0599 0.0420 0.1727 0.3963 0.2858

7 0.0513 0.0693 0.0762 0 0.1991 0.4260 0.3401

8 0.0718 0.0586 0.0559 0.0363 0.1726 0.3066 0.4551

9 0.0587 0.0277 0.0437 0 0.2554 0.7836 0.2767

10 0.0675 0.0573 0.0682 0 0.1554 0.4603 0.3420

11 0.0794 0.0654 0.0713 0 0.3639 0.5097 0.4329

12 0.0334 0.0291 0.0363 0 0.1906 0.3522 0.1885

13 0.0640 0.0336 0.0407 0 0.2554 0.3323 0.1725

14 0.0472 0.0583 0.0150 0 0.2596 0.3879 0

15 0.0561 0.0694 0.0806 0 0.2042 0.6269 0.2669

16 0.0678 0.0492 0.0849 0 0.1256 0.3498 0.3536

17 0.0269 0.0309 0.0485 0 0.1347 0.2639 0.2956

18 0.0527 0.0432 0.0394 0 0.2238 0.1500 0.0385

19 0.0843 0.0575 0.0671 0 0.1235 0.8926 0.1936

20 0.0203 0.0591 0.0796 0.0666 0.1064 0.3617 0.4160

Rata – Rata 0.0547 0.0532 0.0575 0.0137 0.1992 0.4476 0.3067

Dari tabel 4.8 dapat diketahui selisih nilai rata-rata dari setiap jenis

relevant content yang dihasilkan. Adapun selisih tersebut ditunjukkan pada tabel

4.9.

Tabel 4. 9 Selisih Antara Nilai Rata-Rata Relevant Content Internal Dan External

Jenis

Konten

Nilai rata-rata Selisih

Internal External

Artikel 0.0547 0.1992 0.1445

Gambar 0.0532 0.4476 0.3944

Video 0.0575 0.3067 0.2492

Page 50: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

37

Selisih nilai rata-rata relevant content artikel external lebih besar 0,1445

dari nilai rata-rata relevant content artikel internal. Kemudian nilai rata-rata untuk

relevant content gambar external lebih besar 0,3944 dan nilai rata-rata untuk

relevant content video external lebih besar 0.2492.

Dalam mendapatkan kandidat relevant content external sangatlah

dipengaruhi oleh website acuan. Apabila website yang dijadikan sebagai acuan

dalam mendapatkan relevant content mengalami down atau website tersebut tidak

memiliki konten yang berkaitan dengan konten utama pada sistem maka secara

otomatis tidak akan ada konten yang dapat diambil untuk dijadikan sebagai

kandidat relevant content.

Page 51: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

38

BAB V

PENUTUP

5.1 Kesimpulan

Berdasarkan hasil penelitian tugas akhir yang dilakukan, maka dapat

disimpulkan beberapa hal sebagai berikut:

1. Metode similarity – mashup untuk modul relevant content telah dapat

terintegrasi pada CMS Lokomedia. Terbukti dari hasil relevant content

yang telah dihasilkan

2. Setiap jenis konten memiliki metadata tersendiri dalam perhitungan nilai

similarity. Untuk menghitung nilai similarity antara konten utama dengan

artikel internal digunakan judul, isi berita, dan tag, sedangkan untuk

gambar dan video internal digunakan judul. Kemudian untuk menghitung

nilai similarity antara konten utama dengan gambar external digunakan

snippet dan untuk artikel maupun video external digunakan judul.

3. Relevant Content yang berasal dari luar sistem memiliki nilai similarity

yang lebih tinggi dari pada relevant content yang berasal dari dalam

sistem. Hal tersebut dikarenakan konten dari luar sistem lebih banyak dari

pada konten dari dalam sistem sehingga konten dari luar sistem memiliki

kemungkinan kesamaan metadata yang lebih besar dengan konten utama.

Hal ini dapat dilihat dari selisih nilai rata-rata, yang mana nilai rata-rata

relevant content artikel external lebih besar 0,1445 dari nilai rata-rata

relevant content artikel internal. Kemudian rata-rata untuk relevant

content gambar external lebih besar 0,3944 dan rata-rata untuk relevant

content video external lebih besar 0.2492.

Page 52: METODE SIMILARITY - MASHUP UNTUK FRAMEWORK/Metode... · untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain ... menyelesaikan skripsi dengan judul penyusunan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

39

5.2 Saran

Berikut ini adalah beberapa saran yang dapat dipertimbangkan jika tugas

akhir ini akan dikembangkan lebih lanjut:

1. Dalam penelitian ini relevant content yang dihasilkan terbatas pada konten

yang berbahasa Indonesia, maka dari itu untuk penelitian selanjutnya bisa

ditambahkan fitur multi language seperti dengan memanfaatkan Google

Translate API untuk mendapatkan relevant content dalam berbagai bahasa.

2. Dalam penelitian tugas akhir ini relevant content didapatkan berdasarkan

kemiripan metadata konten. Untuk penelitian ke depan bisa ditambahkan

metode image processing untuk mendapatkan relevant content gambar

yang lebih akurat.

3. Penerapan teknologi mashup dapat menjadikan konten dari aplikasi web

menjadi lebih dinamis. Namun masalah yang muncul adalah sisi penyedia

data mashup. Ketika penyedia data mengalami masalah atau tidak ada

konten yang terkait dengan konten utama pada sistem, maka sistem juga

akan mengalami masalah yang menyebabkan sistem tidak berjalan

semestinya. Permasalahan ini dapat diminimalisasi dengan menjadikan

penyedia layanan data yang terpercaya sebagai sumber mashup sehingga

kontinuitas dan masalah dengan data bisa dicegah dan konten yang

dinamis dapat terjaga.

4. Pada saat mendapatkan konten mashup juga sangat dipengaruhi oleh

penyedia API, dalam tugas akhir ini Google Search API. Terutama dalam

cara penggunaan API, hal ini karena Google Search API masih terus

dikembangkan. Oleh karena itu diharapkan dalam pengembangan

selanjutnya, atau dalam pengembangan yang lain yang terkait dengan

mashup, pengembang dapat melakukan pemeriksaan berkala terhadap

penyedia API sebagai tindakan preventif demi mengetahui perubahan

informasi yang terjadi, baik dalam format data atau dalam hal yang lain.