CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA file(STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN...

14
perpustakaan.uns.ac.id digilib.uns.ac.id commit to user i CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELF-ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Sarjana Jurusan Informatika HALAMAN JUDUL Disusun Oleh: VERA SURYANINGSIH NIM. M0509074 JURUSAN INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET 2015

Transcript of CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA file(STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN...

Page 1: CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA file(STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) ... Department of Agrotechnology, department of ITP, and Department of Animal

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

i

CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA

SELF-ORGANIZING MAP (SOM)

(STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS

PERTANIAN UNS)

Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Sarjana

Jurusan Informatika

HALAMAN JUDUL

Disusun Oleh:

VERA SURYANINGSIH

NIM. M0509074

JURUSAN INFORMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SEBELAS MARET

2015

Page 2: CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA file(STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) ... Department of Agrotechnology, department of ITP, and Department of Animal

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

ii

Page 3: CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA file(STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) ... Department of Agrotechnology, department of ITP, and Department of Animal

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

iii

Page 4: CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA file(STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) ... Department of Agrotechnology, department of ITP, and Department of Animal

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

iv

MOTTO

“Sesali masa lalu karena ada kekecewaan dan kesalahan-kesalahan, tetapi

jadikan penyesalan itu sebagai senjata untuk masa depan agar tidak terjadi

kesalahan lagi”

“Contoh yang baik adalah nasehat terbaik (Fuller)”

Page 5: CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA file(STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) ... Department of Agrotechnology, department of ITP, and Department of Animal

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

v

PERSEMBAHAN

Skripsi ini penulis persembahkan kepada:

“Orang tua tercinta, Bapak Suranto dan Ibu Eni Purwaningsih”

“Kakak dan kakak ipar,

Mbak Eri dan Mas Didik”

“Keponakan yang ganteng, Dik Naufal”

“Mas Sonny”

“Sahabat serta teman-teman

yang telah mensuport dan berjasa banyak”

“Jurusan Informatika FMIPA UNS”

Page 6: CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA file(STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) ... Department of Agrotechnology, department of ITP, and Department of Animal

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

vi

KATA PENGANTAR

Puji syukur kepada Allah SWT atas segala limpahan rahmat dan karunia-

Nya, sehingga penulis dapat menyelesaikan penulisan Tugas Akhir. Sholawat dan

salam senantiasa penulis haturkan kepada Rosululloh SAW sebagai pembimbing

seluruh umat manusia. Tugas Akhir ini tidak akan selesai tanpa adanya bantuan

dari banyak pihak, oleh karena itu penulis menyampaikan terima kasih kepada:

1. Bapak Ir. Ari Handono Ramelan, M.Sc. (Hons), Ph.D,. selaku Dekan FMIPA

UNS.

2. Bapak Drs. Bambang Harjito, M.App.Sc., Ph.D., selaku Ketua Jurusan S1

Informatika FMIPA UNS.

3. Ibu Sari Wdya Sihwi, S.Kom., M.T.I., selaku pembimbing I yang telah

dengan sabar memberikan bimbingan, petunjuk dan masukan.

4. Bapak Meiyanto Eko Sulistyo, S.T., M.Eng., selaku pembimbing II yang

telah dengan sabar memberikan bimbingan, petunjuk dan masukan.

5. Ibu Esti Suryani, S.Si., M.Kom. selaku Pembimbing Akademis yang telah

memberikan pengarahan selama proses penyelesaian Tugas Akhir ini.

6. Bapak Ristu Saptono, S.Si., M.T., selaku anggota dewan penguji yang telah

memberikan kritik, saran, dan masukan yang membangun.

7. Bapak Prof. Dr Samanhudi, SP, M.Si selaku Pembantu Dekan 1 fakultas

Pertanian UNS yang telah memberi validasi serta saran terhadap hasil Tugas

Akhir ini.

8. Bapak-Ibu dosen Jurusan Informatika UNS yang telah memberikan ilmu

pengetahuan dan pengalaman yang sangat berguna dalam penyusunan Tugas

Akhir ini.

9. Bapak Suranto, Ibu Eni Purwaningsih, Mbak Eri, Mas Didik, Naufal, Mas

Sonny, serta seluruh keluarga yang selalu mendukung, mendoakan, dan

memberi semangat.

10. Teman-teman Jurusan Informatika UNS khususnya angkatan 2009 yang

selalu bersedia untuk berbagi informasi, ilmu, dan pengalaman serta selalu

memberikan motivasi dan semangat.

Page 7: CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA file(STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) ... Department of Agrotechnology, department of ITP, and Department of Animal

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

vii

11. Teman-teman kos Pondok Biru & Sri Tanjung yang selalu memberi

dukungan, dan hiburan.

12. Semua pihak yang tidak dapat penulis sebutkan satu persatu.

Semoga Allah SWT membalas jerih payah dan pengorbanan yang telah

diberikan dengan balasan yang lebih baik. Penulis berharap semoga skripsi ini

dapat bermanfaat bagi yang berkepentingan khususnya dan bagi pembaca

umumnya.

Surakarta, 11 Mei 2015

Vera Suryaningsih

Page 8: CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA file(STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) ... Department of Agrotechnology, department of ITP, and Department of Animal

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

viii

DOCUMENT CLUSTERING USING SELF-ORGANIZING MAP (SOM)

ALGORITHM (CASE STUDY: THESIS DOCUMENTS IN THE FACULTY

OF AGRICULTURE UNS)

VERA SURYANINGSIH

Department of Informatics. Faculty of Mathematics and Natural Sciences.

Sebelas Maret University

ABSTRACT

Faculty of Agriculture, Universitas Sebelas University has generated a lot

of research, especially thesis documents. If the thesis document is processed, it is

possible to be found a pattern that will give benefit for the faculty. Therefore, text

mining of the thesis document needs to be done.

This research performed clustering to thesis documents in the faculty of

Agriculture UNS 2008 to 2013 by using the Self-Organizing Map algorithm.

Before the clustering process, the abstracts were processed through the text

preprocessing stage and TF-IDF weighting. This research used 81 as cluster

number, 1000 as iteration number and 0,1 as learning rate.

The results showed that there are several clusters which has a theme that

possible can be collaborated with some or all of the department. There are also

cluster which it‟s theme possible can‟t be collaborated with another department,

because only certain department who has done research on the theme of the

cluster. But it could be, other departments has not done research on this theme.

Department of Agribusiness has a various themes in each year. While the

Department of Agrotechnology, department of ITP, and Department of Animal

Husbandry just took a few same theme each year.

Keyword : Text Mining, Text Preprocessing, TF-IDF, Clustering, Self-Organizing

Map.

Page 9: CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA file(STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) ... Department of Agrotechnology, department of ITP, and Department of Animal

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

ix

CLUSTERING DOKUMEN MENGGUNAKA ALGORITMA

SELF-ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI

DI FAKULTAS PERTANIAN UNS)

VERA SURYANINGSIH

Jurusan Informatika, Fakultas MIPA, Universitas Sebelas Maret

ABSTRAK

Fakultas Pertanian Universitas Sebelas Maret telah menghasilkan banyak

dokumen penelitian khususnya berupa skripsi. Jika kumpulan dokumen skripsi

tersebut diolah, dimungkinkan akan ditemukan suatu pola yang bermanfaat bagi

pihak fakultas. Oleh karena itu, perlu dilakukan text mining terhadap kumpulan

dokumen skripsi tersebut.

Penelitian ini akan melakukan clustering pada dokumen skripsi di fakultas

Pertanian UNS tahun 2008 sampai 2013 dengan menggunakan algoritma Self-

Organizing Map. Sebelum dilakukan proses clustering, abstrak terlebih dahulu

diolah melalui tahap text preprocessing dan pembobotan TF-IDF. Pada penelitian

ini menggunakan inputan cluster sebanyak 81, iterasi sebanyak 1000 dan learning

rate sebesar 0,1.

Hasil penelitian menunjukkan bahwa ada beberapa cluster yang

dimungkinkan tema pada cluster tersebut berpotensi untuk dikolaborasikan

dengan beberapa maupun semua prodi. Ada juga cluster yang dimungkinkan tema

pada cluster tersebut memang tidak bisa dilakukan kolaborasi, karena hanya prodi

tertentu yang pernah melakukan penelitian pada tema cluster tersebut. Namun bisa

jadi, prodi lain memang belum mencoba untuk melakukan penelitian pada tema

tersebut. Jurusan Agribisnis memiliki penyebaran tren tema yang bervariasi ditiap

tahunnya. Sedangkan pada prodi Agroteknologi, prodi ITP, serta prodi Peternakan

tema yang banyak diambil ditiap tahunnya hanya di beberapa tema saja.

Kata kunci : Text Mining, Text Preprocessing, TF-IDF, Clustering, Self-

Organizing Map

Page 10: CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA file(STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) ... Department of Agrotechnology, department of ITP, and Department of Animal

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

x

DAFTAR ISI

HALAMAN JUDUL ................................................................................................ i

HALAMAN PERSETUJUAN ............................... Error! Bookmark not defined.

HALAMAN PENGESAHAN ................................................................................. ii

HALAMAN MOTTO ............................................................................................ iii

HALAMAN PERSEMBAHAN ............................................................................. v

KATA PENGANTAR ............................................................................................. vi

ABSTRACK .......................................................................................................... viii

ABSTRAK ............................................................................................................. ix

DAFTAR ISI ........................................................................................................... x

DAFTAR TABEL .................................................................................................. xii

DAFTAR GAMBAR ........................................................................................... xiii

DAFTAR LAMPIRAN ........................................................................................ xiv

BAB I PENDAHULUAN ....................................................................................... 1

1.1. Latar Belakang ................................................................................... 1

1.2. Rumusan Masalah .............................................................................. 3

1.3. Batasan Masalah ................................................................................ 3

1.4. Tujuan Penelitian ............................................................................... 3

1.5. Manfaat Penelitian ............................................................................. 3

1.6. Sistematika Penulisan ........................................................................ 4

BAB II LANDASAN TEORI ................................................................................ 5

2.1. Dasar Teori ......................................................................................... 5

2.1.1. Text Mining .............................................................................. 5

2.1.2. Text Preprocessing ................................................................... 6

2.1.3. Algoritma Stemming Nazief & Afriani .................................. 7

2.1.4. Term Frequency (TF) dan Inverse Document Frequency

(IDF)....................................................................................... 9

2.1.5. DF Feature Selection ............................................................... 9

2.1.6. Min Max Normalization ......................................................... 10

2.1.7. Clustering ................................................................................ 11

2.1.8. Self-Organizing Map (SOM) .................................................. 11

2.2. Penelitian Terkait ............................................................................. 15

2.3. Kerangka Pemikiran ........................................................................ 17

Page 11: CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA file(STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) ... Department of Agrotechnology, department of ITP, and Department of Animal

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

xi

BAB III METODOLOGI PENELITIAN ............................................................. 18

3.1. Studi Literatur ..................................................................................... 18

3.2. Pengumpulan Data ........................................................................... 18

3.3. Penerapan Metode ............................................................................ 19

3.3.1 Tahap Text Preprocessing ....................................................... 19

3.3.2 Tahap Pembobotan TF-IDF .................................................... 20

3.3.3. Tahap Clustering .................................................................... 20

3.3. Tahap Analisis .................................................................................. 21

3.4. Tahap Validasi .................................................................................. 21

BAB IV HASIL DAN PEMBAHASAN.............................................................. 22

2.3. Deskripsi Data .................................................................................. 22

2.4. Tahap Text Preprocessing ................................................................ 22

2.5. Tahap Pembobotan TF-IDF ............................................................. 25

2.6. Normalisasi Data .............................................................................. 29

2.7. Proses Clustering ............................................................................. 30

2.8. Analisis Hasil Clustering ................................................................. 36

2.9. Validasi ............................................................................................. 48

BAB V PENUTUP ................................................................................................ 49

5.1. KESIMPULAN ................................................................................ 49

5.2. SARAN ........................................................................................... 49

DAFTAR PUSTAKA ............................................................................................ 50

LAMPIRAN 1 ....................................................................................................... 52

Page 12: CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA file(STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) ... Department of Agrotechnology, department of ITP, and Department of Animal

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

xii

DAFTAR TABEL

Tabel 2.1 Penelitian Terkait.......................................................................... 15

Tabel 4.1 Contoh dokumen untuk perhitungan TF-IDF................................ 26

Tabel 4.2 Hasil dari perhitungan TF serta DF yang belum mengalami

proses feature selection.................................................................. 27

Tabel 4.3 Hasil dari perhitungan TF serta DF yang sudah mengalami

proses feature selection................................................................. 27

Tabel 4.4 Hasil perhitungan TF, DF, IDF, dan TF-IDF................................ 29

Tabel 4.5 Perbandingan TF-IDF yang belum ternormalisasi dan TF-IDF

yang sudah dinormalisasi dengan Min Max Normalization......... 30

Tabel 4.6 Perkiraan tema pada setiap cluster C1 - C49................................. 37

Tabel 4.7 Distribusi Frekuensi Cluster per Prodi...................................... 38

Tabel 4.8 Distribusi Frekuensi Cluster Pertahun Pada Prodi Agribisnis........ 40

Tabel 4.9 Distribusi Frekuensi Cluster Pertahun Pada Prodi Agroteknologi..... 42

Tabel 4.10 Distribusi Frekuensi Cluster Pertahun Pada Prodi ITP................ 44

Tabel 4.11 Distribusi Frekuensi Cluster Pertahun Pada Prodi Peternakan.... 46

Page 13: CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA file(STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) ... Department of Agrotechnology, department of ITP, and Department of Animal

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

xiii

DAFTAR GAMBAR

Gambar 2.1 Proses Case Folding.................................................................. 6

Gambar 2.2 Proses Tokenizing....................................................................... 6

Gambar 2.3 Proses Filtering.......................................................................... 7

Gambar 2.4 Proses Stemming........................................................................ 7

Gambar 2.5 Arsitektur SOM (Kristanto, 2004)............................................. 12

Gambar 3.1 Metodologi Penelitian................................................................ 18

Gambar 3.2 Proses Text Preprocessing ........................................................ 19

Gambar 4.1 Abstrak dokumen contoh yang belum dilakukan Text

Preprocessing........................................................................... 22

Gambar 4.2 Hasil Case Folding terhadap Dokumen Contoh........................ 23

Gambar 4.3 Hasil Tokenizing terhadap Dokumen Contoh........................... 23

Gambar 4.4 Hasil Filtering terhadap Dokumen Contoh............................... 24

Gambar 4.5 Hasil Stemming terhadap Dokumen Contoh............................. 24

Gambar 4.6 Hasil Filtering - Stemming terhadap Dokumen Contoh............ 25

Gambar 4.7 Topologi SOM........................................................................... 30

Gambar 4.8 Salah Satu Dokumen Disajikan ke dalam Jaringan SOM....31

Gambar 4.9 Radius BMU.............................................................................. 31

Gambar 4.10 Topologi SOM untuk data contoh........................................... 32

Gambar 4.11 Contoh tampilan hasil per-cluster........................................... 36

Page 14: CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA file(STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) ... Department of Agrotechnology, department of ITP, and Department of Animal

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

xiv

DAFTAR LAMPIRAN

LAMPIRAN 1 Hasil Clustering.................................................................... 52