PENERAPAN ALGORITMA JARO-WINKLER DISTANCE … · Program Studi Teknik Informatika ... Penulisan...

10
Hal-1 PENERAPAN ALGORITMA JARO-WINKLER DISTANCE UNTUK SISTEM PENDETEKSI PLAGIARISME PADA DOKUMEN TEKS BERBAHASA INDONESIA Ahmad Kornain ([email protected]), Ferry Yansen ([email protected]) Tinaliah ([email protected]) Program Studi Teknik Informatika STMIK GI MDP Abstrak : Perkembangan pendidikan yang semakin berkembang pesat membuat proses pembuatan karya tulis semakin mudah dan cepat. Penulisan karya ilmiah yang dibuat tidak menutup kemungkinan terdapat penulisan yang sama, untuk dapat mengetahui tingkat kesamaan dokumen teks dengan cepat maka perlu alat bantu untuk menghitung tingkat kesamaan antar dokumen. Pada penelitian ini akan dibuat sebuah aplikasi untuk menghitung tingkat kesamaan dokumen teks berbahasa Indonesia berbasis desktop, dengan menerapkan algoritma Jaro-Winkler distance. Tujuan dari penerapan algoritma ini adalah membandingkan kesamaan antar dokumen teks berbahasa Indonesia, sehingga dapat ditentukan sebuah dokumen tersebut plagiat atau tidak. Aplikasi ini dirancang menggunakan eclipse juno dengan bahasa pemograman Java dan dikembangkan menggunakan metodologi pengembangan sistem RUP (Rational Unified Process) dengan tahapan sebagai berikut, yaitu fase inception, elaboration, construction, dan transition. Pengujian terhadap aplikasi menggunakan data abstrak jurnal skripsi program studi Teknik Informatika STMIK GI MDP berbahasa Indonesia yang berjumlah 100 buah jurnal. Hasil yang dicapai adalah pendeteksian plagiarisme terhadap dokumen korpus melalui tahapan stemming dan query melalui tahapan tanpa stemming memiliki nilai deteksi yang lebih baik sebesar 30.58% berdasarkan hasil pengujian pertama. Kata kunci : Algoritma Jaro-Winkler distance, Java, similarity, RUP (Rational Unified Process) Abstract : The development of education is growing rapidly makes the papers manufacture process getting easier and quickly. Writing of scientific papers that are made do not rule out the possibility of writing the same, to be able to determine the degree of similarity of text documents quickly, the necessary tools to calculate the rate of similarity between the documents. This research will be made an application for calculating the degree of similarity of text documents in Indonesian language based on desktop by applying the Jaro-Winkler distance algorithm. The purpose of implementation this algorithm is to compare the similarity between text documents in Indonesian language, so it can specified that a document plagiarism or not. This application is designed using the Java programming language with juno eclipse and developed using system development methodologies RUP (Rational Unified Process) with the following stages, that is phases inception, elaboration, construction and transition. Testing the application using an abstract data journal thesis study program Informatics STMIK GI MDP Indonesian language totaling 100 pieces journal. The results achieved are the detection of plagiarism against a corpus of documents through the stages stemming and query through the stages without stemming has better detection value of 30.58% based on the results of the first trial. Keywords : Jaro-Winkler distance algorithm, Java, similarity, RUP (Rational Unified Process)

Transcript of PENERAPAN ALGORITMA JARO-WINKLER DISTANCE … · Program Studi Teknik Informatika ... Penulisan...

Page 1: PENERAPAN ALGORITMA JARO-WINKLER DISTANCE … · Program Studi Teknik Informatika ... Penulisan karya ilmiah yang dibuat tidak menutup kemungkinan terdapat ... so it can specified

Hal-1

PENERAPAN ALGORITMA JARO-WINKLER DISTANCEUNTUK SISTEM PENDETEKSI PLAGIARISME PADA

DOKUMEN TEKS BERBAHASA INDONESIA

Ahmad Kornain ([email protected]), Ferry Yansen ([email protected])Tinaliah ([email protected])

Program Studi Teknik InformatikaSTMIK GI MDP

Abstrak : Perkembangan pendidikan yang semakin berkembang pesat membuat proses pembuatan karya tulissemakin mudah dan cepat. Penulisan karya ilmiah yang dibuat tidak menutup kemungkinan terdapatpenulisan yang sama, untuk dapat mengetahui tingkat kesamaan dokumen teks dengan cepat maka perlu alatbantu untuk menghitung tingkat kesamaan antar dokumen. Pada penelitian ini akan dibuat sebuah aplikasiuntuk menghitung tingkat kesamaan dokumen teks berbahasa Indonesia berbasis desktop, dengan menerapkanalgoritma Jaro-Winkler distance. Tujuan dari penerapan algoritma ini adalah membandingkan kesamaan antardokumen teks berbahasa Indonesia, sehingga dapat ditentukan sebuah dokumen tersebut plagiat atau tidak.Aplikasi ini dirancang menggunakan eclipse juno dengan bahasa pemograman Java dan dikembangkanmenggunakan metodologi pengembangan sistem RUP (Rational Unified Process) dengan tahapan sebagaiberikut, yaitu fase inception, elaboration, construction, dan transition. Pengujian terhadap aplikasimenggunakan data abstrak jurnal skripsi program studi Teknik Informatika STMIK GI MDP berbahasaIndonesia yang berjumlah 100 buah jurnal. Hasil yang dicapai adalah pendeteksian plagiarisme terhadapdokumen korpus melalui tahapan stemming dan query melalui tahapan tanpa stemming memiliki nilai deteksiyang lebih baik sebesar 30.58% berdasarkan hasil pengujian pertama.

Kata kunci : Algoritma Jaro-Winkler distance, Java, similarity, RUP (Rational Unified Process)

Abstract : The development of education is growing rapidly makes the papers manufacture process gettingeasier and quickly. Writing of scientific papers that are made do not rule out the possibility of writing thesame, to be able to determine the degree of similarity of text documents quickly, the necessary tools tocalculate the rate of similarity between the documents. This research will be made an application forcalculating the degree of similarity of text documents in Indonesian language based on desktop by applyingthe Jaro-Winkler distance algorithm. The purpose of implementation this algorithm is to compare thesimilarity between text documents in Indonesian language, so it can specified that a document plagiarism ornot. This application is designed using the Java programming language with juno eclipse and developedusing system development methodologies RUP (Rational Unified Process) with the following stages, that isphases inception, elaboration, construction and transition. Testing the application using an abstract datajournal thesis study program Informatics STMIK GI MDP Indonesian language totaling 100 pieces journal.The results achieved are the detection of plagiarism against a corpus of documents through the stagesstemming and query through the stages without stemming has better detection value of 30.58% based on theresults of the first trial.

Keywords : Jaro-Winkler distance algorithm, Java, similarity, RUP (Rational Unified Process)

Page 2: PENERAPAN ALGORITMA JARO-WINKLER DISTANCE … · Program Studi Teknik Informatika ... Penulisan karya ilmiah yang dibuat tidak menutup kemungkinan terdapat ... so it can specified

Hal-2

1. PENDAHULUAN

Perkembangan teknologi informasiyang semakin berkembang pesat, membuatproses pembuatan karya tulis semakin mudahdan cepat. Hal tersebut tidak hanya membawadampak positif bagi kemajuan teknologi,tetapi juga membawa dampak negatif yanghampir tidak dapat dihindari yaituplagiarisme.

Plagiarisme adalah suatu tindakanmenjiplak karya seseorang dan kemudianmengakuinya sebagai karya sendiri(Nugroho, Eko. 2011). Untuk itu perludilakukan upaya-upaya sebagai pencegahanmaupun pendeteksian terhadap tindakanplagiarisme.

Jaro-Winkler distance merupakanvarian dari Jaro distance metric yangmerupakan sebuah algoritma untuk mengukurkesamaan antara dua string, biasanyaalgoritma ini digunakan di dalampendeteksian duplikat dokumen. Penelitianini akan membahas mengenai pendeteksianplagiarisme dari sebuah dokumen denganmelakukan perbandingan dengan dokumenlainnya yang memanfaatkan metodepencocokan string pada dokumen.

2. LANDASAN TEORI

2.1 Plagiarisme

Menurut Kamus Besar BahasaIndonesia (KBBI), plagiarisme adalahpenjiplakan yang melanggar hak cipta.

Menurut peraturan MenteriPendidikan Nasional RI No. 17 Tahun 2010tentang pencegahan dan penanggulanganplagiat di perguruan tinggi. Bab 1 pasal 1ayat 1 (Jonatan, 2012), plagiat adalahperbuatan secara sengaja atau tidak sengajadalam memperoleh atau mencobamemperoleh kredit atau nilai untuk suatukarya ilmiah, dengan mengutip sebagian atauseluruh karya dan/atau karya ilmiah pihaklain yang diakui sebagai karya ilmiahnya,tanpa menyatakan sumber secara tepat danmemadai.

Beberapa tipe plagiarism yaitu(Nugroho, Eko. 2011) :1. Word-for-word plagiarism2. Plagiarism of authorship3. Plagiarism of ideas

Metode pendeteksi plagiarisme dapatdilihat pada Gambar 1 (Nugroho, Eko. 2011).

Gambar 1 : Metode PendeteksiPlagiarisme

Klasifikasi berdasarkan proporsi ataupersentasi kata, kalimat, paragraf yangdibajak (Sastroasmoro, Sudigdo) :1. Plagiarisme ringan : <30%.2. Plagiarisme sedang : 30-70%.3. Plagiarisme besar atau total : >70%.

2.2 Corpus

Menurut Abusalah et all (2007),Corpus adalah repositori dari kumpulanmateri bahasa alami, seperti teks, paragraf,dan kalimat dari satu atau banyak bahasa.

2.3 Query

Menurut kata, “query” adalah bentukkata kerja, dalam kamus “query” diartikansebagai “pertanyaan”, persamaan kata dariinquiry atau question. Dalam mesin pencaridokumen teks, ”query” adalah satu ataubeberapa kata atau frase / kalimat yang

PerbandinganTeks Lengkap

DokumenFingerprinting

KesamaanKata Kunci

MetodePendeteksiPlagiarisme

Page 3: PENERAPAN ALGORITMA JARO-WINKLER DISTANCE … · Program Studi Teknik Informatika ... Penulisan karya ilmiah yang dibuat tidak menutup kemungkinan terdapat ... so it can specified

Hal-3

menjadi kata kunci yang diinputkan olehpengguna (Februariyanti et all, 2010).

2.4 Ekstrasi Dokumen

2.4.1 Case Folding dan Tokenizing

Case folding adalah mengubah semuahuruf dalam dokumen menjadi huruf kecil,hanya huruf ‘a’ sampai dengan huruf ‘z’ yangditerima. Karakter selain huruf dihilangkandan dianggap delimiter. Tahap tokenizingadalah tahap pemotongan string inputberdasarkan tiap kata yang menyusunnya(Triawati, 2009).

2.4.2 Filtering

Filtering adalah tahap mengambilkata-kata penting dari hasil tahap tokenizingdengan menggunakan algoritma stopword(membuang kata-kata yang kurang penting).Stopword adalah kata-kata yang tidakdeskriptif yang dapat dibuang dalampendekatan bag-of-words (Triawati, 2009).

2.4.3 Stemming

Tahap stemming adalah tahapmencari kata dasar dari setiap kata hasilfiltering. Pada tahap ini dilakukan prosespengembalian berbagai bentukan kata kedalam suatu representasi yang sama.

2.5 Algoritma Stemming Nazief &Adriani

Algoritma ini mengacu pada aturanmorfologi bahasa Indonesia yangmengelompokkan imbuhan, yaitu imbuhanyang diperbolehkan atau imbuhan yang tidakdiperbolehkan. Pengelompokan ini termasukimbuhan di depan (awalan), imbuhan kata dibelakang (akhiran), imbuhan kata di tengah(sisipan) dan kombinasi imbuhan pada awaldan akhir kata (konfiks). Algoritma inimenggunakan kamus kata keterangan yangdigunakan untuk mengetahui bahwa prosesstemming telah mendapatkan kata dasar.

Dasar utama algoritma ini adalah daftar akarkata (kata dasar). Semakin lengkap daftarnyasemakin tinggi akurasi algoritma Nazief &Adriani ini.

Algoritma stemming bahasaIndonesia Bobby Nazief dan Mirna Adrianiini mempunyai aturan imbuhan sendiridengan model, seperti :

[[[AW+]AW+]AW+] Kata-Dasar [[+AK][+KK][+P]]

AW : AwalanAK : AkhiranKK : Kata Ganti kepunyaanP : Partikel

2.6 Algoritma Jaro-Winkler distance

Algoritma Jaro-Winkler distancemerupakan varian dari Jaro distance metricyaitu sebuah algoritma untuk mengukurkesamaan antara dua string, biasanyaalgoritma ini digunakan di dalampendeteksian duplikat. Semakin tinggi Jaro-Winkler distance untuk dua string makasemakin mirip dengan string tersebut. Nilainormalnya ialah 0 menandakan tidak adakesamaan dan 1 yang menandakan adanyakesamaan (Kurniawati, Sulistyo dan Sazali2010, h.2).

Dasar dari algoritma ini memiliki tigabagian:1. Menghitung panjang string.2. Menemukan jumlah karakter yang sama

di dalam dua string.3. Menemukan jumlah transposisi.

Pada algoritma Jaro digunakan rumusuntuk menghitung jarak (dj) antara dua stringyaitu s1 dan s2 adalah

dj =1

3+

m|s1|+ m|s2|+ m-t

m

Dimana :m = jumlah karakter yang sama persis|s1| = panjang string 1|s2| = panjang string 2t = jumlah transposisi

Page 4: PENERAPAN ALGORITMA JARO-WINKLER DISTANCE … · Program Studi Teknik Informatika ... Penulisan karya ilmiah yang dibuat tidak menutup kemungkinan terdapat ... so it can specified

Hal-4

Jarak teoritis dua buah karakter yangdisamakan dapat dibenarkan jika tidakmelebihi :

max (|s1|,|s2|)2

-1

Jaro-Winkler distance menggunakanprefix scale (p) yang memberikan tingkatpenilaian yang lebih dan prefix length (l)yang menyatakan panjang awalan yaitupanjang karakter yang sama dengan stringyang dibandingkan sampai ditemukannyaketidaksamaan. Bila string s1 dan s2 yangdiperbandingkan, maka Jaro-Winklerdistance-nya (dw) adalah :

dw= dj+ lp(1-dw)Dimana :dj = Jaro distance untuk string s1 dan s2

l = panjang prefiks umum di awal string(panjang karakter yang sama sebelumditemukan ketidaksamaan max 4)

p = konstanta scaling factor. Nilai standaruntuk konstanta ini menurut Winkleradalah p = 0.1.

2.7 Java

Java menurut definisi Sun, di dalambuku M. Shalahuddin dan Rosa A.S. (2009,h.17), java adalah nama untuk sekumpulanteknologi untuk membuat dan menjalankanperangkat lunak pada komputer standaloneataupun pada lingkungan jaringan.

Menurut M. Shalahuddin dan RosaA.S (2009, h.18), platform Java memiliki tigabuah edisi yang berbeda, yaitu J2EE (Java2Enterprise Edition), J2ME (Java2 MicroEdition), dan J2SE (Java2 Standard Edition).

2.8 Metodologi RUP

Rational Unified Process (RUPadalah metodologi pengembangan perangkatlunak, yang diformulasikan oleh RationalSoftware Corporation (sekarang menjadisalah satu divisi IBM), yang menggunakan

UML (Unified Modeling Language) sebagaibahasa pemodelan selama sikluspengembangan perangkat lunak (Rosa A.S.2013).

Berikut adalah gambar alur hidupatau fase yang terdapat pada metode RUP(Rosa A.S. 2013).

Gambar 2 : Alur Hidup RUP

Adapun penjelasan dari 4 tahapankerja dari RUP sebagai berikut :

1. Inception (permulaan)

Tahap ini lebih pada memodelkanproses bisnis yang dibutuhkan (businessmodeling) dan mendefinisikan kebutuhanakan sistem yang akan dibuat (requirements).

2. Elaboration (perencanaan)

Tahap ini lebih difokuskan padaperencanaan arsitektur sistem. Tahap ini jugadapat mendeteksi apakah arsitektur sistemyang diinginkan dapat dibuat atau tidak.Tahap ini lebih pada analisis dan desain sertaimplementasai sistem yang fokus purwarupasistem (prototype).

3. Construction (konstruksi)

Tahap ini fokus padapengembangan komponen dan fitur-fitursistem. Tahap ini lebih pada implementasidan pengujian sistem yang fokus padaimplementasi perangkat lunak pada kodeprogram. Tahap ini menghasilkan produkperangkat lunak.

Page 5: PENERAPAN ALGORITMA JARO-WINKLER DISTANCE … · Program Studi Teknik Informatika ... Penulisan karya ilmiah yang dibuat tidak menutup kemungkinan terdapat ... so it can specified

Hal-5

4. Transition (transisi)

Tahap ini lebih pada deploymentatau instalasi sistem agar dapat dimengertioleh user. Aktifitas pada tahap ini termasukpada pemeliharaan dan pengujian sistemapakah sudah memenuhi harapan user.

3. RANCANGAN SISTEM

3.1 Use Case

Diagram use case dapatmendokumentasikan persyaratan sistemdengan baik. Diagram Use Case dapat dilihatpada Gambar 3.

Gambar 3 : Diagram Use Case

3.2 Activity Diagram

Activity diagram atau diagramaktivitas merupakan teknik untukmenggambarkan logika prosedural, prosesbisnis, dan jalur kerja. Berikut ini adalahactivity diagram untuk proses testing plagiat.

Gambar 4 : Activity Diagram PlagiarismTesting

3.3 Class diagram

Class diagram atau diagram kelasmerupakan teknik untuk menggambarkanstruktur sistem dari segi pendefinisian kelas-kelas yang akan dibuat untuk membangunsistem.

Gambar 5 : Class Diagram

Page 6: PENERAPAN ALGORITMA JARO-WINKLER DISTANCE … · Program Studi Teknik Informatika ... Penulisan karya ilmiah yang dibuat tidak menutup kemungkinan terdapat ... so it can specified

Hal-6

3.4 Sequence Diagram

Sequence diagram menggambarkaninteraksi antar objek didalam dan disekitarsistem berupa pesan yang digambarkanterhadap waktu. Sequence diagram biasadigunakan untuk menggambarkan skenarioatau rangkaian langkah-langkah yangdilakukan sebagai respon dari sebuah eventuntuk menghasilkan keluaran tertentu.Berikut ini adalah sequence diagram untuktesting plagiat.

frmMenuUtamaPengguna

1.1 : Memilih Dokumen

menuPlagiarismTesting

Tampil

1 : Memilih menu PlagiarismTesting

Tampil

1.4.1 : Mengosongkan textarea

1.3 : Menekan Tombol Analysis

1.4 : Menekan Tombol Clear

1.5 : Menekan Tombol Exit

1.3.1 : Tampil Hasil Analysis

1.2 : Memilih no stemming / stemming

Gambar 6 : Sequence Diagram PlagiarismTesting

4. RANCANGAN ANTARMUKA

4.1 Tampilan Menu Utama

Pada menu utama ini, pengguna dapatmengakses beberapa menu pilihan yangterdapat pada menu utama seperti yangterlihat pada Gambar 7.

Gambar 7 : Tampilan Menu Utama

Dari menu utama ini ada beberapatampilan menu pilihan yang dapat pilih olehpengguna yaitu Convert, Corpus, PlagiarismTesting, Help, About Us, dan Exit.

4.2 Tampilan Menu Convert

Bentuk dan tampilan menu convertdapat dilihat pada Gambar 8.

Gambar 8 : Tampilan Menu Convert

Menu convert berfungsi untukmengkonversi dokumen dengan formatportable document format (.pdf) menjadi textdocument (.txt).

4.3 Tampilan Menu Corpus

Bentuk dan tampilan menu corpusdapat dilihat pada Gambar 9.

Gambar 9 : Tampilan Menu Corpus

Hal-6

3.4 Sequence Diagram

Sequence diagram menggambarkaninteraksi antar objek didalam dan disekitarsistem berupa pesan yang digambarkanterhadap waktu. Sequence diagram biasadigunakan untuk menggambarkan skenarioatau rangkaian langkah-langkah yangdilakukan sebagai respon dari sebuah eventuntuk menghasilkan keluaran tertentu.Berikut ini adalah sequence diagram untuktesting plagiat.

frmMenuUtamaPengguna

1.1 : Memilih Dokumen

menuPlagiarismTesting

Tampil

1 : Memilih menu PlagiarismTesting

Tampil

1.4.1 : Mengosongkan textarea

1.3 : Menekan Tombol Analysis

1.4 : Menekan Tombol Clear

1.5 : Menekan Tombol Exit

1.3.1 : Tampil Hasil Analysis

1.2 : Memilih no stemming / stemming

Gambar 6 : Sequence Diagram PlagiarismTesting

4. RANCANGAN ANTARMUKA

4.1 Tampilan Menu Utama

Pada menu utama ini, pengguna dapatmengakses beberapa menu pilihan yangterdapat pada menu utama seperti yangterlihat pada Gambar 7.

Gambar 7 : Tampilan Menu Utama

Dari menu utama ini ada beberapatampilan menu pilihan yang dapat pilih olehpengguna yaitu Convert, Corpus, PlagiarismTesting, Help, About Us, dan Exit.

4.2 Tampilan Menu Convert

Bentuk dan tampilan menu convertdapat dilihat pada Gambar 8.

Gambar 8 : Tampilan Menu Convert

Menu convert berfungsi untukmengkonversi dokumen dengan formatportable document format (.pdf) menjadi textdocument (.txt).

4.3 Tampilan Menu Corpus

Bentuk dan tampilan menu corpusdapat dilihat pada Gambar 9.

Gambar 9 : Tampilan Menu Corpus

Hal-6

3.4 Sequence Diagram

Sequence diagram menggambarkaninteraksi antar objek didalam dan disekitarsistem berupa pesan yang digambarkanterhadap waktu. Sequence diagram biasadigunakan untuk menggambarkan skenarioatau rangkaian langkah-langkah yangdilakukan sebagai respon dari sebuah eventuntuk menghasilkan keluaran tertentu.Berikut ini adalah sequence diagram untuktesting plagiat.

frmMenuUtamaPengguna

1.1 : Memilih Dokumen

menuPlagiarismTesting

Tampil

1 : Memilih menu PlagiarismTesting

Tampil

1.4.1 : Mengosongkan textarea

1.3 : Menekan Tombol Analysis

1.4 : Menekan Tombol Clear

1.5 : Menekan Tombol Exit

1.3.1 : Tampil Hasil Analysis

1.2 : Memilih no stemming / stemming

Gambar 6 : Sequence Diagram PlagiarismTesting

4. RANCANGAN ANTARMUKA

4.1 Tampilan Menu Utama

Pada menu utama ini, pengguna dapatmengakses beberapa menu pilihan yangterdapat pada menu utama seperti yangterlihat pada Gambar 7.

Gambar 7 : Tampilan Menu Utama

Dari menu utama ini ada beberapatampilan menu pilihan yang dapat pilih olehpengguna yaitu Convert, Corpus, PlagiarismTesting, Help, About Us, dan Exit.

4.2 Tampilan Menu Convert

Bentuk dan tampilan menu convertdapat dilihat pada Gambar 8.

Gambar 8 : Tampilan Menu Convert

Menu convert berfungsi untukmengkonversi dokumen dengan formatportable document format (.pdf) menjadi textdocument (.txt).

4.3 Tampilan Menu Corpus

Bentuk dan tampilan menu corpusdapat dilihat pada Gambar 9.

Gambar 9 : Tampilan Menu Corpus

Page 7: PENERAPAN ALGORITMA JARO-WINKLER DISTANCE … · Program Studi Teknik Informatika ... Penulisan karya ilmiah yang dibuat tidak menutup kemungkinan terdapat ... so it can specified

Hal-7

Menu corpus berfungsi untukmenyimpan dokumen korpus.

4.4 Tampilan Menu Plagiarism Testing

Bentuk dan tampilan menuplagiarism testing dapat dilihat pada Gambar10.

Gambar 10 : Tampilan Menu PlagiarismTesting

Menu plagiarism testing berfungsiuntuk melakukan analisis pendeteksianplagiarisme penerapan dari algoritma Jaro-Winkler distance.

4.5 Tampilan Menu Help

Bentuk dan tampilan menu help dapatdilihat pada Gambar 11.

Gambar 11 : Tampilan Menu Help

Menu help adalah tampilan tentangbagaimana cara penggunaan aplikasi

pendeteksian plagiarisme penerapan darialgoritma Jaro-Winkler distance.

4.6 Tampilan Menu About Us

Bentuk dan tampilan menu about usdapat dilihat pada Gambar 12.

Gambar 12 : Tampilan Menu About Us

Menu about us adalah tampilanbiodata tentang pembuat aplikasipendeteksian plagiarisme penerapan darialgoritma Jaro-Winkler distance.

5. ANALISIS HASIL UJI COBA

5.1 Pengujian Pertama

Pengujian pertama bertujuan untukmembandingkan hasil dari dokumen querydan korpus apabila dilakukan tahapanstemming dengan tanpa stemming.

Dokumen query terbagi menjadi 5jenis dokumen query, yaitu :1. Dokumen query 2a

Dokumen query yang digunakanberupa abstrak yang diambil daridokumen pertama pada dokumenkorpus.

2. Dokumen query 2bDokumen query yang digunakan

sebagian abstrak yang diambil darisalah satu abstrak pada dokumenkorpus.

Hal-7

Menu corpus berfungsi untukmenyimpan dokumen korpus.

4.4 Tampilan Menu Plagiarism Testing

Bentuk dan tampilan menuplagiarism testing dapat dilihat pada Gambar10.

Gambar 10 : Tampilan Menu PlagiarismTesting

Menu plagiarism testing berfungsiuntuk melakukan analisis pendeteksianplagiarisme penerapan dari algoritma Jaro-Winkler distance.

4.5 Tampilan Menu Help

Bentuk dan tampilan menu help dapatdilihat pada Gambar 11.

Gambar 11 : Tampilan Menu Help

Menu help adalah tampilan tentangbagaimana cara penggunaan aplikasi

pendeteksian plagiarisme penerapan darialgoritma Jaro-Winkler distance.

4.6 Tampilan Menu About Us

Bentuk dan tampilan menu about usdapat dilihat pada Gambar 12.

Gambar 12 : Tampilan Menu About Us

Menu about us adalah tampilanbiodata tentang pembuat aplikasipendeteksian plagiarisme penerapan darialgoritma Jaro-Winkler distance.

5. ANALISIS HASIL UJI COBA

5.1 Pengujian Pertama

Pengujian pertama bertujuan untukmembandingkan hasil dari dokumen querydan korpus apabila dilakukan tahapanstemming dengan tanpa stemming.

Dokumen query terbagi menjadi 5jenis dokumen query, yaitu :1. Dokumen query 2a

Dokumen query yang digunakanberupa abstrak yang diambil daridokumen pertama pada dokumenkorpus.

2. Dokumen query 2bDokumen query yang digunakan

sebagian abstrak yang diambil darisalah satu abstrak pada dokumenkorpus.

Hal-7

Menu corpus berfungsi untukmenyimpan dokumen korpus.

4.4 Tampilan Menu Plagiarism Testing

Bentuk dan tampilan menuplagiarism testing dapat dilihat pada Gambar10.

Gambar 10 : Tampilan Menu PlagiarismTesting

Menu plagiarism testing berfungsiuntuk melakukan analisis pendeteksianplagiarisme penerapan dari algoritma Jaro-Winkler distance.

4.5 Tampilan Menu Help

Bentuk dan tampilan menu help dapatdilihat pada Gambar 11.

Gambar 11 : Tampilan Menu Help

Menu help adalah tampilan tentangbagaimana cara penggunaan aplikasi

pendeteksian plagiarisme penerapan darialgoritma Jaro-Winkler distance.

4.6 Tampilan Menu About Us

Bentuk dan tampilan menu about usdapat dilihat pada Gambar 12.

Gambar 12 : Tampilan Menu About Us

Menu about us adalah tampilanbiodata tentang pembuat aplikasipendeteksian plagiarisme penerapan darialgoritma Jaro-Winkler distance.

5. ANALISIS HASIL UJI COBA

5.1 Pengujian Pertama

Pengujian pertama bertujuan untukmembandingkan hasil dari dokumen querydan korpus apabila dilakukan tahapanstemming dengan tanpa stemming.

Dokumen query terbagi menjadi 5jenis dokumen query, yaitu :1. Dokumen query 2a

Dokumen query yang digunakanberupa abstrak yang diambil daridokumen pertama pada dokumenkorpus.

2. Dokumen query 2bDokumen query yang digunakan

sebagian abstrak yang diambil darisalah satu abstrak pada dokumenkorpus.

Page 8: PENERAPAN ALGORITMA JARO-WINKLER DISTANCE … · Program Studi Teknik Informatika ... Penulisan karya ilmiah yang dibuat tidak menutup kemungkinan terdapat ... so it can specified

Hal-8

3. Dokumen query 2cDokumen query yang digunakan

berupa abstrak yang isinya telahdilakukan perubahan sebagian darisalah satu abstrak pada dokumenkorpus.

4. Dokumen query 2dDokumen query yang digunakan

berupa gabungan isi abstrak daribeberapa dokumen pada korpus.

5. Dokumen query 2eDokumen query yang digunakan

memiliki topik berbeda dengandokumen pada korpus.

Gambar 13 : Grafik Hasil Pengujian QueryStemming

Gambar 14 : Grafik Hasil Pengujian QueryTanpa Stemming

Setelah melakukan pengujianpertama didapat bahwa pendeteksianplagiarisme terhadap dokumen korpusmelalui tahapan stemming dan query melaluitahapan tanpa stemming memiliki nilaisimilarity yang lebih baik sebesar 30,58%.

5.2 Pengujian Kedua

Pengujian kedua bertujuan untukmengetahui waktu perhitungan mana yanglebih cepat jika menggunakan stemming atautanpa stemming berdasarkan pengujianpertama.

Gambar 15 : Grafik Hasil Pengujian QueryStemming Terhadap Waktu

Gambar 16 : Grafik Hasil Pengujian QueryTanpa Stemming Terhadap Waktu

30.50%

30.55%

30.60%

30.65%

30.70%

30.58%

30.68%

Dokumen Query Stemming

Rata-rata hasil deteksi plagiarisme No Stemming

Rata-rata hasil deteksi plagiarisme Stemming

30.50%

30.55%

30.60%

30.65%

30.70% 30.66%

30.58%

Dokumen Query tanpa Stemming

Rata-rata hasil deteksi plagiarisme No Stemming

Rata-rata hasil deteksi plagiarisme Stemming

Hal-8

3. Dokumen query 2cDokumen query yang digunakan

berupa abstrak yang isinya telahdilakukan perubahan sebagian darisalah satu abstrak pada dokumenkorpus.

4. Dokumen query 2dDokumen query yang digunakan

berupa gabungan isi abstrak daribeberapa dokumen pada korpus.

5. Dokumen query 2eDokumen query yang digunakan

memiliki topik berbeda dengandokumen pada korpus.

Gambar 13 : Grafik Hasil Pengujian QueryStemming

Gambar 14 : Grafik Hasil Pengujian QueryTanpa Stemming

Setelah melakukan pengujianpertama didapat bahwa pendeteksianplagiarisme terhadap dokumen korpusmelalui tahapan stemming dan query melaluitahapan tanpa stemming memiliki nilaisimilarity yang lebih baik sebesar 30,58%.

5.2 Pengujian Kedua

Pengujian kedua bertujuan untukmengetahui waktu perhitungan mana yanglebih cepat jika menggunakan stemming atautanpa stemming berdasarkan pengujianpertama.

Gambar 15 : Grafik Hasil Pengujian QueryStemming Terhadap Waktu

Gambar 16 : Grafik Hasil Pengujian QueryTanpa Stemming Terhadap Waktu

30.68%

Dokumen Query Stemming

Rata-rata hasil deteksi plagiarisme No Stemming

Rata-rata hasil deteksi plagiarisme Stemming

30.58%

Dokumen Query tanpa Stemming

Rata-rata hasil deteksi plagiarisme No Stemming

Rata-rata hasil deteksi plagiarisme Stemming

2.4

2.5

2.6

2.7

2.8 2.73

2.52

Dokumen Query Stemming

Waktu Hasil Deteksi Plagiarisme No stemming(detik)

Waktu Hasil Deteksi Plagiarisme Stemming (detik)

0

0.2

0.4

0.6

0.8

1

1.2 1.03

0.72

Dokumen Query tanpa Stemming

Waktu Hasil Deteksi Plagiarisme No stemming(detik)

Waktu Hasil Deteksi Plagiarisme Stemming (detik)

Hal-8

3. Dokumen query 2cDokumen query yang digunakan

berupa abstrak yang isinya telahdilakukan perubahan sebagian darisalah satu abstrak pada dokumenkorpus.

4. Dokumen query 2dDokumen query yang digunakan

berupa gabungan isi abstrak daribeberapa dokumen pada korpus.

5. Dokumen query 2eDokumen query yang digunakan

memiliki topik berbeda dengandokumen pada korpus.

Gambar 13 : Grafik Hasil Pengujian QueryStemming

Gambar 14 : Grafik Hasil Pengujian QueryTanpa Stemming

Setelah melakukan pengujianpertama didapat bahwa pendeteksianplagiarisme terhadap dokumen korpusmelalui tahapan stemming dan query melaluitahapan tanpa stemming memiliki nilaisimilarity yang lebih baik sebesar 30,58%.

5.2 Pengujian Kedua

Pengujian kedua bertujuan untukmengetahui waktu perhitungan mana yanglebih cepat jika menggunakan stemming atautanpa stemming berdasarkan pengujianpertama.

Gambar 15 : Grafik Hasil Pengujian QueryStemming Terhadap Waktu

Gambar 16 : Grafik Hasil Pengujian QueryTanpa Stemming Terhadap Waktu

2.52

Dokumen Query Stemming

Waktu Hasil Deteksi Plagiarisme No stemming(detik)

Waktu Hasil Deteksi Plagiarisme Stemming (detik)

0.72

Dokumen Query tanpa Stemming

Waktu Hasil Deteksi Plagiarisme No stemming(detik)

Waktu Hasil Deteksi Plagiarisme Stemming (detik)

Page 9: PENERAPAN ALGORITMA JARO-WINKLER DISTANCE … · Program Studi Teknik Informatika ... Penulisan karya ilmiah yang dibuat tidak menutup kemungkinan terdapat ... so it can specified

Hal-9

Setelah melakukan pengujian keduadidapat bahwa waktu terbaik didapat jikadokumen query dilakukan tahapan tanpastemming terhadap dokumen korpus yangdilakukan tahapan stemming dengan waktu0.72 detik.

6. PENUTUP

6.1 Kesimpulan

1. Aplikasi ini dapat menerapan algoritmaJaro-Winkler distance dalam sebuahsistem pendeteksian terhadap dokumenteks berbahasa Indonesia.

2. Hasil pendeteksian plagiarisme terhadapdokumen korpus melalui tahapanstemming dan query melalui tahapantanpa stemming memiliki nilai similarityyang lebih baik sebesar 30,58% darihasil pengujian pertama.

3. Kinerja aplikasi melakukan pendeteksianplagiarisme dengan waktu relatif singkatdengan rata-rata 2,52 detik untuk querystemming dan rata-rata 0,72 detik untukquery tanpa stemming sesuai denganpengujian kedua.

6.2 Saran

1. Agar aplikasi ini dapat diterapkanberbasis web sehingga dapat dilakukanpengembangan pada aplikasi pendeteksiplagiat ini.

2. Memperbarui user interface sertamenambahkan fitur-fitur yang dapatmemperbaiki kinerja aplikasi ini.

3. Agar hasil lebih valid analisispendeteksian plagiat ini melibatkan ahlibahasa.

DAFTAR PUSTAKA

[1] Nugroho, Eko 2011, PerancanganSistem Deteksi Plagiarisme DokumenTeks dengan Menggunakan AlgoritmaRabin-Karp, Program Studi IlmuKomputer, Jurusan Matematika,Fakultas Matematika dan Ilmu

Pengetahuan Alam, UniversitasBrawijaya.

[2] Kamus Besar Bahasa Indonesia Online.Sumber :http://pusatbahasa.diknas.go.id (diakses4 September 2013)

[3] Peraturan Menteri Pendidikan NasionalRI No.17 2010, Pencegahan danPenanggulangan Plagiat di PerguruanTinggi, Bab 1 pasal 1 ayat 1.

[4] Sastroasmoro, Sudigdo 2007, BeberapaCatatan tentang Plagiarisme.Departemen Ilmu Kesehatan Anak,Fakultas Kedokteran UniversitasIndonesia, Jakarta.

[5] Abusalah, Mustafa., John Tait &Michael Oakes 2007, Literature Reviewof Cross Language InformationRetrieval.World Academy of Science,Engineering and Technology.

[6] Februariyanti, Herny., Eri Zuliarso &Mardi Siswo Utomo 2010, PrototipeMesin Pencari Dokumen Teks,Teknologi Dinamik Volume XV,Universitas Stikubank.

[7] Triawati, Chandra 2009, MetodePembobotan Statistical Concept Baseduntuk Klastering dan KategorisasiDokumen Berbahasa Indonesia, InstitutTeknologi Telkom Bandung.

[8] Agusta, Ledy 2009, PerbandinganAlgoritma Stemming Porter denganAlgoritma Nazief & Adriani untukStemming Dokumen Teks BahasaIndonesia, Konferensi Nasional Sistemdan Informatika 2009, FakultasTeknologi Informasi Universitas KristenSatya Wacana.

[9] Kurniawati, Anna., Sulistyo Puspitodjati& Sazali Rahman 2010, ImplementasiAlgoritma Jaro-Winkler Distance untuk

Page 10: PENERAPAN ALGORITMA JARO-WINKLER DISTANCE … · Program Studi Teknik Informatika ... Penulisan karya ilmiah yang dibuat tidak menutup kemungkinan terdapat ... so it can specified

Hal-10

Membandingkan Kesamaan DokumenBerbahasa Indonesia, ProceedingSeminar Ilmiah Nasional KOMMIT2010, Universitas Gunadarma.

[10] Shalahuddin M, Rosa A.S 2009, BelajarPemrograman dengan Bahasa C++ danJava, Informatika, Bandung.

[11] A.S Rosa & M. Shalahuddin 2013,Modul Pembelajaran RekayasaPerangkat Lunak. Bandung.