BAB II Tinjauan Pustaka_ G11fma

4
1 PENDAHULUAN Latar Belakang Plagiat merupakan salah satu masalah serius dalam dunia pendidikan. Semakin bertambahnya penggunaan dan publikasi data elektronik pada dekade terakhir memudahkan dilakukannya plagiat dari material yang sudah ada (Van Zijl & Hoffmann 2005). Plagiat dalam bahasa sehari-hari disebut dengan mencontek. Dalam Kamus Besar Bahasa Indonesia (KBBI) edisi keempat tahun 2008, plagiat diartikan sebagai “pengambilan karangan (pendapat dan sebagainya) orang lain dan disiarkan sebagai karangan (pendapat dan sebagainya) sendiri.” Pelaku tindakan plagiat disebut plagiator. Pendeteksian plagiat dapat dilakukan secara manual menggunakan bantuan manusia atau secara semi-otomatis menggunakan sistem komputer. Saat ini pendeteksian secara manual merupakan cara yang paling akurat dalam mendeteksi plagiat. Kelemahan dari cara ini adalah sangat menghabiskan tenaga, waktu, serta tidak konsisten karena dipengaruhi faktor emosional manusia. Oleh karena itu, selama dekade terakhir para akademisi berusaha mengembangkan sebuah sistem komputer untuk mendeteksi plagiat dengan tingkat akurasi yang mendekati sistem manual. Dalam perkembangannya, sistem pendeteksi plagiat melahirkan berbagai macam teknik. Dari berbagai macam teknik yang telah diterapkan, sistem pendeteksi plagiat dapat dikelompokkan menjadi tiga kelompok, yaitu, fingerprint based, string-matching based, dan tree- matching based (Mozgovoy 2006). Salah satu teknik yang termasuk kelompok string-matching based adalah Recall-Oriented Understudy for Gisting Evaluation (ROUGE). Pada awal kemunculannya, ROUGE digunakan untuk mengevaluasi hasil rangkuman (Lin 2004). ROUGE juga telah diterapkan pada sistem pendeteksi plagiat dalam bahasa Inggris yang penggunaannya dikombinasikan dengan WordNet (Chen et al. 2010). ROUGE memiliki empat jenis metode penilain: ROUGE-N, ROUGE-L, ROUGE-W, dan ROUGE-S. Keempat metode ROUGE menghasilkan nilai masing-masing tanpa terkait satu sama lain. ROUGE menggunakan perhitungan recall, precision, dan f-measure dengan modifikasi clipping yang ada pada penelitian Papineni et al. (2002) untuk setiap metodenya. Penelitian ini mencoba menggunakan metode penilaian ROUGE-N (N = 3 atau trigram), ROUGE-L, dan ROUGE-W yang masing-masing metode diaplikasikan pada tingkat kalimat. Tujuan Tujuan dari penelitian ini adalah: 1. Menerapkan metode penilaian ROUGE-N (N = 3), ROUGE-L, dan ROUGE-W untuk mendeteksi plagiat dokumen teks berbahasa Indonesia. 2. Memperoleh praproses yang baik untuk masing-masing metode penilaian ROUGE-N (N = 3), ROUGE-L, dan ROUGE-W ketika diterapkan pada dokumen teks berbahasa Indonesia. Ruang Lingkup Beberapa lingkup penelitian ini meliputi: 1. Metode yang digunakan adalah ROUGE-N (N = 3), ROUGE-L, dan ROUGE-W dengan perhitungan recall, precision, dan f-measure yang dimodifikasi clipping (Papineni et al. 2002). 2. Praproses yang digunakan pada setiap metode adalah penghilangan stopword dan stemming. 3. Bahasa yang digunakan adalah bahasa Indonesia. 4. Algoritme stemming yang digunakan adalah algoritme pada penelitian Adriani et al. (2007) dan algoritme pada penelitian Iqbal (2010). 5. Dokumen korpus yang digunakan berjenis plaintext. TINJAUAN PUSTAKA Plagiat Plagiat adalah “pengambilan karangan (pendapat dan sebagainya) orang lain dan disiarkan sebagai karangan (pendapat dan sebagainya) sendiri” (KBBI 2008). Pelaku tindakan plagiat disebut plagiator. Menurut Jayapa (2007), pada umumnya ada beberapa tipe plagiat, antara lain: Copy-paste. Menyalin semua yang tertulis pada sumber. Paraphrasing. Mengubah letak kalimat, mengubah tata bahasa, mengganti dengan sinonim kata.

description

sdda

Transcript of BAB II Tinjauan Pustaka_ G11fma

Page 1: BAB II Tinjauan Pustaka_ G11fma

1

PENDAHULUAN

Latar Belakang

Plagiat merupakan salah satu masalah serius dalam dunia pendidikan. Semakin bertambahnya penggunaan dan publikasi data elektronik pada dekade terakhir memudahkan dilakukannya plagiat dari material yang sudah ada (Van Zijl & Hoffmann 2005). Plagiat dalam bahasa sehari-hari disebut dengan mencontek. Dalam Kamus Besar Bahasa Indonesia (KBBI) edisi keempat tahun 2008, plagiat diartikan sebagai “pengambilan karangan (pendapat dan sebagainya) orang lain dan disiarkan sebagai karangan (pendapat dan sebagainya) sendiri.” Pelaku tindakan plagiat disebut plagiator.

Pendeteksian plagiat dapat dilakukan secara manual menggunakan bantuan manusia atau secara semi-otomatis menggunakan sistem komputer. Saat ini pendeteksian secara manual merupakan cara yang paling akurat dalam mendeteksi plagiat. Kelemahan dari cara ini adalah sangat menghabiskan tenaga, waktu, serta tidak konsisten karena dipengaruhi faktor emosional manusia. Oleh karena itu, selama dekade terakhir para akademisi berusaha mengembangkan sebuah sistem komputer untuk mendeteksi plagiat dengan tingkat akurasi yang mendekati sistem manual.

Dalam perkembangannya, sistem pendeteksi plagiat melahirkan berbagai macam teknik. Dari berbagai macam teknik yang telah diterapkan, sistem pendeteksi plagiat dapat dikelompokkan menjadi tiga kelompok, yaitu, fingerprint based, string-matching based, dan tree-matching based (Mozgovoy 2006).

Salah satu teknik yang termasuk kelompok string-matching based adalah Recall-Oriented Understudy for Gisting Evaluation (ROUGE). Pada awal kemunculannya, ROUGE digunakan untuk mengevaluasi hasil rangkuman (Lin 2004). ROUGE juga telah diterapkan pada sistem pendeteksi plagiat dalam bahasa Inggris yang penggunaannya dikombinasikan dengan WordNet (Chen et al. 2010). ROUGE memiliki empat jenis metode penilain: ROUGE-N, ROUGE-L, ROUGE-W, dan ROUGE-S. Keempat metode ROUGE menghasilkan nilai masing-masing tanpa terkait satu sama lain. ROUGE menggunakan perhitungan recall, precision, dan f-measure dengan modifikasi clipping yang ada pada penelitian Papineni et al. (2002) untuk setiap metodenya.

Penelitian ini mencoba menggunakan metode penilaian ROUGE-N (N = 3 atau trigram), ROUGE-L, dan ROUGE-W yang

masing-masing metode diaplikasikan pada tingkat kalimat.

Tujuan

Tujuan dari penelitian ini adalah:

1. Menerapkan metode penilaian ROUGE-N (N = 3), ROUGE-L, dan ROUGE-W untuk mendeteksi plagiat dokumen teks berbahasa Indonesia.

2. Memperoleh praproses yang baik untuk masing-masing metode penilaian ROUGE-N (N = 3), ROUGE-L, dan ROUGE-W ketika diterapkan pada dokumen teks berbahasa Indonesia.

Ruang Lingkup

Beberapa lingkup penelitian ini meliputi:

1. Metode yang digunakan adalah ROUGE-N (N = 3), ROUGE-L, dan ROUGE-W dengan perhitungan recall, precision, dan f-measure yang dimodifikasi clipping (Papineni et al. 2002).

2. Praproses yang digunakan pada setiap metode adalah penghilangan stopword dan stemming.

3. Bahasa yang digunakan adalah bahasa Indonesia.

4. Algoritme stemming yang digunakan adalah algoritme pada penelitian Adriani et al. (2007) dan algoritme pada penelitian Iqbal (2010).

5. Dokumen korpus yang digunakan berjenis plaintext.

TINJAUAN PUSTAKA

Plagiat

Plagiat adalah “pengambilan karangan (pendapat dan sebagainya) orang lain dan disiarkan sebagai karangan (pendapat dan sebagainya) sendiri” (KBBI 2008). Pelaku tindakan plagiat disebut plagiator. Menurut Jayapa (2007), pada umumnya ada beberapa tipe plagiat, antara lain:

• Copy-paste. Menyalin semua yang tertulis pada sumber.

• Paraphrasing. Mengubah letak kalimat, mengubah tata bahasa, mengganti dengan sinonim kata.

Page 2: BAB II Tinjauan Pustaka_ G11fma

2

• Translated. Merupakan terjemahan dari sumber lain tanpa mencantumkan referensi sumber.

• Artistic. Mengubah media yang digunakan, misalnya teks, gambar, dan video.

• Idea. Menggunakan ide unik orang lain.

• Code. Menggunakan kode program orang lain tanpa izin atau mencantumkan sumber.

ROUGE

ROUGE adalah sebuah teknik untuk mengevaluasi rangkuman yang dibuat oleh mesin. ROUGE ditemukan oleh Chin-Yew Lin pada tahun 2004. Di dalamnya terdapat empat jenis metode penilaian: ROUGE-N, ROUGE-L, ROUGE-W, dan ROUGE-S. Tiga dari empat penilaian tersebut digunakan pada Document Understanding Conference (DUC) 2004, konferensi evaluasi rangkuman berskala besar yang disponsiri National Institute of Standards and Technology (NIST) (Lin 2004).

ROUGE-N

Dikatakan oleh Lin (2004), ROUGE-N adalah recall n-gram antara kandidat rangkuman dan referensi rangkuman dengan gram terkecil adalah sebuah kata. Rumus recall pada temu kembali informasi adalah:

� � �relevan� � �ditemukembalikan ��relevan�

Pada ROUGE-N, yang bertindak sebagai { relevan} adalah n-gram pada kalimat referensi rangkuman, sedangkan yang bertindak sebagai { ditemukembalikan} adalah n-gram pada kalimat kandidat rangkuman. Pada ROUGE-N, digunakan teknik clipping yang ada pada penelitian Papineni et al. (2002) untuk menghitung {relevan} ∩ {ditemukembalikan}.

ROUGE-N dilakukan pada tingkat kalimat. Bila Ai adalah kalimat pada referensi rangkuman dan Bj kalimat pada kandidat rangkuman, maka jarak antar kalimat menggunakan perhitungan recall, precision, dan f-measure pada ROUGE-N (N = 3) adalah:

��� � Clipped trigram��Count trigram��

��� � Clipped trigram��Count trigram�

��� � 1 � ������������ � �����

Contoh clipped dapat dilihat pada Gambar 1. Jika β > 1 maka pengaruh recall dalam perhitungan lebih besar, jika β < 1 maka pengaruh precision dalam perhitungan lebih besar, dan jika β = 1 maka pengaruh recall dan precision sama besar. Untuk menghitung jarak antar dokumen digunakan rumus:

� ∑ maks� ����� � � ���������jumlah kalimat �

Gambar 1 Contoh clipped unigram.

ROUGE-L

ROUGE-L adalah salah satu metode penilaian pada ROUGE yang menggunakan Longest Common Subsequence (LCS) pada tingkat kalimat. ROUGE-L memandang kalimat dalam rangkuman sebagai suatu deretan kata. Jika X dan Y adalah sebuah deretan yang memiliki panjang masing-masing m dan n, maka LCS(X,Y) adalah panjang maksimal dari sub-deretean yang ada pada X maupun Y. Perhitungannya sebagai berikut (Lin 2004):

�� ! � "#$ %, '�(

�� ! � "#$ %, '�)

�� ! � 1 � ����� !�� !�� ! � ���� !

Pada DUC, ditetapkan nilai β yang besar ( >= 8). Untuk menghitung jarak antar dokumen digunakan rumus:

� ∑ maks� ����� � " ���������jumlah kalimat �

ROUGE-W

ROUGE-W merupakan perluasan dari sistem penilaian ROUGE-L. ROUGE-W menambahkan pembobotan setiap urutan yang berdempetan. Sebagai contoh, diberikan tiga buah deretan X, Y1, dan Y2:

X: [saya suka makan nasi goreng kambing]

Y1: [saya suka makan nasi uduk tanah abang]

Kalimat Kandidat: yang yang yang yang yang Kalimat Referensi: orang yang makan nasi yang basi Clipped Precision: 2/5 Clipped Recall: 2/6

Page 3: BAB II Tinjauan Pustaka_ G11fma

3

Y2: [saya suka minum susu dan makan nasi]

Berdasarkan contoh di atas, nilai LCS(X,Y1) = LCS(X,Y2). Bagaimanapun, Y1 terlihat lebih baik dibandingkan dengan Y2, karena memiliki kesamaan urutan yang berdempetan. ROUGE-W menyimpan panjang kesamaan urutan yang berdempetan untuk dimasukkan dalam sistem penilaiannya (Lin 2004).

Fungsi pembobotan digunakan saat terdapat LCS yang berdempetan, yaitu dengan cara memasukkan panjang kesamaan urutan yang berdempetan ke dalam suatu fungsi pembobotan. Kemudian seluruh hasil pembobotan dijumlahkan, ini yang menjadi nilai Weighted Longest Common Subsequence (WLCS) pada tingkat kalimat. Algoritme ROUGE-W dapat dilihat pada Gambar 2. Perhitungan jarak pada tingkat kalimat menggunakan metode ROUGE-W adalah:

�*� ! � +,- . /"#$ �� , ���+ panjang kata �� �0

�*� ! � +,- . /"#$ �� , ���+ panjang kata �� �0

�*� ! � 1 � ����*� !�*� !�*� ! � ���*� !

Untuk menghitung jarak antar dokumen digunakan rumus:

� ∑ maks� ����� � / ���������jumlah kalimat �

Gambar 2 Algoritme ROUGE-W.

Gaussian (Sebaran Normal)

Sebaran normal adalah sebaran peluang kontinu yang paling penting dalam bidang statistika. Grafiknya, yang disebut kurva normal, adalah kurva yang berbentuk genta seperti pada Gambar 3 (Walpole 1982).

Suatu peubah acak kontinu X yang memilki sebaran berbentuk genta seperti dalam Gambar 3 disebut peubah acak normal. Persamaan bagi sebaran peluang peubah acak normal ini bergantung pada dua parameter µ dan σ, yaitu nilai tengah dan simpangan bakunya (Walpole 1982).

Gambar 3 Kurva normal.

Bila X adalah suatu peubah acak normal dengan nilai tengah µ dan ragam σ2, maka persamaan kurva normalnya adalah (Walpole 1982):

) 1|3, 4� � 1√274 8,9

:;<=>? @:

Dengan π = 3.14159… dan e = 2.71828…

Bayesian Classifier

Bayesian classifier merupakan sebuah pendekatan untuk memodelkan peluang hubungan antara himpunan atribut dan kelas variabel tersebut. Implementasi dari Bayesian classifier, yaitu naïve Bayes classifier dan Bayesian belief network. (Tan et al. 2006).

Peluang bersama dan bersyarat untuk X dan Y dapat dilihat pada formula berikut (Tan et al. 2006):

� %|'� � � '|%� A � %� � � %|'� A � '�

Dari formula itu, dapat diperoleh teorema Bayes:

� '|%� � � %|'� A � '�� %�

Variabel X pada teorema Bayes menunjukkan serangkaian atribut, sedangkan variabel Y menunujukkan variabel kelas. P(Y|X) merupakan peluang bersyarat yang juga dikenal sebagai posterior probability terhadap Y, sedangkan P(Y) merupakan prior probability (Tan et al. 2006).

1 FOR(h=1;h≤m;h++) 2 FOR(i=h;i≤m;i++) 3 FOR(j=batas;j≤n;j++) 4 IF(xi=yj) 5 k++; 6 batas=j+1; 7 break; 8 ELSE 9 weight=weight+f(k); 10 k=0; 11 ENDFOR 12 IF(k>0) 13 weight=weight+f(k); 14 k=0; 15 IF(weight>max) 16 max=weight; 17 ENDFOR 18 max=0; 19 batas=0;

Page 4: BAB II Tinjauan Pustaka_ G11fma

4

Naïve Bayes Classifier

Naïve Bayes classifier menduga kelas peluang bersyarat dengan mengasumsikan atribut secara kondisi bebas, jika diberi label kelas y (Tan et al. 2006). Naïve Bayes adalah salah satu algoritme pembelajaran induktif yang paling efesien dan efektif dalam bidang machine learning dan data mining. Tujuan dari algoritme pembelajaran adalah membangun sebuah pengklasifikasi (classifier) menggunakan satu set contoh data latih yang memiliki atribut kelas (Zhang 2004).

Diasumsikan E adalah sebuah contoh data yang memiliki nilai atribut (x1,x2,,…,xn), dengan xi adalah nilai dari atribut Xi , sedangkan C adalah variabel kelas dan c adalah nilai dari variabel C. Menurut aturan Bayes, peluang contoh data E = (x1,x2,,…,xn) sebagai kelas c adalah:

B C|�� � B �|C�B C�B ��

Naïve Bayes classifier mengasumsikan semua atribut adalah bebas sehingga

B �|C� � B 1-, 1�, , … , 1E|C� � F B 1�|C�E

�G-

B C|�� � B C� ∏ B 1�|C�E�G-B ��

Dalam proses pengklasifikasian, nilai p(E) adalah sama untuk sebuah data E. Naïve Bayes classifier dapat didefinisikan sebagai berikut:

#EI �� � JKL(J1 B C� F B 1�|C�E

�G-

Gaussian Naïve Bayes Classifier

Gaussian naïve Bayes classifier adalah naïve Bayes classifier yang menggunakan sebaran normal (Gaussian) untuk memperkirakan B 1�|C� jika nilai atribut 1� adalah kontinu (Bouckaert 2004). Untuk setiap kelas c dan 1� adalah atribut data, B 1�|C� �) 1�|3M, 4M� dengan

) 1|3, 4� � -√�NO 81B P� -

� ;Q,RO @�S.

Koefisien Korelasi Pearson

Korelasi Pearson mengukur hubungan antara dua variabel X dan Y, yang memberikan nilai antara 1 dan -1. Jika korelasi mendekati 1 berarti semakin baik hubungan antara dua variabel, dan sebaliknya. Rumus korelasi Pearson adalah (Walpole 1982):

K � ∑ %� � %T� '� � 'T�E�G-U∑ %� � %T�E�G- � U∑ '� � 'T�E�G- �

Fingerprint Based

Ide utama pada fingerprint based adalah membuat fingerprint untuk semua koleksi dokumen. Pada sistem pendeteksi plagiat fingerprint based, setiap fingerprint mengandung atribut numerikal yang merepresentasikan struktur dari dokumen. Jika fingerprint antara dua dokumen sangat dekat, maka dapat dicurigai salah satunya merupakan hasil plagiat (Mozgovoy 2006).

String-Matching Based

Pada dasarnya, string-matching based bekerja menurut algoritme pada Gambar 4. Metode string-matching based membandingkan dokumen dengan memandangnya sebagai strings (Mozgovoy 2006).

Gambar 4 Algoritme string-matching based.

Tree-Matching Based

Metode tree-matching based memandang dokumen sebagai suatu struktur. Oleh karena itu, tree-matching based lebih cocok dipakai untuk mendeteksi plagiat pada source program komputer karena memiliki aturan struktur yang sama (Mozgovoy 2006). Untuk diterapkan pada bahasa alami, dokumen yang dibandingkan harus memiliki aturan struktur yang sama.

METODE PENELITIAN

Metodologi yang digunakan pada penelitian ini terdiri atas beberapa tahap. Tahapan-tahapan tersebut dapat dilihat pada Gambar 5.

Korpus

Korpus pada penelitian ini merupakan korpus teks bahasa Inggris berjenis plaintext hasil penelitian Clough dan Stevenson (2009) yang diterjemahkan ke dalam Bahasa Indonesia. Korpus tersebut dibuat khusus untuk pengembangan dan evaluasi sistem pendeteksi plagiat dokumen teks. Korpus berjumlah 100 dokumen yang terdiri dari 5 dokumen asli dan 95 dokumen yang memiliki tingkatan plagiat. Masing-masing dokumen asli memiliki topik yang berbeda. Korpus penelitian Clough dan Stevenson (2009) terbagi menjadi empat tingkatan plagiat dokumen, yaitu:

1 FOR EACH collection file F 2 FOR EACH collection file G, F ≠ G 3 Hitung kesamaan antara F dan G