Per Banding An LSA, PLSA Dan GLSA Pada Sistem Penilaian Esai Otomatis

download Per Banding An LSA, PLSA Dan GLSA Pada Sistem Penilaian Esai Otomatis

of 9

Transcript of Per Banding An LSA, PLSA Dan GLSA Pada Sistem Penilaian Esai Otomatis

Perbandingan LSA, PLSA dan GLSA pada Sistem Penilaian Esai OtomatisAbi Rheza Nasai(0906492966), Hardika Saputra (0906552416), Husein Muhammad Mufti(0906510256), Prahesa Kusuma Setia (0906510470) Fakultas Ilmu Komputer, Universitas Indonesia, Depok 16424, IndonesiaE-mail: [email protected], [email protected], [email protected], [email protected]

AbstrakPenilaian esai secara manual pada umumnya memakan waktu yang lama karena jawaban yang berbentuk esai akan membentuk berbagai macam variasi berdasarkan pada pemikiran sang penulis. Penilaian esai secara otomatis sudah lama dikembangkan sebagai sebuah cara untuk mempercepat proses penilaian esai berdasarkan pada kelengkapan makna yang terkandung di dalamnya. Saat ini setidaknya terdapat tiga macam metode yang digunakan dalam penilaian esai otomatis, yaitu LSA, PLSA, dan GLSA. Latent Semantic Analysis (LSA) adalah metode untuk mengekstrak dan merepresentasikan kalimat dalam bentuk matematik atau statistik dari teks dengan jumlah kata yang relatif besar. Nilai dari jawaban esai diperhitungkan, dengan mencocokkan ada atau tidak adanya kata yang dianggap penting, pada kelompok kata dalam matriks yang telah dipersiapkan oleh human rater (penilai manusia). Probabilistic Latent Semantic Analysis (PLSA) merupakan pengembangan dari LSA dengan menggunakan pendekatan baru untuk pengindeksan dokumen otomatis yang didasarkan pada model kelas laten statistik untuk analisis faktor data yang terhitung. PLSA dilengkapi dari korpus pelatihan dokumen teks dengan generalisasi dari algoritma Expectation Maximization, di mana model yang digunakan mampu menangani kesinoniman domain-spesifik serta menangani kata-kata polisemi. Generalized Latent Semantic Analysis (GLSA) yang merupakan pengembangan lebih lanjut dari LSA membuat n-gram berdasarkan matriks dokumen. GLSA mempertimbangkan urutan kata dan kalimat dalam dokumen dan menjaga kedekatan kata dalam kalimat. Pada makalah ini kami akan menguraikan penjelasan mengenai metode-metode tersebut dan perbandingan ketiganya.

I. PendahuluanPembuatan esai dalam penilaian hasil kegiatan belajar dinilai sebagai metode paling tepat, karena melibatkan kemampuan siswa untuk mengingat, mengorganisasikan, mengekspresikan dan mengintegrasikan gagasan yang dimiliki oleh siswa tersebut. Tetapi sayangnya, pemeriksaan esai membutuhkan waktu yang lebih lama daripada tes - tes yang bersifat objektif seperti pilihan ganda dan jawaban singkat. Selain itu, esai memiliki kecenderungan untuk memiliki sifat subjektif yang tinggi, tergantung dari sisi pemeriksa esai, manusia satu mungkin saja berbeda jika dibandingkan dengan manusia lainnya dalam memberikan penilaian terhadap sebuah esai. Telah terdapat beberapa metode yang bisa digunakan untuk melakukan penilaian esai secara otomatis, baik itu yang bersifat komersial maupun yang merupakan hasil riset dengan menggunakan beberapa metode hasil dari penelitian para ahli di bidang ini. Sistem E-rater bahkan telah digunakan untuk menilai esai pada pelaksanaan General Management Aptitude Test (GMAT) dengan tingkat kesamaan mencapai 94%. Persoalan penilaian esai secara otomatis ini dapat dianggap sebagai masalah pengelompokan teks secara otomatis yang dapat diselesaikan dengan machine learning. Selain dengan pendekatan machine learning, penilaian esai secara otomatis juga dapat dilakukan dengan metode latent semantic analysis (LSA) yang pada awalnya digunakan untuk

Halaman 1 dari 9

melakukan pengindeksan pada sistem temu balik informasi. LSA merupakan teknik matematika yang digunakan untuk mengekstraksi dan merepresentasikan persamaan arti kata dengan cara melakukan analisis sejumlah besar teks. LSA bekerja dengan cara membentuk matriks term by document yang berasal dari sejumlah besar training essay. Matriks ini kemudian akan didekomposisi dan mengalami reduksi dimensi menjadi matriks yang merepresentasikan ruang semantik dari training essay. Metode ini melakukan penilaian esai dengan cara mencari persamaan antara dokumen esai yang ingin dinilai dengan sejumlah esai pembanding. Similaritas diukur dengan mengukur cosine antara vektor dokumen berdasarkan matriks ruang simetrik. Semakin tinggi tingkat similaritas, maka makin tinggi nilai tersebut.

II. LSALatent Semantic Analysis (LSA) merupakan metode yang sering digunakan dalam pembandingan similaritas dokumen atau pencocokan semantik (semantic matching) antardokumen [1,4]. LSA dipatenkan oleh Scott Deerwester, Susan Dumais, George Furnas, Richard Harshman, Thomas Landauer, Karen Lochbaum dan Lynn Streeter pada tahun 1988 di Amerika. Menurut Ratna dkk. metode LSA adalah metode untuk mengekstrak dan merepresentasikan kalimat dalam bentuk matematik atau statistik dari teks dengan jumlah kata yang relatif besar. Nilai dari jawaban esai diperhitungkan, dengan mencocokkan ada atau tidak adanya kata yang dianggap penting, pada kelompok kata dalam matriks yang telah dipersiapkan oleh human rater (penilai manusia) [2,3]. Dalam melakukan pencocokan potongan - potongan teks, LSA bergantung pada besarnya corpora teks untuk membangun sebuah ruang semantik berdimensi tinggi yang mengandung semua kata dan teks dengan cara menggunakan pendekatan analisis statistik [1, 4]. Lemaire dkk. menjelaskan bahwa semantik dari sebuah kata ditentukan dari semua konteks (yaitu paragraf) dimana kata tersebut muncul. Misalnya, sepeda kata muncul umumnya dalam konteks setang, pedal, naik, dll. Oleh karena itu, jika sebuah kata seperti sepeda muncul dalam konteks yang hampir sama, dua kata akan dianggap dekat satu sama lain dari sudut pandang semantik. Keterkaitan vektor mereka dalam ruang semantik juga akan menjadi dekat satu sama lainnya [4]. Seperti yang telah dijelaskan sebelumnya metode LSA akan mengasumsikan bahwa penggunaan kata - kata yang maknanya dekat akan menghasilkan keterhubungan pada sebuah teks. Sebuah matriks dari ruang semantik yang mewakili sejumlah kata per paragraf disusun dari sebuah potongan besar teks dan didekomposisi dengan menggunakan metode dekomposisi nilai singular / singular value decomposition (SVD) untuk mengurangi jumlah kolom sembari menjaga kesamaan struktur antara baris. Ruang semantik dibangun dengan mempertimbangkan jumlah kemunculan setiap kata dalam setiap bagian dari teks (pada dasarnya paragraf). Misalnya, dengan 100 paragraf dan total 2000 kata, kita mendapatkan 100 2.000 matriks. Setiap kata kemudian diwakili oleh vektor 100-dimensi dan setiap paragraf diwakili oleh 2.000 dimensi vektor [4]. Kekuatan LSA, bagaimanapun, terletak pada reduksi dimensi ruang tersebut, dan dengan berbuat demikian akan menginduksi kesamaan semantik antara kata - kata [4]. Pada proses pengolahan data menggunakan SVD yang digunakan pada LSA, akan dilakukan proses pengurangan dimensi pada matriks hasil dekomposisi SVD. SVD pada LSA dapat dijelaskan dengan lebih detail sebagai berikut [10,11]: 1. Setiap matriks, misalnya matriks yang berukuran t x d, X, seperti matriks term x dokumen , dapat didekomposisi ke dalam bentuk persamaan di bawah ini: U dan VT merupakan matriks dari vektor singular kanan dan vektor singular kiri. Sedangkan S merupakan matriks diagonal yang berisikan nilai - nilai singular. X = USVT Rumus 1. Persamaan dekomposisi matriks pada SVD 2. Langkah selanjutnya dari SVD adalah membentuk aproksimasi dari matriks X yakni X dengan melakukan pengurangan dimensi. Jika nilai - nilai singular dari matriks S diurutkan berdasarkan

Halaman 2 dari 9

nilainya, maka k nilai terbesar dapat tetap disimpan dalam matriks tersebut, dan nilai nilai lain yang lebih kecil dapat diset menjadi nol. Jika baris dan kolom yang berkaitan pada matriks U dan VT juga diset menjadi 0, maka hasil kali dari ketiga matriks ini akan membentuk matriks X yang merupakan matriks least square approximation dari matriks X. Gambar di bawah ini merupakan ilustrasi pembentukan matriks X dengan menggunakan dimensi sebesar k.

Gambar 2.1 Proses reduksi dimensi pada LSA [1] Dari matriks-matriks hasil dekomposisi SVD terdapat tiga operasi pembandingan yang dapat dilakukan yaitu: 1. Membandingkan seberapa besar kesamaan di antara dua term yang berbeda. Koordinat dari suatu term pada semantic space direpresentasikan oleh vektor baris dari matriks S x U yang bersesuaian dengan term tersebut. Oleh karena itu similaritas antara dua term yang berbeda dapat diperoleh dari cosine similarity antara koordinat - koordinat dari kedua term tersebut. 2. Membandingkan seberapa besar kesamaan di antara dua dokumen yang berbeda. Koordinat suatu dokumen pada semantic space direpresentasikan oleh vektor baris dari matriks S x V yang bersesuaian dengan dokumen tersebut. Oleh karena itu similaritas antara dua dokumen yang berbeda dapat diperoleh dari cosine similarity antara koordinat - koordinat dari kedua dokumen tersebut. 3. Mengetahui seberapa besar suatu term tertentu berasosiasi dengan suatu dokumen. Berbeda dari dua operasi sebelumnya yang memerlukan penghitungan cosine similarity, seberapa besar asosiasi antara suatu kata i dengan suatu dokumen j, dapat diketahui dari nilai cell[i,j] dari matriks aproksimasi term-document yang dihasilkan oleh SVD. Dokumen yang tidak muncul pada matriks term-document, juga dapat direpresentasikan sebagai sebuah pseudodocument dalam semantic space. Untuk dapat merepresentasikan dokumen eksternal ini sebagai pseudodocument pada semantic space, maka dapat dilakukan dengan menggunakan formula di bawah ini: = DUS-1 Rumus 2. Representasi letak pseudodocument dalam semantic space dimana adalah representasi pseudodocument pada semantic space, dan D adalah vektor bobot term dari dokumen [1]. LSA mampu memberikan hasil yang menjanjikan dalam pemrosesan semantik suatu teks. Namun, model LSA dasar tidak memiliki kepekaan terhadap konteks di mana kata-kata terjadi. Perlu

Halaman 3 dari 9

diperhatikan bahwa jika jumlah dimensi (number of dimensions) terlalu kecil, akan terlalu banyak informasi yang hilang. Jika terlalu besar, tidak cukup banyak dependensi yang dapat ditarik antara vektor. Dimensi berukuran 100 sampai 300 memberikan hasil terbaik dalam domain bahasa [5]. Menurut Lemaire, cara ini cukup robust, sebuah kata dapat dianggap dekat secara semantik dengan kata yang lain meskipun mereka tidak muncul bersamaan pada suatu teks. Dengan cara yang sama, dua dokumen dapat dianggap mirip meskipun tidak memiliki kata yang persis sama. Sebuah fitur menarik dari metode ini adalah bahwa informasi semantik berasal hanya dari kemunculan kata - kata dalam sebuah korpus besar teks. Tidak perlu mengkodekan pengetahuan semantik melalui jaringan semantik atau rumus logika [4].

III. PLSAProbabilistic Latent Semantic Analysis (PLSA) merupakan pengembangan dari LSA dengan menggunakan pendekatan baru untuk pengindeksan dokumen secara otomatis yang didasarkan pada model kelas laten statistik untuk analisis faktor data yang terhitung. PLSA dilengkapi dari korpus pelatihan dokumen teks dengan generalisasi dari algoritma Expectation Maximization, dimana model yang digunakan mampu menangani kesinoniman domain-spesifik serta menangani kata - kata polisemi [9]. PLSA berbasis pada model statistik yang disebut aspect model, sebuah latent variable untuk data yang co-occurence. Model ini mempunyai probabilistic yang sesuai sebagai berikut : P(di) menggambarkan probabilitas bahwa kemunculan sebuah kata akan diobservasi pada konteks di. P(wj | zk) menggambarkan conditional-probability untuk kata tertentu jika dikondisikan pada kelas variabel yang belum diobservasi zk. P(zk | di) menggambarkan context-specific distribusi probabilitas sekitar space latent variable. Ketika menggunakan PLSA untuk melakukan penilaian esai secara otomatis, langkah pertama adalah membangun model. dengan kata lain, melakukan aproksimasi probability mass function dengan metode machine learning dari training data, dalam hal ini adalah materi tes esai yang telah dilakukan penilaian oleh manusia asli.

IV. GLSAGeneralized Latent Semantic Analysis (GLSA) merupakan pengembangan lebih lanjut dari LSA membuat n-gram berdasarkan matriks dokumen sebagai ganti dari membuat kata berdasarkan matriks dokumen. GLSA mempertimbangkan urutan kata kalimat dalam dokumen dan menjaga kedekatan kata dalam kalimat. Seperti contoh misalnya dalam LSA untuk formasi kata carbon dioxide menghasilkan arti yang sama dengan dioxide carbon. Menurut GLSA, bi-gram vektor untuk carbon dioxide itu mempunyai arti yang satu daripada kombinasi carbon dan dioxide. Sistem arsitektur untuk GLSA dibagi dalam dua bagian : generasi set latihan esai dan evaluasi esai dari esai yang diajukan menggunakan set latihan esai. 1. Generasi Set Latihan Esai

Halaman 4 dari 9

Gambar 4.1 Generasi Set Latihan Esai Generasi set latihan esai dapat dilihat di gambar 4.1. Esai dinilai terlebih dahulu oleh orang orang yang ahli dalam esai itu. Jumlah orang yang menilai bisa meningkat untuk sistem non-bias. Nilai rata - rata dari para ahli digunakan sebagai skor latihan dari sebuah set latihan esai. Proses ini juga menggunakan preprocessing di set latihan esai. Dalam langkah preprocessing, stopwords dihilangkan dari esai dan kata - kata telah di-stemming ke akarnya. Proses stemming ini menggunakan M. F. Porters stemming algorithm[12]. Indeks N-grams contohnya indeks uni-grams, bi-grams, tri-grams, , n-grams telah dipilih untuk membuat n-gram oleh dokumen matriks. Dalam proses ini diambil bermacam - macam kata - kata penting dalam uni-gram, bi-gram dan lainnya dan menghasilkan n-grams. N-grams dari dokumen matriks ini dibuat menggunakan frekuensi n-grams berada dalam esai. Setiap sel dari matriks diisi oleh frekuensi dari n-grams di dalam dokumen.

Gambar 4.2 Dekomposisi Nilai Singular dari Matriks Gambar 4.2 menunjukkan dekomposisi n-gram dari dokumen matriks menggunakan SVD dari matriks. Menurut SVD, sebuah matriks Atxd telah dikomposisikan sebagai berikut : T Atxn = Utxn * Snxn * Vdxn (1) A di sini adalah n-gram dari dokumen matriks, U adalah matriks ortogonal, S adalah matriks T diagonal dan V adalah transpos dari matriks ortogonal V.

Gambar 4.3 Reduksi dimensionalitas dari matriks SVD T T Kolom U adalah ortogonal eigenvektor dari AA . Kolom V adalah ortogonal eigenvektor A A dan S adalah matiks diagonal yang berisikan akar kuadrat dari eigenvalues dari V dalam urutan terbalik.

Halaman 5 dari 9

Di gambar 4.3 operasi reduksi dimensionalitas dilakukan dengan menghapus satu atau lebih nilai - nilai tunggal terkecil dari matriks tunggal S dan juga menghapus angka kolom dan baris yang sama dari U dan V. Tujuan dari reduski dimensionalitas adalah untuk menurunkan data - data yang tidak penting di dalam data sehingga struktur semantik dasar bisa digunakan untuk membandingkan isi dari esai. Matriks SVD yang telah dipotong digunakan untuk membuat vektor esai latihan. Vektor esai latihan dj dibuat dari setiap dokumen vektor dj dari matriks SVD yang dipotong seperti : T -1 dj = dj * Utxk * Skxk (2) T Dj adalah transpos dari vektor dokumen dj, Utxk adalah matriks ortogonal kiri yang dipotong dan Skxk adalah matriks tunggal yang dipotong dari SVD yang dipotong. Dokumen vektor dj bersama dengan nilai dari para ahli dalam latihan esai membuat set latihan esai. 2. Evaluasi dari esai yang diajukan

Gambar 4.4 Evaluasi dari esai yang diajukan Esai yang telah diajukan telah dinilai oleh penilai manusia. Setiap langkah - langkah seperti pengecekan lingual error, menghapus stop-word, dan juga kata - kata telah di-stemming ke akarnya. Query matrix (q) telah dibuat dari esai yang diajukan menurut aturan dari membuat n-gram oleh dokumen matriks. Vektor query q juga dibuat dari esai yang diajukan seperti : -1 q = q*Utxk * Skxk (3) Di sini q adalah query matrix, Utxk adalah matriks ortogonal kiri yang dipotong, Skxk adalah matriks tunggal yang dipotong dari SVD. Kesamaan di antara vektor query (q) dan vektor set latihan esai dj dihitung dengan menggunakan Cosine similarity :

Di sini wqj adalah berat j dari vektor query (q) dan dij adalah berat ke i dari vektor set latihan esai dj. Nilai tertinggi korelasi dari Cosine vektor query dan vektor latihan esai digunakan untuk menilai esai yang diajukan. Nilai dari esai yang diajukan ditetapkan oleh nilai dari latihan yang membuat kesamaan maksimum. Nilai di sini juga dianggap sebagai nilai LSA.

th

th

V. PerbandinganPerbandingan kinerja LSA dan PLSA untuk penilai esai otomatis pernah dilakukan oleh Kakkonen dkk. [6]. Tabel berikut ini merupakan data yang digunakan untuk eksperimen pada saat itu.

Halaman 6 dari 9

Tabel 5.1 Test data eksperimen Kakkonen dkk. Kolom Training essays menunjukkan banyaknya esai yang digunakan sebagai training data, sedangkan Test essays menunjukkan banyaknya esai yang digunakan sebagai test data. Kolom No. pass. adalah banyaknya kolom di word-by-context-matrix (WCM). Div. type menunjukkan apakah data dibagi menjadi beberapa paragraf atau beberapa kalimat, sementara No. words adalah jumlah kata dalam data. Berikut ini adalah tabel perbandingan akurasi metode LSA dan PLSA hasil percobaan tersebut.

Tabel 5.2 Perbandingan akurasi LSA dan PLSA Dari tabel tersebut, tampak bahwa akurasi LSA lebih tinggi dibandingkan akurasi PLSA, kecuali untuk data nomor 6, dengan perbedaan yang tidak terlalu signifikan. Dalam melakukan information retrieval PLSA terbukti memiliki performa yang lebih baik daripada LSA [7], tetapi hasil eksperimen Kakkonen menunjukkan sebaliknya. Dalam tulisannya, Kakkonen menjelaskan bahwa hal itu mungkin disebabkan perbedaan ukuran data. LSA memiliki performa yang lebih baik untuk ukuran data yang relatif kecil. Eksperimen perbandingan kinerja LSA, GLSA, dan penilai manusia juga pernah dilakukan oleh Islam dkk. [8]. Pada eksperimen tersebut, test data sebanyak 120 esai dibagi dalam 3 tema yang berbeda, masing - masing 40 esai. Nilai berkisar antara 0-100. Nilai 0-39, 40-49, 50-59, 60-69, 70-79 dan 80-100 masing - masing dipetakan menjadi skor 0.00, 2.00, 2.5, 3.00, 3.5, dan 4.00. Nilai esai didapat dari rata - rata nilai yang diberikan oleh 3 orang penilai. Kemudian suatu sistem Automatic Essay Grading (AEG) yang menggunakan metode GLSA juga melakukan penilaian terhadap data tersebut. Berikut ini hasil perbandingan penilaian antara AEG dan manusia.

Halaman 7 dari 9

Tabel 5.3 Perbandingan akurasi GLSA dan penilai manusia Dari tabel di atas, terlihat bahwa akurasi AEG dengan GLSA mendekati akurasi penilai manusia. Dari data tersebut juga dihitung rata - rata dan standar deviasi error antara GLSA dan LSA yang ditampilkan dalam tabel di bawah ini.

Tabel 5.4 Perbandingan error LSA dan GLSA Dari tabel di atas, terlihat jauh perbedaan antara performa GLSA dan LSA dengan perbedaan rata - rata dan standar deviasi error yang cukup signifikan. Pada percobaan tersebut, Islam dkk. juga membandingkan beberapa eksperimen terdahulu yang dilakukan orang lain dengan eksperimennya. Di antara eksperimen yang dibandingkan adalah Intelligent Essay Assessor (IEA) oleh Valenti dkk., Automatic Essay Assessor (AEA) oleh Kakkonen dkk., serta Apex (Assistant for Preparing EXams) oleh Lemaire B. dkk. Hasil perbandingannya dapat dilihat dalam tabel berikut ini.

Tabel 5.5 Perbandingan akurasi GLSA dan eksperimen lain yang menggunakan LSA

VI. KesimpulanLSA merupakan metode yang cukup menjanjikan untuk diterapkan pada aplikasi penilaian esai secara otomatis. Akan tetapi masih meninggalkan beberapa kekurangan seperti urutan kata atau frase, kesinoniman, dan penanganan kata-kata polisemi. PLSA merupakan pengembangan dari LSA dengan memperhatikan aspek probabilitas dan mengimplementasikan algoritma Expectation Maximization. PLSA terbukti memiliki performa yang lebih baik daripada LSA pada ukuran data yang besar dan sudah mampu menangani kesinoniman dan polisemi. GLSA merupakan metode terbaik diantara tiga metode yang penulis jabarkan. GLSA mempertimbangkan urutan kata kalimat dalam dokumen dan menjaga kedekatan kata dalam kalimat sehingga akurasi GLSA hampir mendekati akurasi penilaian manusia.

Halaman 8 dari 9

VII. Daftar PustakaDeerwester, S., Dumais, S.T., Furnas, G.W., Landauer, T.K., Harshman, R.: Indexing by Latent Semantic Analysis, Journal of the American Society for Information Science, vol. 41(2), pp. 391407, 1990. [2] Salvatore Valenti, Francesca Neri, Alessandro Cucchiarelli, An Overview of Current Research on Automated Essay Grading, Journal of Information Technology Education, Vol. 2, 2003, pp. 319-330. [3] Ratna, A.A.P., Budiardjo, B. dan Hartanto, D., Simple: Sistim Penilai Esei Otomatis untuk Menilai Ujian dalam Bahasa Indonesia, Makara, Teknologi, Vol. 11, No.1, pp. 5-11, April 2007. [4] Lemaire, Benot dan Dessus, Philippe, A System to Assess the Semantic Content of Student Essays, Journal of Educational Computing Research, Vol. 24(3) 305-320, 2001. [5] S. T. Dumais, Improving the Retrieval of Information From External Sources, Behavior Research Methods, Instruments, & Computers, 23:2, pp. 229-236, 1991. [6] Kakkonen, T., Myller, N., Sutinen, E., & Timonen, J. Comparison of Dimension Reduction Methods for Automated Essay Grading. Educational Technology & Society, 11(3), 275 288. [7] Hofmann, T. (2001). Unsupervised learning by probabilistic latent semantic analysis. Machine Learning, 42 (1-2), 177196, 2008. [8] Islam, M.M.; Hoque, A.S.M.L.; , "Automated essay scoring using Generalized Latent Semantic Analysis," Computer and Information Technology (ICCIT), 2010 13th International Conference on , vol., no., pp.358-363, 23-25 Dec. 2010 [9] Hofmann, Thomas, Probabilistic Latent Semantic Indexing, Proceedings of the TwentySecond Annual International SIGIR Conference on Research and Development in Information Retrieval, 1999. [10] Adhitia, Rama; Purwarianti, Ayu; Penilaian Esai Jawaban Bahasa Indonesia Menggunakan Metode SVM LSA dengan fitur Generik; Jurnal Sistem Informasi MTI UI, Volume 5, Nomor 1, ISBN 1412 8896, Institut Teknologi Bandung [11] Berry, M., Dumais, S.T., OBrien, G.W. (1994) .Using Linear Algebra for Intelligent Information Retrieval. SIAM Review [12] Porter Stemming [Online] Available: http://www.comp.lancs.ac.uk/computing/research/stemming/generall/porter.fitm [1]

Halaman 9 dari 9