Pembangkitan Parallel Text Indonesia-Inggris pada Situs Web

7
Pembangkitan Parallel Text Indonesia-Inggris pada Situs Web Elisa Margareth Sibarani 1 , Noverdy M. Panjaitan2, Sihar J. Purba3, Adelina I. Siagian4, Dede W Meantini5 1 2 3 4 5 Abstrak Parallel text merupakan kumpulan pasangan teks dari dua bahasa yang memiliki makna yang sama. Parallel text digunakan untuk mendukung probabilistic translation model yang dibutuhkan oleh Cross Language Information Retrieval (CLIR) dan Machine Translation (MT) untuk menerjemahkan teks ke dalam dua bahasa. Pada kajian ini, Parallel text yang dihasilkan dalam bahasa Indonesia dan Inggris. Hasil analisis terhadap tahapan untuk memperoleh Parallel text menyimpulkan ada dua tahapan yang akan dilalui untuk memperoleh Parallel text. Pertama, tahap pair scan yang akan menentukan pasangan web page, selanjutnya diikuti tahap Parallel text alignment bertujuan untuk memroses pasangan web page untuk memperoleh Parallel text. Untuk mengetahui performansi dari hasil analisis yang dilakukan, dibangun sebuah perangkat lunak dengan data masukan dalam bentuk web page dan hasilnya adalah corpus berisi Parallel text dan disimpan dalam file berekstensi .txt. Hasil percobaan terhadap performansi perangkat lunak dalam memperoleh Parallel text dinyatakan berhasil karena semua Parallel text yang ada telah disimpan ke dalam corpus. Dari kajian yang dilakukan dapat diketahui bahwa cara memperoleh Parallel text dapat dilakukan dengan membandingkan pasangan web page berdasarkan nama dan ukuran web page serta jumlah line of code. Untuk kajian selanjutnya dapat menambahkan cara identifikasi pasangan web page berdasarkan alamat URL atau memeriksa kesamaan tag HTML. Kata kunci: parallel text, cross language information retrieval, pair scan, parallel text alignment, corpus Abstract Parallel text is a collection of large texts from two languages that have the same meaning. Parallel text is used to support the probabilistic translation model needed by the Cross Language Information Retrieval (CLIR) and Machine Translation (MT) to translate to other language. In this research, Parallel text pro- duced in Indonesian and English. The result of the analysis is there are two stages needed to obtain Paral- lel text. First, pair scan that will determine the pair of web page, continue with Parallel text alignment aims to acquire Parallel text from the pair. To determine the performance, software must be built that accept a web page as the input and the output is a parallel corpus containing text and stored in a file with extension .txt. The experimental results successfully obtaining all the parallel text in the web page and are able to store in the corpus. In conclusion, from the study carried out can be seen that the way to obtain the Parallel text can be done by comparing web page based on the name and size of the web page and the number of line of code. To further study, the way to identify the pair of a web page can be done by check- ing the URL or commonality of HTML tags. Keywords: parallel text, cross language information retrieval, pair scan, parallel text alignment, corpus 1. Pendahuluan

Transcript of Pembangkitan Parallel Text Indonesia-Inggris pada Situs Web

Page 1: Pembangkitan Parallel Text Indonesia-Inggris pada Situs Web

Pembangkitan Parallel Text Indonesia-Inggris pada Situs WebElisa Margareth Sibarani1, Noverdy M. Panjaitan2, Sihar J. Purba3, Adelina I. Siagian4, Dede W

Meantini5

1 2 3

4 5

AbstrakParallel text merupakan kumpulan pasangan teks dari dua bahasa yang memiliki makna yang sama.Parallel text digunakan untuk mendukung probabilistic translation model yang dibutuhkan oleh CrossLanguage Information Retrieval (CLIR) dan Machine Translation (MT) untuk menerjemahkan teks kedalam dua bahasa. Pada kajian ini, Parallel text yang dihasilkan dalam bahasa Indonesia dan Inggris.Hasil analisis terhadap tahapan untuk memperoleh Parallel text menyimpulkan ada dua tahapan yangakan dilalui untuk memperoleh Parallel text. Pertama, tahap pair scan yang akan menentukan pasanganweb page, selanjutnya diikuti tahap Parallel text alignment bertujuan untuk memroses pasangan web pageuntuk memperoleh Parallel text. Untuk mengetahui performansi dari hasil analisis yang dilakukan,dibangun sebuah perangkat lunak dengan data masukan dalam bentuk web page dan hasilnya adalahcorpus berisi Parallel text dan disimpan dalam file berekstensi .txt. Hasil percobaan terhadap performansiperangkat lunak dalam memperoleh Parallel text dinyatakan berhasil karena semua Parallel text yang adatelah disimpan ke dalam corpus. Dari kajian yang dilakukan dapat diketahui bahwa cara memperolehParallel text dapat dilakukan dengan membandingkan pasangan web page berdasarkan nama dan ukuranweb page serta jumlah line of code. Untuk kajian selanjutnya dapat menambahkan cara identifikasipasangan web page berdasarkan alamat URL atau memeriksa kesamaan tag HTML.

Kata kunci: parallel text, cross language information retrieval, pair scan, parallel text alignment, corpus

AbstractParallel text is a collection of large texts from two languages that have the same meaning. Parallel text isused to support the probabilistic translation model needed by the Cross Language Information Retrieval(CLIR) and Machine Translation (MT) to translate to other language. In this research, Parallel text pro-duced in Indonesian and English. The result of the analysis is there are two stages needed to obtain Paral-lel text. First, pair scan that will determine the pair of web page, continue with Parallel text alignmentaims to acquire Parallel text from the pair. To determine the performance, software must be built thataccept a web page as the input and the output is a parallel corpus containing text and stored in a file withextension .txt. The experimental results successfully obtaining all the parallel text in the web page and areable to store in the corpus. In conclusion, from the study carried out can be seen that the way to obtain theParallel text can be done by comparing web page based on the name and size of the web page and thenumber of line of code. To further study, the way to identify the pair of a web page can be done by check-ing the URL or commonality of HTML tags.

Keywords: parallel text, cross language information retrieval, pair scan, parallel text alignment, corpus

1. Pendahuluan

Page 2: Pembangkitan Parallel Text Indonesia-Inggris pada Situs Web

2. Tinjauan Pustaka

Page 3: Pembangkitan Parallel Text Indonesia-Inggris pada Situs Web
Page 4: Pembangkitan Parallel Text Indonesia-Inggris pada Situs Web

H.

4. Hasil Percobaan

Page 5: Pembangkitan Parallel Text Indonesia-Inggris pada Situs Web

No. UjiWeb Page Bahasa Indonesia Web Page Bahasa Inggris Hitung

ManualHasil

PerangkatLunak

Nama File Jumlah Lineof code

Size(Byte)

Nama File Jumlah Lineof code

Size(Byte)

5. Simpulan dan Saran

Page 6: Pembangkitan Parallel Text Indonesia-Inggris pada Situs Web

No Parallel text Indonesia - Inggris

==

Page 7: Pembangkitan Parallel Text Indonesia-Inggris pada Situs Web

Penghargaan

Daftar Pustaka