Pembangkitan Parallel Text Indonesia-Inggris pada Situs Web

Post on 27-Oct-2021

6 views 0 download

Transcript of Pembangkitan Parallel Text Indonesia-Inggris pada Situs Web

Pembangkitan Parallel Text Indonesia-Inggris pada Situs WebElisa Margareth Sibarani1, Noverdy M. Panjaitan2, Sihar J. Purba3, Adelina I. Siagian4, Dede W

Meantini5

1 2 3

4 5

AbstrakParallel text merupakan kumpulan pasangan teks dari dua bahasa yang memiliki makna yang sama.Parallel text digunakan untuk mendukung probabilistic translation model yang dibutuhkan oleh CrossLanguage Information Retrieval (CLIR) dan Machine Translation (MT) untuk menerjemahkan teks kedalam dua bahasa. Pada kajian ini, Parallel text yang dihasilkan dalam bahasa Indonesia dan Inggris.Hasil analisis terhadap tahapan untuk memperoleh Parallel text menyimpulkan ada dua tahapan yangakan dilalui untuk memperoleh Parallel text. Pertama, tahap pair scan yang akan menentukan pasanganweb page, selanjutnya diikuti tahap Parallel text alignment bertujuan untuk memroses pasangan web pageuntuk memperoleh Parallel text. Untuk mengetahui performansi dari hasil analisis yang dilakukan,dibangun sebuah perangkat lunak dengan data masukan dalam bentuk web page dan hasilnya adalahcorpus berisi Parallel text dan disimpan dalam file berekstensi .txt. Hasil percobaan terhadap performansiperangkat lunak dalam memperoleh Parallel text dinyatakan berhasil karena semua Parallel text yang adatelah disimpan ke dalam corpus. Dari kajian yang dilakukan dapat diketahui bahwa cara memperolehParallel text dapat dilakukan dengan membandingkan pasangan web page berdasarkan nama dan ukuranweb page serta jumlah line of code. Untuk kajian selanjutnya dapat menambahkan cara identifikasipasangan web page berdasarkan alamat URL atau memeriksa kesamaan tag HTML.

Kata kunci: parallel text, cross language information retrieval, pair scan, parallel text alignment, corpus

AbstractParallel text is a collection of large texts from two languages that have the same meaning. Parallel text isused to support the probabilistic translation model needed by the Cross Language Information Retrieval(CLIR) and Machine Translation (MT) to translate to other language. In this research, Parallel text pro-duced in Indonesian and English. The result of the analysis is there are two stages needed to obtain Paral-lel text. First, pair scan that will determine the pair of web page, continue with Parallel text alignmentaims to acquire Parallel text from the pair. To determine the performance, software must be built thataccept a web page as the input and the output is a parallel corpus containing text and stored in a file withextension .txt. The experimental results successfully obtaining all the parallel text in the web page and areable to store in the corpus. In conclusion, from the study carried out can be seen that the way to obtain theParallel text can be done by comparing web page based on the name and size of the web page and thenumber of line of code. To further study, the way to identify the pair of a web page can be done by check-ing the URL or commonality of HTML tags.

Keywords: parallel text, cross language information retrieval, pair scan, parallel text alignment, corpus

1. Pendahuluan

2. Tinjauan Pustaka

H.

4. Hasil Percobaan

No. UjiWeb Page Bahasa Indonesia Web Page Bahasa Inggris Hitung

ManualHasil

PerangkatLunak

Nama File Jumlah Lineof code

Size(Byte)

Nama File Jumlah Lineof code

Size(Byte)

5. Simpulan dan Saran

No Parallel text Indonesia - Inggris

==

Penghargaan

Daftar Pustaka