TEKS DALAM MULTIMEDIA.pdf

7
MENGGABUNGKAN TEKS DALAM MULTIMEDIA Teks adalah data yang terdiri dari karakter-karakter yang menyatakan kata-kata atau lambang-lambang untuk berkomunikasi oleh manusia dalam bentuk tulisan. Di dalam sistem komputer, teks ini dikodekan dalam suatu standarisasi, seperti ASCII, dimana pada kode tersebut terdapat nilai numerik maupun angka maupun tanda baca, serta simbol lainnya. Teks ini digunakan oleh sistem komputer untuk penyimpanan maupun dalam proses pengiriman datanya. Teks sendiri dibedakan berdasarkan nilai biner yang diolah sedemikian rupa oleh komputer. Contoh dari teks ini adalah karakter yang diperlakukan sebagai karakter abjad yang anda baca. misalnya pada lembar kerja, rumus, dll. Unsur – unsur teks dalam Multimedia yaitu : Teks dalam multimedia di definisikan sebagai data dalam bentuk karakter,dalam hal ini masuk dalam kode ASCII (American Standard Code for Informastion Interchange) dan ASCII Extension seperti UNICODE murni. Dalam peristilahan computer kita mengenal 2 jenis teks, yaitu : 1. PLAIN TEXT (Unformated text). Salah satu software yang bisa digunakan untuk mengetik dalam bentuk plain text atau teks yang sederhana dengan platform windows adalah Notpade.(txt). Teks yang diketik berjenis MIME Text, yaitu teks yang tidak terenkripsi dan tidak

Transcript of TEKS DALAM MULTIMEDIA.pdf

Page 1: TEKS DALAM MULTIMEDIA.pdf

MENGGABUNGKAN TEKS DALAM

MULTIMEDIA

Teks adalah data yang terdiri dari karakter-karakter yang menyatakan kata-kata atau

lambang-lambang untuk berkomunikasi oleh manusia dalam bentuk tulisan.

Di dalam sistem komputer, teks ini dikodekan dalam suatu standarisasi, seperti ASCII,

dimana pada kode tersebut terdapat nilai numerik maupun angka maupun tanda baca,

serta simbol lainnya.

Teks ini digunakan oleh sistem komputer untuk penyimpanan maupun dalam proses

pengiriman datanya.

Teks sendiri dibedakan berdasarkan nilai biner yang diolah sedemikian rupa oleh

komputer. Contoh dari teks ini adalah karakter yang diperlakukan sebagai karakter abjad

yang anda baca. misalnya pada lembar kerja, rumus, dll.

Unsur – unsur teks dalam Multimedia yaitu :

Teks dalam multimedia di definisikan sebagai data dalam bentuk karakter,dalam hal ini

masuk dalam kode ASCII (American Standard Code for Informastion Interchange) dan

ASCII Extension seperti UNICODE murni. Dalam peristilahan computer kita mengenal 2

jenis teks, yaitu :

1. PLAIN TEXT (Unformated text).

Salah satu software yang bisa digunakan untuk mengetik dalam bentuk plain text

atau teks yang sederhana dengan platform windows adalah Notpade.(txt). Teks

yang diketik berjenis MIME Text, yaitu teks yang tidak terenkripsi dan tidak

Page 2: TEKS DALAM MULTIMEDIA.pdf

mengadung berbagai informasi berkaitan dengan sifat dan karakter dari teks,

seperti teks yang mengadung informasi font, Link, image dan lainnya.

Teks dalam hal ini adalah kode ASCII (American Standard Code for Information

Interchange) dan ASCII extension seperti UNICODE murni. Tiap-tiap karakter

direpresentasikan oleh 7 bit “binary digit” (desimal = 0-127).

2. FORMATED TEXT (Rich Text Formatted/RTF)

Adalah serangkaian teks yang sudah terformat sedemikian rupa sehingga

mengandung informasi yang berkaitan dengan sifat dan karakter dari teks tesebut,

seperti teks yang mengandung informasi font (bold, italics, underline, color dan

jenis font). Pada Wordpad plain teks telah diformat sedemikian rupa dengan

menggunakan aturan (tag/tanda) tertentu sehingga teks tersebut dapat dibold,

italics, underline, diwarna, diganti font, dan lain-lain.

The quick brown fox jump over a lazy

dog (pangram)

Lorem ipsum Cicero'sIN Catilinam

(greeking)

Page 3: TEKS DALAM MULTIMEDIA.pdf

Meskipun termasuk ke dalam kelas dokumen teks terformat, format RTF ini tetap

menggunakan standar pengodean ANSI ASCII, PC-8, Macintosh, Unicode atau IBM PC

Character Set untuk mengontrol representasi dan pemformatan dari sebuah dokumen,

baik itu ketika ditampilkan di layar ataupun ketika dicetak di atas kertas. Meskipun

hanya berisi teks biasa, format ini dapat mendukung grafik dan tabel dalam sebuah

dokumen, meski jika dalam dokumen terdapat gambar, ukurannya jauh lebih besar jika

dibandingkan dengan format biner seperti format dokumen biner semacam Microsoft

Word (*.doc) atau StarOffice Writer (*.sxw).

Beberapa aplikasi yang dapat membuat dan membuka format dokumen ini antara lain:

Microsoft Word, mulai dari versi Microsoft Word 95 (versi 7.0) hingga yang terbaru.

Microsoft WordPad, yang merupakan versi Microsoft Word yang dipangkas di sana-

sini.

Microsoft Works, yang merupakan sebuah program all-in-one untuk urusan

pengolahan data di kantor.

OpenOffice.org Write, sebuah pengolah kata yang bersifat open-source.

StarOffice Writer, yang merupakan pendahulu dari OpenOffice.org.

WordPerfect

Page 4: TEKS DALAM MULTIMEDIA.pdf

Contoh dokumen Formated Text / RTF

Terdapat 2 jenis formated text, yaitu bitmapped fonts dan outline fonts.

Cara penulisan Bitmapped Font (Raster Font)

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 1 0 1 1 1 0 0 0 0 0 0 0 0 0 0 1 0 1 1 1 0 0 0 0 0 0 0 0 0 1 0 0 1 1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 1 1 1 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 1 1 0 0 0 0 0 1 0 0 0 0 0 0 1 1 1 0 0 0 0 1 1 1 0 0 0 0 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Page 5: TEKS DALAM MULTIMEDIA.pdf

· HYPERTEXT.

Istilah hypertext pertama kali diperkenalkan pada tahun 1965 oleh Ted Nelson.

Hypertext dapat diartikan sebagai teks yang memiliki fasilitas embedded

information berupa lingking, contoh hypertext :

HTML : HyperText Mark-up Language

Merupakan standard bahasa yang digunakan untuk menampilkan document web.

Yang bisa kita lakukan dengan HTML yaitu:

Mengontrol tampilan dari web page dan contentnya.

Mempublikasikan document secara online sehingga bisa di akses dari seluruh

dunia.

Membuat online form yang bisa di gunakan untuk menangani pendaftaran,

transaksi secara online.

Menambahkan object-object seperti image, audio, video dan juga java applet

dalam document HTML.

Mendukung link (sebuah hubungan dari satu dokumen ke dokumen lain) antar

dokumen. Link pada umunya berwarna biru, dan jika sudah pernah diklik

berwarna ungu.

XML : eXtensible Mark-up Language

XML adalah merupakan suatu bahasa Markup. Markup yaitu bahasa yang berisikan

kode-kode berupa tanda-tanda tertentu dengan aturan tertentu untuk memformat

dokumen teks dengan tag sendiri agar dapat dimengerti.

Perbedaan antara XML dan HTML

Perlu di ingat bahwa:

XML bukan merupakan pengganti HTML.

XML dan HTML yang dirancang dengan tujuan yang berbeda:

Page 6: TEKS DALAM MULTIMEDIA.pdf

XML dirancang untuk transportasi dan menyimpan data, dengan fokus pada apa

data.

HTML dirancang untuk menampilkan data, dengan fokus pada bagaimana data

terlihat.

HTML adalah tentang menampilkan informasi, sedangkan XML adalah

membawa informasi tentang.

TEXT MINING

Text mining merupakan penerapan konsep dan teknik data mining untuk mencari pola

dalam teks. proses penganalisisan teks guna menyarikan informasi yang bermanfaat untuk

tujuan tertentu.

Proses data mining untuk data dokumen atau teks memerlukan lebih banyak tahapan,

mengingat data teks memiliki karakteristik yang lebih kompleks daripada data biasa.

KARAKTERISTIK DOKUMEN TEKS.

Menurut Loreta Auvil dan Duane Searsmith dari University of Illinois, karakteristik

dokumen teks:

Database teks yang berukuran besar,

Memiliki dimensi yang tinggi, yakni satu kata merupakan satu dimensi,

Mengandung kumpulan kata yang saling terkait (frase) dan antara kumpulan

Kata satu dengan lain dapat memiliki arti yang berbeda,

Banyak mengandung kata ataupun arti yang bias (ambiguity),

Dokumen email merupakan dokumen yang tidak memiliki struktur bahasa yang

Baku, karena di dalamnya terkadang muncul istilah slank seperti ”r u there?”,

”helllooo bosss, whatzzzzzzz up?”, dan sebagainya.

Page 7: TEKS DALAM MULTIMEDIA.pdf

PROSES TEXT MINING

Berdasarkan ketidakteraturan struktur data teks, maka proses text mining

memerlukan beberapa tahap awal yang pada intinya adalah mempersiapkan agar

teks dapat diubah menjadi lebih terstruktur.

Bentuk perubahan yang dilakukan adalah ke dalam spreadsheet, kolom menunjuk

dokumen dan baris menunjuk kata, sedangkan selnya menunjuk frekuensi kata

dalam dokumen.

TOKENISASI

Tokenisasi secara garis besar memecah sekumpulan karakter dalam suatu teks ke dalam

satuan kata.

Bagaimana membedakan karakter-karakter tertentu yang dapat diperlakukan

sebagai pemisah kata atau bukan.

Sebagai contoh karakter whitespace, seperti enter, tabulasi, spasi dianggap sebagai

pemisah kata.

Namun untuk karakter petik tunggal ('), titik (.), semikolon (;), titk dua (:) atau

lainnya, dapat memiliki peran yang cukup banyak sebagai pemisah kata.

Sebagai contoh antara “tahu, tempet dan sambal” dengan “100,56”.

Dalam memperlakukan karakter-karakter dalam teks sangat tergantung sekali pada

kontek aplikasi yang dikembangkan.

Pekerjaan tokenisasi ini akan semakin sulit jika juga harus memperhatikan struktur

bahasa (grammatikal).