VO

VOICE RECOGNITION / SPEECH RECOGNITION

1. Pengertian Voice Recognition

Pengenalan ucapan atau suara (speech recognition) adalah suatu

teknik yang memungkinkan sistem komputer untuk menerima input

berupa kata yang diucapkan.

Kata-kata tersebut diubah bentuknya menjadi sinyal digital dengan

cara mengubah gelombang suara menjadi sekumpulan angka lalu

disesuaikan dengan kode-kode tertentu dan dicocokkan dengan suatu pola

yang tersimpan dalam suatu perangkat.

Hasil dari identifikasi kata yang diucapkan dapat ditampilkan

dalam bentuk tulisan atau dapat dibaca oleh perangkat teknologi.

Voice Recognition / Verivication mengidentifikasi siapa yang

berbicara, sedangkan Speech Recognition karena mengidentifikasi apa

yang diucapkannya.

2. History

a. October 1876 Ditemukan Carbon Microphone oleh Thomas Alfa

Edison

b. 1920 ditemukan Analog Recording oleh Thomas Alfa Edison

c. 1988 Sound card untuk komputer pada IBM PC dirilis meninggalkan

PC Speakers

d. 1960 Hidden Markof Model (HMM) digambarkan dalam statistik

lengkap Leonard E. Baum yang kemudian masih disempurnakan lagi

oleh ilmuwan lain.

e. 1970 Salah satu yang pertama aplikasi HM adalah Speech

Recognition.

f. 2007 komputer selain menterjemahkan ucapan kedalam tulisan dapat

juga menterjemahkan ke bahasa lain. Microsoft dan Alcatel-Lucent

memiliki Hak Patent Speech Recognition 2 Maret 2007.

3. Hardware yang Dibutuhkan

a. SoundCard. Soundcard merupakan alat yang ditambahkan dalam suatu

Komputer yang fungsinya sebagai input dan output suara untuk

mengubah sinyal elektrik, menjadi analog maupun menjadi digital.

b. Microphone. Alat untuk mengubah suara yang melewati udara, air dari

benda orang menjadi sinyal elektrik.

c. Processor / Komputer. Dalam proses suara digital menterjemahkan

gelombang suara menjadi suatu simbol biasanya menjadi suatu nomor

biner yang dapat diproses lagi. Saat pengunaan menggunakan

mikrofon, soundcard berkualitas baik, sehingga akan mengurangi noise

yang disebabkan karena terganggu sinyal monitor, pci slots.

4. Prinsip Kerja

Speaker recognition menggunakan fitur akustik ucapan yang

ditemukan berbeda pada setiap orang. Ciri akustik tersebut disebabkan

adanya perbedaan anatomi (seperti bentuk mulut dan tenggorokan) dan

kebiasaan yang berbeda seperti (penekanan dan gaya bahasa). Perbedaan

yang khas tersebut disebut "voiceprints“ yang menjadi suatu metode

biometric.

Skema Utama Speech Recognition, terdapat 4 langkah utama

dalam sistem pengenalan suara :

a. Penerimaan data input.

b. Ekstraksi, yaitu penyimpanan data masukan sekaligus pembuatan

database untuk template.

c. Pembandingan/pencocokan, yaitu tahap pencocokan data baru

dengan data suara (pencocokan tata bahasa) pada template.

d. Validasi identitas pengguna.

http://bluewarrior.files.wordpress.com/2009/11/speech-recognition.jpg

Secara umum, speech recognizer memproses sinyal suara yang

masuk dan menyimpannya dalam bentuk digital. Hasil proses digitalisasi

tersebut kemudian dikonversi dalam bentuk spektrum suara yang akan

dianalisa dengan membandingkan dengan template suara pada database

sistem. Sebelumnya, data suara masukan dipilah-pilah dan diproses satu

per satu berdasarkan urutannya. Pemilahan ini dilakukan agar proses

analisis dapat dilakukan secara paralel.

Speech recognition merupakan salah satu jenis biometric

recognition, yaitu proses komputer mengenali apa yang diucapkan

seseorang berdasarkan intonasi suara yang dikonversi ke dalam bentuk

digital print.

Pengenalan pola suara adalah salah satu aplikasi yang berkembang

saat ini. Sistem ini mengijinkan kita untuk berkomunikasi antara manusia

dengan memasukkan data ke komputer. Salah satu fungsinya adalah untuk

meningkatkan efisiensi industri manufaktur, mengontrol mesin dengan

berbicara pada mesin itu. Algoritma yang diimplementasikan untuk

masalah pengenalan suara ini adalah algoritma divide and conquer. Proses

awalnya adalah mengkonversi data spektrum suara ke dalam bentuk digital

dan mengubah dalam bentuk diskrit.

5. Proses Kerja Alat Pengenal Ucapan

Alat pengenal ucapan memiliki empat tahapan dalam prosesnya,

yaitu :

a. Tahap penerimaan masukan.

Masukan berupa kata-kata yang diucapkan lewat pengeras

suara.

b. Tahap ekstraksi.

Tahap ini adalah tahap penyimpanaan masukan yang berupa

suara sekaligus pembuatan basis data sebagai pola. Proses ekstraksi

dilakukan berdasarkan metode Model Markov Tersembunyi atau

Hidden Markov Model (HMM), yang merupakan model statistik

dari sebuah sistem yang diasumsikan oleh Markov sebagai suatu

proses dengan parameter yang tidak diketahui. Tantangan dalam

model statistik ini adalah menentukan parameter-parameter

tersembunyi dari parameter yang dapat diamati. Parameter-

parameter yang telah kita tentukan kemudian digunakan untuk

analisis yang lebih jauh pada proses pengenalan kata yang

diucapkan. Berdasarkan HMM, proses pengenalan ucapan secara

umum menghasilkan keluaran yang dapat dikarakterisasikan

sebagai sinyal. Sinyal dapat bersifat diskrit (karakter dalam abjad)

maupun kontinu (pengukuran temperatur, alunan musik). Sinyal

dapat pula bersifat stabil (nilai statistiknya tidak berubah terhadap

waktu) maupun nonstabil (nilai sinyal berubah-ubah terhadap

waktu). Dengan melakukan pemodelan terhadap sinyal secara

benar, dapat dilakukan simulasi terhadap masukan dan pelatihan

sebanyak mungkin melalui proses simulasi tersebut sehingga

model dapat diterapkan dalam sistem prediksi, sistem pengenalan,

maupun sistem identifikasi. Secara garis besar model sinyal dapat

dikategorikan menjadi dua golongan, yaitu: model deterministik

dan model statistikal. Model deterministik menggunakan nilai-nilai

properti dari sebuah sinyal seperti: amplitudo, frekuensi, dan fase

dari gelombang sinus. Model statistikal menggunakan nilai-nilai

statistik dari sebuah sinyal seperti: proses Gaussian, proses

Poisson, proses Markov, dan proses Markov Tersembunyi. Suatu

model HMM secara umum memiliki unsur-unsur sebagai berikut:

a) N, yaitu jumlah bagian dalam model. Secara umum bagian

tersebut saling terhubung satu dengan yang lain, dan suatu

bagian bisa mencapai semua bagian yang lain, serta

sebaliknya (disebut dengan model ergodik). Namun hal

tersebut tidak mutlak karena terdapat kondisi lain dimana

suatu bagian hanya bisa berputar ke diri sendiri dan

berpindah ke satu bagian berikutnya. Hal ini bergantung

pada implementasi dari model.

b) M, yaitu jumlah simbol observasi secara unik pada tiap

bagiannya, misalnya: karakter dalam abjad, dimana bagian

diartikan sebagai huruf dalam kata.

c) Probabilita Perpindahan Bagian { } = ij A a

d) Probabilita Simbol Observasi pada bagian j, { } () = j Bb k

e) Inisial Distribusi Bagian i p p

Setelah memberikan nilai N, M, A, B, dan p , maka proses

ekstraksi dapat diurutkan. Berikut adalah tahapan ekstraksi

pengenalan ucapan berdasarkan HMM :

1. Tahap ekstraksi tampilan

Penyaringan sinyal suara dan pengubahan sinyal

suara analog ke digital

2. Tahap tugas pemodelan

Pembuatan suatu model HMM dari data-data yang

berupa sampel ucapan sebuah kata yang sudah berupa

data digital

3. Tahap sistem pengenalan HMM

Penemuan parameter-parameter yang dapat

merepresentasikan sinyal suara untuk analisis lebih

lanjut.

C. Tahap pembandingan

Tahap ini merupakan tahap pencocokan data baru dengan

data suara (pencocokan tata bahasa) pada pola. Tahap ini dimulai

dengan proses konversi sinyal suara digital hasil dari proses

ekstraksi ke dalam bentuk spektrum suara yang akan dianalisa

dengan membandingkannya dengan pola suara pada basis data.

Sebelumnya, data suara masukan dipilah-pilah dan diproses satu

per satu berdasarkan urutannya. Pemilihan ini dilakukan agar

proses analisis dapat dilakukan secara paralel. Proses yang pertama

kali dilakukan ialah memproses gelombang kontinu spektrum suara

ke dalam bentuk diskrit. Langkah berikutnya ialah proses kalkulasi

yang dibagi menjadi dua bagian :

a) Transformasi gelombang diskrit menjadi data yang terurut

Gelombang diskrit berbentuk masukan berukuran n

yang menjadi objek yang akan dibagi pada proses konversi

dengan cara pembagian rincian waktu.

b) Menghitung frekuensi pada tiap elemen data yang terurut

Selanjutnya tiap elemen dari data yang terurut

tersebut dikonversi ke dalam bentuk bilangan biner. Data

biner tersebut nantinya akan dibandingkan dengan pola data

suara dan kemudian diterjemahkan sebagai keluaran yang

dapat berbentuk tulisan ataupun perintah pada perangkat.

D. Tahap validasi identitas pengguna

Alat pengenal ucapan yang sudah memiliki sistem

verifikasi/identifikasi suara akan melakukan identifikasi orang

yang berbicara berdasarkan kata yang diucapkan setelah

menerjemahkan suara tersebut menjadi tulisan atau komando.

6. Bagan Cara Kerja

Dengan menggunakan komputer dan mikrofon untuk merekam

suara sudah cukup, kemudian algoritma software didalamnya akan

menganalisa spektrum suara.

7. Implementasi Voice Recognition

Dapat digunakan sebagai alat investigasi kepolisian, untuk

melakukan crosscheck misal untuk suara seorang kriminal yang

dicocokkan dengan database suara kriminal yang pernah tertangkap di

kepolisian. Jadi hanya untuk mencocokan saja apakah benar-benar orang

tersebut misal bernama Mary yang mengambil uang di ATM setelah suara

terekam dengan alat yang telah disediakan di ATM tersebut.

Masalah Identifikasi Suara dibagi menjadi dua kategori :

a. Membedakan beberapa usara pada saat terjadi percakapan.

b. Identifikasi suara dapat dilakukan dengan proses algoritma

yang komplek, sedangkan jika hanya untuk verifikasi dapat

dilakukan dengan lebih simpel karena hanya dilakukan

dengan membandingkan voiceprint.

8. Future Voice Recognition

a. Semua komputer PC dilengkapi dengan software Voice

Recognition. Jika telah dilengkapi juga dengan hardware

pendukung dapat melakukan perintah hanya dengan suara tanpa

menggunakan keyboard.

b. Kecepatan (satuannya per menit) dan minimnya salah kata, untuk

software Speech recognition.

9. Kelebihan Alat Pengenal Ucapan

Kelebihan dari peralatan yang menggunakan teknologi ini adalah :

a. Cepat

Teknologi ini mempercepat transmisi informasi dan umpan

balik dari transmisi tersebut. Contohnya pada komando suara.

Hanya dalam selang waktu sekitar satu atau dua detik setelah kita

mengkomandokan perintah melalui suara, komputer sudah

memberi umpan balik atas komando kita.

b. Mudah digunakan

Kemudahan teknologi ini juga dapat dilihat dalam aplikasi

komando suara. Komando yang biasanya kita masukkan ke dalam

komputer dengan menggunakan tetikus atau papan ketik kini dapat

dengan mudahnya kita lakukan tanpa perangkat keras, yakni

dengan komando suara.

10. Kekurangan alat pengenal ucapan

Kekurangan dari peralatan yang menggunakan teknologi ini

adalah :

a. Rawan terhadap gangguan

Hal ini disebabkan oleh proses sinyal suara yang masih

berbasis frekuensi. Ketika sebuah informasi dalam sinyal suara

mempunyai komponen frekuensi yang sama banyaknya dengan

komponen frekuensi gangguannya, akan sulit untuk memisahkan

gangguan dari sinyal suara

b. Jumlah kata yang dapat dikenal terbatas

Hal ini disebabkan pengenal ucapan bekerja dengan cara

mencari kemiripan dengan basis data yang dimiliki.

11. Referensi

a. Apolloni, Bruno, Harpri (2003). Neural Nets. Springer-Verlag.

p. 3. ISBN 3540202277.

b. Baecker, Ronald M, Jonathan Grudin, William A. X. Buxton, Saul

Greenberg (1995). Human-Computer Interaction : Toward the

Year 2000 (Second Edition). Morgan Kauffman Publishers, Inc..

p. 546. ISBN 1558602461.

c. Benesty, Jacob, M. Mohan Sondhi, dan Yiteng Huang (2008).

Handbook of Speech Processing. Springer-Verlag. p. 6.

ISBN 159904840X.

d. Jelinek, Frederick (1997). Statistical Methods For Speech

Recognition. Massachusetts Institute of Technology. p. 17.

ISBN 0262100665.

e. Waibel, Alex dan Kai-Fu Lee (1990). Readings in Speech

Recognition. Morgan Kauffman Publishers, Inc.. pp. 1 & 267.

ISBN 1558601244.

VO

Documents

Transcript of VO