PENYEBAB DAN DAMPAK VARIATION ORDER (VO) PADA PELAKSANAAN ...
VO
-
Upload
cerita-kehidupan -
Category
Documents
-
view
219 -
download
5
description
Transcript of VO
VOICE RECOGNITION / SPEECH RECOGNITION
1. Pengertian Voice Recognition
Pengenalan ucapan atau suara (speech recognition) adalah suatu
teknik yang memungkinkan sistem komputer untuk menerima input
berupa kata yang diucapkan.
Kata-kata tersebut diubah bentuknya menjadi sinyal digital dengan
cara mengubah gelombang suara menjadi sekumpulan angka lalu
disesuaikan dengan kode-kode tertentu dan dicocokkan dengan suatu pola
yang tersimpan dalam suatu perangkat.
Hasil dari identifikasi kata yang diucapkan dapat ditampilkan
dalam bentuk tulisan atau dapat dibaca oleh perangkat teknologi.
Voice Recognition / Verivication mengidentifikasi siapa yang
berbicara, sedangkan Speech Recognition karena mengidentifikasi apa
yang diucapkannya.
2. History
a. October 1876 Ditemukan Carbon Microphone oleh Thomas Alfa
Edison
b. 1920 ditemukan Analog Recording oleh Thomas Alfa Edison
c. 1988 Sound card untuk komputer pada IBM PC dirilis meninggalkan
PC Speakers
d. 1960 Hidden Markof Model (HMM) digambarkan dalam statistik
lengkap Leonard E. Baum yang kemudian masih disempurnakan lagi
oleh ilmuwan lain.
e. 1970 Salah satu yang pertama aplikasi HM adalah Speech
Recognition.
f. 2007 komputer selain menterjemahkan ucapan kedalam tulisan dapat
juga menterjemahkan ke bahasa lain. Microsoft dan Alcatel-Lucent
memiliki Hak Patent Speech Recognition 2 Maret 2007.
3. Hardware yang Dibutuhkan
a. SoundCard. Soundcard merupakan alat yang ditambahkan dalam suatu
Komputer yang fungsinya sebagai input dan output suara untuk
mengubah sinyal elektrik, menjadi analog maupun menjadi digital.
b. Microphone. Alat untuk mengubah suara yang melewati udara, air dari
benda orang menjadi sinyal elektrik.
c. Processor / Komputer. Dalam proses suara digital menterjemahkan
gelombang suara menjadi suatu simbol biasanya menjadi suatu nomor
biner yang dapat diproses lagi. Saat pengunaan menggunakan
mikrofon, soundcard berkualitas baik, sehingga akan mengurangi noise
yang disebabkan karena terganggu sinyal monitor, pci slots.
4. Prinsip Kerja
Speaker recognition menggunakan fitur akustik ucapan yang
ditemukan berbeda pada setiap orang. Ciri akustik tersebut disebabkan
adanya perbedaan anatomi (seperti bentuk mulut dan tenggorokan) dan
kebiasaan yang berbeda seperti (penekanan dan gaya bahasa). Perbedaan
yang khas tersebut disebut "voiceprints“ yang menjadi suatu metode
biometric.
Skema Utama Speech Recognition, terdapat 4 langkah utama
dalam sistem pengenalan suara :
a. Penerimaan data input.
b. Ekstraksi, yaitu penyimpanan data masukan sekaligus pembuatan
database untuk template.
c. Pembandingan/pencocokan, yaitu tahap pencocokan data baru
dengan data suara (pencocokan tata bahasa) pada template.
d. Validasi identitas pengguna.
Secara umum, speech recognizer memproses sinyal suara yang
masuk dan menyimpannya dalam bentuk digital. Hasil proses digitalisasi
tersebut kemudian dikonversi dalam bentuk spektrum suara yang akan
dianalisa dengan membandingkan dengan template suara pada database
sistem. Sebelumnya, data suara masukan dipilah-pilah dan diproses satu
per satu berdasarkan urutannya. Pemilahan ini dilakukan agar proses
analisis dapat dilakukan secara paralel.
Speech recognition merupakan salah satu jenis biometric
recognition, yaitu proses komputer mengenali apa yang diucapkan
seseorang berdasarkan intonasi suara yang dikonversi ke dalam bentuk
digital print.
Pengenalan pola suara adalah salah satu aplikasi yang berkembang
saat ini. Sistem ini mengijinkan kita untuk berkomunikasi antara manusia
dengan memasukkan data ke komputer. Salah satu fungsinya adalah untuk
meningkatkan efisiensi industri manufaktur, mengontrol mesin dengan
berbicara pada mesin itu. Algoritma yang diimplementasikan untuk
masalah pengenalan suara ini adalah algoritma divide and conquer. Proses
awalnya adalah mengkonversi data spektrum suara ke dalam bentuk digital
dan mengubah dalam bentuk diskrit.
5. Proses Kerja Alat Pengenal Ucapan
Alat pengenal ucapan memiliki empat tahapan dalam prosesnya,
yaitu :
a. Tahap penerimaan masukan.
Masukan berupa kata-kata yang diucapkan lewat pengeras
suara.
b. Tahap ekstraksi.
Tahap ini adalah tahap penyimpanaan masukan yang berupa
suara sekaligus pembuatan basis data sebagai pola. Proses ekstraksi
dilakukan berdasarkan metode Model Markov Tersembunyi atau
Hidden Markov Model (HMM), yang merupakan model statistik
dari sebuah sistem yang diasumsikan oleh Markov sebagai suatu
proses dengan parameter yang tidak diketahui. Tantangan dalam
model statistik ini adalah menentukan parameter-parameter
tersembunyi dari parameter yang dapat diamati. Parameter-
parameter yang telah kita tentukan kemudian digunakan untuk
analisis yang lebih jauh pada proses pengenalan kata yang
diucapkan. Berdasarkan HMM, proses pengenalan ucapan secara
umum menghasilkan keluaran yang dapat dikarakterisasikan
sebagai sinyal. Sinyal dapat bersifat diskrit (karakter dalam abjad)
maupun kontinu (pengukuran temperatur, alunan musik). Sinyal
dapat pula bersifat stabil (nilai statistiknya tidak berubah terhadap
waktu) maupun nonstabil (nilai sinyal berubah-ubah terhadap
waktu). Dengan melakukan pemodelan terhadap sinyal secara
benar, dapat dilakukan simulasi terhadap masukan dan pelatihan
sebanyak mungkin melalui proses simulasi tersebut sehingga
model dapat diterapkan dalam sistem prediksi, sistem pengenalan,
maupun sistem identifikasi. Secara garis besar model sinyal dapat
dikategorikan menjadi dua golongan, yaitu: model deterministik
dan model statistikal. Model deterministik menggunakan nilai-nilai
properti dari sebuah sinyal seperti: amplitudo, frekuensi, dan fase
dari gelombang sinus. Model statistikal menggunakan nilai-nilai
statistik dari sebuah sinyal seperti: proses Gaussian, proses
Poisson, proses Markov, dan proses Markov Tersembunyi. Suatu
model HMM secara umum memiliki unsur-unsur sebagai berikut:
a) N, yaitu jumlah bagian dalam model. Secara umum bagian
tersebut saling terhubung satu dengan yang lain, dan suatu
bagian bisa mencapai semua bagian yang lain, serta
sebaliknya (disebut dengan model ergodik). Namun hal
tersebut tidak mutlak karena terdapat kondisi lain dimana
suatu bagian hanya bisa berputar ke diri sendiri dan
berpindah ke satu bagian berikutnya. Hal ini bergantung
pada implementasi dari model.
b) M, yaitu jumlah simbol observasi secara unik pada tiap
bagiannya, misalnya: karakter dalam abjad, dimana bagian
diartikan sebagai huruf dalam kata.
c) Probabilita Perpindahan Bagian { } = ij A a
d) Probabilita Simbol Observasi pada bagian j, { } () = j Bb k
e) Inisial Distribusi Bagian i p p
Setelah memberikan nilai N, M, A, B, dan p , maka proses
ekstraksi dapat diurutkan. Berikut adalah tahapan ekstraksi
pengenalan ucapan berdasarkan HMM :
1. Tahap ekstraksi tampilan
Penyaringan sinyal suara dan pengubahan sinyal
suara analog ke digital
2. Tahap tugas pemodelan
Pembuatan suatu model HMM dari data-data yang
berupa sampel ucapan sebuah kata yang sudah berupa
data digital
3. Tahap sistem pengenalan HMM
Penemuan parameter-parameter yang dapat
merepresentasikan sinyal suara untuk analisis lebih
lanjut.
C. Tahap pembandingan
Tahap ini merupakan tahap pencocokan data baru dengan
data suara (pencocokan tata bahasa) pada pola. Tahap ini dimulai
dengan proses konversi sinyal suara digital hasil dari proses
ekstraksi ke dalam bentuk spektrum suara yang akan dianalisa
dengan membandingkannya dengan pola suara pada basis data.
Sebelumnya, data suara masukan dipilah-pilah dan diproses satu
per satu berdasarkan urutannya. Pemilihan ini dilakukan agar
proses analisis dapat dilakukan secara paralel. Proses yang pertama
kali dilakukan ialah memproses gelombang kontinu spektrum suara
ke dalam bentuk diskrit. Langkah berikutnya ialah proses kalkulasi
yang dibagi menjadi dua bagian :
a) Transformasi gelombang diskrit menjadi data yang terurut
Gelombang diskrit berbentuk masukan berukuran n
yang menjadi objek yang akan dibagi pada proses konversi
dengan cara pembagian rincian waktu.
b) Menghitung frekuensi pada tiap elemen data yang terurut
Selanjutnya tiap elemen dari data yang terurut
tersebut dikonversi ke dalam bentuk bilangan biner. Data
biner tersebut nantinya akan dibandingkan dengan pola data
suara dan kemudian diterjemahkan sebagai keluaran yang
dapat berbentuk tulisan ataupun perintah pada perangkat.
D. Tahap validasi identitas pengguna
Alat pengenal ucapan yang sudah memiliki sistem
verifikasi/identifikasi suara akan melakukan identifikasi orang
yang berbicara berdasarkan kata yang diucapkan setelah
menerjemahkan suara tersebut menjadi tulisan atau komando.
6. Bagan Cara Kerja
Dengan menggunakan komputer dan mikrofon untuk merekam
suara sudah cukup, kemudian algoritma software didalamnya akan
menganalisa spektrum suara.
7. Implementasi Voice Recognition
Dapat digunakan sebagai alat investigasi kepolisian, untuk
melakukan crosscheck misal untuk suara seorang kriminal yang
dicocokkan dengan database suara kriminal yang pernah tertangkap di
kepolisian. Jadi hanya untuk mencocokan saja apakah benar-benar orang
tersebut misal bernama Mary yang mengambil uang di ATM setelah suara
terekam dengan alat yang telah disediakan di ATM tersebut.
Masalah Identifikasi Suara dibagi menjadi dua kategori :
a. Membedakan beberapa usara pada saat terjadi percakapan.
b. Identifikasi suara dapat dilakukan dengan proses algoritma
yang komplek, sedangkan jika hanya untuk verifikasi dapat
dilakukan dengan lebih simpel karena hanya dilakukan
dengan membandingkan voiceprint.
8. Future Voice Recognition
a. Semua komputer PC dilengkapi dengan software Voice
Recognition. Jika telah dilengkapi juga dengan hardware
pendukung dapat melakukan perintah hanya dengan suara tanpa
menggunakan keyboard.
b. Kecepatan (satuannya per menit) dan minimnya salah kata, untuk
software Speech recognition.
9. Kelebihan Alat Pengenal Ucapan
Kelebihan dari peralatan yang menggunakan teknologi ini adalah :
a. Cepat
Teknologi ini mempercepat transmisi informasi dan umpan
balik dari transmisi tersebut. Contohnya pada komando suara.
Hanya dalam selang waktu sekitar satu atau dua detik setelah kita
mengkomandokan perintah melalui suara, komputer sudah
memberi umpan balik atas komando kita.
b. Mudah digunakan
Kemudahan teknologi ini juga dapat dilihat dalam aplikasi
komando suara. Komando yang biasanya kita masukkan ke dalam
komputer dengan menggunakan tetikus atau papan ketik kini dapat
dengan mudahnya kita lakukan tanpa perangkat keras, yakni
dengan komando suara.
10. Kekurangan alat pengenal ucapan
Kekurangan dari peralatan yang menggunakan teknologi ini
adalah :
a. Rawan terhadap gangguan
Hal ini disebabkan oleh proses sinyal suara yang masih
berbasis frekuensi. Ketika sebuah informasi dalam sinyal suara
mempunyai komponen frekuensi yang sama banyaknya dengan
komponen frekuensi gangguannya, akan sulit untuk memisahkan
gangguan dari sinyal suara
b. Jumlah kata yang dapat dikenal terbatas
Hal ini disebabkan pengenal ucapan bekerja dengan cara
mencari kemiripan dengan basis data yang dimiliki.
11. Referensi
a. Apolloni, Bruno, Harpri (2003). Neural Nets. Springer-Verlag.
p. 3. ISBN 3540202277.
b. Baecker, Ronald M, Jonathan Grudin, William A. X. Buxton, Saul
Greenberg (1995). Human-Computer Interaction : Toward the
Year 2000 (Second Edition). Morgan Kauffman Publishers, Inc..
p. 546. ISBN 1558602461.
c. Benesty, Jacob, M. Mohan Sondhi, dan Yiteng Huang (2008).
Handbook of Speech Processing. Springer-Verlag. p. 6.
ISBN 159904840X.
d. Jelinek, Frederick (1997). Statistical Methods For Speech
Recognition. Massachusetts Institute of Technology. p. 17.
ISBN 0262100665.
e. Waibel, Alex dan Kai-Fu Lee (1990). Readings in Speech
Recognition. Morgan Kauffman Publishers, Inc.. pp. 1 & 267.
ISBN 1558601244.