SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA …
of 18
/18
Embed Size (px)
Transcript of SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA …
SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA MENGGUNAKAN MODEL
HIDDEN MARKOV DAN
JARINGAN SY ARAF TIRUAN
SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA MENGGUNAKAN MODEL HIDDEN MARKOV DAN JARINGAN SYARAF TIRUAN. Penggunaan suara untuk mengendalikan peralatan merupakan antarmuka yang efektif clan aman. Telah dikembangkan sistem pengenalan kata secara otomatis untuk sistem pengendali peralatan menggunakan PC yang dilengkapi dengan Digital Signal Processor card. Sistem memungkinkan komputer menangkap suara seseorang clan mengubahnya ke dalam bentuk spektogram. Digital signal processor card dirancang untuk melakukan akuisisi data suara clan perhitungan transformasi Fourier cepat untuk menghasilkan spektogram. Sistem kemudian membandingkan informasi digital yang dihasilkan dengan suatu database suara, baik yang tergantung pada pembicara maupun yang tidak tergantung pada pembicara clan memberikan perintah jawaban yang sesuai kepada pemakai. Metoda Hidden Markov Model (HMM) mampu menangani perubahan statistik daTi suara dengan memodelkan clemen-clemen fonetik kata-kata menggunakan probabilitas. Sinyal suara dikarakterisasi sebagai suatu proses acak dalam bentuk parameter-parameter, di mana parameter tersebut dapat diperkirakan dengan tepat clan dirumuskan dengan baik. Keandalan daTi sistempengenalan kata otomatis akan berkurang secara drastis jika suara terganggu oleh derau. Jaringan syaraftiruan adalah baik digunakan untuk pembelajaran, mengekstraksi ciri, mengklasifikasi masalah clan memperkirakan peluang. Penelitian dilakukan dengan pendekatan campuran yaitu HMM clan jaringan syaraftiruan untuk prakiraan clan optimasi peluang lokal daTi HMM.
Kata kunci: Pengenalan Kata, Jaringan Syaraf, Hidden Markov Model
ABSTRACT
INSTRUMENT CONTROL SYSTEM BY SPEECH COMMAND USING HIDDEN MARKOV MODEL AND ARTIFICIAL NEURAL NETWORK. The use of voice for instrument control is the most effective and safest mode of interface. We develope automatic speech recognition for instrument control system using PC and Digital Signal Processor card. System enables a computer to take a person's voice and convert it into a spectogram. Digital signal processors card are designed specifically to perform speech data acquisition and intensive computation of fast Fourier transform to generate spectogram. The system then compares the resulting digitized information with either a speaker dependent or speaker independent database and provides the user a reponse command. The Hidden Markov Model handles the statistical variations of speech by modelling the phonetic elements of words using probability. The speech signal can be well characterized as a parametric random process, and that the parameters can be estimated in a precise, well-defined manner. The performance of automatic speech recognition systems degrades greatly when speech is corrupted by noise. The artificial neural network
.Pusat Pengembangan Teknologi Infonnasi daD Komputasi -BAT AN
69
Risalah Lokakarya Komputasi dalam gains dan Teknologi Nuklir XIV, Juli 2003 (69-86)
(ANN) is good at learning, feature extraction, classification problems, and probabilistic estimations. Our researc~ ,i,S to have a hybrid approach using the HMM and ANN to estimate and optimize the local probabIlitIes of the HMM.
Key words: Speech Recognation, Neural Networks, Hidden Markov Models. ,
PENDAHULUAN
Pengendalian peralatan menggunakan suara merupakan model komunikasi antara manusia dengan mesin (human machine interface) yang paling efektif terutama untuk yang membutuhkan keamanan clan fleksibilitas tinggi seperti sistem pengendali pada pesawat tempur. Teknologi pengenalan suara memungkinkan komputer menangkap suara seseorang clan mengubahnya menjadi format digital yang dapat dipahami oleh sistem. Sistem kemudian membandingkan informasi digital yang dihasilkan dengan database suara, baik yang tergantung pada pembicara (speaker dependent) maupun yang tidak tergantung pada pembicara (speaker independent) untuk memberikan tanggapan kepada pemakai. Sampai beberapa tahun yang lalu, pengenalan suara selalu tidak akurat, rumit clan mahal. Tetapi dengan kemajuan daTi kecepatan prosesor, digital signal processor (DSP) clan metoda-metoda barn, menyebabkan pengenalan suara tidak lagi sulit clan mahal, tetapi menjadi kenyataan sehari-hari. Penggunaan digital signal processor adalah untuk mempercepat perhitungan daTi operasi-operasi kompleks dalam bentuk sinyal digital.
Sistem pengenalan suara ini menggunakan kartu Digital Signal Processor TMS320C25 untuk mengambil data suara clan kemudian melakukan transformasi Fourier cepat (FFT) untuk mengubah sinyal suara daTi domain waktu menjadi spektrum energi dalam domain frekuensi. Suara ditangkap mikrofon clan ditranformasi menjadi citra dua dimensi (spectogram). Spektogram adalah penggambaran dua dimensi daTi sinyal suara dengan sumbu horisontal menunjukkan waktu, sumbu vertikal menunjukkan frekuensi, clan kerapatan titik menggambarkan amplitudo atau energi akustik. Segmen-segmen fonetik dapat terlihat dengan jelas pada spektogram dengan derajat ketelitian yang tinggi. Pembacaan spektogram melibatkan proses pengambilan keputusan kompleks yang berdasarkan pada pengetahuan mengenai produksi suara. Karena itu dibutuhkan kemampuan untuk mendeteksi himpunan relatif kecil daTi isyarat-isyarat dasar pada spektogram clan penampilan yang berhubungan dengan bentuk gelombang, zero crossing, atau energi terhadap waktu.
Pengenalan suara secara otomatis merupakan satu kemampuan manusia yang saat ini berusaha dikuasai oleh komputer. Beberapa pendekatan telah digunakan dalam memecahkan masalah pengenalan suara secara otomatis ini, yaitu: Dynamic Time Warping (DTW), Hidden Markov Models (HMM) clan Artificial Neural Network (ANN). Model Markov Tersembunyi clan Jaringan Syaraf Tiruan memberikan basil yang terbaik. Metoda jaringan syaraf menyelesaikan pengenalan suara sebagai suatu
70
Sistem Kendali Peralatan dengan Perintah Suara Menggunakan Mode! Hidden (M. Syamsa Ardisasmita)
rnasalah pengklasifikasian fonetik yaitu dengan menemukan batas permukaan- permukaan kompleks antara segmen-segmen suara yang berbeda. Segmen suara ini dapat berupa kata-kata, fonem-fonem atau beberapa klasifikasi lainnya. Sistem klasifikasi pertama kali dilatih dengan sejumlah contoh kelas-kelas fonetik dalam usaha menentukan batas-batas kelas. Pengenalan dilakukan dengan mengumpankan suara masukan ke jaringan untuk menentukan pada kelas keluaran yang mana segmen suara ini menjadi bagian yang paling memungkinkan.
Model Markov Tersembunyi (HMM) menganggap suara sebagai sinyal yang dapat dimodelkan dalam suatu proses stokastik. Dengan mengembangkan sejumlah model yang berbeda untuk setiap segmen suara, maka suara yang datang dapat dibandingkan dengan seluruh model yang ada clan segmen suara yang dikenal adalah yang memiliki kecocokan terbesar. Variabel-variabel suara diberikan juga, walau untuk pembicara tunggal sarna seperti untuk pembicara jarnak, yaitu mempunyai kelas-kelas suara yang berbeda. Teori HMM dikembangkan oleh Baum (1970) adalah untuk pengenalan suara didasarkan pada rantai Markov sebagai suatu model proses statistik. Sistem yang kami rancang melakukan pengenalan suara dalam dua tahap. Tahap pertarna dengan ANN jenis Multi-Layer Perceptron (MLP) untuk memperoleh kelas-kelas fonetik yang tidak tergantung pada pembicara. Tahap kedua menggunakan kelas-kelas fonem sebagai keluaran daTi ANN menjadi urutan vektor-vektor observasi sebagai data masukan bagi sistem pengenalan suara berbasis HMM. Penggunaan MLP di sini adalah untuk membantu mengestimasi probabilitas pengarnatan dengan mengurangi jumlah parameter yang dibutuhkan dalam pemodelan fonetik.
METODA DAN PRINSIP KERJA
Sistem terdiri daTi Personal Computer yang dilengkapi dengan card DSP. Card DSP berfungsi sebagai masukan yaitu untuk akuisisi perintah suara dan berfungsi sebagai keluaran yaitu untuk bertindak sebagai penggerak, untuk itu maka card DSP
dilengkapi dengan mikroprosesor TMS320C25, pengubah analog ke digital (ADC) dan pengubah digital ke analog (DAC). Komunikasi antara card DSP dengan host PC dilakukan melalui instruksi Input/Output Port daTi alamat-alamat masukan/keluaran card DSP. Alamat dasar card DSP dapat dipilih dengan mengatur address jumper pada card tersebut. Komputer host dapat memulai dan menghentikan eksekusi TMS320C25, mengakses RAM TMS320C25 dan menginterupsi kerja TMS320C25. Usaha mempercepat waktu perhitungan transformasi Fourier telah dilakukan yaitu dengan membuat algoritma Transformasi Fourier Cepat (Fast Fourier Transform) atau disingkat FFT seperti yang dilakukan oleh Cooley- Tukey. Algoritma FFT didasarkan pada pengfaktoran matriks yaitu pada perkalian dan penambahan yang mempunyai faktor bobot yang sarna. Besamya peningkatan kecepatan perhitungan dengan algoritma FFT adalah Nflog N kali dari transformasi Fourier langsung.
71
Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XN, Juli 2003
Gambar Bagan sistem pengenalan suara
TMS320C25 merupakan keluarga DSP Texas Instruments TMS320, yaitu mikroprosesor CMOS pertama yang dapat mengeksekusi lebih dari 10 juta instruksi per detik. Kemampuan ini adalah basil dari penggabungan arsitektur perangkat keras, penerapan pengolahan paralel yang disebut pipelining disertai sejumlah kumpulan instruksi pemrograman yang efisien dan mudah untuk dimengerti. Arsitektur TMS320 menggunakan ripe Harvard yang dimodifikasi. Arsitektur ripe Harvard memisahkan struktur bus data dan bus program untuk memberikan kemampuan eksekusi dengan kecepatan penuh, serta menempatkan memori data dan memori program di dua tempat terpisah. Hal ini memugkinkan pelaksanaan program dengan urutan serentak. Misalnya jika ada 3 instruksi yang akan dieksekusi secara berurutan, maka teknik pipelining akan mengambil instruksi ketiga, menerjemahkan instruksi kedua dan mengeksekusi intsruksi pertama secara serentak dalam satu siklus mesin. Modifikasi tipe Harvard pada keluarga TMS320 memungkinkan adanya pertukaran data antara memori data dengan memori program yang lebih fleksibel.
Suara adalah penggabungan dari sejumlah getaran yang mengubah tekanan udara ke telinga. Jumlah getaran per detik disebut frekuensi yang diukur dalam siklus per detik (Hertz). Suara merupakan kombinasi dari nada-nada yang berbeda di mana setiap nada memberikan spektrum tersendiri dalam domain frekuensi. Batas tertinggi dari amplitudo spektrum frekuensi disebut dengan formant. Setiap nada mempunyai formant khusus pada lokasi-iokasi frekuensi tertentu, terutama huruf-huruf hidup. Kualitas dari suatu suara ditentukan oleh rentang frekuensi dan warna suara yaitu komposisi dari frekuensi-frekuensi penyusun bunyi. Jenis suara yang dihasilkan sangat dipengaruhi oleh segmen-segmen bunyi yang disebut dengan fonem yang membentuk formant. Formant disebut juga sebagai segmen-segmen fonetik suara yaitu frekuensi resonansi jalur lintasan suara pada manusia. Suara manusia memiliki banyak formant. Bunyi suatu kata sangat dipengaruhi oleh tiga formant dasar pertama (Fl, F2 dan F3), sedangkan warna bunyi ditentukan oleh formant frekuensi tinggi di atasnya. Komposisi formant-format dari ucapan kata seseorang dapat dijadikan sebagai kunci biometri yang bersifat unik, yaitu sistem yang tergantung pada pembicara (dependent
speaker).
72
Sistem Kenda!i Peralatan dengan Perintah Suara Menggunakan Mode! Hidden (M. Syamsa Ardisasmita)
Fr~q\Jenc)' [kH~J
Gambar 2. Formant suara manusia
Transfonnasi Fourier merupakan perangkat matematika penting dalam pengolahan sinyal yaitu untuk menghubungkan antara domain spasial dengan domain frekuensi. Gelombang suara dapat dianalisis dengan transformasi Fourier. Analisis Fourier dari gelombang suara dapat menunjukkan struktur frekuensi dasar atau fundamental daTi gelombang tersebut dan harmonisa-harmonisanya. Transformasi Fourier menghubungkan antara sinyal suara dalam domain waktu dengan spektrum energinya dalam domain frekuensi. Transformasi Fourier yang diterapkan pada cuplikan sinyal suara sebagai fungsi waktu akan menghasilkan spektogram yaitu tampilan energi akustik (daerah hitam) sebagai fungsi daTi waktu (sumbu-x) dan frekuensi (sumbu-y) seperti pada Gambar 3.
Gambar 3. Spektogram suara daTi kata "syamsa"
73
Risalah i.A:>kakarya Komputasi dalam Sains daD Teknologi Nuklir XN, Juli 2003
Gambar 4. Spektogram dua pembicara, tiga formant pertama sangat mirip
Gambar 4 memperlihatkan spektogram dua orang pembicara, pembicara satu clan pembicara dua. Untuk memperoleh suara yang tidak tergantung pada pembicara (speaker independent) cukup diambil tiga formant pertama daTi pembentuk suara dengan menggunakan filter pelewat rendah (low-pass filter). Filter digunakan untuk menghilangkan spektrum-spektrum sinyal yang tidak dikehendaki clan memperbaiki sinyal yang diinginkan. Dari Gambar 4 dapat ditunjukkan bahwa dalam suatu kata terlihat bahwa bentuk tiga formant dasar pertama adalah sangat mirip.
PRINSIP KLASIFlKASI DAN PENGENALAN SUARA
Pengenalan suara dapat dilakukan melalui tiga tahap. Tahap pertama adalah pembentukan spektral suara yang disebut dengan spektogram. Sinyal suara ditangkap oleh mikrofon, kemudian didigitasi dan ditransformasi menjadi segmen-segmen suara oleh suatu pengolah sinyal digital ke dalam bentuk spektogram. Jaringan syaraf tiruan digunakan untuk menganalisis spektral ciri suara yaitu menyelesaikan pengenalan suara sebagai suatu masalah pengklasifikasian fonetik. Pengenalan dilakukan dengan menentukan pada kelas mana segmen suara, berupa fonem, menjadi bagian yang paling memungkinkan daTi suatu kata. Model Markov Tersembunyi memodelkan
74
Sistem Kendali Peralatan dengan Perintah Suara Menggunakan Model Hidden (M. Syamsa Ardisasmita)
struktur temporal daTi urutan sinyal fonetik suara ke dalam model-model kata. Segmen fonetik suara yang dikenal adalah yang memiliki kecocokan terbesar dengan seluruh model kata yang ada. Dengan melakukan kombinasi daTi dua metoda di atas diperoleh peningkatan pengenalan clan ketelitian daTi sistem pengenalan suara sebagai fungsi daTi jumlah data pelatihan clan ukuran jaringan syaraf yang digunakan.
Pembentukan Spektral (Filter)
Jaringan Syaraf Tiruan (ANN)
Klasifikasi clan pengenalan suara dilakukan secara bertingkat. Pertama kelas- kelas fonetik diklasifikasikan menggunakan jaringan syaraf tiruan jenis Multi-Layer Perceptron (MLP) yaitu model jaringan dengan hubungan bertingkat di mana unit-unit neuron dikelompokkan menjadi beberapa lapisan, biasanya dikelompokkan menjadi tiga bagian yaitu: lapisan masukan (input layer), lapisan tersembunyi (hidden layer) dan lapisan keluaran (output layer). Umumnya jaringan yang lebih rurnit akan merniliki kemampuan yang lebih tinggi. Gambar 6 memperlihatkan skema keIja dari MLP yaitu melakukan klasifikasi sinyal suara yang telah ditransformasi ke domain frekuensi dengan algoritma FFT menjadi bentuk spektogram yang telah dinormalisasi. Normalisasi dari keseluruhan spektogram bekeIja dengan cara berbeda-beda sepanjang sumbu waktu dan frekuensi. Skala waktu dimampatkan secara tinier, sedangkan nilai- nilai komponen frekuensi dikelompokkan ke dalam pita-pita yang berbeda. Lebar pitanya tidak tetap, tetapi berubah secara eksponensial menurut besar frekuensi.
Sinyal Suara
Multilayer Perceptron
Kelas-kelas FonetikSpektogram
75
Risalah Lokakarya Kornputasi dalam gains dan Teknologi Nuklir XN, Juli 2003
Untuk mendefinisikan suatu pengklasifikasian ganda yang memberikan derajat kepercayaan tertentu, kita barns memperoleh sejumlah estimasi dari post-probabilitas P(XECi/X), (i=l, ..., M) daTi keluaran-keluaran jaringan. Cara sederhana untuk menggabungkan K pengklasifikasi adalah dengan membangun pengklasifikasi rata- rata dengan suatu post-probabilitas yang barn:
1 K
\J=
Jika tidak, maka jaringan merupakan pengklasifikasi sintaktik yang hasilnya hanya berupa label yang menandakan kelas yang paling mungkin. Dalam kasus ini kesalahan jaringan memainkan peran yang sangat penting.
Keandalan daTi suatu Jaringan Syaraf Tiruan biasanya dibatasi oleh beberapa faktor, antara lain:
-Tidak memadainya jumlah data dan pelatihan.
-Sensitifnya sistem terhadap kondisi lingkungan.
-Ketidak cermatan pada prosedur pelatihan.
-Adanya pengaruh derau (noise). Beberapa faktor di atas dapat di atasi dengan teknik-teknik tertentu. Penggunaan skema cross-validation atau data tiruan untuk pelatihan dapat meningkatkan keandalan dari jaringan syaraf. Masalahnya adalah kedua teknik pendekatan tersebut didasarkan pada interpretasi probabilistik dan tidak ada jaminan untuk basil akhir. Karena itu MLP di sini digunakan untuk pengklasifikasian awal daTi sistem pengenalan suara.
Hidden Markov Model (HMM)
Sistem Kendali Peralatan dengan Perintah Suara Menggunakan Model Hidden (M. Syarnsa Ardisasmita)
Model Markov Tersembunyi (HMM) adalah suatu proses deterministik atau stokastik yang memodelkan fenomena acak yang bervariasi terhadap waktu atau struktur temporal daTi urutan sinyal terhadap waktu farik. HMM akan mencocokkan estimasi probabilistik dengan model vektor-vektor berurutan keluaran daTi suatu proses acak yang menjadi bagian dari rantai Markov. Rantai Markov adalah suatu struktur yang terdiri dari entitas-entitas stationer yang disebut keadaan (state). Transisi antara atau di dalam suatu keadaan adalah suatu probabilistik. HMM mempunyai dua komponen utama: rantai markov keadaan hingga (finite state) dan himpunan hingga daTi distribusi probabilitas keluaran.
Sistem pengenalan suara menganggap sinyal suara sebagai urutan satu atau lebih simbol-simbol atau segmen-segmen suara (fonem) yang dikodekan (Gambar 7). Dalam proses parametrisasi, suatu bentuk gelombang suara kontinyu diubah menjadi vektor-vektor parameter suara diskrit. Sedangkan proses pengenalan melakukan pemetaan antara vektor-vektor suara berurutan dan urutan simbol-simbol yang diinginkan. Ada dua masalah yang menyebabkan pengenalan seperti ini cukup sulit. Peftama, pemetaan antara simbol-simbol ke suara bukan pemetaan satu-ke-satu, karena urutan simbol-simbol berbeda dapat memberikan suara yang mirip. Selain itu ada variasi gelombang suara cukup besar disebabkan oleh misalnya gaya bicara, emosi dan kondisi lingkungan. Kedua, batas-batas antara simbol dalam bentuk gelombang tidak dapat diidentifikasi secara jelas. Permasalahan ini dikenal sebagai masalah lokasi batas-batas kata pada sinyal suara. Hal ini dapat dihindari dengan menerapkan pengenalan kata secara terisolasi.
Pengenalan Kata Terisolasi
Misal suatu ucapan kata didefinisikan sebagai vektor-vektor suara berurutan atau pengarnatan 0, yaitu:
(2)0 = 0\, °2, , OT
dengan OT adalah vektor suara yang diamati pada waktu T. Masalah pengenalan kata terisolasi dapat dilihat sebagai suatu perhitungan probabilitas posterior:
arg~{p(CJ)j IO)} (3) 1
dengan ffij adalah kosa kata ke-i. Probabilitas ini tidak dihitung langsung tetapi melalui aturan Bayes:
P(o>.IO)= P(OIO>j)P(O>j) (4) I P(O)
Jadi untuk suatu probabilitas P( roJ, peluang kata yang diucapkan tergantung hanya pada probabilitas keserupaan (likelihood) P(roj I 0). Masalah untuk memperkirakan
77
Risalah Lokakarya Komputasi dalam gains daD Teknologi Nuklir XN. Juli 2003
kondisi kelas kerapatan pengamatan P(roj I 0) diganti menjadi masalah lebih sederhana untuk mengestimasi parameter -parameter model Markov.
a22 a33 344 ass Model Markov
M 323 356~ a34 a45
, I "I \
" a241 "'35\ \ '. I I \ \ 'I I I \ \
,b2(DJ~b2(DJ Ib3(o3).lb4(DJ\b4(DS) \\bS(D~, " "" O~~~~~~Si D D D D D D
0] 02 03 04 05 06
Gambar 8. Model pembangkit Markov
Dalam pengenalan suara berbasis HMM, diumpamakan vektor-vektor suara yang diamati berhubungan dengan setiap kata yang dibangkitkan oleh model Markov seperti pada Gambar 8. Di sini diperlihatkan proses di mana enam model keadaan bergerak melalui suatu urutan keadaan X = 1, 2, 2, 3, 4, 4, 5, 6 dalam rangka membangkitkan urutan 01 sampai 06. Maka urutan keadaan X adalah:
P(O, x I M) = alzbz(oJ + azzbz(oz) + az3b3(O3) +... (5)
Dalam praktek, hanya urutan pengamatan 0 yang diketahui clan urutan keadaan X bersifat tersembunyi. Oleh karena itu mengapa metoda ini disebut sebagai Model Markov Tersembunyi.
Jika X tidak diketahui, keserupaan yang dibutuhkan dapat dihitung dengan menjumlahkan seluruh kemungkinan urutan keadaan X = x(l), x(2), x(3), ..., x(T),
yaitu: T
P(O I M) = L aX(O)X(I)I1bX(I)(ol) a X(I) x(t+l) (6) x 1=1
dengan x(O) dibatasi sebagai model keadaan jalan masuk sedangkan x(T+ 1) dibatasi sebagai model keadaan jalan keluar. Probabilitas kemiripan dapat didekati dengan hanya menggunakan urutan keadaan yang paling serupa:
78
Sistem Kendali Peralatan dengan Perintah Suara Menggunakan Model Hidden (M. Syamsa Ardisasmita)
P(OIM)=~x{aX(O)X(l)gbX(t)(Ot)aX(t)X(t+l)} (7)
Misal suatu himpunan model Mi berhubungan dengan kata-kata Wi, persamaan 2 dapat diselesaikan dengan menggunakan persamaan (3) dan menganggap bahwa:
P(O I wJ = P(O I MJ (8)
Dengan menganggap parameter-parameter {~j} dan {bj(oJ} diketahui untuk setiap model Mj dan dengan suatu pelatihan untuk setiap kosa kata, maka probabilitas kemiripan untuk setiap model yang membangkitkan kata tersebut dihitung dan model yang paling mirip akan mengidentifikasi kata tersebut.
satu
2. DODD
dua
DODD
DODOO
DODOO
tiga
DDDDDD
DDDDD
Mz ! M3
Gambar 9. Contoh pelatihan
Gambar 9 memperlihatkan contoh pelatihan HMM menggunakan kosa kata yang terdiri daTi tiga kata: "satu", "dua" dan "tiga". Dari pelatihan ill diperoleh model-model estimasi M\, M2 dan M3. Kemudian untuk melakukan pengenalan daTi beberapa kata yang tidak dikenal, probabilitas kemiripan akan membangkitkan setiap model daTi kata tersebut dan melakukan perhitungan sehingga model yang paling mirip akan mengidentifikasi kata tersebut (Gambar 10).
Tidak diketahui:
0=000000
79
Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XN, Juli 2003
Kembali kita pada model konsep produksi dan pengenalan suara yang ditunjukkan pada gambar 6, adalah jelas bahwa pengembangan untuk pengenalan suara pembicaraan yang kontinyu adalah dengan menghubungkan beberapa HMM secara bersama-sama secara berurutan. Setiap model dalam urutan berhubungan langsung dengan perumpamaan simbol yang mendasari yaitu fonem-fonem untuk pengenalan suara kontinyu. Data pelatihan untuk pengenalan suara kontinyu harus terdiri daTi ucapan-ucapan yang kontinyu dan umumnya batas-batas yang membagi segmen-segmen suara yang berhubungan dengan setiap model fonem dalam urutan ternyata tidak diketahui. Dalam praktek biasanya batas-batas pada sejumlah kecil data pelatihan diberi tanda secara manual dengan tangan. Seluruh segmen yang berhubungan dengan model tersebut dapat dikenal dan kata terisolasi basil pelatihan yang digambarkan di atas dapat digunakan. Biasanya jumlah data yang diperoleh dengan cara ini sangat terbatas dan model-model yang dihasilkan akan miskin dengan perkiraan-perkiraan. Walaupun menggunakan jumlah data yang lebih besar, batas- batas yang dibuat dengan tangan tidak akan optimal selama terkait dengan HMM.
BASIL DAN DISKUSI
Suara yang masuk melalui mikrofon difilter untuk mencegah aliasing clan untuk mereduksi derau. Sinyal suara kemudian dicuplik dengan frekuensi sampling 22.050 Hz clan kemudian diubah ke dalam bentuk digital. Pembentukan spektral dilakukan dengan transformasi Fourier cepat (FFT) daTi 1024 titik secara on-line oleh card DSP, sehingga diperoleh spektrum suara dalam bentuk spektogram. Gambar 11 memperlihatkan kotak dialog untuk mengatur paramater-parameter yang dibutuhkan untuk penfilteran, pencuplikan clan FFT.
Gambar 11. Kotak dialog untuk analisis spektral
80
Sistem Kendali Peralatan dengan Perintah Suara Menggunakan Model Hidden (M. Syamsa Ardisasmita)
Prosedur pertama adalah melatih ANN dengan sejumlah kosa kata dari beberapa pembicara. ANN yang digunakan adalah jenis MLP dengan 50 neuron di lapisan tersembunyi dan 10 neuron di lapisan keluaran. Ada beberapa parameter-parameter suara yang dapat dianalisis, misalnya: spektogram, zero crossing, profil pitch, dan energi. Parameter suara yang digunakan adalah spektogram karena memberikan basil yang terbaik dibandingkan dengan menggunakan diagram energi atau diagram zero
crossing. Tabell. Perbandingan basil pengenalan suara
Pengenalan 85 % 86% 90%
ANN HMM ANN+HMM ,
Perbandingan hasil dan proses pengenalan suara antara sistem pengenalan suara berbasis ANN, HMM dan gabungan ANN dengan HMM ditunjukkan pada Tabell. Kita dapat lihat kelebihan daTi HMM terhadap ANN dengan 86% pengenalan dan 75% ketelitian, sedangkan ANN dengan 85% pengenalan tetapi hanya 53% ketelitian disebabkan adanya penyisipan yang cukup besar (32%) yang sebagian besar disebabkan oleh segmen-segmen yang muncul secara singkat. ANN melakukan klasifikasi dengan baik tetapi menghasilkan keluaran yang penuh derau dan banyak penyisipan-penyisipan. HMM menghilangkan sebagian besar penyisipan tersebut karena mempunyai selang waktu dan kemampuan pemodelan dalam domain waktu yang lebih baik. Penggabungan daTi dua sistem ini memberikan keuntungan pada sistem pengenalan suara yaitu memberikan 90% pengenalan dan 86% ketelitian.
Gambar 12. Dekoder penga1amatan clan PPI 8255A
81
Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XIV, Juli 2003
Sistem pengenalan suara tersebut dihubungkan dengan dekoder pengalamatan yaitu untuk mengarahkan tujuan dari perintah yang disalurkan melalui antarmuka
periferal terprogram (Programmable Peripheral Interface) PPI 8255A. Perintah dapat berupa tombol untuk mengaktifkan suatu motor, menyalakan lampu, atau mengfungsikan detektor, bisa juga berupa kode misalnya untuk menggerakkan posisi suatu step-motor atau arab robot mobil. Penggunaannya yang lain adalah pada sistem pengamanan akses di mana pintu hanya dapat terbuka jika suara yang diucapkan sudah mendapat otoritas sesuai dengan data suara yang tersimpan dalam database komputer sebagai basil dari suatu pelatihan.
KESIMPULAN
Telah berhasil direalisasikan sistem pengenalan suara untuk mengendalikan suatu peralatan, baik berupa tombol maupun kode digital dengan tingkat keberhasilan yang cukup baik. Pada sistem pengenalan berbasis ANN, persentase kesalahan adalah fungsi daTi jumlah data pelatihan clan besar lapisan tersembunyi yang digunakan. Derau latar belakang yang cukup besar dapat mengurangi tingkat pengenalan, karena ANN hanya didasarkan pada interpretasi probabilistik sehingga tidak ada jaminan untuk basil akhir. Oleh sebab itu, ANN di sini hanya digunakan untuk pengklasifikasian awal daTi sistem pengenalan suara.
Pada HMM standar, sebagian besar parameter dari distribusi pengamatan berhubungan dengan keadaan individual daTi setiap model fonem, sehingga secara statistik menjadi pembatas keandalan HMM. Penggunaan ANN jenis MLP adalah untuk mendapatkan kelas-kelas fonetik untuk memperkirakan probabilitas keserupaan pengamatan yang akan meningkatkan ketelitian clan mengurangi kebutuhan memori daTi sistem pengenalan suara berbasis HMM. Kombinasi daTi dua metoda di atas dapat meningkatkan pengenalan clan ketelitian daTi sistem pengenalan suara.
DAFTARPUSTAKA
ACERO, A., STERN, R.M., "Environmental Robustness in Automatic Speech Recognition ", Proc. IEEE Int. Conf. Acoustics, Speech and Signal Processing, Albuquerque, NM, April, (1990) 849-852
2. BAHL, L.R., BROWN, P.F., SOUZA, P. V. DE, and MERCER, R.L., "Speech recognition with continuous-parameter hidden markov models", In Alex Waibel editors, Readings in Speech Recognition. Morgan Kaufmann Publishers, Inc., 1990.
82
Sistem Kendali Peralatan dengan Perintah Suara Menggunakan Model Hidden (M. Syamsa Ardisasmita)
3 BENGIO, Y., CARDIN, R., MORI, R. DE, NORMANDIN, R., "A hybrid coder for hidden markov models using a recurreat neural network", Proc. of the International Conference on Acoustic, Speech and Signal Processing, Albuquerque, (1990) 537-540
4. RENALS, S., MORGAN, N., COHEN, M., and FRANCO, H., "Connectionist Probabilit stimation in the DECIPHER Speech Recognition System", ICASSP, San Francisco, (1992) 601-604
5 COSTA, M., FILIPPI, E., PASERO, E., "Multi-Layer PerceptIon ensemble for pattern recognation: some experiments", Proc. of IEEE Int. Con! on Neural Network.\', Vol. Vll, (1994) 4232-4236
6. BOURLARD, H., MORGAN, N.; Connectionist Speech Recognition-A Hybrid Approach. Kluwer Academic Press, 1994
7. YOUNG, S. et al., The Hidden Markov Model Toolkit Book (for HTK version 3.1), Cambridge University Engineering Departement, London, 2002.
8. ARDISASMITA. M. Syamsa., "Pengenalan Suara Secara Otomatis Menggunakan Hidden Markov dan Jaringan Syaraf Tiruan", Prosiding Ilmu Komputer dan Teknologi Informasi III, Jakarta, 3 (I) (2002)
83
Risalah Lokakarya Komputasi dalam gains clan Teknologi Nuklir XN, Juli 2003
DAFTARRIWAYATHIDUP
2. Tempattranggal Lahir : Bandung, 28 Oktober 1957
3. Instansi : P2TIK-BATAN
5. Riwayat Pendidikan : (setelah SMU sampai sekarang)
.S1 Bidang Fisika Instrumentasi, FMIPA-UI
.S2 (DEA) Bidang Elektonika Pengolah Sinyal, Univ. Montpellier, Perancis
.S3 Bidang Informatika Industri, Universitas Montpellier, Perancis
6. Pengalaman Kerja :
.Kabid Sistem Komputer-PPI BATAN
.Fungsional Peneliti Bidang Pengolahan Citra Digital 7. Organisasi Profesional :
.Himpunan Masyarakat Nuklir Indonesia (HIMNI)
.Himpunan Fisikawan Indonesia (HF!)
.International Society for Optical Engineering (SPIE)
.International Imaging Science clan Technology (IS&T)
.Anggota Dewan Riset Daerah, Propinsi Baten
84
Sistem Kendali Peralatan dengan Perintah Suara Menggunakan Model Hidden (M. Syarnsa Ardisasrnita)
DISKUSI
ABU KHALill RIV AI
Apakah perbedaan model Hidden Markov dan model ANN juga termasuk perbedaan alat atau material yang digunakan? Jika berbeda, di mana letak perbedaannya yang mendasar.
M. SY AMSA ARDISASMIT A
Alat atau material yang digunakan adalah sarna yaitu Personal Computer yang dilengkapi dengan kartu DSP. Yang berbeda adalah metoda matematika atau program yang digunakan.
UTAJA
M. SY AMSA ARDISASMU A
Ketelitian digitasi suara ditentukan oleh resolusi/jumlah bit ADC (Analog-to-Digital Converter) yang digunakan. Kualitas daTi mikrofon menentukan sedikit atau besarnya derau (noise) pada sinyal suara. Tentu saja hat ini penting, karena besamya derau dapat menyebabkan kegagalan atau penyisipan pada waktu pengenalan kata.
GUNANDJAR
1 Kalau program ini bisa berhasil dapat menggantikan sistem Remote Controle (dengan cara pejet tombol) untuk mengendalikan alat, apakah lebih efektif?
2, Bila berhasil, alangkah sangat bermanfaatnya hila orang pidato/ceramah otomatis keluar tulisan (sehingga pembuatan naskah pidato dilakukan tanpa mengetik).
85
Sistem Kendali Peralatan dengan Perintah Suara Menggunakan Model Hidden (M. Syarnsa Ardisasmita)
M. SY AMSA ARDISASMIT A
1. Efektivitas dari penggunaan perintah suara pertama adalah masalah ergonomi, misalnya pada pengendali peralatan pesawat tempur di mana pilot pesawat diharuskan berkonsentrasi pada obyek yang diamati sambil memberikan perintah- perintah melalui suara yang tidak mengganggu konsentrasi pandang yang bersangkutan. Yang kedua adalah dari segi keamanan di mana sistem kendali hanya dapat diperintah oleh pembicara tertentu (speaker dependent).
2.
Pada saat ini Microsoft sudah menyertakan sistem pengenalan suara kontinyu pada produk Microsoft Office XP yang dapat mengganti fungsi penulisan kata- kata daTi penekanan keyboard menjadi penangkapan kata-kata daTi suara pembicara oleh mikrofon yang dihubungkan ke soundcard komputer. Permasalahannya Microsoft belum membuat pengenalan suara berbahasa mdonesia jadi belum dapat untuk membuat pengetikan otomatis menggunakan suara dalam bahasa mdonesia. Fasilitas inilah yang barns kita buat sendiri.
86
JARINGAN SY ARAF TIRUAN
SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA MENGGUNAKAN MODEL HIDDEN MARKOV DAN JARINGAN SYARAF TIRUAN. Penggunaan suara untuk mengendalikan peralatan merupakan antarmuka yang efektif clan aman. Telah dikembangkan sistem pengenalan kata secara otomatis untuk sistem pengendali peralatan menggunakan PC yang dilengkapi dengan Digital Signal Processor card. Sistem memungkinkan komputer menangkap suara seseorang clan mengubahnya ke dalam bentuk spektogram. Digital signal processor card dirancang untuk melakukan akuisisi data suara clan perhitungan transformasi Fourier cepat untuk menghasilkan spektogram. Sistem kemudian membandingkan informasi digital yang dihasilkan dengan suatu database suara, baik yang tergantung pada pembicara maupun yang tidak tergantung pada pembicara clan memberikan perintah jawaban yang sesuai kepada pemakai. Metoda Hidden Markov Model (HMM) mampu menangani perubahan statistik daTi suara dengan memodelkan clemen-clemen fonetik kata-kata menggunakan probabilitas. Sinyal suara dikarakterisasi sebagai suatu proses acak dalam bentuk parameter-parameter, di mana parameter tersebut dapat diperkirakan dengan tepat clan dirumuskan dengan baik. Keandalan daTi sistempengenalan kata otomatis akan berkurang secara drastis jika suara terganggu oleh derau. Jaringan syaraftiruan adalah baik digunakan untuk pembelajaran, mengekstraksi ciri, mengklasifikasi masalah clan memperkirakan peluang. Penelitian dilakukan dengan pendekatan campuran yaitu HMM clan jaringan syaraftiruan untuk prakiraan clan optimasi peluang lokal daTi HMM.
Kata kunci: Pengenalan Kata, Jaringan Syaraf, Hidden Markov Model
ABSTRACT
INSTRUMENT CONTROL SYSTEM BY SPEECH COMMAND USING HIDDEN MARKOV MODEL AND ARTIFICIAL NEURAL NETWORK. The use of voice for instrument control is the most effective and safest mode of interface. We develope automatic speech recognition for instrument control system using PC and Digital Signal Processor card. System enables a computer to take a person's voice and convert it into a spectogram. Digital signal processors card are designed specifically to perform speech data acquisition and intensive computation of fast Fourier transform to generate spectogram. The system then compares the resulting digitized information with either a speaker dependent or speaker independent database and provides the user a reponse command. The Hidden Markov Model handles the statistical variations of speech by modelling the phonetic elements of words using probability. The speech signal can be well characterized as a parametric random process, and that the parameters can be estimated in a precise, well-defined manner. The performance of automatic speech recognition systems degrades greatly when speech is corrupted by noise. The artificial neural network
.Pusat Pengembangan Teknologi Infonnasi daD Komputasi -BAT AN
69
Risalah Lokakarya Komputasi dalam gains dan Teknologi Nuklir XIV, Juli 2003 (69-86)
(ANN) is good at learning, feature extraction, classification problems, and probabilistic estimations. Our researc~ ,i,S to have a hybrid approach using the HMM and ANN to estimate and optimize the local probabIlitIes of the HMM.
Key words: Speech Recognation, Neural Networks, Hidden Markov Models. ,
PENDAHULUAN
Pengendalian peralatan menggunakan suara merupakan model komunikasi antara manusia dengan mesin (human machine interface) yang paling efektif terutama untuk yang membutuhkan keamanan clan fleksibilitas tinggi seperti sistem pengendali pada pesawat tempur. Teknologi pengenalan suara memungkinkan komputer menangkap suara seseorang clan mengubahnya menjadi format digital yang dapat dipahami oleh sistem. Sistem kemudian membandingkan informasi digital yang dihasilkan dengan database suara, baik yang tergantung pada pembicara (speaker dependent) maupun yang tidak tergantung pada pembicara (speaker independent) untuk memberikan tanggapan kepada pemakai. Sampai beberapa tahun yang lalu, pengenalan suara selalu tidak akurat, rumit clan mahal. Tetapi dengan kemajuan daTi kecepatan prosesor, digital signal processor (DSP) clan metoda-metoda barn, menyebabkan pengenalan suara tidak lagi sulit clan mahal, tetapi menjadi kenyataan sehari-hari. Penggunaan digital signal processor adalah untuk mempercepat perhitungan daTi operasi-operasi kompleks dalam bentuk sinyal digital.
Sistem pengenalan suara ini menggunakan kartu Digital Signal Processor TMS320C25 untuk mengambil data suara clan kemudian melakukan transformasi Fourier cepat (FFT) untuk mengubah sinyal suara daTi domain waktu menjadi spektrum energi dalam domain frekuensi. Suara ditangkap mikrofon clan ditranformasi menjadi citra dua dimensi (spectogram). Spektogram adalah penggambaran dua dimensi daTi sinyal suara dengan sumbu horisontal menunjukkan waktu, sumbu vertikal menunjukkan frekuensi, clan kerapatan titik menggambarkan amplitudo atau energi akustik. Segmen-segmen fonetik dapat terlihat dengan jelas pada spektogram dengan derajat ketelitian yang tinggi. Pembacaan spektogram melibatkan proses pengambilan keputusan kompleks yang berdasarkan pada pengetahuan mengenai produksi suara. Karena itu dibutuhkan kemampuan untuk mendeteksi himpunan relatif kecil daTi isyarat-isyarat dasar pada spektogram clan penampilan yang berhubungan dengan bentuk gelombang, zero crossing, atau energi terhadap waktu.
Pengenalan suara secara otomatis merupakan satu kemampuan manusia yang saat ini berusaha dikuasai oleh komputer. Beberapa pendekatan telah digunakan dalam memecahkan masalah pengenalan suara secara otomatis ini, yaitu: Dynamic Time Warping (DTW), Hidden Markov Models (HMM) clan Artificial Neural Network (ANN). Model Markov Tersembunyi clan Jaringan Syaraf Tiruan memberikan basil yang terbaik. Metoda jaringan syaraf menyelesaikan pengenalan suara sebagai suatu
70
Sistem Kendali Peralatan dengan Perintah Suara Menggunakan Mode! Hidden (M. Syamsa Ardisasmita)
rnasalah pengklasifikasian fonetik yaitu dengan menemukan batas permukaan- permukaan kompleks antara segmen-segmen suara yang berbeda. Segmen suara ini dapat berupa kata-kata, fonem-fonem atau beberapa klasifikasi lainnya. Sistem klasifikasi pertama kali dilatih dengan sejumlah contoh kelas-kelas fonetik dalam usaha menentukan batas-batas kelas. Pengenalan dilakukan dengan mengumpankan suara masukan ke jaringan untuk menentukan pada kelas keluaran yang mana segmen suara ini menjadi bagian yang paling memungkinkan.
Model Markov Tersembunyi (HMM) menganggap suara sebagai sinyal yang dapat dimodelkan dalam suatu proses stokastik. Dengan mengembangkan sejumlah model yang berbeda untuk setiap segmen suara, maka suara yang datang dapat dibandingkan dengan seluruh model yang ada clan segmen suara yang dikenal adalah yang memiliki kecocokan terbesar. Variabel-variabel suara diberikan juga, walau untuk pembicara tunggal sarna seperti untuk pembicara jarnak, yaitu mempunyai kelas-kelas suara yang berbeda. Teori HMM dikembangkan oleh Baum (1970) adalah untuk pengenalan suara didasarkan pada rantai Markov sebagai suatu model proses statistik. Sistem yang kami rancang melakukan pengenalan suara dalam dua tahap. Tahap pertarna dengan ANN jenis Multi-Layer Perceptron (MLP) untuk memperoleh kelas-kelas fonetik yang tidak tergantung pada pembicara. Tahap kedua menggunakan kelas-kelas fonem sebagai keluaran daTi ANN menjadi urutan vektor-vektor observasi sebagai data masukan bagi sistem pengenalan suara berbasis HMM. Penggunaan MLP di sini adalah untuk membantu mengestimasi probabilitas pengarnatan dengan mengurangi jumlah parameter yang dibutuhkan dalam pemodelan fonetik.
METODA DAN PRINSIP KERJA
Sistem terdiri daTi Personal Computer yang dilengkapi dengan card DSP. Card DSP berfungsi sebagai masukan yaitu untuk akuisisi perintah suara dan berfungsi sebagai keluaran yaitu untuk bertindak sebagai penggerak, untuk itu maka card DSP
dilengkapi dengan mikroprosesor TMS320C25, pengubah analog ke digital (ADC) dan pengubah digital ke analog (DAC). Komunikasi antara card DSP dengan host PC dilakukan melalui instruksi Input/Output Port daTi alamat-alamat masukan/keluaran card DSP. Alamat dasar card DSP dapat dipilih dengan mengatur address jumper pada card tersebut. Komputer host dapat memulai dan menghentikan eksekusi TMS320C25, mengakses RAM TMS320C25 dan menginterupsi kerja TMS320C25. Usaha mempercepat waktu perhitungan transformasi Fourier telah dilakukan yaitu dengan membuat algoritma Transformasi Fourier Cepat (Fast Fourier Transform) atau disingkat FFT seperti yang dilakukan oleh Cooley- Tukey. Algoritma FFT didasarkan pada pengfaktoran matriks yaitu pada perkalian dan penambahan yang mempunyai faktor bobot yang sarna. Besamya peningkatan kecepatan perhitungan dengan algoritma FFT adalah Nflog N kali dari transformasi Fourier langsung.
71
Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XN, Juli 2003
Gambar Bagan sistem pengenalan suara
TMS320C25 merupakan keluarga DSP Texas Instruments TMS320, yaitu mikroprosesor CMOS pertama yang dapat mengeksekusi lebih dari 10 juta instruksi per detik. Kemampuan ini adalah basil dari penggabungan arsitektur perangkat keras, penerapan pengolahan paralel yang disebut pipelining disertai sejumlah kumpulan instruksi pemrograman yang efisien dan mudah untuk dimengerti. Arsitektur TMS320 menggunakan ripe Harvard yang dimodifikasi. Arsitektur ripe Harvard memisahkan struktur bus data dan bus program untuk memberikan kemampuan eksekusi dengan kecepatan penuh, serta menempatkan memori data dan memori program di dua tempat terpisah. Hal ini memugkinkan pelaksanaan program dengan urutan serentak. Misalnya jika ada 3 instruksi yang akan dieksekusi secara berurutan, maka teknik pipelining akan mengambil instruksi ketiga, menerjemahkan instruksi kedua dan mengeksekusi intsruksi pertama secara serentak dalam satu siklus mesin. Modifikasi tipe Harvard pada keluarga TMS320 memungkinkan adanya pertukaran data antara memori data dengan memori program yang lebih fleksibel.
Suara adalah penggabungan dari sejumlah getaran yang mengubah tekanan udara ke telinga. Jumlah getaran per detik disebut frekuensi yang diukur dalam siklus per detik (Hertz). Suara merupakan kombinasi dari nada-nada yang berbeda di mana setiap nada memberikan spektrum tersendiri dalam domain frekuensi. Batas tertinggi dari amplitudo spektrum frekuensi disebut dengan formant. Setiap nada mempunyai formant khusus pada lokasi-iokasi frekuensi tertentu, terutama huruf-huruf hidup. Kualitas dari suatu suara ditentukan oleh rentang frekuensi dan warna suara yaitu komposisi dari frekuensi-frekuensi penyusun bunyi. Jenis suara yang dihasilkan sangat dipengaruhi oleh segmen-segmen bunyi yang disebut dengan fonem yang membentuk formant. Formant disebut juga sebagai segmen-segmen fonetik suara yaitu frekuensi resonansi jalur lintasan suara pada manusia. Suara manusia memiliki banyak formant. Bunyi suatu kata sangat dipengaruhi oleh tiga formant dasar pertama (Fl, F2 dan F3), sedangkan warna bunyi ditentukan oleh formant frekuensi tinggi di atasnya. Komposisi formant-format dari ucapan kata seseorang dapat dijadikan sebagai kunci biometri yang bersifat unik, yaitu sistem yang tergantung pada pembicara (dependent
speaker).
72
Sistem Kenda!i Peralatan dengan Perintah Suara Menggunakan Mode! Hidden (M. Syamsa Ardisasmita)
Fr~q\Jenc)' [kH~J
Gambar 2. Formant suara manusia
Transfonnasi Fourier merupakan perangkat matematika penting dalam pengolahan sinyal yaitu untuk menghubungkan antara domain spasial dengan domain frekuensi. Gelombang suara dapat dianalisis dengan transformasi Fourier. Analisis Fourier dari gelombang suara dapat menunjukkan struktur frekuensi dasar atau fundamental daTi gelombang tersebut dan harmonisa-harmonisanya. Transformasi Fourier menghubungkan antara sinyal suara dalam domain waktu dengan spektrum energinya dalam domain frekuensi. Transformasi Fourier yang diterapkan pada cuplikan sinyal suara sebagai fungsi waktu akan menghasilkan spektogram yaitu tampilan energi akustik (daerah hitam) sebagai fungsi daTi waktu (sumbu-x) dan frekuensi (sumbu-y) seperti pada Gambar 3.
Gambar 3. Spektogram suara daTi kata "syamsa"
73
Risalah i.A:>kakarya Komputasi dalam Sains daD Teknologi Nuklir XN, Juli 2003
Gambar 4. Spektogram dua pembicara, tiga formant pertama sangat mirip
Gambar 4 memperlihatkan spektogram dua orang pembicara, pembicara satu clan pembicara dua. Untuk memperoleh suara yang tidak tergantung pada pembicara (speaker independent) cukup diambil tiga formant pertama daTi pembentuk suara dengan menggunakan filter pelewat rendah (low-pass filter). Filter digunakan untuk menghilangkan spektrum-spektrum sinyal yang tidak dikehendaki clan memperbaiki sinyal yang diinginkan. Dari Gambar 4 dapat ditunjukkan bahwa dalam suatu kata terlihat bahwa bentuk tiga formant dasar pertama adalah sangat mirip.
PRINSIP KLASIFlKASI DAN PENGENALAN SUARA
Pengenalan suara dapat dilakukan melalui tiga tahap. Tahap pertama adalah pembentukan spektral suara yang disebut dengan spektogram. Sinyal suara ditangkap oleh mikrofon, kemudian didigitasi dan ditransformasi menjadi segmen-segmen suara oleh suatu pengolah sinyal digital ke dalam bentuk spektogram. Jaringan syaraf tiruan digunakan untuk menganalisis spektral ciri suara yaitu menyelesaikan pengenalan suara sebagai suatu masalah pengklasifikasian fonetik. Pengenalan dilakukan dengan menentukan pada kelas mana segmen suara, berupa fonem, menjadi bagian yang paling memungkinkan daTi suatu kata. Model Markov Tersembunyi memodelkan
74
Sistem Kendali Peralatan dengan Perintah Suara Menggunakan Model Hidden (M. Syamsa Ardisasmita)
struktur temporal daTi urutan sinyal fonetik suara ke dalam model-model kata. Segmen fonetik suara yang dikenal adalah yang memiliki kecocokan terbesar dengan seluruh model kata yang ada. Dengan melakukan kombinasi daTi dua metoda di atas diperoleh peningkatan pengenalan clan ketelitian daTi sistem pengenalan suara sebagai fungsi daTi jumlah data pelatihan clan ukuran jaringan syaraf yang digunakan.
Pembentukan Spektral (Filter)
Jaringan Syaraf Tiruan (ANN)
Klasifikasi clan pengenalan suara dilakukan secara bertingkat. Pertama kelas- kelas fonetik diklasifikasikan menggunakan jaringan syaraf tiruan jenis Multi-Layer Perceptron (MLP) yaitu model jaringan dengan hubungan bertingkat di mana unit-unit neuron dikelompokkan menjadi beberapa lapisan, biasanya dikelompokkan menjadi tiga bagian yaitu: lapisan masukan (input layer), lapisan tersembunyi (hidden layer) dan lapisan keluaran (output layer). Umumnya jaringan yang lebih rurnit akan merniliki kemampuan yang lebih tinggi. Gambar 6 memperlihatkan skema keIja dari MLP yaitu melakukan klasifikasi sinyal suara yang telah ditransformasi ke domain frekuensi dengan algoritma FFT menjadi bentuk spektogram yang telah dinormalisasi. Normalisasi dari keseluruhan spektogram bekeIja dengan cara berbeda-beda sepanjang sumbu waktu dan frekuensi. Skala waktu dimampatkan secara tinier, sedangkan nilai- nilai komponen frekuensi dikelompokkan ke dalam pita-pita yang berbeda. Lebar pitanya tidak tetap, tetapi berubah secara eksponensial menurut besar frekuensi.
Sinyal Suara
Multilayer Perceptron
Kelas-kelas FonetikSpektogram
75
Risalah Lokakarya Kornputasi dalam gains dan Teknologi Nuklir XN, Juli 2003
Untuk mendefinisikan suatu pengklasifikasian ganda yang memberikan derajat kepercayaan tertentu, kita barns memperoleh sejumlah estimasi dari post-probabilitas P(XECi/X), (i=l, ..., M) daTi keluaran-keluaran jaringan. Cara sederhana untuk menggabungkan K pengklasifikasi adalah dengan membangun pengklasifikasi rata- rata dengan suatu post-probabilitas yang barn:
1 K
\J=
Jika tidak, maka jaringan merupakan pengklasifikasi sintaktik yang hasilnya hanya berupa label yang menandakan kelas yang paling mungkin. Dalam kasus ini kesalahan jaringan memainkan peran yang sangat penting.
Keandalan daTi suatu Jaringan Syaraf Tiruan biasanya dibatasi oleh beberapa faktor, antara lain:
-Tidak memadainya jumlah data dan pelatihan.
-Sensitifnya sistem terhadap kondisi lingkungan.
-Ketidak cermatan pada prosedur pelatihan.
-Adanya pengaruh derau (noise). Beberapa faktor di atas dapat di atasi dengan teknik-teknik tertentu. Penggunaan skema cross-validation atau data tiruan untuk pelatihan dapat meningkatkan keandalan dari jaringan syaraf. Masalahnya adalah kedua teknik pendekatan tersebut didasarkan pada interpretasi probabilistik dan tidak ada jaminan untuk basil akhir. Karena itu MLP di sini digunakan untuk pengklasifikasian awal daTi sistem pengenalan suara.
Hidden Markov Model (HMM)
Sistem Kendali Peralatan dengan Perintah Suara Menggunakan Model Hidden (M. Syarnsa Ardisasmita)
Model Markov Tersembunyi (HMM) adalah suatu proses deterministik atau stokastik yang memodelkan fenomena acak yang bervariasi terhadap waktu atau struktur temporal daTi urutan sinyal terhadap waktu farik. HMM akan mencocokkan estimasi probabilistik dengan model vektor-vektor berurutan keluaran daTi suatu proses acak yang menjadi bagian dari rantai Markov. Rantai Markov adalah suatu struktur yang terdiri dari entitas-entitas stationer yang disebut keadaan (state). Transisi antara atau di dalam suatu keadaan adalah suatu probabilistik. HMM mempunyai dua komponen utama: rantai markov keadaan hingga (finite state) dan himpunan hingga daTi distribusi probabilitas keluaran.
Sistem pengenalan suara menganggap sinyal suara sebagai urutan satu atau lebih simbol-simbol atau segmen-segmen suara (fonem) yang dikodekan (Gambar 7). Dalam proses parametrisasi, suatu bentuk gelombang suara kontinyu diubah menjadi vektor-vektor parameter suara diskrit. Sedangkan proses pengenalan melakukan pemetaan antara vektor-vektor suara berurutan dan urutan simbol-simbol yang diinginkan. Ada dua masalah yang menyebabkan pengenalan seperti ini cukup sulit. Peftama, pemetaan antara simbol-simbol ke suara bukan pemetaan satu-ke-satu, karena urutan simbol-simbol berbeda dapat memberikan suara yang mirip. Selain itu ada variasi gelombang suara cukup besar disebabkan oleh misalnya gaya bicara, emosi dan kondisi lingkungan. Kedua, batas-batas antara simbol dalam bentuk gelombang tidak dapat diidentifikasi secara jelas. Permasalahan ini dikenal sebagai masalah lokasi batas-batas kata pada sinyal suara. Hal ini dapat dihindari dengan menerapkan pengenalan kata secara terisolasi.
Pengenalan Kata Terisolasi
Misal suatu ucapan kata didefinisikan sebagai vektor-vektor suara berurutan atau pengarnatan 0, yaitu:
(2)0 = 0\, °2, , OT
dengan OT adalah vektor suara yang diamati pada waktu T. Masalah pengenalan kata terisolasi dapat dilihat sebagai suatu perhitungan probabilitas posterior:
arg~{p(CJ)j IO)} (3) 1
dengan ffij adalah kosa kata ke-i. Probabilitas ini tidak dihitung langsung tetapi melalui aturan Bayes:
P(o>.IO)= P(OIO>j)P(O>j) (4) I P(O)
Jadi untuk suatu probabilitas P( roJ, peluang kata yang diucapkan tergantung hanya pada probabilitas keserupaan (likelihood) P(roj I 0). Masalah untuk memperkirakan
77
Risalah Lokakarya Komputasi dalam gains daD Teknologi Nuklir XN. Juli 2003
kondisi kelas kerapatan pengamatan P(roj I 0) diganti menjadi masalah lebih sederhana untuk mengestimasi parameter -parameter model Markov.
a22 a33 344 ass Model Markov
M 323 356~ a34 a45
, I "I \
" a241 "'35\ \ '. I I \ \ 'I I I \ \
,b2(DJ~b2(DJ Ib3(o3).lb4(DJ\b4(DS) \\bS(D~, " "" O~~~~~~Si D D D D D D
0] 02 03 04 05 06
Gambar 8. Model pembangkit Markov
Dalam pengenalan suara berbasis HMM, diumpamakan vektor-vektor suara yang diamati berhubungan dengan setiap kata yang dibangkitkan oleh model Markov seperti pada Gambar 8. Di sini diperlihatkan proses di mana enam model keadaan bergerak melalui suatu urutan keadaan X = 1, 2, 2, 3, 4, 4, 5, 6 dalam rangka membangkitkan urutan 01 sampai 06. Maka urutan keadaan X adalah:
P(O, x I M) = alzbz(oJ + azzbz(oz) + az3b3(O3) +... (5)
Dalam praktek, hanya urutan pengamatan 0 yang diketahui clan urutan keadaan X bersifat tersembunyi. Oleh karena itu mengapa metoda ini disebut sebagai Model Markov Tersembunyi.
Jika X tidak diketahui, keserupaan yang dibutuhkan dapat dihitung dengan menjumlahkan seluruh kemungkinan urutan keadaan X = x(l), x(2), x(3), ..., x(T),
yaitu: T
P(O I M) = L aX(O)X(I)I1bX(I)(ol) a X(I) x(t+l) (6) x 1=1
dengan x(O) dibatasi sebagai model keadaan jalan masuk sedangkan x(T+ 1) dibatasi sebagai model keadaan jalan keluar. Probabilitas kemiripan dapat didekati dengan hanya menggunakan urutan keadaan yang paling serupa:
78
Sistem Kendali Peralatan dengan Perintah Suara Menggunakan Model Hidden (M. Syamsa Ardisasmita)
P(OIM)=~x{aX(O)X(l)gbX(t)(Ot)aX(t)X(t+l)} (7)
Misal suatu himpunan model Mi berhubungan dengan kata-kata Wi, persamaan 2 dapat diselesaikan dengan menggunakan persamaan (3) dan menganggap bahwa:
P(O I wJ = P(O I MJ (8)
Dengan menganggap parameter-parameter {~j} dan {bj(oJ} diketahui untuk setiap model Mj dan dengan suatu pelatihan untuk setiap kosa kata, maka probabilitas kemiripan untuk setiap model yang membangkitkan kata tersebut dihitung dan model yang paling mirip akan mengidentifikasi kata tersebut.
satu
2. DODD
dua
DODD
DODOO
DODOO
tiga
DDDDDD
DDDDD
Mz ! M3
Gambar 9. Contoh pelatihan
Gambar 9 memperlihatkan contoh pelatihan HMM menggunakan kosa kata yang terdiri daTi tiga kata: "satu", "dua" dan "tiga". Dari pelatihan ill diperoleh model-model estimasi M\, M2 dan M3. Kemudian untuk melakukan pengenalan daTi beberapa kata yang tidak dikenal, probabilitas kemiripan akan membangkitkan setiap model daTi kata tersebut dan melakukan perhitungan sehingga model yang paling mirip akan mengidentifikasi kata tersebut (Gambar 10).
Tidak diketahui:
0=000000
79
Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XN, Juli 2003
Kembali kita pada model konsep produksi dan pengenalan suara yang ditunjukkan pada gambar 6, adalah jelas bahwa pengembangan untuk pengenalan suara pembicaraan yang kontinyu adalah dengan menghubungkan beberapa HMM secara bersama-sama secara berurutan. Setiap model dalam urutan berhubungan langsung dengan perumpamaan simbol yang mendasari yaitu fonem-fonem untuk pengenalan suara kontinyu. Data pelatihan untuk pengenalan suara kontinyu harus terdiri daTi ucapan-ucapan yang kontinyu dan umumnya batas-batas yang membagi segmen-segmen suara yang berhubungan dengan setiap model fonem dalam urutan ternyata tidak diketahui. Dalam praktek biasanya batas-batas pada sejumlah kecil data pelatihan diberi tanda secara manual dengan tangan. Seluruh segmen yang berhubungan dengan model tersebut dapat dikenal dan kata terisolasi basil pelatihan yang digambarkan di atas dapat digunakan. Biasanya jumlah data yang diperoleh dengan cara ini sangat terbatas dan model-model yang dihasilkan akan miskin dengan perkiraan-perkiraan. Walaupun menggunakan jumlah data yang lebih besar, batas- batas yang dibuat dengan tangan tidak akan optimal selama terkait dengan HMM.
BASIL DAN DISKUSI
Suara yang masuk melalui mikrofon difilter untuk mencegah aliasing clan untuk mereduksi derau. Sinyal suara kemudian dicuplik dengan frekuensi sampling 22.050 Hz clan kemudian diubah ke dalam bentuk digital. Pembentukan spektral dilakukan dengan transformasi Fourier cepat (FFT) daTi 1024 titik secara on-line oleh card DSP, sehingga diperoleh spektrum suara dalam bentuk spektogram. Gambar 11 memperlihatkan kotak dialog untuk mengatur paramater-parameter yang dibutuhkan untuk penfilteran, pencuplikan clan FFT.
Gambar 11. Kotak dialog untuk analisis spektral
80
Sistem Kendali Peralatan dengan Perintah Suara Menggunakan Model Hidden (M. Syamsa Ardisasmita)
Prosedur pertama adalah melatih ANN dengan sejumlah kosa kata dari beberapa pembicara. ANN yang digunakan adalah jenis MLP dengan 50 neuron di lapisan tersembunyi dan 10 neuron di lapisan keluaran. Ada beberapa parameter-parameter suara yang dapat dianalisis, misalnya: spektogram, zero crossing, profil pitch, dan energi. Parameter suara yang digunakan adalah spektogram karena memberikan basil yang terbaik dibandingkan dengan menggunakan diagram energi atau diagram zero
crossing. Tabell. Perbandingan basil pengenalan suara
Pengenalan 85 % 86% 90%
ANN HMM ANN+HMM ,
Perbandingan hasil dan proses pengenalan suara antara sistem pengenalan suara berbasis ANN, HMM dan gabungan ANN dengan HMM ditunjukkan pada Tabell. Kita dapat lihat kelebihan daTi HMM terhadap ANN dengan 86% pengenalan dan 75% ketelitian, sedangkan ANN dengan 85% pengenalan tetapi hanya 53% ketelitian disebabkan adanya penyisipan yang cukup besar (32%) yang sebagian besar disebabkan oleh segmen-segmen yang muncul secara singkat. ANN melakukan klasifikasi dengan baik tetapi menghasilkan keluaran yang penuh derau dan banyak penyisipan-penyisipan. HMM menghilangkan sebagian besar penyisipan tersebut karena mempunyai selang waktu dan kemampuan pemodelan dalam domain waktu yang lebih baik. Penggabungan daTi dua sistem ini memberikan keuntungan pada sistem pengenalan suara yaitu memberikan 90% pengenalan dan 86% ketelitian.
Gambar 12. Dekoder penga1amatan clan PPI 8255A
81
Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XIV, Juli 2003
Sistem pengenalan suara tersebut dihubungkan dengan dekoder pengalamatan yaitu untuk mengarahkan tujuan dari perintah yang disalurkan melalui antarmuka
periferal terprogram (Programmable Peripheral Interface) PPI 8255A. Perintah dapat berupa tombol untuk mengaktifkan suatu motor, menyalakan lampu, atau mengfungsikan detektor, bisa juga berupa kode misalnya untuk menggerakkan posisi suatu step-motor atau arab robot mobil. Penggunaannya yang lain adalah pada sistem pengamanan akses di mana pintu hanya dapat terbuka jika suara yang diucapkan sudah mendapat otoritas sesuai dengan data suara yang tersimpan dalam database komputer sebagai basil dari suatu pelatihan.
KESIMPULAN
Telah berhasil direalisasikan sistem pengenalan suara untuk mengendalikan suatu peralatan, baik berupa tombol maupun kode digital dengan tingkat keberhasilan yang cukup baik. Pada sistem pengenalan berbasis ANN, persentase kesalahan adalah fungsi daTi jumlah data pelatihan clan besar lapisan tersembunyi yang digunakan. Derau latar belakang yang cukup besar dapat mengurangi tingkat pengenalan, karena ANN hanya didasarkan pada interpretasi probabilistik sehingga tidak ada jaminan untuk basil akhir. Oleh sebab itu, ANN di sini hanya digunakan untuk pengklasifikasian awal daTi sistem pengenalan suara.
Pada HMM standar, sebagian besar parameter dari distribusi pengamatan berhubungan dengan keadaan individual daTi setiap model fonem, sehingga secara statistik menjadi pembatas keandalan HMM. Penggunaan ANN jenis MLP adalah untuk mendapatkan kelas-kelas fonetik untuk memperkirakan probabilitas keserupaan pengamatan yang akan meningkatkan ketelitian clan mengurangi kebutuhan memori daTi sistem pengenalan suara berbasis HMM. Kombinasi daTi dua metoda di atas dapat meningkatkan pengenalan clan ketelitian daTi sistem pengenalan suara.
DAFTARPUSTAKA
ACERO, A., STERN, R.M., "Environmental Robustness in Automatic Speech Recognition ", Proc. IEEE Int. Conf. Acoustics, Speech and Signal Processing, Albuquerque, NM, April, (1990) 849-852
2. BAHL, L.R., BROWN, P.F., SOUZA, P. V. DE, and MERCER, R.L., "Speech recognition with continuous-parameter hidden markov models", In Alex Waibel editors, Readings in Speech Recognition. Morgan Kaufmann Publishers, Inc., 1990.
82
Sistem Kendali Peralatan dengan Perintah Suara Menggunakan Model Hidden (M. Syamsa Ardisasmita)
3 BENGIO, Y., CARDIN, R., MORI, R. DE, NORMANDIN, R., "A hybrid coder for hidden markov models using a recurreat neural network", Proc. of the International Conference on Acoustic, Speech and Signal Processing, Albuquerque, (1990) 537-540
4. RENALS, S., MORGAN, N., COHEN, M., and FRANCO, H., "Connectionist Probabilit stimation in the DECIPHER Speech Recognition System", ICASSP, San Francisco, (1992) 601-604
5 COSTA, M., FILIPPI, E., PASERO, E., "Multi-Layer PerceptIon ensemble for pattern recognation: some experiments", Proc. of IEEE Int. Con! on Neural Network.\', Vol. Vll, (1994) 4232-4236
6. BOURLARD, H., MORGAN, N.; Connectionist Speech Recognition-A Hybrid Approach. Kluwer Academic Press, 1994
7. YOUNG, S. et al., The Hidden Markov Model Toolkit Book (for HTK version 3.1), Cambridge University Engineering Departement, London, 2002.
8. ARDISASMITA. M. Syamsa., "Pengenalan Suara Secara Otomatis Menggunakan Hidden Markov dan Jaringan Syaraf Tiruan", Prosiding Ilmu Komputer dan Teknologi Informasi III, Jakarta, 3 (I) (2002)
83
Risalah Lokakarya Komputasi dalam gains clan Teknologi Nuklir XN, Juli 2003
DAFTARRIWAYATHIDUP
2. Tempattranggal Lahir : Bandung, 28 Oktober 1957
3. Instansi : P2TIK-BATAN
5. Riwayat Pendidikan : (setelah SMU sampai sekarang)
.S1 Bidang Fisika Instrumentasi, FMIPA-UI
.S2 (DEA) Bidang Elektonika Pengolah Sinyal, Univ. Montpellier, Perancis
.S3 Bidang Informatika Industri, Universitas Montpellier, Perancis
6. Pengalaman Kerja :
.Kabid Sistem Komputer-PPI BATAN
.Fungsional Peneliti Bidang Pengolahan Citra Digital 7. Organisasi Profesional :
.Himpunan Masyarakat Nuklir Indonesia (HIMNI)
.Himpunan Fisikawan Indonesia (HF!)
.International Society for Optical Engineering (SPIE)
.International Imaging Science clan Technology (IS&T)
.Anggota Dewan Riset Daerah, Propinsi Baten
84
Sistem Kendali Peralatan dengan Perintah Suara Menggunakan Model Hidden (M. Syarnsa Ardisasrnita)
DISKUSI
ABU KHALill RIV AI
Apakah perbedaan model Hidden Markov dan model ANN juga termasuk perbedaan alat atau material yang digunakan? Jika berbeda, di mana letak perbedaannya yang mendasar.
M. SY AMSA ARDISASMIT A
Alat atau material yang digunakan adalah sarna yaitu Personal Computer yang dilengkapi dengan kartu DSP. Yang berbeda adalah metoda matematika atau program yang digunakan.
UTAJA
M. SY AMSA ARDISASMU A
Ketelitian digitasi suara ditentukan oleh resolusi/jumlah bit ADC (Analog-to-Digital Converter) yang digunakan. Kualitas daTi mikrofon menentukan sedikit atau besarnya derau (noise) pada sinyal suara. Tentu saja hat ini penting, karena besamya derau dapat menyebabkan kegagalan atau penyisipan pada waktu pengenalan kata.
GUNANDJAR
1 Kalau program ini bisa berhasil dapat menggantikan sistem Remote Controle (dengan cara pejet tombol) untuk mengendalikan alat, apakah lebih efektif?
2, Bila berhasil, alangkah sangat bermanfaatnya hila orang pidato/ceramah otomatis keluar tulisan (sehingga pembuatan naskah pidato dilakukan tanpa mengetik).
85
Sistem Kendali Peralatan dengan Perintah Suara Menggunakan Model Hidden (M. Syarnsa Ardisasmita)
M. SY AMSA ARDISASMIT A
1. Efektivitas dari penggunaan perintah suara pertama adalah masalah ergonomi, misalnya pada pengendali peralatan pesawat tempur di mana pilot pesawat diharuskan berkonsentrasi pada obyek yang diamati sambil memberikan perintah- perintah melalui suara yang tidak mengganggu konsentrasi pandang yang bersangkutan. Yang kedua adalah dari segi keamanan di mana sistem kendali hanya dapat diperintah oleh pembicara tertentu (speaker dependent).
2.
Pada saat ini Microsoft sudah menyertakan sistem pengenalan suara kontinyu pada produk Microsoft Office XP yang dapat mengganti fungsi penulisan kata- kata daTi penekanan keyboard menjadi penangkapan kata-kata daTi suara pembicara oleh mikrofon yang dihubungkan ke soundcard komputer. Permasalahannya Microsoft belum membuat pengenalan suara berbahasa mdonesia jadi belum dapat untuk membuat pengetikan otomatis menggunakan suara dalam bahasa mdonesia. Fasilitas inilah yang barns kita buat sendiri.
86