SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA …

18
SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA MENGGUNAKAN MODEL HIDDEN MARKOV DAN JARINGAN SY ARAF TIRUAN M. Syamsa Ardisasmita' ABSTRAK SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA MENGGUNAKAN MODEL HIDDEN MARKOV DAN JARINGAN SYARAF TIRUAN. Penggunaan suara untuk mengendalikan peralatanmerupakan antarmuka yang efektif clanaman. Telah dikembangkansistem pengenalan kata secara otomatis untuk sistempengendali peralatan menggunakan PC yang dilengkapi dengan Digital SignalProcessor card. Sistem memungkinkan komputer menangkap suara seseorang clan mengubahnya ke dalam bentuk spektogram. Digital signal processor card dirancanguntuk melakukan akuisisidata suaraclan perhitungan transformasi Fourier cepatuntuk menghasilkan spektogram. Sistem kemudianmembandingkan informasi digital yang dihasilkan dengan suatudatabase suara,baik yang tergantung pada pembicaramaupunyang tidak tergantung pada pembicara clanmemberikan perintah jawaban yang sesuai kepada pemakai. Metoda Hidden Markov Model (HMM) mampu menangani perubahanstatistik daTi suara dengan memodelkan clemen-clemen fonetik kata-kata menggunakan probabilitas. Sinyalsuara dikarakterisasi sebagai suatu proses acak dalambentukparameter-parameter, di mana parameter tersebut dapat diperkirakan dengantepat clan dirumuskan dengan baik. Keandalan daTi sistempengenalan kata otomatisakanberkurang secara drastis jika suara terganggu oleh derau.Jaringan syaraftiruanadalah baik digunakan untuk pembelajaran, mengekstraksi ciri, mengklasifikasi masalah clan memperkirakan peluang.Penelitiandilakukan dengan pendekatan campuran yaitu HMM clan jaringan syaraftiruan untukprakiraan clan optimasi peluanglokal daTi HMM. Kata kunci: Pengenalan Kata,Jaringan Syaraf, Hidden Markov Model ABSTRACT INSTRUMENT CONTROL SYSTEM BY SPEECH COMMAND USING HIDDEN MARKOV MODEL AND ARTIFICIAL NEURAL NETWORK. The use of voice for instrument controlis the mosteffective and safest mode of interface. We develope automatic speech recognitionfor instrument control system using PC and Digital Signal Processor card. System enables a computer to take a person's voice and convertit into a spectogram. Digital signal processors cardaredesigned specifically to perform speech data acquisition and intensive computationof fast Fourier transform to generate spectogram. The system then comparesthe resulting digitized information with either a speaker dependent or speaker independent database and provides the user a reponsecommand. The Hidden Markov Model handles the statistical variationsof speech by modelling the phoneticelements of words usingprobability.The speech signalcan be well characterized as a parametric randomprocess, and that the parameters can be estimated in a precise, well-defined manner. The performance of automaticspeech recognitionsystems degrades greatly when speech is corruptedby noise. The artificial neural network .Pusat Pengembangan Teknologi Infonnasi daD Komputasi -BAT AN 69

Transcript of SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA …

Page 1: SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA …

SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARAMENGGUNAKAN MODEL HIDDEN MARKOV DAN

JARINGAN SY ARAF TIRUAN

M. Syamsa Ardisasmita'

ABSTRAK

SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA MENGGUNAKANMODEL HIDDEN MARKOV DAN JARINGAN SYARAF TIRUAN. Penggunaan suara untukmengendalikan peralatan merupakan antarmuka yang efektif clan aman. Telah dikembangkan sistempengenalan kata secara otomatis untuk sistem pengendali peralatan menggunakan PC yang dilengkapidengan Digital Signal Processor card. Sistem memungkinkan komputer menangkap suara seseorang clanmengubahnya ke dalam bentuk spektogram. Digital signal processor card dirancang untuk melakukanakuisisi data suara clan perhitungan transformasi Fourier cepat untuk menghasilkan spektogram. Sistemkemudian membandingkan informasi digital yang dihasilkan dengan suatu database suara, baik yangtergantung pada pembicara maupun yang tidak tergantung pada pembicara clan memberikan perintahjawaban yang sesuai kepada pemakai. Metoda Hidden Markov Model (HMM) mampu menanganiperubahan statistik daTi suara dengan memodelkan clemen-clemen fonetik kata-kata menggunakanprobabilitas. Sinyal suara dikarakterisasi sebagai suatu proses acak dalam bentuk parameter-parameter, dimana parameter tersebut dapat diperkirakan dengan tepat clan dirumuskan dengan baik. Keandalan daTisistempengenalan kata otomatis akan berkurang secara drastis jika suara terganggu oleh derau. Jaringansyaraftiruan adalah baik digunakan untuk pembelajaran, mengekstraksi ciri, mengklasifikasi masalah clanmemperkirakan peluang. Penelitian dilakukan dengan pendekatan campuran yaitu HMM clan jaringansyaraftiruan untuk prakiraan clan optimasi peluang lokal daTi HMM.

Kata kunci: Pengenalan Kata, Jaringan Syaraf, Hidden Markov Model

ABSTRACT

INSTRUMENT CONTROL SYSTEM BY SPEECH COMMAND USING HIDDENMARKOV MODEL AND ARTIFICIAL NEURAL NETWORK. The use of voice for instrumentcontrol is the most effective and safest mode of interface. We develope automatic speech recognition forinstrument control system using PC and Digital Signal Processor card. System enables a computer to takea person's voice and convert it into a spectogram. Digital signal processors card are designed specificallyto perform speech data acquisition and intensive computation of fast Fourier transform to generatespectogram. The system then compares the resulting digitized information with either a speakerdependent or speaker independent database and provides the user a reponse command. The HiddenMarkov Model handles the statistical variations of speech by modelling the phonetic elements of wordsusing probability. The speech signal can be well characterized as a parametric random process, and thatthe parameters can be estimated in a precise, well-defined manner. The performance of automatic speechrecognition systems degrades greatly when speech is corrupted by noise. The artificial neural network

.Pusat Pengembangan Teknologi Infonnasi daD Komputasi -BAT AN

69

Page 2: SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA …

Risalah Lokakarya Komputasi dalam gains dan Teknologi Nuklir XIV, Juli 2003 (69-86)

(ANN) is good at learning, feature extraction, classification problems, and probabilistic estimations. Ourresearc~ ,i,S to have a hybrid approach using the HMM and ANN to estimate and optimize the localprobabIlitIes of the HMM.

Key words: Speech Recognation, Neural Networks, Hidden Markov Models. ,

PENDAHULUAN

Pengendalian peralatan menggunakan suara merupakan model komunikasiantara manusia dengan mesin (human machine interface) yang paling efektif terutamauntuk yang membutuhkan keamanan clan fleksibilitas tinggi seperti sistem pengendalipada pesawat tempur. Teknologi pengenalan suara memungkinkan komputermenangkap suara seseorang clan mengubahnya menjadi format digital yang dapatdipahami oleh sistem. Sistem kemudian membandingkan informasi digital yangdihasilkan dengan database suara, baik yang tergantung pada pembicara (speakerdependent) maupun yang tidak tergantung pada pembicara (speaker independent)untuk memberikan tanggapan kepada pemakai. Sampai beberapa tahun yang lalu,pengenalan suara selalu tidak akurat, rumit clan mahal. Tetapi dengan kemajuan daTikecepatan prosesor, digital signal processor (DSP) clan metoda-metoda barn,menyebabkan pengenalan suara tidak lagi sulit clan mahal, tetapi menjadi kenyataansehari-hari. Penggunaan digital signal processor adalah untuk mempercepatperhitungan daTi operasi-operasi kompleks dalam bentuk sinyal digital.

Sistem pengenalan suara ini menggunakan kartu Digital Signal ProcessorTMS320C25 untuk mengambil data suara clan kemudian melakukan transformasiFourier cepat (FFT) untuk mengubah sinyal suara daTi domain waktu menjadispektrum energi dalam domain frekuensi. Suara ditangkap mikrofon clan ditranformasimenjadi citra dua dimensi (spectogram). Spektogram adalah penggambaran duadimensi daTi sinyal suara dengan sumbu horisontal menunjukkan waktu, sumbuvertikal menunjukkan frekuensi, clan kerapatan titik menggambarkan amplitudo atauenergi akustik. Segmen-segmen fonetik dapat terlihat dengan jelas pada spektogramdengan derajat ketelitian yang tinggi. Pembacaan spektogram melibatkan prosespengambilan keputusan kompleks yang berdasarkan pada pengetahuan mengenaiproduksi suara. Karena itu dibutuhkan kemampuan untuk mendeteksi himpunanrelatif kecil daTi isyarat-isyarat dasar pada spektogram clan penampilan yangberhubungan dengan bentuk gelombang, zero crossing, atau energi terhadap waktu.

Pengenalan suara secara otomatis merupakan satu kemampuan manusia yangsaat ini berusaha dikuasai oleh komputer. Beberapa pendekatan telah digunakan dalammemecahkan masalah pengenalan suara secara otomatis ini, yaitu: Dynamic TimeWarping (DTW), Hidden Markov Models (HMM) clan Artificial Neural Network(ANN). Model Markov Tersembunyi clan Jaringan Syaraf Tiruan memberikan basilyang terbaik. Metoda jaringan syaraf menyelesaikan pengenalan suara sebagai suatu

70

Page 3: SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA …

Sistem Kendali Peralatan dengan Perintah Suara Menggunakan Mode! Hidden (M. Syamsa Ardisasmita)

rnasalah pengklasifikasian fonetik yaitu dengan menemukan batas permukaan-permukaan kompleks antara segmen-segmen suara yang berbeda. Segmen suara inidapat berupa kata-kata, fonem-fonem atau beberapa klasifikasi lainnya. Sistemklasifikasi pertama kali dilatih dengan sejumlah contoh kelas-kelas fonetik dalamusaha menentukan batas-batas kelas. Pengenalan dilakukan dengan mengumpankansuara masukan ke jaringan untuk menentukan pada kelas keluaran yang mana segmensuara ini menjadi bagian yang paling memungkinkan.

Model Markov Tersembunyi (HMM) menganggap suara sebagai sinyal yangdapat dimodelkan dalam suatu proses stokastik. Dengan mengembangkan sejumlahmodel yang berbeda untuk setiap segmen suara, maka suara yang datang dapatdibandingkan dengan seluruh model yang ada clan segmen suara yang dikenal adalahyang memiliki kecocokan terbesar. Variabel-variabel suara diberikan juga, walauuntuk pembicara tunggal sarna seperti untuk pembicara jarnak, yaitu mempunyaikelas-kelas suara yang berbeda. Teori HMM dikembangkan oleh Baum (1970) adalahuntuk pengenalan suara didasarkan pada rantai Markov sebagai suatu model prosesstatistik. Sistem yang kami rancang melakukan pengenalan suara dalam dua tahap.Tahap pertarna dengan ANN jenis Multi-Layer Perceptron (MLP) untuk memperolehkelas-kelas fonetik yang tidak tergantung pada pembicara. Tahap kedua menggunakankelas-kelas fonem sebagai keluaran daTi ANN menjadi urutan vektor-vektor observasisebagai data masukan bagi sistem pengenalan suara berbasis HMM. Penggunaan MLPdi sini adalah untuk membantu mengestimasi probabilitas pengarnatan denganmengurangi jumlah parameter yang dibutuhkan dalam pemodelan fonetik.

METODA DAN PRINSIP KERJA

Sistem terdiri daTi Personal Computer yang dilengkapi dengan card DSP. CardDSP berfungsi sebagai masukan yaitu untuk akuisisi perintah suara dan berfungsisebagai keluaran yaitu untuk bertindak sebagai penggerak, untuk itu maka card DSP

dilengkapi dengan mikroprosesor TMS320C25, pengubah analog ke digital (ADC)dan pengubah digital ke analog (DAC). Komunikasi antara card DSP dengan host PCdilakukan melalui instruksi Input/Output Port daTi alamat-alamat masukan/keluarancard DSP. Alamat dasar card DSP dapat dipilih dengan mengatur address jumper padacard tersebut. Komputer host dapat memulai dan menghentikan eksekusiTMS320C25, mengakses RAM TMS320C25 dan menginterupsi kerja TMS320C25.Usaha mempercepat waktu perhitungan transformasi Fourier telah dilakukan yaitudengan membuat algoritma Transformasi Fourier Cepat (Fast Fourier Transform) ataudisingkat FFT seperti yang dilakukan oleh Cooley- Tukey. Algoritma FFT didasarkanpada pengfaktoran matriks yaitu pada perkalian dan penambahan yang mempunyaifaktor bobot yang sarna. Besamya peningkatan kecepatan perhitungan denganalgoritma FFT adalah Nflog N kali dari transformasi Fourier langsung.

71

Page 4: SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA …

Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XN, Juli 2003

Gambar Bagan sistem pengenalan suara

TMS320C25 merupakan keluarga DSP Texas Instruments TMS320, yaitumikroprosesor CMOS pertama yang dapat mengeksekusi lebih dari 10 juta instruksiper detik. Kemampuan ini adalah basil dari penggabungan arsitektur perangkat keras,penerapan pengolahan paralel yang disebut pipelining disertai sejumlah kumpulaninstruksi pemrograman yang efisien dan mudah untuk dimengerti. Arsitektur TMS320menggunakan ripe Harvard yang dimodifikasi. Arsitektur ripe Harvard memisahkanstruktur bus data dan bus program untuk memberikan kemampuan eksekusi dengankecepatan penuh, serta menempatkan memori data dan memori program di dua tempatterpisah. Hal ini memugkinkan pelaksanaan program dengan urutan serentak.Misalnya jika ada 3 instruksi yang akan dieksekusi secara berurutan, maka teknikpipelining akan mengambil instruksi ketiga, menerjemahkan instruksi kedua danmengeksekusi intsruksi pertama secara serentak dalam satu siklus mesin. Modifikasitipe Harvard pada keluarga TMS320 memungkinkan adanya pertukaran data antaramemori data dengan memori program yang lebih fleksibel.

Suara adalah penggabungan dari sejumlah getaran yang mengubah tekananudara ke telinga. Jumlah getaran per detik disebut frekuensi yang diukur dalam siklusper detik (Hertz). Suara merupakan kombinasi dari nada-nada yang berbeda di manasetiap nada memberikan spektrum tersendiri dalam domain frekuensi. Batas tertinggidari amplitudo spektrum frekuensi disebut dengan formant. Setiap nada mempunyaiformant khusus pada lokasi-iokasi frekuensi tertentu, terutama huruf-huruf hidup.Kualitas dari suatu suara ditentukan oleh rentang frekuensi dan warna suara yaitukomposisi dari frekuensi-frekuensi penyusun bunyi. Jenis suara yang dihasilkan sangatdipengaruhi oleh segmen-segmen bunyi yang disebut dengan fonem yang membentukformant. Formant disebut juga sebagai segmen-segmen fonetik suara yaitu frekuensiresonansi jalur lintasan suara pada manusia. Suara manusia memiliki banyak formant.Bunyi suatu kata sangat dipengaruhi oleh tiga formant dasar pertama (Fl, F2 dan F3),sedangkan warna bunyi ditentukan oleh formant frekuensi tinggi di atasnya.Komposisi formant-format dari ucapan kata seseorang dapat dijadikan sebagai kuncibiometri yang bersifat unik, yaitu sistem yang tergantung pada pembicara (dependent

speaker).

72

Page 5: SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA …

Sistem Kenda!i Peralatan dengan Perintah Suara Menggunakan Mode! Hidden (M. Syamsa Ardisasmita)

Fr~q\Jenc)' [kH~J

Gambar 2. Formant suara manusia

Transfonnasi Fourier merupakan perangkat matematika penting dalampengolahan sinyal yaitu untuk menghubungkan antara domain spasial dengan domainfrekuensi. Gelombang suara dapat dianalisis dengan transformasi Fourier. AnalisisFourier dari gelombang suara dapat menunjukkan struktur frekuensi dasar ataufundamental daTi gelombang tersebut dan harmonisa-harmonisanya. TransformasiFourier menghubungkan antara sinyal suara dalam domain waktu dengan spektrumenerginya dalam domain frekuensi. Transformasi Fourier yang diterapkan padacuplikan sinyal suara sebagai fungsi waktu akan menghasilkan spektogram yaitutampilan energi akustik (daerah hitam) sebagai fungsi daTi waktu (sumbu-x) danfrekuensi (sumbu-y) seperti pada Gambar 3.

Gambar 3. Spektogram suara daTi kata "syamsa"

73

Page 6: SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA …

Risalah i.A:>kakarya Komputasi dalam Sains daD Teknologi Nuklir XN, Juli 2003

Gambar 4. Spektogram dua pembicara, tiga formant pertama sangat mirip

Gambar 4 memperlihatkan spektogram dua orang pembicara, pembicara satuclan pembicara dua. Untuk memperoleh suara yang tidak tergantung pada pembicara(speaker independent) cukup diambil tiga formant pertama daTi pembentuk suaradengan menggunakan filter pelewat rendah (low-pass filter). Filter digunakan untukmenghilangkan spektrum-spektrum sinyal yang tidak dikehendaki clan memperbaikisinyal yang diinginkan. Dari Gambar 4 dapat ditunjukkan bahwa dalam suatu kataterlihat bahwa bentuk tiga formant dasar pertama adalah sangat mirip.

PRINSIP KLASIFlKASI DAN PENGENALAN SUARA

Pengenalan suara dapat dilakukan melalui tiga tahap. Tahap pertama adalahpembentukan spektral suara yang disebut dengan spektogram. Sinyal suara ditangkapoleh mikrofon, kemudian didigitasi dan ditransformasi menjadi segmen-segmen suaraoleh suatu pengolah sinyal digital ke dalam bentuk spektogram. Jaringan syaraf tiruandigunakan untuk menganalisis spektral ciri suara yaitu menyelesaikan pengenalansuara sebagai suatu masalah pengklasifikasian fonetik. Pengenalan dilakukan denganmenentukan pada kelas mana segmen suara, berupa fonem, menjadi bagian yangpaling memungkinkan daTi suatu kata. Model Markov Tersembunyi memodelkan

74

Page 7: SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA …

Sistem Kendali Peralatan dengan Perintah Suara Menggunakan Model Hidden (M. Syamsa Ardisasmita)

struktur temporal daTi urutan sinyal fonetik suara ke dalam model-model kata. Segmenfonetik suara yang dikenal adalah yang memiliki kecocokan terbesar dengan seluruhmodel kata yang ada. Dengan melakukan kombinasi daTi dua metoda di atas diperolehpeningkatan pengenalan clan ketelitian daTi sistem pengenalan suara sebagai fungsidaTi jumlah data pelatihan clan ukuran jaringan syaraf yang digunakan.

PembentukanSpektral(Filter)

AnalisisSpektral

Ciri Suara--+

~~

Gambar 5. Prinsip klasifikasi parameter suara

Jaringan Syaraf Tiruan (ANN)

Klasifikasi clan pengenalan suara dilakukan secara bertingkat. Pertama kelas-kelas fonetik diklasifikasikan menggunakan jaringan syaraf tiruan jenis Multi-LayerPerceptron (MLP) yaitu model jaringan dengan hubungan bertingkat di mana unit-unitneuron dikelompokkan menjadi beberapa lapisan, biasanya dikelompokkan menjaditiga bagian yaitu: lapisan masukan (input layer), lapisan tersembunyi (hidden layer)dan lapisan keluaran (output layer). Umumnya jaringan yang lebih rurnit akanmerniliki kemampuan yang lebih tinggi. Gambar 6 memperlihatkan skema keIja dariMLP yaitu melakukan klasifikasi sinyal suara yang telah ditransformasi ke domainfrekuensi dengan algoritma FFT menjadi bentuk spektogram yang telah dinormalisasi.Normalisasi dari keseluruhan spektogram bekeIja dengan cara berbeda-beda sepanjangsumbu waktu dan frekuensi. Skala waktu dimampatkan secara tinier, sedangkan nilai-nilai komponen frekuensi dikelompokkan ke dalam pita-pita yang berbeda. Lebarpitanya tidak tetap, tetapi berubah secara eksponensial menurut besar frekuensi.

SinyalSuara

MultilayerPerceptron

Kelas-kelasFonetikSpektogram

Gambar 6. Klasifikasi kelas-kelas fonetik dengan MLP

75

Page 8: SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA …

Risalah Lokakarya Kornputasi dalam gains dan Teknologi Nuklir XN, Juli 2003

Untuk mendefinisikan suatu pengklasifikasian ganda yang memberikan derajatkepercayaan tertentu, kita barns memperoleh sejumlah estimasi dari post-probabilitasP(XECi/X), (i=l, ..., M) daTi keluaran-keluaran jaringan. Cara sederhana untukmenggabungkan K pengklasifikasi adalah dengan membangun pengklasifikasi rata-rata dengan suatu post-probabilitas yang barn:

1 K

Pav(XECj Ix)=- LPj(xeCj Ix) (1)K 0

\J=

Jika tidak, maka jaringan merupakan pengklasifikasi sintaktik yang hasilnya hanyaberupa label yang menandakan kelas yang paling mungkin. Dalam kasus ini kesalahanjaringan memainkan peran yang sangat penting.

Keandalan daTi suatu Jaringan Syaraf Tiruan biasanya dibatasi oleh beberapafaktor, antara lain:

-Tidak memadainya jumlah data dan pelatihan.

-Sensitifnya sistem terhadap kondisi lingkungan.

-Ketidak cermatan pada prosedur pelatihan.

-Adanya pengaruh derau (noise).Beberapa faktor di atas dapat di atasi dengan teknik-teknik tertentu. Penggunaanskema cross-validation atau data tiruan untuk pelatihan dapat meningkatkankeandalan dari jaringan syaraf. Masalahnya adalah kedua teknik pendekatan tersebutdidasarkan pada interpretasi probabilistik dan tidak ada jaminan untuk basil akhir.Karena itu MLP di sini digunakan untuk pengklasifikasian awal daTi sistempengenalan suara.

Hidden Markov Model (HMM)

~

~

~~~~Suoro

Gambar 7. Pengkodean suara

76

~ ~

"'--v--"y" I Pongonll"" f-- ~ ~ ~

SI S2 SJ

Page 9: SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA …

Sistem Kendali Peralatan dengan Perintah Suara Menggunakan Model Hidden (M. Syarnsa Ardisasmita)

Model Markov Tersembunyi (HMM) adalah suatu proses deterministik ataustokastik yang memodelkan fenomena acak yang bervariasi terhadap waktu ataustruktur temporal daTi urutan sinyal terhadap waktu farik. HMM akan mencocokkanestimasi probabilistik dengan model vektor-vektor berurutan keluaran daTi suatuproses acak yang menjadi bagian dari rantai Markov. Rantai Markov adalah suatustruktur yang terdiri dari entitas-entitas stationer yang disebut keadaan (state). Transisiantara atau di dalam suatu keadaan adalah suatu probabilistik. HMM mempunyai duakomponen utama: rantai markov keadaan hingga (finite state) dan himpunan hinggadaTi distribusi probabilitas keluaran.

Sistem pengenalan suara menganggap sinyal suara sebagai urutan satu ataulebih simbol-simbol atau segmen-segmen suara (fonem) yang dikodekan (Gambar 7).Dalam proses parametrisasi, suatu bentuk gelombang suara kontinyu diubah menjadivektor-vektor parameter suara diskrit. Sedangkan proses pengenalan melakukanpemetaan antara vektor-vektor suara berurutan dan urutan simbol-simbol yangdiinginkan. Ada dua masalah yang menyebabkan pengenalan seperti ini cukup sulit.Peftama, pemetaan antara simbol-simbol ke suara bukan pemetaan satu-ke-satu,karena urutan simbol-simbol berbeda dapat memberikan suara yang mirip. Selain ituada variasi gelombang suara cukup besar disebabkan oleh misalnya gaya bicara, emosidan kondisi lingkungan. Kedua, batas-batas antara simbol dalam bentuk gelombangtidak dapat diidentifikasi secara jelas. Permasalahan ini dikenal sebagai masalah lokasibatas-batas kata pada sinyal suara. Hal ini dapat dihindari dengan menerapkanpengenalan kata secara terisolasi.

Pengenalan Kata Terisolasi

Misal suatu ucapan kata didefinisikan sebagai vektor-vektor suara berurutanatau pengarnatan 0, yaitu:

(2)0 = 0\, °2, , OT

dengan OT adalah vektor suara yang diamati pada waktu T. Masalah pengenalan kataterisolasi dapat dilihat sebagai suatu perhitungan probabilitas posterior:

arg~{p(CJ)j IO)} (3)1

dengan ffij adalah kosa kata ke-i. Probabilitas ini tidak dihitung langsung tetapi melaluiaturan Bayes:

P(o>.IO)= P(OIO>j)P(O>j) (4)I P(O)

Jadi untuk suatu probabilitas P( roJ, peluang kata yang diucapkan tergantung hanyapada probabilitas keserupaan (likelihood) P(roj I 0). Masalah untuk memperkirakan

77

Page 10: SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA …

Risalah Lokakarya Komputasi dalam gains daD Teknologi Nuklir XN. Juli 2003

kondisi kelas kerapatan pengamatan P(roj I 0) diganti menjadi masalah lebih sederhanauntuk mengestimasi parameter -parameter model Markov.

a22 a33 344 assModelMarkov

M323 356~ a34 a45

, I"I \

" a241 "'35\ \'. I I \ \'I I I \ \

,b2(DJ~b2(DJ Ib3(o3).lb4(DJ\b4(DS) \\bS(D~, " ""O~~~~~~Si D D D D D D

0] 02 03 04 05 06

Gambar 8. Model pembangkit Markov

Dalam pengenalan suara berbasis HMM, diumpamakan vektor-vektor suarayang diamati berhubungan dengan setiap kata yang dibangkitkan oleh model Markovseperti pada Gambar 8. Di sini diperlihatkan proses di mana enam model keadaanbergerak melalui suatu urutan keadaan X = 1, 2, 2, 3, 4, 4, 5, 6 dalam rangkamembangkitkan urutan 01 sampai 06. Maka urutan keadaan X adalah:

P(O, x I M) = alzbz(oJ + azzbz(oz) + az3b3(O3) +... (5)

Dalam praktek, hanya urutan pengamatan 0 yang diketahui clan urutan keadaan Xbersifat tersembunyi. Oleh karena itu mengapa metoda ini disebut sebagai ModelMarkov Tersembunyi.

Jika X tidak diketahui, keserupaan yang dibutuhkan dapat dihitung denganmenjumlahkan seluruh kemungkinan urutan keadaan X = x(l), x(2), x(3), ..., x(T),

yaitu:T

P(O I M) = L aX(O)X(I)I1bX(I)(ol) a X(I) x(t+l) (6)x 1=1

dengan x(O) dibatasi sebagai model keadaan jalan masuk sedangkan x(T+ 1) dibatasisebagai model keadaan jalan keluar. Probabilitas kemiripan dapat didekati denganhanya menggunakan urutan keadaan yang paling serupa:

78

Page 11: SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA …

Sistem Kendali Peralatan dengan Perintah Suara Menggunakan Model Hidden (M. Syamsa Ardisasmita)

P(OIM)=~x{aX(O)X(l)gbX(t)(Ot)aX(t)X(t+l)} (7)

Misal suatu himpunan model Mi berhubungan dengan kata-kata Wi, persamaan 2 dapatdiselesaikan dengan menggunakan persamaan (3) dan menganggap bahwa:

P(O I wJ = P(O I MJ (8)

Dengan menganggap parameter-parameter {~j} dan {bj(oJ} diketahui untuksetiap model Mj dan dengan suatu pelatihan untuk setiap kosa kata, maka probabilitaskemiripan untuk setiap model yang membangkitkan kata tersebut dihitung dan modelyang paling mirip akan mengidentifikasi kata tersebut.

satu

1. 0 0 0 0 0 0

2. DODD

3. 0 0 0 110

dua

DODD

DODOO

DODOO

tiga

DDDDDD

DDDDD

00000Model-modelEstimasi !M, !

Mz!M3

Gambar 9. Contoh pelatihan

Gambar 9 memperlihatkan contoh pelatihan HMM menggunakan kosa katayang terdiri daTi tiga kata: "satu", "dua" dan "tiga". Dari pelatihan ill diperolehmodel-model estimasi M\, M2 dan M3. Kemudian untuk melakukan pengenalan daTibeberapa kata yang tidak dikenal, probabilitas kemiripan akan membangkitkan setiapmodel daTi kata tersebut dan melakukan perhitungan sehingga model yang palingmirip akan mengidentifikasi kata tersebut (Gambar 10).

Tidak diketahui:

0=000000

/ ~ """' P(OIM1) P(OIM2) P(OIM3)

Pilih Nilai Maksimum

Gambar 10. Pengenalan menggunakan HMM untuk kata terisolasi.

79

Page 12: SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA …

Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XN, Juli 2003

Kembali kita pada model konsep produksi dan pengenalan suara yangditunjukkan pada gambar 6, adalah jelas bahwa pengembangan untuk pengenalansuara pembicaraan yang kontinyu adalah dengan menghubungkan beberapa HMMsecara bersama-sama secara berurutan. Setiap model dalam urutan berhubunganlangsung dengan perumpamaan simbol yang mendasari yaitu fonem-fonem untukpengenalan suara kontinyu. Data pelatihan untuk pengenalan suara kontinyu harusterdiri daTi ucapan-ucapan yang kontinyu dan umumnya batas-batas yang membagisegmen-segmen suara yang berhubungan dengan setiap model fonem dalam urutanternyata tidak diketahui. Dalam praktek biasanya batas-batas pada sejumlah kecil datapelatihan diberi tanda secara manual dengan tangan. Seluruh segmen yangberhubungan dengan model tersebut dapat dikenal dan kata terisolasi basil pelatihanyang digambarkan di atas dapat digunakan. Biasanya jumlah data yang diperolehdengan cara ini sangat terbatas dan model-model yang dihasilkan akan miskin denganperkiraan-perkiraan. Walaupun menggunakan jumlah data yang lebih besar, batas-batas yang dibuat dengan tangan tidak akan optimal selama terkait dengan HMM.

BASIL DAN DISKUSI

Suara yang masuk melalui mikrofon difilter untuk mencegah aliasing clan untukmereduksi derau. Sinyal suara kemudian dicuplik dengan frekuensi sampling 22.050Hz clan kemudian diubah ke dalam bentuk digital. Pembentukan spektral dilakukandengan transformasi Fourier cepat (FFT) daTi 1024 titik secara on-line oleh card DSP,sehingga diperoleh spektrum suara dalam bentuk spektogram. Gambar 11memperlihatkan kotak dialog untuk mengatur paramater-parameter yang dibutuhkanuntuk penfilteran, pencuplikan clan FFT.

Gambar 11. Kotak dialog untuk analisis spektral

80

Page 13: SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA …

Sistem Kendali Peralatan dengan Perintah Suara Menggunakan Model Hidden(M. Syamsa Ardisasmita)

Prosedur pertama adalah melatih ANN dengan sejumlah kosa kata dari beberapapembicara. ANN yang digunakan adalah jenis MLP dengan 50 neuron di lapisantersembunyi dan 10 neuron di lapisan keluaran. Ada beberapa parameter-parametersuara yang dapat dianalisis, misalnya: spektogram, zero crossing, profil pitch, danenergi. Parameter suara yang digunakan adalah spektogram karena memberikan basilyang terbaik dibandingkan dengan menggunakan diagram energi atau diagram zero

crossing.Tabell. Perbandingan basil pengenalan suara

Pengenalan85 %86%90%

Penyisipan32%11 %

3,8%

Ketelitian

53 %75%86%

ANNHMMANN+HMM ,

Perbandingan hasil dan proses pengenalan suara antara sistem pengenalan suaraberbasis ANN, HMM dan gabungan ANN dengan HMM ditunjukkan pada Tabell.Kita dapat lihat kelebihan daTi HMM terhadap ANN dengan 86% pengenalan dan 75%ketelitian, sedangkan ANN dengan 85% pengenalan tetapi hanya 53% ketelitiandisebabkan adanya penyisipan yang cukup besar (32%) yang sebagian besardisebabkan oleh segmen-segmen yang muncul secara singkat. ANN melakukanklasifikasi dengan baik tetapi menghasilkan keluaran yang penuh derau dan banyakpenyisipan-penyisipan. HMM menghilangkan sebagian besar penyisipan tersebutkarena mempunyai selang waktu dan kemampuan pemodelan dalam domain waktuyang lebih baik. Penggabungan daTi dua sistem ini memberikan keuntungan padasistem pengenalan suara yaitu memberikan 90% pengenalan dan 86% ketelitian.

Gambar 12. Dekoder penga1amatan clan PPI 8255A

81

Page 14: SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA …

Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XIV, Juli 2003

Sistem pengenalan suara tersebut dihubungkan dengan dekoder pengalamatanyaitu untuk mengarahkan tujuan dari perintah yang disalurkan melalui antarmuka

periferal terprogram (Programmable Peripheral Interface) PPI 8255A. Perintah dapatberupa tombol untuk mengaktifkan suatu motor, menyalakan lampu, ataumengfungsikan detektor, bisa juga berupa kode misalnya untuk menggerakkan posisisuatu step-motor atau arab robot mobil. Penggunaannya yang lain adalah pada sistempengamanan akses di mana pintu hanya dapat terbuka jika suara yang diucapkan sudahmendapat otoritas sesuai dengan data suara yang tersimpan dalam database komputersebagai basil dari suatu pelatihan.

KESIMPULAN

Telah berhasil direalisasikan sistem pengenalan suara untuk mengendalikansuatu peralatan, baik berupa tombol maupun kode digital dengan tingkat keberhasilanyang cukup baik. Pada sistem pengenalan berbasis ANN, persentase kesalahan adalahfungsi daTi jumlah data pelatihan clan besar lapisan tersembunyi yang digunakan.Derau latar belakang yang cukup besar dapat mengurangi tingkat pengenalan, karenaANN hanya didasarkan pada interpretasi probabilistik sehingga tidak ada jaminanuntuk basil akhir. Oleh sebab itu, ANN di sini hanya digunakan untukpengklasifikasian awal daTi sistem pengenalan suara.

Pada HMM standar, sebagian besar parameter dari distribusi pengamatanberhubungan dengan keadaan individual daTi setiap model fonem, sehingga secarastatistik menjadi pembatas keandalan HMM. Penggunaan ANN jenis MLP adalahuntuk mendapatkan kelas-kelas fonetik untuk memperkirakan probabilitas keserupaanpengamatan yang akan meningkatkan ketelitian clan mengurangi kebutuhan memoridaTi sistem pengenalan suara berbasis HMM. Kombinasi daTi dua metoda di atas dapatmeningkatkan pengenalan clan ketelitian daTi sistem pengenalan suara.

DAFTARPUSTAKA

ACERO, A., STERN, R.M., "Environmental Robustness in Automatic SpeechRecognition ", Proc. IEEE Int. Conf. Acoustics, Speech and SignalProcessing, Albuquerque, NM, April, (1990) 849-852

2. BAHL, L.R., BROWN, P.F., SOUZA, P. V. DE, and MERCER, R.L., "Speechrecognition with continuous-parameter hidden markov models", In Alex Waibeleditors, Readings in Speech Recognition. Morgan Kaufmann Publishers, Inc.,1990.

82

Page 15: SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA …

Sistem Kendali Peralatan dengan Perintah Suara Menggunakan Model Hidden(M. Syamsa Ardisasmita)

3 BENGIO, Y., CARDIN, R., MORI, R. DE, NORMANDIN, R., "A hybrid coderfor hidden markov models using a recurreat neural network", Proc. of theInternational Conference on Acoustic, Speech and Signal Processing,Albuquerque, (1990) 537-540

4. RENALS, S., MORGAN, N., COHEN, M., and FRANCO, H., "ConnectionistProbabilit stimation in the DECIPHER Speech Recognition System", ICASSP,San Francisco, (1992) 601-604

5 COSTA, M., FILIPPI, E., PASERO, E., "Multi-Layer PerceptIon ensemble forpattern recognation: some experiments", Proc. of IEEE Int. Con! on NeuralNetwork.\', Vol. Vll, (1994) 4232-4236

6. BOURLARD, H., MORGAN, N.; Connectionist Speech Recognition-A HybridApproach. Kluwer Academic Press, 1994

7. YOUNG, S. et al., The Hidden Markov Model Toolkit Book (for HTK version3.1), Cambridge University Engineering Departement, London, 2002.

8. ARDISASMITA. M. Syamsa., "Pengenalan Suara Secara OtomatisMenggunakan Hidden Markov dan Jaringan Syaraf Tiruan", Prosiding IlmuKomputer dan Teknologi Informasi III, Jakarta, 3 (I) (2002)

83

Page 16: SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA …

Risalah Lokakarya Komputasi dalam gains clan Teknologi Nuklir XN, Juli 2003

DAFTARRIWAYATHIDUP

1. Nama : M. Syamsa Ardisasmita

2. Tempattranggal Lahir : Bandung, 28 Oktober 1957

3. Instansi : P2TIK-BATAN

4. Pekerjaan / Jabatan : Kepala P2TIK -Ahli Peneliti Utama

5. Riwayat Pendidikan : (setelah SMU sampai sekarang)

.S1 Bidang Fisika Instrumentasi, FMIPA-UI

.S2 (DEA) Bidang Elektonika Pengolah Sinyal, Univ. Montpellier, Perancis

.S3 Bidang Informatika Industri, Universitas Montpellier, Perancis

6. Pengalaman Kerja :

.Kasubag Sistem clan Pera1atan Komputer -BBP, BATAN

.Kabid Sistem Komputer-PPI BATAN

.Kepala Pusbangtek Informasi dan Komputasi

.Fungsional Peneliti Bidang Pengolahan Citra Digital7. Organisasi Profesional :

.Himpunan Masyarakat Nuklir Indonesia (HIMNI)

.Himpunan Fisikawan Indonesia (HF!)

.Perhimpunan Ahli Teknik Indonesia (PAT!)

.International Society for Optical Engineering (SPIE)

.International Imaging Science clan Technology (IS&T)

.Anggota Dewan Riset Daerah, Propinsi Baten

84

Page 17: SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA …

Sistem Kendali Peralatan dengan Perintah Suara Menggunakan Model Hidden(M. Syarnsa Ardisasrnita)

DISKUSI

ABU KHALill RIV AI

Apakah perbedaan model Hidden Markov dan model ANN juga termasuk perbedaanalat atau material yang digunakan? Jika berbeda, di mana letak perbedaannya yangmendasar.

M. SY AMSA ARDISASMIT A

Alat atau material yang digunakan adalah sarna yaitu Personal Computer yangdilengkapi dengan kartu DSP. Yang berbeda adalah metoda matematika atau programyang digunakan.

UTAJA

Seberapa jauh ketelitian digitasi suara daTi microphone?

M. SY AMSA ARDISASMU A

Ketelitian digitasi suara ditentukan oleh resolusi/jumlah bit ADC (Analog-to-DigitalConverter) yang digunakan. Kualitas daTi mikrofon menentukan sedikit atau besarnyaderau (noise) pada sinyal suara. Tentu saja hat ini penting, karena besamya deraudapat menyebabkan kegagalan atau penyisipan pada waktu pengenalan kata.

GUNANDJAR

1 Kalau program ini bisa berhasil dapat menggantikan sistem Remote Controle(dengan cara pejet tombol) untuk mengendalikan alat, apakah lebih efektif?

2, Bila berhasil, alangkah sangat bermanfaatnya hila orang pidato/ceramah otomatiskeluar tulisan (sehingga pembuatan naskah pidato dilakukan tanpa mengetik).

85

Page 18: SISTEM KENDALl PERALATAN DENGAN PERINTAH SUARA …

Sistem Kendali Peralatan dengan Perintah Suara Menggunakan Model Hidden (M. Syarnsa Ardisasmita)

M. SY AMSA ARDISASMIT A

1. Efektivitas dari penggunaan perintah suara pertama adalah masalah ergonomi,misalnya pada pengendali peralatan pesawat tempur di mana pilot pesawatdiharuskan berkonsentrasi pada obyek yang diamati sambil memberikan perintah-perintah melalui suara yang tidak mengganggu konsentrasi pandang yangbersangkutan. Yang kedua adalah dari segi keamanan di mana sistem kendalihanya dapat diperintah oleh pembicara tertentu (speaker dependent).

2.

Pada saat ini Microsoft sudah menyertakan sistem pengenalan suara kontinyupada produk Microsoft Office XP yang dapat mengganti fungsi penulisan kata-kata daTi penekanan keyboard menjadi penangkapan kata-kata daTi suarapembicara oleh mikrofon yang dihubungkan ke soundcard komputer.Permasalahannya Microsoft belum membuat pengenalan suara berbahasamdonesia jadi belum dapat untuk membuat pengetikan otomatis menggunakansuara dalam bahasa mdonesia. Fasilitas inilah yang barns kita buat sendiri.

86

Moh. zen
Home